Tools für das Netzwerk-Fehlermanagement und Monitoring

Netzwerkleistung
Server & Virtualisierung
Netzwerkvisualisierung
Multi-Site- und Remote-Überwachung
- Unternehmensnetzwerküberwachung
Netzwerkfehlermanagement
- Tools zur Netzwerk-Fehlerbehebung
- Netzwerkfehlermanagement
Rechenzentrumsverwaltung
- Data Center Monitoring
Speicherverwaltung
- Speicherüberwachung
Grundlagen der Netzwerküberwachung

„Das FCAPS-Modell der ISO führt das Fehlermanagement als einen der fünf Kernfunktionsbereiche des proaktiven Netzwerkmanagements auf und definiert dessen Ziel: Fehler, die im Netzwerk auftreten, erkennen, isolieren, beheben und protokollieren.“

Beim Netzwerk-Fehlermanagement geht es darum, Netzwerkfehler so schnell wie möglich zu finden, zu isolieren und zu beheben. Das Fehlermanagement ist eine entscheidende Komponente des Netzwerkmanagements, die Ausfallzeiten minimiert und Geräteausfälle durch eine schnelle Fehlerbehebung verhindert. Dadurch wird eine optimale Netzwerkverfügbarkeit gewährleistet und Geschäftsverluste werden vermieden.

Das Monitoring von Netzwerkfehlern ist der erste Schritt des Fehlermanagements und somit eine Voraussetzung für ein erfolgreiches Netzwerkmanagement. Angesichts der zunehmenden Komplexität hybrider Netzwerkinfrastrukturen wäre das Fehlermanagement ohne Fehlermanagementsysteme fast nicht zu bewältigen. Ein Fehlermanagement-Tool behebt Probleme in einem vierstufigen Zyklus:

Erkennen: Leistungsanomalien oder Unterbrechungen in der Dienstbereitstellung finden
Isolieren: Ereignisse lokalisieren und isolieren, um behebbare Fehler aufzuzeigen
Benachrichtigen: Netzwerkadministratoren durch Alarme oder Benachrichtigungen informieren
Beheben: Fehler durch automatische oder manuelle Eingriffe beheben

Erkennung Isolierung Alarmierung Behebung

Wie OpManager Netzwerkfehler bekämpft

Fault management- ManageEngine OpManager

Beim Netzwerk-Fehlermanagement geht es darum, immer auf dem Laufenden zu bleiben, was in Ihrem Netzwerk passiert, sei es ein unvorhergesehener Ausfall oder eine Leistungsverschlechterung. Mit OpManager, unserer rund um die Uhr verfügbaren Software für automatisiertes Netzwerk-Fehlermanagement, können Sie Ausfälle in Ihrem Netzwerk erkennen, Systeme wiederherstellen und die Auswirkungen begrenzen. Die leistungsstarken Funktionen von OpManager für das Netzwerk-Fehlermanagement helfen Ihnen, Fehler in kürzester Zeit durch einen vierstufigen Ablauf zu isolieren und zu beheben.

1. Erkennen: Ereignisse frühzeitig erfassen

Die Fehlererkennungssoftware von OpManager überwacht Netzwerke ständig auf Fehler und erkennt sofort, wenn eine Leistungsverschlechterung oder eine Dienstunterbrechung auftritt. Die Fehlererkennung kann durch aktives und passives Monitoring erfolgen.

Fault detection- ManageEngine OpManager

Beim aktiven Fehlermanagement wird ein Ereignis durch Überprüfung des Gerätestatus beispielsweise mittels ICMP-Ping, TCP- oder UDP-Port-Prüfungen, benutzerdefinierter Skripte oder Fernabfragen erkannt. Dies ist ein aktiver Ansatz, um potenzielle Probleme in Echtzeit zu erkennen und zu beheben, manchmal sogar bevor daraus ein Fehler wird.

Beim passiven oder ereignisbasierten Management hingegen wird das Netzwerk auf tatsächliche Ereignisse überwacht, die erst nach dem Auftreten auf Fehler oder Ausfälle hinweisen. Dies kann unter anderem durch SNMP-Traps, Syslog-Meldungen oder Windows-Ereignisprotokollnachrichten geschehen.

2. Isolieren: auf zu behebende Fehler konzentrieren

Sobald das Problem erkannt wurde, ist die Ermittlung der Ursache von größter Bedeutung, um die durchschnittliche Zeit bis zur Problembehebung (Mean Time To Resolution, MTTR) zu verbessern. Der Grundgedanke dieses Isolierungsprozesses besteht darin, redundante Ereignisse zu eliminieren, um so die Zahl der Proxy-Warnungen zu verringern und nur zu behebende Fehler anzuzeigen. Im OpManager-System für das Netzwerk-Fehlermanagement werden dazu die drei unten beschriebenen Methoden eingesetzt.

Deduplizierung

Wenn ein Ereignis wie eine hohe Speicherauslastung gemeldet wird und für die nächsten 30 Minuten anhält, sollte Ihr Tool nicht mehrere Warnungen erzeugen, indem es 30 Minuten lang alle drei Minuten eine Abfrage durchführt. In solchen Fällen fügt OpManager wiederkehrende Ereignisse dem Alarmverlauf hinzu, wodurch Doppelungen vermieden und Mehrfachalarme für dieselbe Störung verhindert werden.

Korrelation

Geräteabhängigkeiten:

Wenn ein Core-Router ausfällt, ist es offensichtlich, dass auch die von ihm abhängigen Geräte ausfallen werden. Löst Ihr Fehlermanagement-Tool für all diese Geräte Alarme aus, so ist der Zeitaufwand für die Ermittlung der Problemursache wesentlich größer. Mit der Geräteabhängigkeitsoption von OpManager können Sie übergeordnete und abhängige Geräte deklarieren und damit solche Fehlalarme vermeiden, indem nur ein einziger Alarm für das Quellgerät (in diesem Fall ein Core-Router) ausgelöst wird. Die Netzwerk-Mapping-Funktion ermöglicht es Administratoren, Probleme schnell zu lokalisieren und zu beheben.

Ursachenanalyse (Root Cause Analysis, RCA):

Damit Sie die Ursache eines Problems eingrenzen können, müssen Sie die Leistung mehrerer Monitore vergleichen und die Korrelation zwischen ihnen ermitteln. In das RCA-Profil von OpManager können Sie einfach die entsprechenden Monitore, für die Sie die Leistung analysieren möchten, per Drag-and-Drop ziehen, und es wird für jeden eine Leistungskurve erstellt. Sie können bis zu 20 Monitore in einem einzigen Fenster vergleichen. Für die ausgewählten Monitore werden Leistungsdiagramme erstellt, die Ihnen dabei helfen, die Leistung mehrerer Monitore auf einmal zu korrelieren und zu analysieren.

Alarmkorrelation im Fehlermanagement

Sie können auch die Alarmkorrelationsregel in OpManager verwenden, um Metriken wichtiger Entitäten einfach zu korrelieren und kontextbezogene Informationen über Alarmmuster zu erhalten. Auf diese Weise können Sie Alarme deutlich übersichtlicher gestalten und bei Verstößen gegen festgelegte Kriterien Maßnahmen zur Fehlerbehebung auf der ersten Ebene einleiten.

Automatisierung

Die Automatisierung ebnet den Weg für eine schnellere Behebung, indem sie unbegründete Ereignisse (wie vernachlässigbare, zufällige Spitzen) ausblendet, den Alarmstatus zurücksetzt und bekannte Alarme unterdrückt. Weitere Automatisierungsmöglichkeiten in OpManager sind:

Ausfallzeit-Planer: Sie können während der routinemäßigen Wartungsarbeiten Ausfallzeiten planen, um die Überwachung des Netzwerks durch OpManager zu stoppen und entbehrliche Warnmeldungen zu vermeiden.
Pausieren der Statusabfrage: Wenn Sie an einem bestimmten fehlerhaften Ereignis arbeiten, können Sie mit dieser Option die Abfrage unterbrechen, bis das Problem behoben ist, und so Fehlalarme vermeiden.

3. Alarmieren: sich überall benachrichtigen lassen

Sobald das zu behebende Ereignis isoliert ist, benachrichtigt OpManager im Rahmen des automatisierten Fehlermanagements die NOC-Administratoren über eine visuelle Fehlerdarstellung und die Remote-Administratoren über Störfall-Ticketing und Warnungen.

Fault notification- ManageEngine OpManager

Visuelle Darstellung: Visualisierung durch farbcodierte Alarme, Webalarme, Dashboards, Business Views und mehr.
Störfall-Ticketing: Integration in ServiceDesk Plus, Jira oder ServiceNow.
Warnmeldungen: Erstellung von Benachrichtigungsprofilen zur Auswahl eines Benachrichtigungskanals, z. B E-Mail, SMS, Telegramm oder Smartphone-GUI (über unsere App).

4. Beheben: Fehler schnell und einfach korrigieren

Nicht jeder entdeckte Fehler ist so schwerwiegend, dass er Ihre sofortige Aufmerksamkeit erfordert. In den meisten Fällen führen Fehlermanagement-Systeme wie OpManager bei den ersten Anzeichen für Probleme bestimmte Skripte oder Workflows aus, um die Wiederherstellung von Diensten zu automatisieren und den Betrieb des Netzwerks aufrechtzuerhalten. Wenn die Automatisierung aufgrund von Fehlern nicht funktioniert, sorgt OpManager dafür, dass der Alarm weitergeleitet wird. Die zuständigen Administratoren erhalten die Einzelheiten des Ereignisses und Informationen zu den nächsten Schritten. Selbst wenn Sie gerade zwischen verschiedenen Standorten und Etagen unterwegs sind, um sich um das Netzwerk zu kümmern, hält das Fehlermanagement-Tool von OpManager bestimmte Störungen selbst in Schach.

In einigen Fällen sind solche automatischen Behebungen jedoch nicht möglich, sodass ein manuelles Eingreifen erforderlich ist. Sie können eine Fehlersuche durchführen, um den Schaden zu beurteilen und mögliche schnelle Lösungen zu erarbeiten. Dazu verwenden Sie die interaktiven, integrierten, webbasierten Tools zur Fehlersuche.

Sehen Sie sich Echtzeit-Diagramme an.
Beheben Sie Fehler mit Prozessdiagnosen dem Switch-Port-Mapper und dem MIB-Browser.
Stellen Sie über RDP- oder Telnet/SSH-Sitzungen eine Verbindung zu den Geräten her.

Warum Sie OpManager brauchen

„Laut einer Umfrage von Gartner belaufen sich die durchschnittlichen Kosten von Netzwerkausfällen für Unternehmen auf etwa 5.600 Dollar pro Minute, was im Durchschnitt über 300.000 Dollar pro Stunde und im oberen Bereich bis zu 540.000 Dollar pro Stunde sind.“

Da Ausfallzeiten potenziell große Verluste für Unternehmen verursachen, ist es wichtig, die notwendigen Maßnahmen zu ergreifen, um sie zu verhindern oder zu minimieren. Die Vermeidung von Ausfallzeiten und die Aufrechterhaltung der Netzwerkverfügbarkeit hängen von einem effektiven Monitoring und Netzwerk-Fehlermanagement ab. Eine fortschrittliche, automatisierte Fehlermanagement-Lösung wie ManageEngine OpManager hilft Administratoren bei der schnellen Behebung von Fehlern und schützt so die Netzwerkverfügbarkeit und den Geschäftsumsatz.