Beim Netzwerk-Fehlermanagement geht es darum, Netzwerkfehler so schnell wie möglich zu finden, zu isolieren und zu beheben. Das Fehlermanagement ist eine entscheidende Komponente des Netzwerkmanagements, die Ausfallzeiten minimiert und Geräteausfälle durch eine schnelle Fehlerbehebung verhindert. Dadurch wird eine optimale Netzwerkverfügbarkeit gewährleistet und Geschäftsverluste werden vermieden.
Das Monitoring von Netzwerkfehlern ist der erste Schritt des Fehlermanagements und somit eine Voraussetzung für ein erfolgreiches Netzwerkmanagement. Angesichts der zunehmenden Komplexität hybrider Netzwerkinfrastrukturen wäre das Fehlermanagement ohne Fehlermanagementsysteme fast nicht zu bewältigen. Ein Fehlermanagement-Tool behebt Probleme in einem vierstufigen Zyklus:
Beim Netzwerk-Fehlermanagement geht es darum, immer auf dem Laufenden zu bleiben, was in Ihrem Netzwerk passiert, sei es ein unvorhergesehener Ausfall oder eine Leistungsverschlechterung. Mit OpManager, unserer rund um die Uhr verfügbaren Software für automatisiertes Netzwerk-Fehlermanagement, können Sie Ausfälle in Ihrem Netzwerk erkennen, Systeme wiederherstellen und die Auswirkungen begrenzen. Die leistungsstarken Funktionen von OpManager für das Netzwerk-Fehlermanagement helfen Ihnen, Fehler in kürzester Zeit durch einen vierstufigen Ablauf zu isolieren und zu beheben.
Die Fehlererkennungssoftware von OpManager überwacht Netzwerke ständig auf Fehler und erkennt sofort, wenn eine Leistungsverschlechterung oder eine Dienstunterbrechung auftritt. Die Fehlererkennung kann durch aktives und passives Monitoring erfolgen.
Beim aktiven Fehlermanagement wird ein Ereignis durch Überprüfung des Gerätestatus beispielsweise mittels ICMP-Ping, TCP- oder UDP-Port-Prüfungen, benutzerdefinierter Skripte oder Fernabfragen erkannt. Dies ist ein aktiver Ansatz, um potenzielle Probleme in Echtzeit zu erkennen und zu beheben, manchmal sogar bevor daraus ein Fehler wird.
Beim passiven oder ereignisbasierten Management hingegen wird das Netzwerk auf tatsächliche Ereignisse überwacht, die erst nach dem Auftreten auf Fehler oder Ausfälle hinweisen. Dies kann unter anderem durch SNMP-Traps, Syslog-Meldungen oder Windows-Ereignisprotokollnachrichten geschehen.
Sobald das Problem erkannt wurde, ist die Ermittlung der Ursache von größter Bedeutung, um die durchschnittliche Zeit bis zur Problembehebung (Mean Time To Resolution, MTTR) zu verbessern. Der Grundgedanke dieses Isolierungsprozesses besteht darin, redundante Ereignisse zu eliminieren, um so die Zahl der Proxy-Warnungen zu verringern und nur zu behebende Fehler anzuzeigen. Im OpManager-System für das Netzwerk-Fehlermanagement werden dazu die drei unten beschriebenen Methoden eingesetzt.
Wenn ein Ereignis wie eine hohe Speicherauslastung gemeldet wird und für die nächsten 30 Minuten anhält, sollte Ihr Tool nicht mehrere Warnungen erzeugen, indem es 30 Minuten lang alle drei Minuten eine Abfrage durchführt. In solchen Fällen fügt OpManager wiederkehrende Ereignisse dem Alarmverlauf hinzu, wodurch Doppelungen vermieden und Mehrfachalarme für dieselbe Störung verhindert werden.
Geräteabhängigkeiten:
Wenn ein Core-Router ausfällt, ist es offensichtlich, dass auch die von ihm abhängigen Geräte ausfallen werden. Löst Ihr Fehlermanagement-Tool für all diese Geräte Alarme aus, so ist der Zeitaufwand für die Ermittlung der Problemursache wesentlich größer. Mit der Geräteabhängigkeitsoption von OpManager können Sie übergeordnete und abhängige Geräte deklarieren und damit solche Fehlalarme vermeiden, indem nur ein einziger Alarm für das Quellgerät (in diesem Fall ein Core-Router) ausgelöst wird. Die Netzwerk-Mapping-Funktion ermöglicht es Administratoren, Probleme schnell zu lokalisieren und zu beheben.
Ursachenanalyse (Root Cause Analysis, RCA):
Damit Sie die Ursache eines Problems eingrenzen können, müssen Sie die Leistung mehrerer Monitore vergleichen und die Korrelation zwischen ihnen ermitteln. In das RCA-Profil von OpManager können Sie einfach die entsprechenden Monitore, für die Sie die Leistung analysieren möchten, per Drag-and-Drop ziehen, und es wird für jeden eine Leistungskurve erstellt. Sie können bis zu 20 Monitore in einem einzigen Fenster vergleichen. Für die ausgewählten Monitore werden Leistungsdiagramme erstellt, die Ihnen dabei helfen, die Leistung mehrerer Monitore auf einmal zu korrelieren und zu analysieren.
Alarmkorrelation im Fehlermanagement
Sie können auch die Alarmkorrelationsregel in OpManager verwenden, um Metriken wichtiger Entitäten einfach zu korrelieren und kontextbezogene Informationen über Alarmmuster zu erhalten. Auf diese Weise können Sie Alarme deutlich übersichtlicher gestalten und bei Verstößen gegen festgelegte Kriterien Maßnahmen zur Fehlerbehebung auf der ersten Ebene einleiten.
Die Automatisierung ebnet den Weg für eine schnellere Behebung, indem sie unbegründete Ereignisse (wie vernachlässigbare, zufällige Spitzen) ausblendet, den Alarmstatus zurücksetzt und bekannte Alarme unterdrückt. Weitere Automatisierungsmöglichkeiten in OpManager sind:
Sobald das zu behebende Ereignis isoliert ist, benachrichtigt OpManager im Rahmen des automatisierten Fehlermanagements die NOC-Administratoren über eine visuelle Fehlerdarstellung und die Remote-Administratoren über Störfall-Ticketing und Warnungen.
Nicht jeder entdeckte Fehler ist so schwerwiegend, dass er Ihre sofortige Aufmerksamkeit erfordert. In den meisten Fällen führen Fehlermanagement-Systeme wie OpManager bei den ersten Anzeichen für Probleme bestimmte Skripte oder Workflows aus, um die Wiederherstellung von Diensten zu automatisieren und den Betrieb des Netzwerks aufrechtzuerhalten. Wenn die Automatisierung aufgrund von Fehlern nicht funktioniert, sorgt OpManager dafür, dass der Alarm weitergeleitet wird. Die zuständigen Administratoren erhalten die Einzelheiten des Ereignisses und Informationen zu den nächsten Schritten. Selbst wenn Sie gerade zwischen verschiedenen Standorten und Etagen unterwegs sind, um sich um das Netzwerk zu kümmern, hält das Fehlermanagement-Tool von OpManager bestimmte Störungen selbst in Schach.
In einigen Fällen sind solche automatischen Behebungen jedoch nicht möglich, sodass ein manuelles Eingreifen erforderlich ist. Sie können eine Fehlersuche durchführen, um den Schaden zu beurteilen und mögliche schnelle Lösungen zu erarbeiten. Dazu verwenden Sie die interaktiven, integrierten, webbasierten Tools zur Fehlersuche.
Da Ausfallzeiten potenziell große Verluste für Unternehmen verursachen, ist es wichtig, die notwendigen Maßnahmen zu ergreifen, um sie zu verhindern oder zu minimieren. Die Vermeidung von Ausfallzeiten und die Aufrechterhaltung der Netzwerkverfügbarkeit hängen von einem effektiven Monitoring und Netzwerk-Fehlermanagement ab. Eine fortschrittliche, automatisierte Fehlermanagement-Lösung wie ManageEngine OpManager hilft Administratoren bei der schnellen Behebung von Fehlern und schützt so die Netzwerkverfügbarkeit und den Geschäftsumsatz.