CW-Leser testen: Nagios

24.10.2006
Von Michael Kühm
Das Open-Source-Administrations-Tool lässt sich sehr vielseitig nutzen und erweitern.

Die Open-Source-Lösung "Nagios" ist sicher in vielen Unternehmen schon ein Begriff. Wer sich damit intensiv beschäftigt, wird schnell feststellen, dass dieses Management- und Überwachungs-Tool eine kostengünstige Alternative zu den meist systemabhängigen Administrationswerkzeugen ist. Bei entsprechender Konfiguration macht es Nagios möglich, die gesamte, auch heterogene, IT-Umgebung zu überwachen, auftretende Probleme rechtzeitig an die zuständigen Stellen zu berichten und viele manuelle Kontrollen zu automatisieren.

Nagios basiert auf kostenlosen und kommerziellen Modulen (Plugins). Mit ihnen ist es möglich, nur ein System- und Netzwerk-Monitoring zu implementieren, das wichtige Systeme und Prozesse überwacht, ihren Status aufzeichnet und die Verantwortlichen bei kritischen Vorfällen entsprechend der Priorität per Mail oder SMS informiert. Von einfachster Systemüberwachung bis zur komplexen Auswertung scheint mit Nagios alles machbar zu sein.

Wir haben in unserem Unternehmen damit begonnen, einfachste Überwachung für Netzwerkkomponenten und Systeme basierend auf dem Internet Control Message Protocol (ICMP) aufzusetzen. Diese erste einfache Implementierung diente dazu, das Netz zu überwachen und an Hand einfacher Antwortzeiten auf einen ICMP-Request den Status der Netzwerklast zu bewerten. Dabei bleibt es dem Verantwortlichen selbst überlassen, welche Werte "Nagios" als "OK", "Warning" oder "Critical" einstuft.

In einer weiteren Implementierung werden über das Simple Network Management Protocol (SNMP) Systemdaten von Servern abgefragt. So ist es möglich, die Vielzahl der in den verschiedenen Servern eingebauten Festplatten zu überwachen und per SMS oder Mail über den Ausfall einer Platte informiert zu werden. Zusätzlich wird der Status von Spiegelungen und Standby-Festplatten überwacht. Nagios bietet noch viel mehr Möglichkeiten.

Ein intelligentes Tool

Das Open-Source-Werkzeug erweist sich bei Erweiterung der zu überwachenden Services auf einem System als intelligent und prüft zum Beispiel, ob der Ausfall eines Services (einer Festplatte oder eines Prozesses) nicht darauf basiert, dass die Netzwerkkarte nicht mehr antwortet, was zum gleichen, aber diesmal falschen Ergebnis führen würde. Auch die Möglichkeit eines Nagios-Clusters zur mehrseitigen Überwachung von verschiedenen Standorten aus soll hier nicht unerwähnt bleiben. Nagios kann bei Verwendung weiterer Tools wie "NRPE" und in Form von festgelegten Event-Handlers sogar selbständig aktiv werden, Prozesse starten, Scripts ablaufen lassen oder hängende Systeme vollständig neu starten, sobald ein System einen in Nagios definierten Status erreicht hat.