Monitoring-Systeme

Nagios wacht für Wilken

27.05.2008 von Dieter Schmitt
Überwachungssoftware soll IT-Netze vor Systemausfällen bewahren. Auf der Suche nach der passenden Lösung für ihr Unternehmen knöpfte sich die Wilken Rechenzentrum GmbH mehrere Tools vor - hier das Ergebnis der Evaluierung.

Beim Ausfall wichtiger Systeme ist der Ärger groß: Techniker und Administratoren suchen fieberhaft nach Fehlern - in dieser Zeit können viele Mitarbeiter nicht arbeiten. Als Hersteller von ERP-Software unter anderem für Internet-Shops muss Wilken zudem eine 24-Stunden-Überwachung für Kunden sicherstellen - hierzu stehen im Rechenzentrum mehr als 250 Server, die an sieben Tagen in der Woche das ganze Jahr über einwandfrei laufen müssen. Daher machte sich das Unternehmen vor rund drei Jahren auf die Suche nach einem System, das die jeweiligen Zustände der Server im Rechenzentrum im Überblick darstellt. Die seinerzeit eingesetzte Lösung "HP Openview Network Node Manager" erachtete Wilken als zu kompliziert und zu teuer. Ziel des Unternehmens war, ein Überwachungssystem zu finden, das klar strukturiert, übersichtlich und dabei bezahlbar ist.

Langwierige Auswahl

Redundante Überwachung: Beim Ausfall eines Nagios-Servers kann die Störungsmeldung weiter empfangen werden.

Überwachungssoftware kontrolliert selbst komplexe IT-Strukturen und gibt Warnmeldungen an die Techniker, noch bevor der IT-Betrieb zum Erliegen kommt. So haben die Administratoren bei drohenden Ausfällen die Möglichkeit, rechtzeitig zu reagieren. Prinzipiell lässt sich zwischen Open-Source-Werkzeugen und kommerziellen Produkten unterscheiden. Für Wilken galt es, Informationen über die bekannten Monitoring-Systeme zu sammeln und sie schließlich einem klassischen Vergleich zu unterziehen. Auf diese Weise sollten die Unterschiede sowie Stärken und Schwächen der einzelnen Lösungen deutlich werden. Im Zuge des von 2005 bis 2007 andauernden Projekts nahm Wilken die Tools "Big Brother", "Big Sister", "Nagios" und "Angel Network Monitor" sowie HPs "Open View Network Node Manager" unter die Lupe:

Open Source: Big Brother

"Big Brother" ist ein Web-basierendes System zur Überwachung von Netzknoten und Services. Es zeigt den Status der einzelnen Knoten im Netz an und überwacht nicht nur die Verfügbarkeit von Netzdiensten, sondern auch von verschiedenen anderen Services im Netz wie bestimmten Druckern, Datenbank-Servern, SMB-Diensten oder VNC-Servern (Virtual Network Computing). Big Brother lässt sich durch zahlreiche Erweiterungen (auch Eigenentwicklungen) ergänzen. Die Nutzung von Big Brother ist für private Zwecke kostenlos, für Unternehmen lizenzpflichtig.

Vorteile: Das System ist übersichtlich und schnell.
Nachteile: Beim Unternehmenseinsatz fallen Lizenzkosten an.

Open Source: Big Sister

"Big Sister", ein Clone von Big Brother, ist unter der GNU General Public Licence (GPL) frei verfügbar und kann daher auch von Unternehmen ohne Lizenzkosten eingesetzt werden. Big Sister ist ebenfalls ein Web-basierendes System zur Überwachung von Netzen mit zahlreichen Funktionen. Es stellt den aktuellen Status des Netzes dar, erzeugt Alarme bei Statusveränderungen und protokolliert diese. Die Art der Darstellung lässt sich bei Big Sister weitgehend frei festlegen.

Bei Statusveränderungen kann eine Alarmfunktion aktiviert werden, die den Administrator via E-Mail oder Pager benachrichtigt. Parallel dazu zeigt eine Alarmstatus-Seite Details zu den laufenden Alarmen an. Sämtliche Warnungen werden protokolliert und lassen sich über History-Seiten zurückverfolgen. Darüber hinaus zeichnet Big Sister verschiedene Leistungsdaten auf, die mit "RRDtool" (Round-Robin-Datenbank - speichert Netz-Überwachungsdaten) grafisch dargestellt werden können.

Vorteile: Im Gegensatz zu Big Brother können die Agenten von Big Sister nicht nur Status-Informationen, sondern auch Performance-Werte an den Server übermitteln. Daraus generiert dieser auf Anforderung eine Zeitreihen-Grafik, mit der sich etwa die Auslastung der überwachten Systeme anschaulich darstellen lässt.
Nachteile: Das System ist nicht so vielseitig wie etwa Nagios.

Angel Network Monitor

"Angel" von Marco Paganini ist ein einfaches, aber nützliches Überwachungswerkzeug. Es besteht aus einem Perl-Programm, das periodisch (etwa alle zehn Minuten) ausgeführt wird und zum Test bestimmter Dienste diverse Subroutinen von Plug-ins aktiviert. Bei der Angel-Statusanzeige werden problematische Services mit rot blinkenden Balken markiert, während die ordnungsgemäß arbeitenden Dienste durch grüne Balken gekennzeichnet sind. Zu den wichtigsten Eigenschaften des Tools zählt die zentralisierte Administration. Hosts und Dienste werden über eine Konfigurationsdatei verwaltet. Dank des Plug-in-Konzepts lässt sich Angel leicht an individuelle Bedürfnisse anpassen und erweitern.

Vorteile: Das Tool ist übersichtlich und einfach.
Nachteile: Das System eignet sich nur für kleine Netze; wichtige Plug-ins (wie etwa NRPE bei Nagios, das für Client-Checks verantwortlich ist) fehlen.

HP OpenView Network Node Manager

Der "OpenView Network Node Manager" von HP bietet ausgefeilte Funktionen zur Fehlerbehebung und Leistungsüberwachung im Netz. Zu den allgemeinen Fähigkeiten dieses Netz-Management-Programms zählen das automatische Erkennen der Netzumgebung, die Möglichkeit einer Statusanzeige sowie das automatische Zeichnen der IP- beziehungsweise IPX-Topologie-Karten anhand der zuvor ermittelten Daten. Erkannte Geräte werden in der Topologie entsprechend angeordnet. Außerdem ermöglicht die HP-Lösung das Management jedes SNMP-fähigen Geräts beliebiger Anbieter, da auch herstellerspezifische MIBs (Management Information Bases) eingebunden werden können. Darüber hinaus lassen sich Netzfehler und Leistungsengpässe von einer Stelle aus eruieren. Ferner sind Problemanalysen mittels Trendanzeigen möglich.

Vorteile: Das System ist vielseitig.
Nachteile: Das System ist teuer, unübersichtlich und schwer zu administrieren. Zudem sind nicht genügend Plug-ins für die Prüfung von Fremddiensten vorhanden.

Open Source: Nagios

Die lizenzkostenfreie Software "Nagios" überwacht die Verfügbarkeit von Servern und Systemdiensten. Zeigt sich im IT-System ein Problem, löst Nagios ein Ereignis (E-Mail, SMS) aus, um die IT-Mannschaft zu informieren. Die Benachrichtigung erfolgt gegebenenfalls in mehreren Schritten: Der Techniker im Bereitschaftsdienst wird umgehend per Mail oder SMS verständigt. Ist der Empfang des Diensthabenden zeitweilig gestört, sorgen Eskalationsstufen in der Überwachung für die Benachrichtigung des gesamten Administrations-Teams - rund um die Uhr.

Doch Nagios ist mehr als ein Frühwarnsystem: Die freie Software liefert auch Auswertungen zur Auslastung der eingesetzten Hardware. Der Status verschiedener Dienste wie SSH, FTP oder HTTP kann über diverse Plug-ins abgefragt werden. Das gilt auch für Festplattenplatz sowie Speicher- und CPU-Auslastung. Da die verwendeten Testmethoden vom genutzten Protokoll unabhängig sind, ist Nagios in der Lage, beliebige Hosts oder Services unabhängig vom Betriebssystem zu überwachen. Das System informiert frühzeitig über Ressourcenknappheit und Probleme bei der Verfügbarkeit von Diensten. So wissen die Kostenstellenverantwortlichen, ob sie wirklich einen neuen Server anschaffen müssen, weil er an seine Grenzen stößt, oder ob sie sich die Investition durch das Verlagern von Diensten auf andere Server, die nur zu 30 Prozent ausgelastet sind, sparen können.

Vorteile: Das System ist einfach, übersichtlich, verlässlich und erweiterbar.
Nachteile: Das System kann unübersichtlich werden, wenn zu viele Dienste geprüft werden; eine klare Struktur verhindert dies.

Wilken wählt Nagios

Das Open-Source-Werkzeug Nagios weist im Vergleich mit den genannten Überwachungssystemen deutliche Vorteile auf: Die einfach zu bedienende Software ist über das Internet in Sekundenschnelle verfügbar. Diverse Ampelfunktionen machen das System leicht verständlich und übersichtlich. Erweiterungen lassen sich mit "NagiosQL" schnell realisieren. Lastaufzeichnungen wiederum ermöglicht das Zusatz-Tool "Nagiosgrapher", mit dem Server und Dienste zur Laufzeit grafisch aufgezeichnet und dann später ausgewertet werden können. Auch ein Backup-System lässt sich ohne großen Aufwand einrichten.

Beispiel für die Lastauszeichnung einzelner Messwerte zur späteren Performance-Auswertung.

Die freie Software ist hinsichtlich der zu überwachenden Dienste plattformunabhängig. Prüfungen gehen über mehrere Netze und VPNs (Virtual Private Networks) hinweg. Darüber hinaus ist es möglich, ohne genaue Kenntnisse von Simple-Network-Management-Protokollen (SNMPs) und Management Information Bases (MIBs) Spezialprüfungen zu integrieren. Dennoch können ohne weiteres SNMP-OIDs (Object Identifier) in die Nagios-Struktur eingebunden werden. Wichtig ist dies insbesondere für Spezialdienste wie die Lüfterüberwachung von Routern, für die es meist keine Check-Skripte gibt.

Auch die herstellerspezifischen MIBs lassen sich nutzen, um Nagios noch vielseitiger zu gestalten. Die geplanten Erweiterungen können auch über selbst geschriebene Shellscripte erfolgen, was beispielsweise neue Möglichkeiten eröffnet, eigene Software in das Monitoring einzubinden. Erwähnenswert ist auch "NagVis", das - in Nagios eingebunden - Netzstrukturen visuell darstellen kann. Auf der frei zugänglichen Webseite www.nagiosexchange.org lassen sich Plug-ins herunterladen und in das Nagios-System integrieren oder selbst geschriebene Scripte anderen Benutzern zur Verfügung stellen. Dabei gilt es natürlich, zwischen sinnvollen und unsinnigen Dienstabfragen zu differenzieren, denn nur ein übersichtliches System garantiert dem Administrator klare Sicht auf seine Server.

Nagios im Wilken-RZ: Die Umsetzung

  • Überwachung von gut 250 Systemen und rund 2500 Diensten;

  • Prüfung aller relevanten Systemdienste der angebundenen Betriebssysteme, Server und Hardwaregeräte;

  • Prüfung der Applikationen, Datenbanken und Spezialdienste;

  • Aufzeichnung der Last mit "Nagiosgrapher";

  • im Störfall Benachrichtigung des Admins mittels E-Mail und SMS auf Rufbereitschafts-Handy;

  • Eskalationsstufen für Störmeldungen (Bereitschaft, Admin-Gruppe, Geschäftsführung).

Fazit

Das Projekt zog sich über einen relativ langen Zeitraum. Nach dem Auswahlprozess im Jahr 2005 und der anschließenden Installation geht es bis heute darum, die Lösung zu ergänzen. Dabei gilt es sowohl, die einzelnen Systeme zu einem sinnvollen Ganzen (Nagios, Scripte, NagiosQL, Nagiosgrapher, NagVis) zusammenzustellen, als auch eine Backup-Lösung sowie Benachrichtigungen und Eskalationen zu erarbeiten. Rund 250 Server und die heterogene Struktur der Betriebssysteme bei Wilken (Windows, Linux, Solaris, HP-UX, AIX) müssen überwacht werden - ebenso diverse Applikationen und Datenbanken. Vieles hat die Administrationsmannschaft von Wilken nach dem Motto "Learning by Doing" bewältigt.

Das Nagios-Testsystem lief über Wochen im Alltagsbetrieb. Dabei unterstützte ein externes Consulting-Team den internen Entwicklungsprozess bei ausgewählten Fragestellungen. Eine besondere Herausforderung bestand darin, Wilken-eigene Produkte (Wilken ERP, Applikations-Listener, Datenbankzugriffe) zu integrieren. Kritisch zu sehen sind Updates hinsichtlich neuer Softwareteile - sie müssen an Testsystemen erprobt werden. Als problematisch erwies sich zudem, dass zu viele Werkzeuge im Prinzip dasselbe tun (Beispiel: Graphen): Hier das jeweils Beste herauszusuchen ist ein mühsamer Prozess, der entsprechend Aufwand erfordert. Alles in allem läuft Nagios bei Wilken jedoch stabil und ohne besondere Vorkommnisse. (kf)