System-Management: Ausfallprävention zahlt sich aus

02.05.2007
Von 
Bernd Seidel ist freier Journalist und Coach in München.
Wie Beiersdorf sein System-Management vereinheitlicht hat.

Für die Unternehmenslenker der Beiersdorf AG, Hamburg, stehen Sicherheit und Kontinuität der Geschäftsprozesse ganz oben auf der Prioritätenliste. "Wir können es uns nicht erlauben, dass unternehmenskritische Applikationen ausfallen oder nicht im geforderten Maß zur Verfügung stehen", bringt Jörg Meier, Abteilungsleiter Global Client Server Services, die Anforderung auf den Punkt. Deshalb sind Investitionen in die Überwachung der IT Ergebnis einer klaren strategischen Entscheidung.

Meier gehört zur Beiersdorf Shared Services GmbH, die als interner IT-Dienstleister alle Marken im Beiersdorf-Konzern betreut und für den sicheren Betrieb der IT-Server-Landschaft sowie der gesamten Netzinfrastruktur verantwortlich zeichnet. Mit den Ressorts des Markenartiklers wurden dazu Service-Level-Agreements (SLAs) vereinbart. Sie definieren den je nach Anforderungen der Fachbereiche variierenden Serviceumfang.

Projektsteckbrief

  • Projektart: Einführung einer einheitlichen System-Management-Umgebung.

  • Branche: Hersteller von Pflege- und Klebeprodukten.

  • Umfang: für 430 Windows-2000/2003-Server, 41 Exchange Server, Active Directory, SQL-Datenbanken, globale SAP-Anwendungen. Zeitrahmen: von Anfang 2003 (Active Directory) bis 2005 (Exchange Server).

  • Stand heute: läuft produktiv, wird weiter ausgebaut.

  • Produkt: NetIQ Appmanager 6.0 von Attachmate.

  • Dienstleister: Value Added Software GmbH, Neuss.

Die SLAs bilden die Grundlage für die Verrechnung der IT-Leistungen. Allein in der Hamburger Konzernzentrale laufen rund 330 Server unter Windows 2000 oder Windows 2003. Weltweit kommen rund 100 weitere Systeme mit dem Microsoft-Betriebssystem hinzu. Global sind 41 Rechner für die Unternehmenskommunikation im Einsatz, auf denen der Exchange Server von Microsoft läuft. Neben weiteren Microsoft-Produkten und Diensten wie Active Directory, SQL Server sowie Print- und File-Services ist die Server-Farm das Zuhause der betriebswirtschaftlichen Anwendungen von SAP, mit denen Beiersdorf Vertrieb, Einkauf, Produktion und die gesamte Finanzwirtschaft unterstützt.

Auch die Intranet-Anwendungen sowie die Verbindungen zur Außenwelt, beispielsweise die Kundenportale mit Serviceangeboten und B-to-B-Verbindungen zu den Lieferanten, werden über die Windows-Server-Farm bereitgestellt, die unter den wachsamen Augen von Meier und seinen Kollegen ihren Dienst verrichtet. Darüber hinaus gehören zum Überwachungsbereich des Teams auch direkt in der Fertigung oder produktionsnah installierte Systeme.

Einheitliche Lösung für Windows und Unix

Die bekannteste Beiersdorf-Marke ist Nivea. Doch der Konzern stellt auch Hansaplast-Wundpflaster und Tesa-Klebebänder her.
Die bekannteste Beiersdorf-Marke ist Nivea. Doch der Konzern stellt auch Hansaplast-Wundpflaster und Tesa-Klebebänder her.
Foto: Beiersdorf

Bis 2002 überwachten Meyer und seine Mitarbeiter einen kleinen Teil der Windows-Server-Landschaft mit dem Microsoft Operations Manager (MOM). Daneben kam ein rundes Dutzend weiterer System-Management-Lösungen zum Einsatz, um die restlichen Windows-Systeme sowie die Unix-Systeme und die Netzkomponenten managen zu können.

Diese Heterogenität war dem IT-Manager ein Dorn im Auge: "Wir suchten eine Lösung, mit der sich sowohl Windows-Systeme als auch unsere Unix-Server und Non-Microsoft-Applikationen steuern ließen." Das Microsoft-Tool war dafür nicht ausgelegt.

Stattdessen entschied sich Beiersdorf für die Produktfamilie "Appmanager" vom Anbieter NetIQ, der inzwischen von Attachmate übernommen wurde. Laut Meier deckt die Software den gesamten Lebenszyklus im Service-Management ab vom technischen Zugriff auf die zu überwachenden Systeme über Regeldefinition, Reporting, Software-Updates und Patch-Management bis hin zur kontinuierlichen Verbesserung der Überwachungsparameter.

Neben der Option, heterogene Betriebssysteme zu managen, nennt Meier auch den modularen Aufbau und die Ausbaufähigkeit als Pluspunkte der Software.

Der Startschuss des Projekts fiel 2003 mit der Einführung des konzernweiten Active Directory. Im Jahr darauf folgte die Überwachung weiterer Kernservices wie File und Print sowie der SQL-Datenbank. Seit 2005 werden auch die Exchange-Server durch den Appmanager überwacht. Für die reibungslose Implementierung der Produkte sorgte die Value Added Software GmbH mit Sitz in Neuss.

Spannend waren laut Meier vor allem drei Fragen: Welche Regeln sollten für die Überwachung angewendet werden? Wann schlägt eine Störungsmeldung oder ein Alarm überhaupt auf der Operator-Konsole auf und wann nicht? Wie reagieren die jeweils drei tätigen Operatoren im Fehlerfall?

Um den Management-Prozess zu strukturieren, wurde eine Monitoring-Gruppe aufgebaut. An der Nahtstelle zwischen dem IT-Betrieb und den Fachbereichen beziehungsweise der Ressortorganisation füllt sie das Überwachungsregelwerk mit Leben. Gemeinsam mit den internen Kunden legt sie fest, was ein Störfall ist, wie er bewertet werden soll und welche Auswirkungen er hat.

Störfälle gliedern sich in fünf Klassen

Das Warnsystem wird schrittweise ausgebaut: Das Reporting startet schlank mit wenigen Parametern, peu à peu kommen weitere Kennzahlen und Aufgaben hinzu. Die Analysen mit den Fachbereichen haben ihren Niederschlag in verschiedenen "Gefahrenstufen" oder "Impact-Klassen" gefunden. Sie definieren Ursache, Wirkung und Maßnahmen. Dazu Meier: "Es nützt uns nichts, nur festzulegen, was ein Fehler ist und wie man ihn erkennt. Wir besprechen gemeinsam mit unseren Kunden, was im Problemfall zu tun ist und wie der Workflow aussieht, um den Fehler abzustellen."

Beiersdorf hat zurzeit fünf Impact-Klassen definiert, wobei "1" den höchsten Wert darstellt, der sofortige Aktionen nach sich zieht. Dieser Fall tritt durchschnittlich einmal am Tag auf, so Meier. Für einen "Impact 1" gibt es eine 24-Stunden-Bereitschaft, und er löst eine ganze Kette von Maßnahmen aus.

Was die Dringlichkeit betrifft, unterscheidet Beiersdorf nicht zwischen den "echten" und den "gefühlten" Impact-1-Fällen. Zu Ersteren gehört der Ausfall eines Produktionsrechners, weil er betriebswirtschaftliche Folgen hat. Ein gefühlter Impact 1 ist hingegen ein Intranet-Aussetzer, auch wenn er im Sinne des Geschäftsbetriebs nicht kritisch ist. "Aber von einer Störung des Intranets sind viele Unternehmen betroffen", erläutert Meier.

Jede zweite Meldung ist eine Warnung

Das Reporting in der neuen Appmanager-Version 6.0 ermöglicht es, die Problemfelder einzukreisen, die möglicherweise eine Ursache für Störungen sind. Zudem lassen sich Grenz- und Schwellenwerte festlegen. Droht beispielsweise eine Platte überzulaufen, ist ein Prozessor am Anschlag oder geht die Performance in die Knie, verständigt die Software den Operator, bevor es zu spät ist. "Der Anwender bekommt meist gar nicht mit, dass wir aktiv werden", freut sich Meyer. 40 bis 50 Meldungen landeten täglich auf den Konsolen im Überwachungsraum. Etwa die Hälfte davon seien Ankündigungen, dass etwas aus dem Ruder laufen könnte.

Damit die System-Manager frühzeitig feststellen können, wenn die Performance in den Keller zu sacken gehen droht, hat Meiers Team im Netzverbund Rechner installiert, die einen User-Arbeitsplatz simulieren. Auf diesen Clients laufen Softwareagenten. Sie kommunizieren mit dem Windows-Server und simulieren das Verhalten eines "echten" Arbeitsplatzrechners.

Viele der Maßnahmen für die Störungsbehebung sind mit Hilfe des Appmanager automatisiert. Das entlastet die Operatoren von einfachen Tätigkeiten, so dass sie Zeit haben, sich um die "schweren" Fälle zu kümmern.

Auszahlen sollen sich aber vor allem die Präventivmaßnahmen. Sie resultieren schließlich nicht nur in einer höheren Kundenzufriedenheit, sondern zumindest langfristig auch auch in geringeren Betriebskosten.