Im Rechenzentrum alles unter Kontrolle

Karin Quack arbeitet als freie Autorin und Editorial Consultant vor allem zu IT-strategische und Innovations-Themen. Zuvor war sie viele Jahre lang in leitender redaktioneller Position bei der COMPUTERWOCHE tätig.
Ein Itil-konformes Network Operations Center macht das System-Management der Apotheker- und Ärztebank verlässlich und effizient.

Wenn Lars Knohl nach dem Wochenende in sein Büro am Düsseldorfer Seestern fährt, weiß er bereits, was ihn erwartet: Laufen die Systeme alle im grünen Bereich? Gibt es Probleme, die sich in Ruhe beheben lassen? Oder ist ein wichtiger Geschäftsprozess bedroht? Als Chef des Rechenzentrums sowie stellvertretender Leiter Informatik und Organisation (IO) der Deutschen Apotheker- und Ärztebank (apoBank) kann sich Knohl jederzeit den aktuellen Status seiner Systeme auf den Laptop oder das Handheld holen.

Itil als verbindliche Richtschnur

Projektleiter Olaf Pinner (links) und RZ-Chef Lars Knohl haben den Aufbau des Network Operations Center vorangetrieben.
Projektleiter Olaf Pinner (links) und RZ-Chef Lars Knohl haben den Aufbau des Network Operations Center vorangetrieben.

Als Knohl vor fünf Jahren aus der Telecom-Branche zur apoBank wechselte, lautete sein Auftrag: "Entwickeln Sie eine RZ-Strategie!" Als Richtschnur wählte der promovierte Elektro-Ingenieur die Best-Practices-Sammlung "IT Infrastructure Library" (Itil).

2002 war Itil lange nicht so etabliert wie heute, aber doch bekannt genug, um gewisse Vorteile zu bieten: "Zum einen wollte ich einen Benchmark", berichet Knohl, "zum anderen hat ein solcher Standard den Charme, dass er nicht groß in Frage gestellt wird." Wer definierte Prozesse beispielsweise für das Change-Management einführen wolle, stoße nicht überall auf Begeisterung. Itil habe in dieser Hinsicht "identitätsstiftend" gewirkt, ja sogar "das Selbstwertgefühl der Mitarbeiter gehoben".

Die in Itil beschriebenen Best Practices wurden nicht eins zu eins umgesetzt, sondern "apoBank-like" angepasst, so Knohl: "Unser Credo lautet: Lieber einen suboptimalen Prozess, den jeder versteht, als einen optimalen, den niemand einhält."

Das Unternehmen

  • Die Deutsche Apotheker- und Ärztebank (apoBank) mit Hauptsitz in Düsseldorf ist eine Genossenschaft, deren Eigentümer wie der Großteil der Kunden akademische Heilberufe ausüben.

  • Der Finanzdienstleister bedient etwa 300 000 Kunden, beschäftigt gut 2000 Mitarbeiter, betreibt in Deutschland 50 Filialen und weist eine Bilanzsumme von mehr als 35 Milliarden Euro aus.

  • Die Informationstechnik ist ähnlich wie bei den meisten Finanzdienstleistern auf der obersten Vorstandsebene vertreten.

  • Dem IT-Vorstand Werner Schuster ist unter anderem der gesamte Bankbetrieb unterstellt, dem auch die Abteilung Informatik und Organisation (IO) mit 150 Mitarbeitern angehört.

  • Darin eingeschlossen ist die RZ-Mannschaft, die 40 Köpfe zählt.

  • Den Zahlungsverkehr der apoBank erledigt die ausgegliederte apoData.

Die apoBank begann also vor vier Jahren bereits, die ersten Itil-Prozesse zu implementieren. Zudem wurde eine "Itil-Roadmap" definiert, die aufzeigt, was wann eingeführt werden soll. Und als vor zwei Jahren eine Modernisierung des System-Managements notwendig wurde, war für den RZ-Leiter klar, dass sich dieses Vorhaben ebenfalls an Itil ausrichten würde.

"Der Itil-Einsatz beschränkt sich häufig auf die Service-Support-Prozesse", erläutert Knohl: "Operations und Deployment werden selten zum Thema gemacht." Aus seiner Sicht ist das ein Fehler: "Damit fehlt das Fundament." Die apoBank nutzt den Quasi-Standard mittlerweile nicht nur für das Service-Management, sondern auch für das Infrastruktur-Management. Zudem hat sie eine Organisation etabliert, die diese Prozesse managen kann.

Die Gründe für das Projekt

Die RZ-Modernisierung war laut Knohl aufgrund des Unternehmenswachstums und des gestiegenen Qualitätsbewusstseins der internen Kunden notwendig geworden:

In den vergangenen Jahren wuchs das Geschäftsvolumen kontinuierlich um mehr als zehn Prozent per annum. Parallel entwickelte sich das von der IT zu stemmende Transaktionsvolumen.

Die internen Kunden akzeptieren nicht einmal mehr einen IT-Ausfall von einer Stunde, vor allem nicht, wenn es sich um die Kreditanwendung handelt immerhin macht die Kreditvergabe drei Viertel des apoBank--Geschäfts aus. "Das ist so, als ob bei VW ein Band stillstehen würde", veranschaulicht Knohl die Auswirkungen.

Last, but not least stellen die von der Bankenaufsicht (Bafin) definierten "Mindestanforderungen an das Risiko-Management" (MaRisk) hohe Ansprüche an die Ausfallsicherheit der IT. Die apoBank betreibt deshalb zwei redundante, gespiegelte und online vernetzte Rechenzentren.

Das seinerzeit existierende System-Management war damit überfordert. Nicht, dass es vorher nicht "irgendwie" funktioniert hätte, beeilt sich Knohl zu versichern, "aber es gab schon einen gewissen Leidensdruck".

Der alte IT-Leitstand

Das System-Management war Aufgabe des "IT-Leitstands", eines zu den Kernarbeitszeiten besetzten Kontrollzentrums, das die unterschiedlichen RZ-Objekte beobachtete und etwaige Störungen beseitigte. Die fehlende Rund-um-die-Uhr-Verfügbarkeit machte sich allmählich negativ bemerkbar. Zudem hatten die Mitarbeiter des Leitstands keine Möglichkeit, die Auswirkungen von Systemstörungen auf die Business-Prozesse zu überblicken.

Letzteres war wohl der springende Punkt: "Ein Service bedeutet, dass der Anwender mit der Anwendung arbeiten kann", erläutert Knohl. Der Ausfall von Teilen eines redundanten Systems sei an sich noch nicht gravierend. Die entscheidenden Fragen hießen vielmehr: Inwiefern ist der Business-Prozess betroffen? Kann ein anderer Server übernehmen, oder steht der Betrieb? "Mich interessiert nicht der einzelne Knoten, sondern der Service, der beim Anwender ankommt", so der RZ-Leiter.

Das Network Operations Center

Ende 2005 begannen die IT-Spezialisten der Bank, über einen Ersatz für den alten IT-Leitstand nachzudenken. Verbessern sollten sich

  • Verfügbarkeit,

  • Reaktionsschnelligkeit,

  • Anzahl der Fehler und

  • darstellbares Risiko-Management.

Anfang 2006 wurde eine Vorstudie gestartet. Sie führte die Ziele des Projekts weiter aus. Dazu gehörte die Beschreibung der Prozesse Capacity-, Availability-, Operations- und Deployment-Management, die Definition einer Operations Documentation Library (ODL) sowie die Einführung eines monatlichen Network-Operations-Reports und eines Tagebuchs für das Network Operations Center (NOC). Auf der technischen Seite entschied sich die apoBank für unterschiedliche Softwareprodukte, darunter das Automatisierungs-Toolkit "UC4" und "Remedy ARS" als Trouble-Ticket-System. Für die Verdichtung der Ergebnisse und deren Präsentation wählte sie die Business-Service-Management-Suite von BMC.

Entscheidungskriterien

Die BMC-Suite überzeugte vor allem durch ihr Modul "Service Impact Manager". "Das war das entscheidende Kriterium für die Produktauswahl", bestätigt Knohl. Auf der Basis anwenderspezifischer Abhängigkeiten ("Dependency Maps") ordne die Software einzelne Systembestandteile und IT-Services den Business-Prozessen zu, so dass im Fall einer Störung auf einen Blick offenbar werde, welche Abläufe wie stark betroffen seien.

Itil 3 - Licht und Schatten

"Da halt ich viel von." Soweit das generelle Urteil von Lars Knohl, stellvertretender IO-Chef und RZ-Leiter der apoBank, über Itil V3.

Allerdings hat er auch ein paar kritische Anmerkungen auf Lager: "Die neue Ausführung ist schwieriger zu handhaben als die alte", räumt er ein. Sie sei deutlich komplexer und abstrakter. Vor allem aber fehle das Mapping vonV2 auf V3.

Angetan ist Knohl hingegen von der geschlossenen Struktur der neuen fünfbändigen Itil-Fassung ("Itil Core"). Es seien einige Inkonsistenzen bereinigt und Lücken geschlossen sowie nützliche Aspekte ergänzt worden zum Beispiel das "Event Management" oder die Ausführungen zur "Service Strategy".

Positiv hat der RZ-Spezialist auch vermerkt, dass die Version eine föderale Configuration-Management-Datenbank (CMDB) empfehle. Eine zentrale CMDB lasse sich nur "mit einem Riesenaufwand" konsolidieren, der aus Sicht des RZ-Chefs unnötig ist.

Das Fazit des Itil-Anwenders über die neue Version lautet jedoch: "Für uns gibt es eigentlich nur Itil ohne eine Zahl dahinter. Aber das, was an Version 3 sinnvoll ist, werden wir auch machen."

Was eine Störung (ein "Event") ist, legt der System-Manager fest: Er definiert die Schwellwerte, die durch Softwareagenten auf jedem gemanagten Objekt kontinuierlich mit den Ist-Zuständen abgeglichen werden. Misst dieser "Fühler" ein Überschreiten des jeweiligen Schwellwerts, so schlägt er Alarm. Gleichzeitig können die diensthabenden NOC-Mitarbeiter sehen, wie kritisch der Zwischenfall aus der Sicht des Business ist.

Projektleiter Olaf Pinner nennte zwei weitere Vorteile der Software: Zum einen habe die apoBank mit dem Trouble-Ticket-System Remedy AR bereits ein anderes BMC-Werkzeug im Einsatz. Noch wichtiger sei jedoch gewesen, dass sich die Software horizontal, also mit anderen Anwendungen, sowie vertikal, sprich: mit den von anderen Anbietern stammenden Agenten auf den Managed Objects, möglichst eng verdrahten ließ. Media Ende

Mit der Prozess- und Produkteinführung einher gingen organisatorische Veränderungen. So ist das NOC heute rund um die Uhr doppelt besetzt

Quick wins in sechs Wochen

Die Vorstudie ging von Quick wins innerhalb der ersten sechs Wochen aus. Tatsächlich bewertet Knohl schon die Fähigkeit, erstmals alle Server einzeln und in ihrem Zusammenwirken überwachen zu können, als Gewinn. Vor allem aber sei die Schlacht in den Köpfen der Mitarbeiter gewonnen worden: "Sie haben den Nutzen verstanden und reagieren heute weitaus sensibler als zuvor auf jeden Event."

Die Implementierung der BMC-Software sei ziemlich aufwändig, räumt Knohl ein: "Wir sind immer noch nicht ganz damit fertig, die Sensoren auf alle Objekte aufzubringen." Der Betrieb der Software erweise sich hingegen als "relativ easy". Wenn die Prozesse erst einmal etabliert seien, ließen sich auch die täglichen Updates der Konfiguration ohne übermäßige Anstrengung erledigen.

Die Kernaufgaben des RZ-Betriebs erledigt die apoBank mit eigenen Mitarbeitern. Sie erstellen die Mess- und Prüfpläne, nach denen die Systemobjekte überwacht werden. Das eigentliche NOC ist hingegen ausgelagert. Dort werden die Pläne implementiert, also die Schwellwerte eingestellt.

PC-Roboter simulieren Anwender

Ein besonderes Highlight der System-Management-Umgebung bilden die "Robot-PCs": Derzeit zehn Client-Rechner sind dafür abgestellt, das Anwenderverhalten automatisch zu simulieren. Wie Knohl berichtet, wiederholen sie durch "Capture Replay" in kurzen Abständen ständig Routinen, die ihnen ein echter Nutzer vorgespielt hat. Die Zeit, die dafür notwendig ist, wird fortlaufend überwacht und zwar von der Eingabe bis zur GUI-Ausgabe. Derzeit kommen diese PC-Roboter nur in der Kreditfanwendung zum Einsatz. Als langfristiges Ziel nennt Knohl jedoch, alle kritischen Anwendungen damit überwachen zu wollen.

Alle Ergebnisse des NOC werden in regelmäßigen Abständen im "Service Control Board" diskutiert, das sich aus Vertretern der Fachbereiche und der IO-Abteilung zusammensetzt. Knohl bezeichnet die Arbeit dieses Gremiums als "Vorläufer des SLA-Managements".

Service-Level-Agreements (SLAs) sind zunächst für die 40 wichtigsten der insgesamt 140 Anwendungen definiert worden Dazu zählen

  • die Kontoführung,

  • das Electronic Banking,

  • der Wertpapierhandel,

  • der Zahlungsverkehr,

  • die Meldungen an die Bundesbehörden,

  • das interne Kapital-Management (Treasury) und

  • die Kreditanwendung.

Aber ein durchängiges SLA-Management steht derzeit noch auf der To-do-Liste der apoBank. Der Start ist für das laufende Jahr vorgesehen (Mehr zum Thema unter: "Zehn Gründe für das Scheitern von IT-Verträgen".)

Lessons learned

Im vergangenen Januar fand das Einführungsprojekt seinen Abschluss. Ein Change-Request im laufenden Projekt hatte die Gesamtzeit von neun auf zwölf Monate verlängert.

Projektleiter Pinner hat aus dem Projekt einige Schlüsse gezogen:

  • Beim nächsten Mal würde Pinner das Vorhaben nicht mehr so breit angehen. "Anstatt alle sechs Domains gleichzeitig in Angriff zu nehmen, würde ich beispielsweise mit den Servern und den Datenbanken beginnen", sagt er. Der Komplettansatz sei zeitaufwändig und schwierig umzusetzen. Schließlich habe für jedes der knapp 1000 Objekte ein Mess- und Prüfplan erstellt werden müssen. "Für jede Festplatte war zu klären, ob eine Auslastung von 80 oder 85 Prozent als kritisch gelten soll; da hieß es, den richtigen Mix zwischen Breite und Tiefe zu finden." Um den Zeitplan halten zu können, musste das Team in der Tiefe Abstriche machen: "Das Fein-Tuning haben wir auf den laufenden Betrieb verschoben."

  • Ein System-Management lässt sich nur aufbauen, wenn parallel die Prozesse und die Organisation entwickelt werden, so der Projektleiter weiter. Deshalb habe die apoBank nicht nur die Technik implementiert, sondern gleichzeitig die operativen Abläufe, beispielsweise für die Systempflege nach Projektabschluss, definiert sowie den Leitstand personell und strukturell erweitert.

  • Last, but not least äußert Pinner die Überzeugung, dass die Implementierung einer derart komplexen Software die Einbindung des Anbieters in das Projekt erfordert. "Wir hatten zwar einen externen Berater engagiert, aber die aktuellste Version des Tools kennt der Hersteller immer am besten."

Der Lohn der Mühe

Der entscheidende Vorteil des neuen Systems ist aus Knohls Sicht der, dass es einen geschlossenen Kreislauf aus Planen, Prüfen und Fehlerbehebung ermöglicht: "Der ganze Aufwand lohnt sich erst dann richtig, wenn die Ergebnisse des Incident-Managements zurückgespiegelt werden, so dass Problemkonfigurationen erkennbar werden. Ohne diesen Kreislauf fällt das alles zusammen wie ein Soufflee."

Die apoBank arbeitet derzeit daran, diesen Kreislauf zu schließen. Im kommenden Jahr soll das Change-Management überarbeitet werden. Darüber hinaus ist die Implementierung einer Configuration-Management-Datenbank (CMDB) geplant. Erst dann lassen sich Incident- und Change-Management sowie das jeweilige Konfigurationsobjekt verbinden. "Die Objektdaten sind alle da, aber die Prozessdaten noch nicht miteinander verknüpft", beschreibt Knohl den Status quo: "Wenn wir das geschafft haben, können wir Fehler vermeiden und unsere Reaktionszeit erheblich verkürzen."

Ein Client für den CIO

Als Glücksgriff für die Akzeptanz des Projekts stellte sich die Implementierung des "CIO Client" heraus. Via Intra- und Internet erhält nicht nur der RZ-Chef, sondern die gesamte IT-Leitung bei Bedarf einen Überblick darüber, ob die Banksysteme im Prinzip ordnungsgemäß laufen: "Das sind dieselben Informationen, die auch das NOC hat, aber aus der Vogelperspektive und selbstverständlich nur zum Ansehen", erläutert Knohl. Technisch gesehen, handle es sich um eine eingeschränkte Ansicht des BMC-Tools, hinsichtlich des Projekterfolgs jedoch um einen "Boost", so Knohl, oder anders ausgedrückt: um einen "sichtbaren Kompetenznachweis".

Allerdings sei damit auch eine Verpflichtung verbunden, weiß der stellvertretende IO-Leiter: "Das muss rund laufen, sonst kommt es ganz schlecht an." Wenn das Tool eine schwere Störung anzeige, zu der das NOC keine Auskunft geben könne, sei der Vertrauensgewinn dahin.

Compliance versus RoI

Die neue RZ-Strategie gepaart mit der Governance des IO-Bereichs steht der apoBank auch im Hinblick auf die Bestimmungen des Gesetzgebers, sprich: MaRisk, gut zu Gesicht. Schon deshalb waren aufwändige Berechnungen des Return on Investment (RoI) überflüssig. Zwar habe das Projekt den normalen Planungsprozess durchlaufen, so Knohl, "doch der Nutzen war so klar, dass nicht nach dem RoI gefragt wurde".

Auf die Frage nach dem greifbaren Gewinn muss der RZ-Leiter denn auch passen: "Wir machen Dinge, die wir vorher nicht getan haben. Wir können jetzt überhaupt erst die Verfügbarkeit wirklich messen." Vorher habe man sich weitgehend auf "qualitative Werte", also Schätzungen, verlassen. Die Kernsysteme seien vorher schon hochverfügbar gewesen (größer 98,5 Prozent), "aber das Drumherum ist viel besser geworden".

Einen messbaren Nutzen bringt nur die Automatisierung. Für die System-Management-Routinen ist der Aufwand um 75 Prozent gesunken, so die Ermittlungen der Bank. Ein nicht zu unterschätzender Nebeneffekt: Die bei manueller Handhabung unvermeidlichen individuellen Fehler gehören der Vergangenheit an.

Die größten Benefits sind laut Knohl jedoch die nicht materiellen: die gestiegene Transparenz, der teambildende Charakter des Vorhabens und der Image-Gewinn der IT. "Diese Vorteile sind nicht in Euro und Cent zu messen, und ihr Nutzen ist nicht allokierbar." Im Prinzip sei der "maximale Nutzen" erreicht worden: die langfristige Handlungsfähigkeit der internen IT: "Wer das nicht auf die Reihe bekommt, dem droht das Outsourcing."

Projektsteckbrief

  • Projektart: Neuorganisation der Prozesse und Neugestaltung des RZ-System-Managements auf der Basis von Itil.

  • Branche: Finanzdienstleister.

  • Ziel: mehr Transparenz, höhere Automatisierung für schnellere Reaktion und durchängige Verantwortlichkeit aus der Business-Perspektive.

  • Zeitrahmen: von Anfang 2006 bis Januar 2007.

  • Stand heute: in Betrieb.

  • Produkte: Business Service Management Suite von BMC, Automatisierung mit UC4, Remedy AR (heute ebenfalls von BMC) für das Incident-Management.

  • Dienstleister: Leitstand und Service Desk an RDS Consulting GmbH, Düsseldorf, ausgelagert, BMC-Implementierung durch Grass GmbH, Langenhagen, Prozessberatung durch Human Matters, Laatzen.

  • Kosten der Umsetzung: rund 1,16 Millionen Euro.

  • Return on Investment: weder mess- noch allokierbar, da es sich um ein strukturelles Projekt handelt.

  • Herausforderung: Anbindung und Überwachung von sechs Managed Domains mit 975 Objekten gleichzeitig.

  • Nächste Schritte: Ausbau des SLA-Managements noch im laufenden Jahr, Implementierung des Change- und Configuration-Managements mit einer CMDB für 2008 geplant.