Kapazitätsmanagement bei der CSOB-Bank

Systemausfälle – nur noch als Simulation

24.08.2012 von Holger Eriksdotter
Die tschechische Bank CSOB hat ein umfassendes System für Performance-Monitoring und Kapazitäts-Management implementiert. Damit gelingt es der Bank jetzt nicht nur, sich gegen die beim Electronic Banking schwer berechenbaren Lastspitzen abzusichern, sondern gleichzeitig auch die Kosten für die Hardware-Infrastruktur zu senken.
Foto: Fotolia/archerix

Schon im Jahre 2009 hat die CSOB-Bank damit begonnen, das vorhandene Monitoring-System mit einer umfassenden Performance- und Kapazitätsmanagement-Lösung von Teamquest aufzurüsten. Das Ziel: Mit der neuen Lösung sollte der gesamte Zyklus des Kapazitätsmanagements vom Real-Time-Monitoring und der Performance-Analyse, über Reporting und Alarmfunktionen bis hin zu Was-wäre-wenn-Szenarios und Optimierungsmechanismen ganzheitlich abgebildet werden.

Besondere Sorgen machten den Managern der tschechischen Universalbank mit mehr als drei Millionen Kunden die schwer berechenbaren Lastspitzen über Weihnachten und Neujahr. Zwar ist es eine Erfahrungstatsache, dass in diesem Zeitraum die Anzahl der Geldabhebungen und die Transaktionen im Bereich des Electronic Banking in die Höhe schnellt. Die Frage aber, ob die vorhandene IT-Infrastruktur die vermutete Anzahl der Transaktionen ohne Performance-Engpässe würde bewältigen können, ließ sich nicht beantworten. Ebenso wenig war absehbar, welche Komponenten der Hardware-Infrastruktur wie Netzwerk, Server, Storage, Applikationen oder Datenbanken beim erwarteten Kundenansturm zum Flaschenhals würden.

Das Problem war deshalb auch nicht mit dem Einsatz weiterer Hardware zu lösen. Abgesehen von den Kosten für eine Aufrüstung schien der Erfolg von vornherein zweifelhaft: Denn wo sollten die IT-Verantwortlichen zusätzliche Hardware installieren, wenn nicht klar war, an welcher Stelle der Infrastruktur möglicherweise Performance-Probleme eintreten würden?

Um den stabilen Betrieb auch während dieser Lastspitzen sicherzustellen und unter allen Umständen einen Ausfall der Systeme zu vermeiden, war es deshalb unerlässlich, sich nicht nur einen exakten Überblick über die Performance der gesamten IT-Landschaft zu verschaffen, sondern auch mit Simulationen das Verhalten der einzelnen Systemkomponenten unter erhöhten Lastanforderungen zu berechnen. Eines der wichtigsten Szenarien war der weihnachtliche Anstieg der Transaktionen bei Electronic Banking.

Engpässe rechtzeitig erkennen

Dabei ging es nicht nur darum, ob die aktuelle vorhandene Server-Infrastruktur ausreichen würde, sondern auch darum, die maximale Anzahl von Nutzern und Transaktionen zu ermitteln, die mit der vorhandenen Infrastruktur stabil und sicher zu bewältigen waren. Bei Abweichungen konnte das System darüber hinaus benutzt werden, um Vorschläge für eine Zielarchitektur zu machen, die den erwarteten Lastverhalten gerecht wird. Rückblickend haben sich alle Vorhersagen und Modelle im operativen Betrieb als ausgesprochen realistisch und exakt erwiesen.

Dreh- und Angelpunkt des Performance- und Kapazitätsmanagement-Systems ist der Teamquest Analyzer. Er analysiert in Realtime Auslastung und Effizienz der IT-Infrastruktur und erstellt Reports – sowohl Standard-Berichte für unterschiedlich Nutzergruppen als auch Ad-hoc-Reports, die bei Bedarf jeweils neu definiert werden können. Dabei verwendet er auch historische Daten, um die Wechselwirkungen einzelner Komponenten auf die Gesamtperformance zu analysieren. Auswertungen sind auf unterschiedlichen Ebenen möglich – etwa für einzelne Applikationen, Nutzer und Nutzergruppen, Kostenstellen oder Projekte. Alle ermittelten Ergebnisse können auch in Form von Diagrammen abgerufen werden.

Damit wird der Einfluss der unterschiedlichen System-Komponenten sichtbar, auf deren Basis dann Kontroll-Metriken installiert werden können. So sind etwa Schwellenwerte und Alarmfunktionen definierbar, die auf drohende Engpässe aufmerksam machen. Das kann etwa das Überschreiten von Arbeitsspeicher- oder Prozessorauslastung, Nezwerk-Traffic, Storage-Kapazitäten oder Transaktionsvolumen betreffen. Auf diese Weise werden die IT-Manager in die Lage versetzt, pro-aktiv einzugreifen, bevor ein tatsächlicher ein Schaden eintritt.

Auf diesen Analysen setzt wiederum das Simulations-Modul auf. Es erlaubt der CSOB-Bank, diverse Szenarien mit Was-wäre-wenn-Simulationen durchzuspielen und Fragen zu beantworten wie „Was würde passieren, wenn wir zusätzlichen Speicher installieren?“, „Wie würde sich die Performance verändern, wenn zwei Server ausfallen?“, oder „Welche Auswirkungen hätte eine Verdoppelung der Nutzeranzahl?“ Hinter den Simulationen steht ein ausgefeiltes mathematisches Modell, das in das prognostizierte Systemverhaltens sowohl den gegenwärtigen Zustand des Systems als auch historischen Daten einbezieht und unter den angenommenen Simulationsbedingungen in die Zukunft hochrechnet.

Ausfallrisiko drastisch gesenkt

„Die einzigartigen Fähigkeiten der Lösung versetzt uns in die Lage, das gesamte Kapazitätsmanagement in einem umfassenden Ansatz mit höchster Präzision zusammenzufassen“, sagt Radek Strnad, Teamleiter Electronic Banking bei der CSOB. Dabei freut er sich nicht nur über die verbesserten Kontroll-, Steuerungs- und Planungsfunktionen. Auch verzeichnet er einen geringeren Personalaufwand bei der Wartung der gesamten IT-Infrastruktur. Nicht zuletzt ist das Ausfallrisiko fast auf Null gesunken und die Planung gezielter Systemabschaltungen zu Wartungszwecken konnte optimiert werden.

Auch auf der Kostenseite schlägt die Lösung positiv zu Buche. „Letztlich hat die Lösung auch zu Einsparungen bei den Infrastrukturkosten geführt, weil wir jetzt den Bedarf an Hardware-Ressourcen exakt bemessen können und keine Überkapazitäten mehr vorhalten müssen“, resümiert Teamleiter Strnad.