Ausfallsicherheit im Rechenzentrum

HP-NonStop-Systeme im Mission-Critical-Einsatz

28.04.2011 von Thomas Pelkmann
Mission-Critical-Systeme sorgen für Ausfallsicherheit im Rechenzentrum. Noch mehr Sicherheit für den Dauerbetrieb gibt es durch spezielle NonStop-Systeme. Dabei gibt es mehr Anwendungsszenarien, die Hochverfügbarkeit erfordern, als man zunächst denkt. Eine Übersicht mit Branchenbeispielen.
Foto: © arsdigital.de - Fotolia.com

Im Januar 2011, schrieb das Handelsblatt, musste ein Großteil der 39 Millionen Mobilfunkkunden von T-Mobile für geschlagene fünf Stunden auf das Telefonieren mit dem Handy verzichten. Auch Empfang und Versand von Kurznachrichten waren gestört. Der Grund für den Ausfall waren Probleme mit dem Home-Location-Register (HLR) der Telekom-Tochter. Mit diesem Verzeichnis werden die Mobilfunknummern, die -telefone sowie die -stationen, über die die Telefone im Netz angemeldet sind, verwaltet. Fällt das HLR aus, können Verbindungen nicht mehr zugeordnet und damit nicht mehr aufgebaut werden.

Im Juli 2009 kritisierte das Hamburger Abendblatt die Computerprobleme im Universitätsklinikum Eppendorf (UKE): Die IT-Pannen seien so gravierend gewesen, dass die Notaufnahme des Krankenhauses an einem Tag von 17 bis 20 Uhr geschlossen werden musste. Das EDV-System des Labors der Uni-Klinik war sogar für 13 Stunden lahmgelegt. Im schlimmsten Falle, hieß es damals, hätte der Ausfall dazu führen können, dass "lebenskritische Werte" nicht hätten weitergeleitet werden können. Glücklicherweise war das aber offenbar nicht der Fall.

Und im September desselben Jahres, berichtete die Rheinische Post aus Düsseldorf, stürzte der Zentralrechner der Deutschen Lufthansa für den Check-In ab. In der Folge mussten weltweit tausende Passagiere von Hand eingecheckt werden. Zudem mussten die Reisenden ihr Handgepäck vor dem Einsteigen identifizieren - "aus Sicherheitsgründen", wie ein Lufthansa-Sprecher damals erklärte. Durch den Ausfall des Servers kam es für mehrere Stunden zu Verspätungen und sogar zu Flugausfällen "im niedrigen zweistelligen Bereich".

Bei Stillstand geht nichts mehr

Die vier Beispiele aus jüngster Zeit zeigen, wie abhängig Unternehmen von der IT sind: Wenn die Server stillstehen, geht nichts mehr. Im schlimmsten Falle kann das, wie in der Hamburger Uniklinik, sogar Menschenleben gefährden. Auf jeden Fall aber nerven solche Ausfälle betroffene Kunden und kosten am Ende viel Geld.

So hat das Marktforschungsunternehmen Coleman Parkes Ende 2010 ausgerechnet, dass deutsche Firmen durch IT-Ausfälle pro Jahr Umsatzverluste von rund vier Milliarden Euro erleiden. Der durchschnittliche Schaden einer Downtime liegt hierzulande bei knapp 400.000 Euro. Die finanziellen Verluste seien logischerweise umso höher, je länger das Beheben eines Schadens dauert.

Die Umfrage ergab auch, dass jedes Unternehmen durchschnittlich 14 Stunden pro Jahr unter dem Ausfall von IT-Komponenten leidet. Allein in Deutschland wären das rund 150.000 Stunden. Dabei, so eine Studie des Instituts für Management- und Wirtschaftsforschung, rechnen 60 Prozent der Unternehmen mit einem Jahresumsatz von mehr als 50 Millionen Euro mit unmittelbaren Verlusten, wenn das IT-System auch nur eine Minute stillsteht. Bei einem Ausfall bis zu zwölf Stunden gehen mehr als 80 Prozent der befragten Firmen von wirtschaftlichen Einbußen aus.

Deutsche Unternehmen schätzen, dass sie während der Downtime firmenkritischer Systeme bis zu 30 Prozent weniger Umsatz generieren. Wenn die IT ausfällt, hat Coleman Parkes in seiner Umfrage ermittelt, sind in den allermeisten Fällen geschäftskritische (42 Prozent) oder gar sehr geschäftskritische (26 Prozent) Anwendungen betroffen.

Störfälle und Umfrageergebnisse zeigen: Es gibt nach wie vor einen großen Bedarf an hochverfügbaren Mission-Critical-Systemen. Dabei ist es prinzipiell zweitrangig, auf welchem System die geschäftskritischen Anwendungen laufen. Im Unterschied zu früher bemerkenswert ist aber, dass die hohe Verfügbarkeit von Mission Critical nicht nur auf Mainframes und Unix-Maschinen gewährleistet ist, sondern zunehmend auch auf deutlich preiswerteren x86-Servern. Letztere sind mittlerweile mit Funktionen und Leistungsmerkmalen ausgestattet, die früher den Mission-Critical-Systemen vorbehalten waren. Auch die Software der Standardrechner (Betriebssystem und Middleware) hat inzwischen einen Reifegrad erreicht, der eine gewisse Stabilität der Systeme gewährleistet.

Dennoch gibt es nach wie vor für jede der Architekturen, also auch für die in der Anschaffung höherpreisigen Mainframes und Unix-Rechner, Business Cases. "Nicht alle SLA-Anforderungen", so Patrick Edlund, Pressesprecher für das HP Enterprise Business, "lassen sich auf Standardplattformen funktional oder mit vertretbarem Aufwand sinnvoll abbilden". Die Marktforscher sind sich daher einig, dass die Großrechnerumgebungen auch auf Dauer nicht vom Markt verschwinden werden.

Redundanz sorgt für Ausfallsicherheit

Mission Critical Computing umfasst IT-Prozesse und Anwendungen, die keinesfalls ausfallen dürfen. Um das zu erreichen, muss die IT-Infrastruktur hochverfügbar sein. Das gilt nicht so sehr für jede einzelne Komponente der IT-Infrastruktur, sondern vor allem für deren Zusammenspiel als Gesamtsystem. Den durchaus vorkommenden Ausfall einzelner Komponenten kompensiert ein Mission-Critical-System durch Redundanz der Bestandteile sowohl auf Hard- als auch auf Softwareebene: Fällt eine Komponente aus, übernehmen entweder andere deren Aufgaben, oder die Software zeigt sich fehlertolerant genug, um ihre Arbeit dem Ausfall einzelner Teile zum Trotz fortsetzen zu können.

"Eine große Gefahr bei Mission-Critical-Anwendungen sind so genannte Heisenbugs", so Hartmut Hoffmann, Produktmanager für HP NonStop Server. Gemeint sind Fehler, die prinzipiell in jedem System vorhanden sind, aber nur unter bestimmten Konstellationen und Voraussetzungen zu Abstürzen führen. "Sie können Systeme auf Herz und Nieren testen und trotzdem solche Fehler nicht ausschließen", gibt Hoffmann zu bedenken. Auch hier bewahrt die Redundanz der Komponenten Mission-Critical-Systeme vor dem Absturz. "Wir haben es so eingerichtet, dass immer mindestens noch eine Instanz im System läuft, die dafür sorgt, dass die Anwendungen verfügbar bleiben."

Zweites Charaktermerkmal von Mission-Critical-Systemen ist ihre Skalierbarkeit: Um bei Hochlast nicht in die Knie zu gehen, können im laufenden Betrieb einzelne Komponenten zugeschaltet werden. Die bewältigen dann im Zusammenspiel mit den laufenden Bestandteilen zum Beispiel plötzliche Steigerungen der Zahl von Transaktionsdaten etwa in einem Buchungssystem für Tickets oder bei Geldautomaten.

Bei den HP-NonStop-Systemen kommt eine weitere Eigenschaft hinzu, die vor allem während geplanter Downtimes die Verfügbarkeit der Systeme sichert. Wenn ein HP-NonStop-System gewartet werden muss, um etwa einzelne Komponenten zu erneuern, geht das bei HP im laufenden Betrieb. "Wir können die Datenbank im laufenden Betrieb ändern, ohne die Anwendung anzuhalten", erläutert Hoffmann ein Alleinstellungsmerkmal seiner Systeme. "Unser Ziel ist es, auch die geplanten Stillstände möglichst auf Null zu bringen". Das vor allem, betont der HP-Manager, sei ein Beitrag zur Garantie der Hochverfügbarkeit von Mission-Critical-Systemen.

NonStop in der Praxis

Mission-Critical-Systeme findet man in vielen Branchen - selbst dort, wo Hochverfügbarkeit erst auf den zweiten Blick ein Thema ist. Dennoch gibt es Bereiche, die mehr als andere darauf angewiesen sind. So benötigen etwa Unternehmen aus dem Finanz-, Telekommunikations- oder Gesundheitssektor für ihre Datenbank verändernden Transaktionen allerhöchste Systemverfügbarkeit und größte Skalierbarkeit. Solche Unternehmen sind auf einen ständigen Zugriff etwa auf Krankenakten, Finanzapplikationen oder dynamisch anfallende Verbindungsdaten angewiesen. Hochverfügbarkeit findet man auch in Notrufzentralen von Polizei und Feuerwehr, die eine andauernd funktionierende Infrastruktur benötigen, um die ständige Erreichbarkeit der Rettungsdienste und eine permanente Reaktionsfähigkeit gewährleisten zu können. Schließlich arbeiten auch Fertigungsunternehmen mit Mission-Critical-Systemen, weil sie - nicht zuletzt in der Zusammenarbeit mit ihren Zulieferern - eine sehr dynamische Produktionsweise pflegen.

Wie unterschiedlich die Einsatzszenarien über alle Branchen aussehen können, zeigen folgende Praxisbeispiele:

AOL: Schneller, besser, preiswerter

Der Online-Dienst AOL bietet Services in einem geschlossenen System vor allem im Bereich Kommunikation an: E-Mail, Instant Messaging, Chat. Das Unternehmen setzt auf HPs NonStop-Technologie, um eine 24x7-Verfügbarkeit rund um den Globus zu sichern. "Die ständige Verfügbarkeit ist keine Option für uns, sondern eine Notwendigkeit", skizziert Rob Lesan, Datenbankadministrator bei AOL, das Always-on-Projekt. "Downtime eines Online-Unternehmens bedeutet im Internet-Zeitalter weniger Umsatz, weniger Vertrauen und weniger Kunden", so Lesan. Von einem Internet-Unternehmen erwarte man einfach Flexibilität sowie Skalier- und Verfügbarkeit.

AOL setzt das HP-NonStop-System vor allem im Bereich Mail und Authentifizierung ein. Neben der ständigen Verfügbarkeit lobt der AOL-Manager die Skalierbarkeit des Systems: "Alle Maschinen sind voll ausgestattet, so dass wir im laufenden Betrieb keine Prozessor-Power zuschalten müssen", beschreibt Lesan. "Aber wir nutzen die lineare Skalierbarkeit der Datenbank aus: Wenn wir mehr Datenbank brauchen, gehen wir zu HP und bestellen das. Sie bringen es rein, und wir schieben die Daten im laufenden Betrieb rüber - ohne jegliche Downtime." Unterm Strich, bilanziert der AOL-Datenbankmanager, sei das Always-On-Projekt ein Erfolg: "Wir geben weniger Geld für schnellere Server mit besserer Software aus."

Bankverlag: Bis zu zwei Millionen Transaktionen pro Tag

Auch der Kölner Bankverlag setzt auf NonStop-Systeme. Die Verlagstochter BV Zahlungssysteme bietet den technischen Betrieb hochsicherer IT-Systeme für Banken und Finanzdienstleister. Dazu gehören insbesondere Systeme für den kartenbasierten Zahlungsverkehr und das Electronic Banking. Das Nonstop-System bei der Bankverlagstochter wacht über den kompletten Zahlungsverkehr der Kunden bei privaten Banken: Jede PIN-Eingabe, jede Abhebung am EC-Automaten, jeder Kauf per electronic cash wird durch das zentrale Rechenzentrum der BV Zahlungssysteme autorisiert, bevor eine Auszahlung oder Abbuchung erfolgt.

Aufs Jahr gerechnet sind das rund 400 Millionen Transaktionen. In Spitzenzeiten kann das aber auch mal mehr als zwei Millionen Transaktionen täglich bedeuten. "Ausfälle können wir uns nicht leisten", erläutert Wolfgang Breidbach, IT-Direktor der BV Zahlungssysteme die Anforderungen an sein Nonstop-System. "Die privaten Banken erwarten von uns, dass alle relevanten Informationen permanent verfügbar sind und alle Abfragen jederzeit reibungslos funktionieren. Das ist das Serviceversprechen an deren Kunden und unsere Geschäftsgrundlage. Ausfallprävention hat für uns deshalb die höchste Priorität." Und das scheint zu funktionieren: So konnte die Bank-Servicefirma zum Beispiel im Jahr 2006 bei dem Autorisierungssystem eine Verfügbarkeit von genau 100 Prozent nachweisen. Mehr geht nicht.

eCom Logistik: 24-Stunden Liefergarantie

Die Herlitz-Tochter eCom Logistik ist auf Beschaffung sowie die "kleinteilige, bedarfsgenaue Logistik für den filialisierten Handel über die Verpackung und das Displaymanagement bis hin zum professionellen Service am Point of Sales" spezialisiert. Zu den Kunden des Brandenburger Unternehmens gehören zahlreiche Konsumgüterhersteller aus dem Bereich Papier, Büro- und Schreibwaren, Elektronikproduzenten wie Sony, Epson, Canon oder HP sowie verschiedene Hausgerätehersteller. Der Logistik-Spezialist setzt HP-NonStop-Systeme als Plattform für sein geschäftskritisches Lagermanagement-System ein, das SOA-Prinzipien und comForte CSL XI-Middleware für die Kommunikation mit wichtigen SAP-Anwendungen nutzt.

"Wenn wir bei einem Datenbankfehler oder einem Systemabsturz den Bestandsstatus unseres Lagers wiederherstellen müssten, wäre das der absolute Albtraum für uns", schildert eCom-CIO Hans-Joachim Gebel seine Anforderung. "Seit wir das NonStop-System implementiert haben, ist das aber noch nie passiert."

Das Logistikzentrum des Unternehmens mit einer Fläche von 150.000 Quadratmetern umfasst ein automatisiertes Lager mit 190.000 Lagerplätzen und etwa 50.000 unterschiedlichen Artikeln. Jährlich werden rund 70.000 Tonnen umgeschlagen und täglich fast 12.000 einzelne Lieferungen kommissioniert.

Unterm Strich verfügt eCom mit der HP-NonStop-Lösung heute über eine "leistungsfähige End-to-End-Logistiklösung mit 24-Stunden Liefergarantie", konnte seine Personalkosten nach der Migration "signifikant senken" und ist nun in der Lage, zeitnah auf Kundenanfragen etwa zum Auftragsstatus reagieren zu können. Auch die schnelle Übermittlung der Rechnungsdaten an das ERP-System ist damit gewährleistet.

Rasselstein: Produktionssteuerung in Echtzeit

Die Rasselstein GmbH ist Produzent von Weißblechen. Der Hersteller aus dem pfälzischen Andernach führt kritische Anwendungen im so genannten Manufacturing Execution System auf einer Nonstop-Plattform aus. Da die ThyssenKrupp-Tochter damit die Produktionsabläufe in Echtzeit kontrolliert und steuert, ist Hochverfügbarkeit erfolgskritisch. Durch dieses System stellt der Dosenhersteller sicher, dass die Produktion rund um die Uhr und ohne Unterbrechungen läuft: ein Mangel an Waren, fehlende Informationen oder verzögerte Anlagenwartungen sind bei Rasselstein seitdem kein Thema mehr.

Neben der hohen Verfügbarkeit des Systems lobt Johann Pausch, der bei Rasselstein die Anwendungsentwicklung leitet, vor allem die Konnektivität des Systems zu anderen IT-Systemen und intelligenten Fertigungseinrichtungen: "Es ist ausgezeichnet dafür geeignet, die zentrale Plattform für unsere stark automatisierte Fertigungsumgebung zu bilden. Unsere Anlagen sind direkt von der Verfügbarkeit der Anwendungen abhängig, die auf dem Integrity-NonStop-Server basieren.