Eine Stunde Ausfall kann Millionen kosten

Hardwarefehler zwingen IT-Systeme in die Knie

07.07.2000
MÜNCHEN (CW) - Geht es um die Ausfallkosten von IT-Systemen, liegen die Angaben von Unternehmen weit auseinander. Die Spanne reicht von wenigen tausend bis zu mehr als einer Million Dollar pro Stunde. Clustering-Installationen können Abhilfe schaffen, sind aber kein Allheilmittel gegen Systemabstürze. Experten fordern eine umfassendere Notfallplanung.

Der Ausfall einer Server-Installation kostet durchschnittlich 71000 Dollar pro Stunde. Zu diesem Ergebnis kommt das US-Marktforschungsunternehmen Techwise Research. Die Analysten vergleichen in einer Studie die Verfügbarkeit verschiedener Server-Cluster von Compaq, Hewlett-Packard (HP), IBM und Sun (zu den Ergebnissen siehe Kasten Seite 34).

Von den 93 befragten IT-Managern gaben zwar gut die Hälfte an, für jede Stunde eines Server-Stillstands weniger als 25000 Dollar zu veranschlagen. Zehn Prozent der Verantwortlichen gehen aber von mindestens 225000 Dollar aus. Zwei Großanwender rechnen mit Kosten von über einer Million Dollar pro Stunde.

Diese Zahlen scheinen durchaus realistisch zu sein. Untersuchungen anderer Marktforscher kommen zu ähnlichen Ergebnissen. Einer Erhebung von Contingency Planning Research zufolge liegen die finanziellen Auswirkungen eines IT-Ausfalls je nach Branche und Anwendungen zwischen 14500 und über sechs Millionen Dollar. Die ebenfalls US-amerikanische Find/SVP befragte 450 Fortune-1000-Unternehmen und errechnete durchschnittliche Ausfallkosten von 82500 Mark.

Ein Großteil dieser Kosten entsteht Unternehmen durch entgangene Verkäufe. Klassische Webshops wie Amazon.com sind davon in besonderem Maß betroffen. Andere Kostenfaktoren ergeben sich beispielsweise durch Fertigungsunterbrechungen und damit einhergehende Produktivitätsverluste. Einen weiteren Kostenblock bilden allgemeine Verwaltungskosten, die den Unternehmen durch das Herunterfahren und Wiederanlaufen kompletter IT-Systeme entstehen.

In den seltensten Fällen liegen die Ursachen für einen Totalausfall in menschlichem Versagen. Das zumindest konstatiert die Gartner Group. In 60 Prozent der Fälle sind Hardwaredefekte für einen Stillstand verantwortlich, berichten die Analysten. Softwarefehler bilden mit 16 Prozent die zweithäufigste Ursache, gefolgt von Ausfällen der Stromversorgung mit sieben Prozent. Die in jüngster Zeit häufig aufgetretenen Virusattacken sind der Gartner Group zufolge dagegen nur in einem Prozent der Fälle für einen Crash verantwortlich.

Einen anderen Maßstab legt das US-Marktforschungsinstitut Infonetics an. Die Analysten nahmen Unternehmen mit einem durchschnittlichen Jahresumsatz von drei Milliarden Dollar unter die Lupe.

Allein durch den Ausfall von lokalen Netzen (LANs) verlieren diese Firmen im Schnitt jedes Jahr vier Millionen Dollar. Weitere Kosten in Höhe von 3,3 Millionen Dollar jährlich entstehen durch die vorübergehende Nichtverfügbarkeit von Weitverkehrsnetzen (Wide Area Networks = WANs). Ein prominentes Beispiel liefert der Online-Auktionator E-Bay. Nachdem der Netzzugang vergangenes Jahr 22 Stunden blockiert gewesen war, ging der Börsenwert der Startup-Company an einem einzigen Tag um 2,25 Milliarden Dollar ein.

Eine Verfügbarkeit von 99,999 Prozent (fünf Minuten Stillstand pro Jahr) bleibt gerade im Netzbereich meistens ein Wunschtraum. Gefahren lauern in jedem kleinen Stück Hardware oder Software, praktisch in jeder denkbaren Netzkomponente. Zu den potenziellen Schwachstellen gehören beispielsweise fehlerhafte Software in Routern und Switches, ein stark steigender Netzverkehr, der Server zum Absturz bringen kann, Konfigurationsprobleme und nicht zuletzt Ausfälle bei den großen Carriern.

Letzteres musste der deutsche Online-Buchhändler Buch.de im Januar dieses Jahres schmerzlich erfahren (siehe CW 12/00, Seite 47). Für vier Stunden war der Shop offline, das Geschäft stand still. Durch einen Glasfaserbruch beim Internet-Service-Provider Telekom war die 2-Mbit-Standleitung ausgefallen. Die erlittenen Einbußen bezifferte der Anbieter auf 20 bis 30 Prozent eines Tagesumsatzes

Dabei umfasste das Hochverfügbarkeitskonzept von Buch.de mehrere Schienen: die Infrastruktur des Rechnerraums, Hardware- und Softwaremaßnahmen und schließlich das Notfall-Management. Nach dem Ausfall sprach Christoph Maris, Vorstandsmitglied für DV, Organisation und Logistik, die verbliebene Schwachstelle an: "Die Webshops hängen an ihrem Provider wie die Fliegen am Topf." Neben der von der Telekom gemieteten "permanent verfügbaren Leitung" hat der Buch.de inzwischen eine separate Backup-Leitung installiert, die im Notfall die Netzanbindung übernimmt.

Umso erstaunlicher ist es, dass eine umfassende Notfallplanung in vielen Unternehmen offenbar nicht vorgesehen ist. Nicht selten kaprizieren sich selbst Großanwender auf die Installation mächtiger Server-Cluster und halten die Angelegenheit damit für erledigt. Diese Strategie jedoch deckt nur Teilbereiche ab, kritisiert Peter Galvin, Cheftechnologe beim US-Systemintegrator Corporate Technologies. Er empfiehlt ein stufenweises Vorgehen und hat dazu eine Reihe von Richtlinien für Unternehmen entwickelt, die den Aufbau von Server-zentrierten Hochverfügbarkeitssystemen ins Auge fassen.

Am Anfang jeglicher Überlegungen sollten Administratoren ein adäquates Verfügbarkeitsniveau wählen, so Galvin. Dabei müssen die Anforderungen an die IT den jeweiligen Kosten gegenübergestellt werden. Mehr Verfügbarkeit kostet in der Regel auch deutlich mehr. Festzulegen sei daher zunächst die maximale Dauer eines Ausfalls und die höchste tolerierbare Häufigkeit solcher Fehler in einem bestimmten Zeitraum. Anhand dieser Festlegungen kann die größte zulässige Anzahl der Single Points of Failures (Spofs) abgeleitet werden, derjenigen Komponenten also, die bei einem Defekt nicht durch eine Backup-Komponente abgesichert sind.

Diese Spofs sind allerdings in den meisten Teilsystemen der IT anzutreffen. Beispiele sind Einzelprozessoren oder nur einmal vorhandene Netzkarten im Server, die bei Ausfall den Netzzugang lahm legen. Im Netz selbst stellen etwa einfach ausgelegte Netzkabel oder Switches ein Risiko dar. Noch problematischer wird eine Installation, wenn Ressourcen wie Web-Server, Internet-Verbindung oder Stromversorgung nur einmal vorhanden sind. Galvin empfiehlt, die Anzahl der Spofs in solchen Teilbereichen einander anzupassen. So ergebe es beispielsweise keinen Sinn, einen Server mit hohem finanziellem Aufwand komplett redundant auszulegen, wenn das Netzwerk andererseits eine ganze Reihe von Spofs aufweise.

Hohe Bedeutung misst Galvin auch dem Aufbau redundanter Speichersysteme bei. Um einen Festplattendefekt automatisch zu überstehen, bedarf es einer Raid-Konfiguration (Raid = Redundant Array of Independent Disks). Allerdings löst Raid nur das Festplattenproblem. Defekte Datenbusse, Controller oder Stromversorgungen können das Gesamtsystem dennoch in die Knie zwingen. Auch solche Komponenten müssen daher mehrfach ausgelegt sein.

Ein oft kaum beachtetes Risiko stellen die zahlreichen Software-Patches dar, die Systemadministratoren auf Empfehlung der Hersteller immer wieder einspielen. Um das Risiko zu verringern, sollten IT-Verantwortliche Patches zunächst in einer Testumgebung installieren, rät Galvin. Erst nach einem erfolgreichen Probelauf in einer der Produktionsanlage ähnlichen Installation sollten die Updates in den laufenden Betrieb übernommen werden.

Last, but not least fordert Galvin eine permanente Kontrolle aller Aspekte einer geschäftskritischen IT-Installation. Obwohl dies selbstverständlich klinge, würden in der Praxis doch folgenschwere Fehler begangen. Galvin: "Es sind schon Cluster gecrasht, weil niemand bemerkt hatte, das der erste Rechnerknoten ausgefallen war und der Ersatz-Server automatisch dessen Betrieb übernommen hatte. Irgendwann fiel auch der zweite Rechner aus, und der gesamte Cluster brach zusammen."

Studie: VMS-Cluster auf Platz 1Das US-Marktforschungsinstitut Techwise verglich die Ausfallzeiten von vier Risc-basierten Server-Clustern. Dazu befragten die Analysten 93 IT-Manager sowohl nach den Zeiten als auch den Kosten der Stillstände binnen zwölf Monaten. Alpha-basierte Server Cluster unter dem Betriebssystem Open VMS schnitten mit einer jährlichen Ausfallzeit von elf Stunden am besten ab.

Cluster aus IBMs RS/6000-Servern unter dem Unix-Derivat AIX landeten mit 18,4 Stunden auf Platz zwei. Verbände aus Hewlett-Packards HP-9000-Rechnern unter HP-UX fielen durchnittlich 22,8 Stunden aus. Das Schlusslicht bilden Cluster aus Suns Sparc-Servern und dem Betriebssystem Solaris mit einer Ausfallzeit von 28,7 Stunden.

Bei diesen Werten sind laut Techwise alle Ausfallfaktoren berücksichtigt. Dazu zählen neben Hardwaredefekten und Fehlfunktionen der Betriebssystem- und Clustering-Software auch Fehler, die durch andere Software, beispielsweise Datenbanken, verursacht wurden. Hinzu kommen Ausfälle aufgrund von menschlichem Fehlverhalten.

Die Analysten weisen darauf hin, dass die Server-Hersteller nicht auf alle diese Faktoren gleichermaßen Einfluss nehmen können. Dies gilt insbesondere für Programme unabhängiger Softwareanbieter und menschliches Versagen. Dennoch sind bei einem praxisrelevanten Vergleich von Ausfallzeiten alle Faktoren zu betrachten.

Abb: Für den Totalausfall eines IT-Systems sind in 60 Prozent der Fälle Hardwarefehler verantwortlich. Experten kritisieren eine unzureichende Notfallplanung der Unternehmen. Quelle: Gartner Group