RZ mit über 1000 Diskdrives fast einen Tag außer Gefecht:

Softwarebug legte Reisebuchungssystem lahm

02.06.1989

TULSA (IDG) - Ein unvorhergesehenes Problem bei der Installation neuer Speichereinheiten hat das bislang größte computergestützte Reisevertriebssystem der Welt, "Sabre" von American Airlines (AA), zum Absturz gebracht. Die US-Reiseagenten mußten im lebhaften Samstagsgeschäft ihre AA-Tickets von Hand ausstellen - oder gleich bei der Konkurrenz buchen.

Was Mitte Mai im schwer gesicherten, unterirdischen IBM-Rechenzentrum von Sabre Computer Services passierte, ist wohl der Alptraum eines jeden Managers, dessen unternehmerischer Erfolg von einer permanent verfügbaren Computer-Leistung abhängt: Als nach der Installation von 180 zusätzlichen Diskdrives die 1080 "alten" Laufwerke reformatiert werden sollten, löschte das Betriebssystem - eine Version von IBMs "Airline Control Program" deren digitale Kennungen. Von einer Sekunde zur anderen "fand" das System keinen einzigen Diskdrive mehr wieder.

Schuld an der schweren Panne, die an einem Freitagabend zu später Stunde die RZ-Mannschaft in Tulsa in Panik versetzte, war etwas, das die Amerikaner unübersetzbar als "Core-walker" bezeichnen. "Eines unserer Programme wurde unbeabsichtigt von einem anderen Programm verändert", rekonstruiert Jim Juracek den Zwischenfall. Der gegen Mitternacht aus dem Bett geklingelte Vice-President of Systems Engineering muß eingestehen, daß (getreu Murphys Law) alle Vorsichtsmaßnahmen nichts genützt haben, weil mit genau diesem Fehler niemand gerechnet hatte:" Wenn wir versucht hätten, dieses Malheur absichtlich herbeizuführen, hätten wir uns außerordentlich schwer getan."

Der "mutierte" Programmbefehl wanderte laut Juracek blitzschnell durch den gesamten Gerätepark und löschte in jedem der Laufwerke das Datenfeld mit der individuellen Kennung, so daß ab sofort eine Adressierung der Drives sowie aller Einzeldateien nicht mehr möglich war - so, als wüßte ein Postzusteller weder Namen noch Hausnummer. Infolge dieser Orientierungslosigkeit verabschiedete sich blitzartig auch das antiquierte Betriebssystem, denn es ist so ausgelegt, daß es ohne Platten-Subsystem nicht arbeiten kann. Daß die eigentlichen Datenbestände nicht gelöscht wurden - von 700 Gigabyte ging weniger als ein Megabyte verloren - war zu diesem Zeitpunkt nur ein schwacher Trost für das RZ-Team von Sabre. Juracek empfand die Angelegenheit jedenfalls als "den schlimmsten Alptraum", war er doch zuvor "enorm stolz" gewesen auf die Qualität seiner DV-Dienstleistungen.

Trotz Wettlauf gegen die Zeit viel Geschäft verpaßt

Unter höchstem Zeitdruck begann die Fehlersuche. Nach einer Stunde stand die Diagnose fest, aber noch nicht die Therapie. Denn solange die Drives anonym blieben, ließ sich auch das in den sechziger Jahren entwickelte Betriebssystem ACP nicht wieder hochfahren. Die Systemingenieure in Oklahoma probierten ein Booting unter VM - es klappte. Nun mußten sie jedem einzelnen der 1260 Speichersysteme eine neue Adresse verpassen und die "Pointers" für das Auffinden der Passagierdaten neu definieren. Über zehn Stunden brauchte die Mannschaft aus 100 System Engineers und Programmierern, bis die Folgen des Bug ausgemerzt waren.

Im Morgengrauen war man schließlich soweit, die Zentraleinheiten wieder unter ACP zu booten. Während an der Ostküste schon die Reisebüros öffneten, war an einen Anschluß der IBM-Computeranlage an das landesweite Netz noch lange nicht zu denken. Denn jetzt mußte unter allergrößter Vorsicht die Formatierung der Platten nachgeholt werden, die am Abend so gründlich schiefgegangen war. Am Samstagvormittag, elf Uhr Ortszeit, konnte die übermüdete Mannschaft in Tulsa das Sabre-System schrittweise hochfahren - besorgt, daß nun der Nachholbedarf von außen einen neuen Crash auslösen könnte.

Voll funktionsfähig war Sabre erst wieder nachmittags um halb drei. In der Zwischenzeit war das rege Samstagsgeschäft zu einem großen Teil an American Airlines vorbeigegangen. Wer sich als Passagier auf die "klassische" Buchungsmethode mit Telefon und Handschrift einließ, konnte bis zum Abflug nicht sicher sein, daß er den zugesagten Sitz in der Maschine zum versprochenen Preis auch wirklich bekam. Die 20 ihres Back-end beraubten Vax-Kommunikationsrechner von American Airlines leiteten unterdessen einlaufende Reisebüroanfragen an die Systeme anderer Fluggesellschaften weiter, die über Sitzplatzkontingente vertilgten. Das große Geschäft aber machten die Reiseunternehmen, die über Terminals der Konkurrenzsysteme Covia oder System One vertilgten - sehr zur Freude von deren Muttergesellschaften United Airlines und Texas Air.

Inzwischen wissen die Sabre-Verantwortlichen, daß das Betriebssystem ACP die Achillesferse ihres mit acht Mainframes vom Typ IBM 3090-200E ausgestatteten Rechenzentrums ist: ACP unterteilt den Speicher nicht in Segmente, also stürzt im Ernstfall der gesamte Komplex ab. Zwar steht in Kürze ein Upgrade auf das Nachfolgeprodukt TPF 3.1 ins Haus, simultan mit der Hardwareaufrüstung zur 3090S. Doch dieses TPF-Release, das auch bei Amadeus in München-Erding eingesetzt werden wird, hätte die Panne nach Jim Juraceks Ansicht nicht verhindert: Es erlaube die Definition mehrerer Hardwareblöcke, bilde die Daten aber so ab, als handle es sich um ein einziges System. Das virtuelle Speicherverfahren, das bei IBMs Regel-Betriebssystem MVS üblich ist, gebe es für TPF nicht vor 1993.