Klemmender Feuchteregler verursachte Millionenschaden:

Nach Sekunden ein Rauchpilz über der CPU

17.10.1986

Eine eiskalte Zentraleinheit, eine ausgefallene Feuchteregelung der Klimaanlage, ein unbedachter Druck auf den Einschaltknopf und die 10-Millionen-CPU war hin, Eine Verkettung unglücklicher Umstände führte zum Totalausfall.

An einem arbeitsfreien Samstag im Hochsommer meldet sich die CPU 1 das letzte Mal gegen 11.45 Uhr. Danach schwieg sie. Zwischen 11.45 und 12.00 Uhr hat sich demzufolge die erste Störung im System ergeben. Es wird vermutet, daß in dieser Zeit der 400-Hertz-Generator ausgefallen ist und die Logik-Stromversorgung der CPU 1 zusammenbrach.

Die Logik-Baugruppen der CPU werden über einen separaten 400-Hertz-Frequenz-Generator, der im Keller steht, mit Strom versorgt. Die übrigen Einrichtungen der CPU sind am 380/220 V/50-Hertz-Stromnetz angeschlossen. Aufgrund der großen Wärmeabgabe und der hohen Packungsdichte ist eine direkte Kühlung der Logik erforderlich. Diese wird durch eine separate Kühleinrichtung vorgenommen. Die Klimatisierung des Maschinenraums erfolgt über eine RZ-eigene Klimaanlage, die Luft wird über den Kabelboden eingeblasen und an der Decke abgesaugt. Die Fühler für die Regelung der Klimaanlage sind an der Säule neben der Konsole angebracht, die etwa einen Meter entfernt von der CPU steht. Die Klimaverhältnisse im Maschinenraum liegen normalerweise laut Registriervorrichtung bei rund 22 Grad Celsius und 50 Prozent relativer Luftfeuchtigkeit.

Die DV-Anlage, auf der überwiegend Online-Arbeiten abgewickelt werden, wird im 2-Schicht-Betrieb gefahren. Die Hardware überwacht sich selbst und gibt während der Einschaltzeit etwa alle 15 Minuten automatische Kontrollausdrucke über die Systemverfügbarkeit.

Die Anlagenteile der CPU, die an der 50-Hertz-Stromversorgung hängen, blieben in Betrieb. Eine Alarmmeldung wurde aufgrund des Teileausfalls nicht abgesetzt. Zu den noch in Betrieb befindlichen Anlagenteilen gehört auch die Kühleinrichtung.

Etwa zur gleichen Zeit fiel die Feuchteregelung der RZ-Klimaanlage aus. Die von außen angesaugte feuchtwarm Frischluft konnte nicht mehr entfeuchtet werden. Diese hochgradig feuchte Luft gelangte nun ins Rechenzentrum und über Kabelöffnungen in die CPU. Während der folgenden Zeit kondensierte die feuchte Luft an den eiskalten Kühlkörpern der Logikrahmen der CPU 1 und das dabei entstehende Kondenswasser lief über die spannungsfreien Baugruppen und sammelte sich vorwiegend im unteren Drittel der Baugruppenrahmen.

Gegen 14.45 Uhr meldete sich die CPU 2, die bis zu diesem Zeitpunkt noch lief, zum letzten Mal und schaltete dann wegen Übertemperatur automatisch ab. Ursache für die Übertemperatur war die ausgefallene Kühleinrichtung der CPU 2.

Aufgrund des Totalausfalls wurde der Rechenzentrumsleiter alarmiert. Er eilte umgehend ins Rechenzentrum und versuchte zu retten, was zu retten war. Ein Schaden im eigentlichen Sinne war bisher nicht erkennbar. Deshalb versuchte er die abgeschalteten Maschinen (CPU 2) wieder hochzufahren, ohne die Ursachen der Störung genau zu erkennen.

Während dieser Zeit hatte sich die Luftfeuchtigkeit im Rechenzentrum bei etwa 65 Prozent stabilisiert. Die Luftfeuchtigkeit im Doppelboden lag zu diesem Zeitpunkt bei etwa 90 Prozent. Die Kühlung der CPU 1 - schon die ganze Zeit ohne die Wärmelast der Logik - funktionierte "hervorragend" und verwendete ihre ganze Energie zur Kondenswassergewinnung.

Gegen 19.00 Uhr wurden die Hochfahrversuche abgebrochen, der Wartungsdienst des DV-Herstellers informiert und die gesamte Hardware abgeschaltet.

Bis zum Eintreffen der Wartungstechniker am Montagmorgen blieben die Klimaverhältnisse im Rechenraum auf gleichem Niveau.

Die Wartungstechniker machten sich sofort an die Fehlersuche bei der CPU 2, die wegen Übertemperatur ausgestiegen war. Als Ursache dafür wurden relativ schnell Kühlmittelverluste in der Kühleinrichtung der CPU 2 festgestellt. Das Kühlmittel mußte erst vom Wartungsstützpunkt geholt werden. Zwischenzeitlich begann die Fehlerdiagnose an der CPU 1. Auch hier stellte man relativ schnell fest, daß die Spannung der 400-Hertz-Logik-Stromversorgung fehlte, ging in den Keller zum 400-Hertz-Frequenz-Generator und merkte, daß dieser sich wegen Überspannung automatisch abgeschaltet hatte. Da dieser Fehler 14 Tage vorher schon einmal aufgetreten und deshalb die Störungsursache bekannt war, wurde kurzerhand die betreffende Baugruppe aus dem funktionsfähigen Frequenzgenerator der CPU 2 ausgebaut und in den defekten Generator gesteckt. Ein größerer Schaden an der DV-Hardware war bislang immer noch nicht aufgetreten. Die Wartungstechniker gingen wieder in den Maschinenraum. Guten Mutes und ohne Kenntnis von der hohen Luftfeuchtigkeit beziehungsweise des Kondenswassers in der CPU 1 drückten sie aufs Knöpfchen. Knöpfchen drücken und Zischen war eins! Wenige Sekunden später stand ein Rauchpilz über der CPU 1. Der Millionenschaden war eingetreten, der Untergang der Maschine vollendet.

Entsetzt wurde die Maschine spannungsfrei geschaltet und die Baugruppenrahmen geöffnet. Im unteren Drittel hatten die Wrap-Verbindungen an einigen Stellen eine verkohlte Farbe angenommen, und das Kondenswasser tropfte immer noch. Erst jetzt wurde man auf die Klimaverhältnisse aufmerksam. Die Haustechniker wurden alarmiert, eilten zur Klimaanlage und fanden im Regelschrank den klemmenden Feuchteregler. Ein kurzes Antippen, und er funktionierte wieder. Innerhalb einer knappen Stunde herrschten wieder normale Klimaverhältnisse im Maschinenraum.

Die wegen Übertemperatur ausgefallene CPU 2 lief übrigens nach Einfüllen des Kühlmittels wieder einwandfrei.

Der Schaden an der CPU 1 war so groß, daß die gesamte Maschine abgebaut und zu Reparaturzwecken ins Herstellerwerk nach Amerika geschickt werden mußte. Die Reparaturzeit wurde vom Hersteller auf rund neun Monate, die Reparaturkosten auf etwa 1,35 Millionen Mark geschätzt. Zum Glück hatte das Rechenzentrum eine Mehrkostenversicherung abgeschlossen, die die Kosten für das Ausweichen in das rund 500 Kilometer entfernte Ausweichzentrum übernehmen würde. Diese Kosten wurden auf 900 000 Mark veranschlagt.

Aus Schadenreport Informationstechnik, Ausgabe 2R-5, herausgegeben von der Tela Versicherung, München.