Unabhängige Untersuchung

Mainframe-Ausfall legte Flugverkehr über London lahm

Thomas Cloer war viele Jahre lang verantwortlich für die Nachrichten auf computerwoche.de.
Er sorgt außerdem ziemlich rund um die Uhr bei Twitter dafür, dass niemand Weltbewegendes verpasst, treibt sich auch sonst im Social Web herum (auch wieder bei Facebook) und bloggt auf teezeh.de. Apple-affin, bei Smartphones polymorph-pervers.
Am vergangenen Freitagnachmittag musste der Luftraum über London für eine knappe Stunde gesperrt werden. Schuld war offenbar der Ausfall eines Großrechners bei der Behörde National Air Traffic Services (NATS).

Aufgrund der Sperrung waren am Freitag hunderte Flüge annulliert oder umgeleitet worden. Jetzt ermittelt NATS gemeinsam mit der UK Civil Aviation Authority CAA), wie es zu dem Ausfall kommen konnte. Vince Cable, der liberale Minister für Unternehmen, Innovation und Qualifikationen, hatte zuvor in der Andrew Marr Show NATS beschuldigt, dringend nötige hohe Investitionen zu verschleppen und "altertümliche Computersysteme zu benutzen, die dann abstürzen".

NATS Swanwick Centre, Area Control
NATS Swanwick Centre, Area Control
Foto: NATS via flickr

Der britische Branchendienst "The Register" hat am Wochenende unter Berufung auf Insider berichtet, wie es zu dem Ausfall kam. Schuld war demnach ein missglückter Failover eines S/390-Mainframes. Auf diesem Großrechner für das sogenannte Flight Data Processing System landen die Daten sämtlicher beabsichtigter Flugbewegungen über dem Luftraum Großbritanniens. Sie werden laufend mit den über Radar ermittelten tatsächlichen Fluginformationen abgeglichen, auf einem zentralen Server zusammengeführt und den Fluglotsen zugespielt.

Der Grund für den Ausfall wird auf der Softwareseite vermutet - das Flight Data Processing System hatte bisher noch keinerlei Hardwarefehler. "Irgendwer gibt immer einen Flugplan falsch ein und das System hängt", steckte eine anonyme Quelle dem "Register". Es könne vorkommen, dass sich am gleichen Eingabefehler auch der Failover aufhänge. "Wenn wir einen solchen Switchover kriegen, wird normalerweise erstmal der Backup-Prozessor abgeschaltet." Das dauert allerdings, und Zeit haben die NATS-Leute wenig - sobald das Flight Data Processing System für mehr als acht Minuten down ist, werden sukzessive Notfallmaßnahmen eingeleitet und immer mehr Flüge umgelenkt oder außerplanmäßig gelandet.

NATS Swanwick Centre, Arbeitsplatz im Bereich Area Control
NATS Swanwick Centre, Arbeitsplatz im Bereich Area Control
Foto: NATS via flickr

Am Freitag hatten die Ingenieure zwar das Flight Data Processing System nach 15 Minuten wieder up and running, allerdings konnte der Großrechner dann keine Verbindung zum zentralen Server für die Fluglotsen herstellen, weil zeitgleich auch noch die Netzverbindung ausgefallen war. Die Ursache dafür ist noch unbekannt. Früher lief bei der ATC ein Token-Ring-Netz, vor einigen Jahren wurde aber auf normales Ethernet umgerüstet

Vor knapp einem Jahr waren schon einmal 300 Flüge gecancelt und knapp 1500 verspätet gewesen, nachdem NATS technische Probleme mit einer Touch-Oberfläche des Lieferanten Frequentis hatte. Im Nachgang versprach die Behörde, sie werde ihre IT widerstandfähiger machen und das Risiko eines erneuten Ausfalls zu minimieren versuchen.