AT&T hat Ursache für Kollaps des Frame-Relay-Systems gefunden

Cisco ändert Wartungsvorgaben nach Netz-Blackout in den USA

08.05.1998

Der Netzausfall, der am 13. April zu einem Kollaps des Frame-Relay-Service von AT&T führte (Siehe CW 17/98, Seite 1), ist nach Angaben des Carriers auf die Verkettung von zwei Softwarefehlern zurückzuführen. Nachdem diese mittlerweile behoben sind, wurden auch die Wartungsvorschriften von Cisco geändert. Die hierbei gewonnenen technischen Informationen wollen Cisco und AT&T auch den anderen Netzbetreibern zugänglich machen.

Nach der Darstellung von AT&T hatte das Unternehmen einen der 144 Cisco-Knotenrechner zu Wartungszwecken vom Netz genommen. Nach einem Wartungsbefehl begann der Switch, alle anderen Rechner des Frame-Relay-Netzes mit Zustandsberichten zu überfluten. Dabei sendete er so viele Berichte, daß die anderen Knoten ihre Hauptaufgabe, die Vermittlung von Daten, nicht mehr bewältigen konnten.

Obwohl der Vermittlungsrechner vom eigentlichen Datennetz getrennt war, konnte er über einen Informationskanal weiter mit den anderen Rechnern kommunizieren. Normalerweise unterhalten sich die Switches via diesen Kanal über die Netzauslastung, um eine optimale Lastverteilung zu erreichen.

Entgegen anderslautenden Darstellungen stand laut AT&T aber nicht das gesamte Frame-Relay-Netz. Rund 92 Prozent der Netzkapazität habe man über Backup-Vorkehrungen aufrechterhalten können. Auf die komplette Wiederherstellung des Dienstes hätten die Kunden zwischen sechs und 26 Stunden warten müssen.