Mit Entschuldigung

Amazon erklärt den EC2-Ausfall

29.04.2011

Thomas Cloer war Redakteur der Computerwoche.

Amazon.com hat die Forensik zum EC2-Ausfall am Wochenende abgeschlossen und eine ausführliche Erklärung mit pflichtgemäßer Entschuldigung gegenüber der Cloud-Kundschaft veröffentlicht.

Interessierte können die ausführliche Beschreibung auf der AWS-Webseite (Amazon Web Services) nachlesen. Die Kurzfassung: Der Ausfall war die Folge eines falsch ausgeführten Upgrades der Netzkapazität für den Dienst Elastic Block Store (EBS). Als ein Router dafür kurzzeitig vom Netz genommen wurde, leitete Amazon den Traffic versehentlich auf ein deutlich schwächeres Ersatznetz um. Die Folge war eine Kettenreaktion von Störungen, die schließlich sogar die EBS-Control-Plane, weitere Availability Zones in Mitleidenschaft zog und den Relational Database Service (RDS) in Mitleidenschaft zog.

Die Reparatur war überdies komplizierter und langwieriger als gedacht, unter anderem weil in den am stärksten betroffenen EBS-Cluster eine große Menge zusätzlicher Massenspeicher für Repliken integriert werden musste. Aufgrund der "Verkettung widriger Umstände" konnten letztlich 0,07 Prozent der EBS-Volumes in der betroffenen Availability Zone und draus resultierend 0,4 Prozent der Single-AZ-RDS-Datenbanken nicht vollständig wiederhergestellt werden. Zumindest für die RDS-Datenbanken gab es aber bei automatischem Backup (Default-Einstellung) die Option eines Point-in-Time-Restore.

Amazon will nun verschiedene Schritte unternehmen, um zu verhindern, dass ein ähnlicher Ausfall nochmals vorkommt. Dazu gehören neben einem Audit der Change-Prozesse vor allem technische Maßnahmen, um Software und Services fehlertoleranter zu machen. AWS-Kunden sollen künftig außerdem einfacher mehrere Availability Zones verwenden können. Ferner verspricht Amazon eine schnellere Recovery und last, but not least eine schnellere und ausführlichere Kommunikation bei Problemen.

Allen Kunden, die in der hauptsächlich betroffenenen Availability Zone in der US East Region ein EBS-Volume attached oder eine RDS-Datenbank laufen hatten, schreibt Amazon automatisch zehn Tage EBS-Volume-Nutzung unter Volllast gut.

"Zu guter Letzt wollen wir uns entschuldigen", schreibt das AWS-Team abschließend. "Wir wissen, wie wichtig unsere Services für die Geschäfte unserer Kunden sind, und wir werden alles tun was wir können, um aus diesem Vorfall zu lernen und unsere Dienste zu verbessern. Wie bei jedem größeren Betriebsproblem werden wir in den kommenden Tagen und Wochen viele Stunden damit verbringen, die Details der verschiedenen Teile dieser Panne noch besser zu verstehen und festzulegen, was wir verändern müssen, um unsere Services und Prozesse zu verbesern."

Aktuelle IDG-Studien

Seit der Einführung von ChatGPT beherrscht kein anderes IT-Thema so die Schlagzeilen wie (generative) künstliche Intelligenz. Wir schauen auf Einsatzszenarien, Hintergründe und Folgen.

Mehr zur Studie erfahren
Der Einsatz von No-/Low-Code boomt. Lange dauert es wohl nicht mehr, bis Software-Entwicklung und Prozessmodellierung via grafischer UI das klassische Coding überholen. Mehr in der Studie.

Mehr zur Studie erfahren
Unternehmen rüsten auf: Je komplexer die Gefährdungslage, desto stärker der Bedarf an Security Services. Dazu alles zu Cyberattacken und Gegenmaßnahmen.

Mehr zur Studie erfahren
Hybrid Work: Wer als Arbeitgeber für die jungen Generationen interessant und attraktiv sein will, darf nicht auf eine moderne IT-Infrastruktur und -Arbeitsumgebung verzichten. Mehr in der Studie.

Mehr zur Studie erfahren
Das datengesteurte Unternehmen - Realität oder Hirngespinst? Erst wenige Firmen schaffen es, mithilfe von Daten-Insights neue Geschäftsmodelle auf die Beine zu stellen. Mehr in der Studie.

Mehr zur Studie erfahren
Für knapp neun von zehn Unternehmen kommt künftig eine Migration in die Cloud ohne strategischen Ansatz nicht infrage. Trends und Zahlen rund ums Thema in unserer Studie.

Mehr zur Studie erfahren
Unternehmen wollen energieeffizienter und nachhaltiger werden. Dazu müssen sie aber noch ihre IT-Strategien anpassen und die notwendige Datenbasis schaffen. Mehr dazu in der Studie.

Mehr zur Studie erfahren
Integrationsplattformen sind Drehscheiben für die Vernetzung von Anwendungen im Unternehmen und unterstützen zudem die Prozessautomatisierung. Mehr in der Studie.

Mehr zur Studie erfahren
Die End-to-End-Automatisierung von Geschäftsprozessen stellt einen wichtigen Eckpfeiler der digitalen Transformation der Unternehmen dar. Trends und Zahlen rund ums Thema in unserer Studie.

Mehr zur Studie erfahren
Auch in wirtschaftlich schwierigen Zeiten ist das (IT/Enterprise) Service Management geschäftskritsich - gerade mit Hinblick auf eine stärkere (Prozess-)Automatisierung. Trends und Zahlen dazu in der Studie.

Mehr zur Studie erfahren