Mit Entschuldigung

Amazon erklärt den EC2-Ausfall

Thomas Cloer war viele Jahre lang verantwortlich für die Nachrichten auf computerwoche.de.
Er sorgt außerdem ziemlich rund um die Uhr bei Twitter dafür, dass niemand Weltbewegendes verpasst, treibt sich auch sonst im Social Web herum (auch wieder bei Facebook) und bloggt auf teezeh.de. Apple-affin, bei Smartphones polymorph-pervers.
Amazon.com hat die Forensik zum EC2-Ausfall am Wochenende abgeschlossen und eine ausführliche Erklärung mit pflichtgemäßer Entschuldigung gegenüber der Cloud-Kundschaft veröffentlicht.

Interessierte können die ausführliche Beschreibung auf der AWS-Webseite (Amazon Web Services) nachlesen. Die Kurzfassung: Der Ausfall war die Folge eines falsch ausgeführten Upgrades der Netzkapazität für den Dienst Elastic Block Store (EBS). Als ein Router dafür kurzzeitig vom Netz genommen wurde, leitete Amazon den Traffic versehentlich auf ein deutlich schwächeres Ersatznetz um. Die Folge war eine Kettenreaktion von Störungen, die schließlich sogar die EBS-Control-Plane, weitere Availability Zones in Mitleidenschaft zog und den Relational Database Service (RDS) in Mitleidenschaft zog.

Die Reparatur war überdies komplizierter und langwieriger als gedacht, unter anderem weil in den am stärksten betroffenen EBS-Cluster eine große Menge zusätzlicher Massenspeicher für Repliken integriert werden musste. Aufgrund der "Verkettung widriger Umstände" konnten letztlich 0,07 Prozent der EBS-Volumes in der betroffenen Availability Zone und draus resultierend 0,4 Prozent der Single-AZ-RDS-Datenbanken nicht vollständig wiederhergestellt werden. Zumindest für die RDS-Datenbanken gab es aber bei automatischem Backup (Default-Einstellung) die Option eines Point-in-Time-Restore.

Amazon will nun verschiedene Schritte unternehmen, um zu verhindern, dass ein ähnlicher Ausfall nochmals vorkommt. Dazu gehören neben einem Audit der Change-Prozesse vor allem technische Maßnahmen, um Software und Services fehlertoleranter zu machen. AWS-Kunden sollen künftig außerdem einfacher mehrere Availability Zones verwenden können. Ferner verspricht Amazon eine schnellere Recovery und last, but not least eine schnellere und ausführlichere Kommunikation bei Problemen.

Allen Kunden, die in der hauptsächlich betroffenenen Availability Zone in der US East Region ein EBS-Volume attached oder eine RDS-Datenbank laufen hatten, schreibt Amazon automatisch zehn Tage EBS-Volume-Nutzung unter Volllast gut.

"Zu guter Letzt wollen wir uns entschuldigen", schreibt das AWS-Team abschließend. "Wir wissen, wie wichtig unsere Services für die Geschäfte unserer Kunden sind, und wir werden alles tun was wir können, um aus diesem Vorfall zu lernen und unsere Dienste zu verbessern. Wie bei jedem größeren Betriebsproblem werden wir in den kommenden Tagen und Wochen viele Stunden damit verbringen, die Details der verschiedenen Teile dieser Panne noch besser zu verstehen und festzulegen, was wir verändern müssen, um unsere Services und Prozesse zu verbesern."