Cloud-Desaster

Die schlimmsten Ausfälle der Cloud-Frühzeit

11.08.2019 von JR Raphael
Mittlerweile ist die Cloud allgegenwärtig. Doch sie birgt Risiken. Die zehn größten Cloud-Ausfälle aus der frühen Phase der Cloud sind der Beweis dafür.
Foto: Blackboard - shutterstock.com

Als Konzept birgt die Cloud viele Vorteile. Sie können die eigenen selbst verwalteten Server links liegen lassen und neuen Speicher in der Cloud mieten. Jemand anderes kümmert sich um den Server und hält diese am Laufen. Sie können Ihre Daten dorthin verstauen, wo Sie wollen. Das hat viele Privatanwender und Unternehmen überzeugt, die Cloud und darauf basierende Dienste sind mittlerweile allgegenwärtig. Insbesondere der Smartphone- und Tablet-Boom wäre ohne Clouddienste unvorstellbar,Doch Cloud Computing bringt auch Nachteile mit sich. Wenn Sie sich nicht mehr um die Instandhaltung kümmern müssen, verlieren Sie gleichzeitig einen Teil der Kontrollmöglichkeiten. Und die Sicherheitsbedenken sind nicht zu verachten. Aber all dies ist nichts im Vergleich zum schlimmsten möglichen Szenario: Wenn der Cloud-Service nicht mehr verfügbar ist. Das mussten im November 2017 auch die Nutzer von Homematic IP erleben.

Blick zurück zum Gruseln

Wir führen Ihnen die Risiken, die durch die Abhängigkeit von der Cloud entstehen, vor Augen, indem wir die größten Cloud-Ausfälle aus der Zeit kurz nach 2010 noch einmal zusammenfassen. Denn damals war die Cloud noch längst nicht so selbstverständlich wie heute und trotzdem hatten die Cloud-Ausfälle teilweise schlimme Folgen für die Betroffenen. Um wie viel schlimmer dürften sich ähnliche Ausfälle also heute auswirken...Die schlimmen Folgen eines Ausfalls von Cloud-Diensten können Ihnen zum Beispiel die Unternehmen bestätigen, die vom Ausfall von Amazons Web Service im April 2011 betroffen war: "Wir waren ganz schön durch den Wind", sagt Nick Francis, dessen Start-Up-Unternehmen gerade eine Woche vor Amazons Problem gestartet war. "Wir waren darauf überhaupt nicht vorbereitet."

Francis war nicht der einzige, der überrascht wurde. Große US-Unternehmen wie Reddit und Foursquare sind ausgefallen, als Amazons Cloud gestört war.

"Die Cloud wurde als magisches Ding vermarktet, das arbeitet und völlig verlässlich ist", sagt Lew Moorman, der Hauptstratege bei Rackspace, einen Cloud-Provider, der bereits mehrere Ausfälle durchlebt hat. "Die Wahrheit ist, dass das Kaufen von IT-Leistungen über die Cloud nur einen anderen Weg des Kaufens darstellt. Und IT selbst ist von sich aus fehlerhaft. Wenn Sie sichergehen wollen, dass diese Fehler Ihnen nicht schaden, dann müssen Sie im Voraus planen."

Amazons Web Service (AWS)

Die Befreiung von der lästigen Netzwerk-Instandhaltungsarbeit ist das Hauptverkaufsargument für die Cloud. Und der Nachteil? Sie können nur tatenlos und hilflos zusehen, wenn die Änderung der Routine-Konfiguration des Cloud-Betreibers Ihre Daten vernichtet.

Genau das haben viele AWS-Kunden im letzten April 2011 am eigenen Leib erfahren, als Amazons im US-Bundesstaat Nord Virginia gelegenes Datenzentrum einer Störung zum Opfer fiel und komplett nutzlos wurde.

Der Fehler begann während einer Netzwerkaktualisierung, als eine falsch eingestellte Traffic-Schaltung ein Cluster von Amazon EBS (Elastic Block Store) Datenträgern in einen Wiederspiegelungssturm sandte. Just in dem Augenblick, als nach einer verfügbaren Box gesucht wurde, in der eine Sicherheitskopie der Daten abgelegt werden sollte, sind die Daten verloren gegangen.

Das ist zumindest die Kurz-Version. Amazons vollständige Erklärung fällt dagegen sehr lange aus.

Die Probleme bestanden für etwa vier Tage. Aber während viele Unternehmen ins Straucheln gerieten, überstanden andere Unternehmen wie Netflix diesen Sturm unbeschadet: "Wir verlassen uns lieber auf SimpleDB, S3 und Cassandra Services, die von dem Ausfall nicht betroffen waren", schrieben die Netflix-Entwickler in deren Blog-Eintrag über "Die Lehren, die Netflix aus dem AWS-Ausfall gezogen hat". Zustandslose Services und mehrere redundante aktuelle Kopien von Daten, die über mehrere zugängliche Zonen verteilt waren, seien der Schlüssel zum Erfolg gewesen. Nur so konnte Netflix dem Cloud-Ausfall von AWS entgehen.

Sie denken, dass Ihr Unternehmen so groß wie Netflix sein muss, damit es sicher sein kann? Dann denken Sie noch einmal nach. Twilio, ein Unternehmen, das Entwicklern dabei hilft Kommunikationslösungen in deren Web-Anwendungen zu integrieren, nutzte Amazons EC2, um den Großteil der Infrastruktur zu hosten. Dennoch hatte der Ausfall im April wenig bis keinen Einfluss auf dessen Stabilität.

"Wenn Sie sich auf eine Cloud einlassen, müssen Sie annehmen, dass das Netzwerk Störungen haben wird", sagt Evan Cooke, der Mitbegründer von Twilio. "Wir haben eine Infrastruktur um die Idee herum gebaut, dass der Hoster versagen kann und irgendwann versagen wird. Also haben wir uns nicht auf eine einzige Maschine oder eine einzelne Komponente in der Hauptarchitektur verlassen."

Screwup und Google Mail

Screwup

Smartphones machen es einfach, auch unterwegs auf Daten zuzugreifen. Doch was tun, wenn der dafür nötige Cloud-Dienst ausfällt? Wie bei Screwup, einem Partnerunternehmen von T-Mobile, der im Herbst 2009 versagt hat.

Das zu Microsoft gehörende Partnerunternehmen war etwa eine Woche lang außer Gefecht gesetzt und ließ die Nutzer ohne Zugriff auf E-Mails, Kalenderinformationen und andere persönliche Daten. Dann hat Microsoft zugegeben, dass alle in der Cloud gespeicherten Daten verloren gegangen sind. Und sich nicht wiederherstellen ließen. Offensichtlich hatten die Leute bei Redmond vergessen Backups zu erstellen.

Es mag sein, dass sich die Technik in der Zwischenzeit verbessert hat, aber die Lehre daraus bleibt bestehen: Wenn es um wichtige Daten geht, sollten Sie sich niemals auf andere verlassen. Nehmen Sie nicht an, dass jemand anderes diese für Sie automatisch beschützt.

Google Mail

Von allen Cloud-Services dürfte Google Mail der bekannteste sein. Ersetzen Sie Ihre wartungsaufwändigen Exchange-Server durch einen günstigen, verlässlichen E-Mail-Service, der von Postini gesichert wird. Was gibt es daran nicht zu mögen?

Die Antwort: Bei einem Ausfall 2011 waren 150.000 Google Mail-Kunden betroffen. Als diese sich bei ihrem Benutzerkonto angemeldet haben, haben sie nur leere Seiten vorgefunden. Keine E-Mails, Ordner, nichts persönliches war mehr vorhanden. Wir müssen zu Gunsten von Google erwähnen, dass sie regelmäßige Aktualisierungen geliefert haben und versprochen hatten das Problem schnell zu lösen. Aber die Reparaturen dauerten bei manchen betroffenen Nutzern bis zu vier Tage lang.

"Wie konnte das passieren, wir hatten doch mehrere Kopien von Ihren Daten, in unterschiedlichen Datenzentren gespeichert?" Das hat sich Googles Vize-Präsident für Engineering Ben Treynor in einem Blog zu der Zeit gefragt. "Unter manchen seltenen Umständen können Softwarefehler mehrere Kopien der Daten betreffen. Genau dies ist in dem Fall geschehen."

Letztendlich musste Google physikalische Sicherungen verwenden, um die Daten wiederherzustellen. Zu guter Letzt hat das mehrstufige Datensicherungssystem funktioniert, aber dennoch waren tausende von Nutzern tagelang ohne ihre E-Mails.

Denken Sie also jetzt an Sicherheitskopien und Offline-Zugriffsmöglichkeiten . Denn wenn Sie diese brauchen könnte es bereits zu spät sein.

"Wenn Sie den Durchschnitt betrachten, dann ist es wahrscheinlicher, dass die Daten in der Cloud wiederherstellt werden, als wenn der Vorfall bei einer Einzelperson passiert wäre", sagt Ken Godskind von AlertSite. "Es ist nur so, das Fehlschläge im Web wesentlich größere Auswirkungen haben. Es sind automatisch wesentlich mehr Menschen betroffen."

Hotmail, Intuit und Microsoft BPOS

Hotmail

Auch Microsoft hat nicht immer die beste Werbung für die Cloud gemacht. Das mussten die Benutzer vonMicrosofts Hotmail-Service erfahren. Zehntausende von Kunden hatten Ende 2010 nur noch leere Posteingänge aufgrund von Datenbanken-Fehlern.

Der Fehler kam laut Microsoft von einem Script, das eigentlich Test-Benutzerkonten, die für automatische Tests erstellt wurden, löschen sollte. Das Skript hat jedoch fälschlicherweise stattdessen 17.000 echte Benutzerkonten getroffen.

Es dauerte drei Tage, bis Microsoft seinen Dienst für die meisten der Betroffenen Nutzer wiederherstellen konnte. Es gab jedoch immer noch acht Prozent von Betroffenen, die weitere drei Tage warten mussten, bis deren Daten wieder zugänglich waren.

Intuit

Bei Inuit kam es aufgrund eines unfertigen Patches gleich zwei Mal innerhalb eines Monats zum Ausfall der Cloud-Services. Davon waren bekannte Plattformen wie TurboTax, Quicken und QuickBooks betroffen. Der schlimmste Vorfall war ein 36-stündiger Ausfall im Juni. Ein Stromausfall führte dazu, dass alles drunter und drüber ging. Das primäre System des Unternehmens fiel aus und auch die Backup-Systeme waren vollständig vom Netz getrennt. Ein paar Wochen später traf ein weiterer Stromausfall Intuit."Die Wahrheit ist, dass es bessere Lösungen gibt als eine einzelne Cloud, wenn Sie absolute Verlässlichkeit benötigen", sagt Chris Whitener, der Chef-Stratege des Secure Advantage Programms bei HP. "Es ist nicht notwendig, dass Sie von allem Kopien besitzen, aber von den wichtigen Dateien sollten Sie Sicherungen anfertigen. Dies kann Ihnen viel Ärger ersparen."

Microsoft BPOS

Es ist schwierig produktiv zu sein, wenn Ihr Cloud-basiertes Office-Paket nicht erreichbar ist. Genau das ist vor ein paar Wochen Unternehmen passiert, die sich auf Microsofts Business-Cloud-Service verlassen haben: Der Service, der Microsoft Business Productivity Online Standard (BPOS) Suite genannt wurde, geriet um den 10. Mai 2011 ins stottern. Als Folge dessen kamen E-Mails bei den zahlenden Kunden mit bis zu neun Stunden Verspätung an.

Zwei Tage später, gerade als es so aussah, als hätte sich BPOS wieder gefangen, kam es erneut zu Verzögerungen. Desweiteren waren nun auch die von Kunden versandten E-Mails von dem Problem betroffen. Als wenn das nicht genug wäre, kam noch ein separates Problem hinzu, das verhinderte, dass sich die Nutzer in das webbasierte Outlook einloggen konnten.

"Ich möchte mich bei Ihnen, unseren Kunden und Partnern, für die Unannehmlichkeiten, die diese Probleme bereitet haben, entschuldigen", hat Dave Thompson, der Vize-Präsident bei Microsoft Online Services in einem Blog geschrieben.

Salesforce und Terremark

Salesforce

Das Datenzentrum von Salesforce.com war im Januar 2011 nicht erreichbar. Das Jahr war gerade vier Tage jung, als Salesforce.com vom Versagen auf ganzer Linie berichtete. Die Services und Backups waren hinüber. "In Wirklichkeit gehen auch Cloud-basierte Datenzentren kaputt", sagt Tin Crawford, der Leiter der Technologieabteilung bei All Covered, einer Abteilung von Konica Minolta. "Das war schon immer der Fall und das wird auch immer der Fall bleiben. Wir müssen das Ganze realistisch betrachten"

Crawford sagt, dass erfolgreiche Cloud-IT eine andere Herangehensweise benötigt als eine traditionellen Server-Archtitektur: Es liegt an Ihnen, meint er, zu entscheiden, ob Ihre Unternehmens eine kurzzeitige Nicht-Erreichbarkeit der Daten verkraftet. Falls dies nicht der Fall sein sollte, sollten Sie sicherstellen, dass Ihre Konfiguration so gewählt wurde, dass dieser Fall nicht eintritt.

"Sie sollten prüfen, ob der Cloud-Provider in der Lage ist eine höhere Redundanz zu bieten, als Sie und Ihr Unternehmen allein dazu in der Lage wären", sagt Crawford. "Wenn die Antwort nein lautet, warum nutzen Sie dieses Unternehmen dann?"

Terremark

Das Glück wandte sich von Terremark am 17. März 2010 ab. Der Cloud-Dienst namens vCloud Express stürzte an diesem Tag ab, zusammen mit einem in Miami ansässigen Datenzentrum. Beide waren für etwa sieben Stunden nicht erreichbar. Die Nutzer konnten die ganze Zeit über nicht auf die dort gespeicherten Daten zugreifen.

Auch hier wird die Notwendigkeit von Redundanz deutlich. Wenn Sie Ihre wichtigen Daten auf mehreren Servern in unterschiedlichen Datenzentren, oder noch besser in unterschiedlichen Regionen, gespeichert haben, sind Sie gut beraten worden. Sie können sogar noch eine weitere Sicherheitsvorkehrung treffen und die Daten bei mehreren Anbietern sichern.

"Sie können eine Vielzahl von Providern aussuchen, um Ihre Arbeit zu sichern. Einen oder zwei als Sicherung und einen als Primär-Anbieter", schlägt Harold Moss, der Leiter der Technologieabteilung des IBMs Cloud Security Strategy Programms. "Sie können dann Ihre Arbeit bei den Unternehmen sichern und sich auf andere Dinge konzentrieren."

PayPal und Rackspace

PayPal

Sie wollen ein Beispiel für einen Ausfall mit wirklich weitreichenden Folgen? Dann probieren Sie doch PayPal für ein paar Stunden offline aus.

Das ist keine hypothetische Übung: PayPal ist wirklich im Sommer 2009 ausgefallen und hat Millionen von Händlern in der ganzen Welt im Stich gelassen. Sie hatten keine Möglichkeit, Waren zu verkaufen. Der Service war für etwa eine Stunde überhaupt nicht zugänglich und blieb für mehrere Stunden fehleranfällig. PayPal behauptet, dass dies an der Hardware gelegen habe.

Rackspace

Rackspace erlitt im Mal 2009 vier gravierende Ausfälle. Deshalb waren die Webseiten der Kunden insgesamt mehrere Stunden lang nicht erreichbar. Einer der Ausfälle war so schlimm, dass Rackspace etwa 2 Millionen Euro Schadensersatz an seine Kunden zahlen musste.

Rackspace hat die Ausfälle als "schmerzhaft und sehr enttäuschend" beschrieben und hat anschließend versprochen "für lange Zeit auf einem hohen Niveau zu arbeiten". "Wenn Sie geografische Redundanz haben wollen, ist es heutzutage einfacher, als es früher der Fall war. Aber dennoch müssen Sie die notwendigen Schritte dafür einleiten", sagt Lew Moorman von Rackspace. "Die Cloud hat keine Schwächen, die nicht schon zuvor bei den unternehmenseigenen Servern vorhanden waren."

Wenn Sie all dies berücksichtigen, dann ist die wohlmöglich größte Lektion, die Sie hier gelernt haben können, dass ein einziger Service, Datenzentrum oder Server, keine 100 Prozentige Verlässlichkeit bieten kann. Auch wenn Sie Ihre Daten in der Cloud speichern, sollten Sie auf dem Boden der Tatsachen bleiben und immer an einen Ausfall denken. (PC-Welt)