IT-Ausfallzeiten minimieren

Die besten Tipps - so vermeiden Sie Ausfälle von Server-Anwendungen

13.01.2016 von Patrick-Steeven Skwara

Nicht alle Unternehmen haben ihre Server-Räume oder Rechenzentren auf einen möglichen Ausfall oder Störfall vorbereitet. Unsere Tipps helfen Ihnen, Systemausfälle zu vermeiden und drohenden Datenverlust vorzubeugen.

Stillstand, offline, nicht erreichbar, Fehler, Absturz, Ausfall, Unterbrechung, Störung: Eine Menge negativer Begriffe werden mit dem Begriff "Ausfallzeit" assoziiert und stellen eine Bedrohung der Verfügbarkeit von Server-Anwendungen dar. Ein Imageschaden und finanzielle Einbußen können mögliche Folgen sein - auch weil Kunden solche Ausfälle nicht hinnehmen und sich entscheiden, zur Konkurrenz zu wechseln. Dieser Risiken sind sich viele Unternehmen, besonders Mittelständler, kaum, gar nicht oder nicht genügend bewusst - und das obwohl jeder erwartet, dass betriebliche Prozesse stets reibungslos ablaufen.

Risiken von Ausfallzeiten ernst nehmen und handeln

Maßnahmen, um diesen Ausfallzeiten vorzubeugen, werden noch immer vernachlässigt, "es läuft doch im Großen und Ganzen" wird oft gesagt. Eins aber ist klar: Im Zeitalter von Big Data, Industrie 4.0 und Always-On reicht Verfügbarkeit "im Großen und Ganzen" einfach nicht mehr aus.

IT-Sicherheit

Die 10 größten Security-Risiken in der Cloud
Lesen Sie, welche Security-Risiken der Einsatz einer Public oder Hybrid Cloud birgt und was Sie dagegen tun können.

Verletzung der Vertraulichkeit und Integrität der Daten:
Eine Lokalisierung der Daten ist in einer Public oder Hybrid Cloud für den Dateneigentümer nicht mehr einfach möglich. Daher ist der Schutz der Daten auf der Infrastruktur-, Plattform und Applikationsebene häufig nicht mehr mit üblichen Mitteln zu gewährleisten.

Löschung von Daten:
Daten müssen in vielen Fällen (etwa aufgrund gesetzlicher Bestimmungen) gelöscht werden. Auch hier besteht das Risiko einer nur unzureichenden oder unvollständigen Löschung auf allen Plattformen und Datenbanken der Cloud, da die Lokalisierung der Daten nur schwer möglich ist.

Ungenügende Mandantentrennung:
Bei nicht ausreichend abgesicherter Mandantentrennung besteht die Gefahr, dass Dritte unautorisiert Daten einsehen oder manipulieren können.

Verletzung der Compliance:
Da Daten in einer Public Cloud prinzipiell in allen Ländern der Welt in deren spezifischen Rechtsordnungen verarbeitet werden können, ist die Erfüllung aller gesetzlicher Anforderungen eine wesentliche Aufgabe bei der Nutzung von Public Cloud Leistungen.

Verletzung von Datenschutzgesetzen:
Es ist nicht von vornherein klar, in welchen Ländern, Rechenzentren, auf welchen Servern und mit welcher Software die Daten gespeichert und verarbeitet werden.

Insolvenz des Providers:
Die Insolvenz eines Providers bedeutet meist nicht die Insolvenz aller Rechenzentren, die der Provider verwendet hat. Rechenzentren werden zudem bei Insolvenz mit großer Wahrscheinlichkeit an andere Provider verkauft werden.

Problematik der Subunternehmer:
Ein weiteres Problem stellt die Auftragsweitergabe an Subunternehmer dar. Der Provider wird häufig Subunternehmer für gewisse Leistungen verpflichten. In einer Public Cloud bleibt auch diese Komplexität dem Benutzer häufig verborgen (und soll ja nach der Philosophie des Cloud Computing verborgen bleiben).

Beschlagnahmung von Hardware:
Eine Beschlagnahme von Hardware kann in allen Ländern erfolgen, in denen der Provider Computing-Ressourcen nutzt. Meist werden sich Daten des Auftraggebers auf beschlagnahmten Servern befinden.

Handel mit Ressourcen wird denkbar:
Denkbar ist auch, dass Provider einen Handel mit ihren Ressourcen untereinander aufbauen und damit eine "Ressourcenbörse" realisieren wie sie in obiger Abbildung angedeutet ist. Auf dieser Börse werden Ressourcen zu einem bestimmten Preis angeboten.

Erpressungsversuche:
Die Gefahr von Erpressungsversuchen steigt, da der Personenkreis mit Administrationsaufgaben für Ressourcen der Public Cloud unüberschaubar groß ist. Das eingesetzte Personal verfügt im Allgemeinen über unterschiedliches Ausbildungsniveau und Sicherheitsbewusstsein.

Verfügbarkeitsoptionen kennen und unterscheiden

Wie wichtig Verfügbarkeit ist, lässt sich an den folgenden Zahlen demonstrieren: Eine HP-Studie von 2013 belegt, dass in mittelständischen Unternehmen in Deutschland durch Ausfälle jährlich 380.000 Euro Kosten pro Jahr entstanden. Laut EMC ist der finanzielle Schaden für 2014 sogar noch größer: 2014 haben Unternehmen in Deutschland wegen "Downtime" Verluste von zusammengerechnet 11,6 Milliarden Euro hinnehmen müssen. Ausfallkosten sind natürlich auch von der Branche abhängig, weshalb Unternehmen bei der Auswahl von Verfügbarkeitslösungen genau hinschauen müssen.

Bei den Verfügbarkeitsoptionen wird zwischen "gut", "besser" und "optimal" unterschieden: Als gut gilt die Standardverfügbarkeit (99% Verfügbarkeit, durchschnittlich 87,5 Stunden Ausfall pro Jahr). Hier kommen in der Regel zuverlässige x86-Einzelserver mit redundanten Lüftern, redundanter Stromversorgung und gespiegeltem Speicher zum Einsatz. Sie bieten aber keinerlei Sicherheit bei der Datenübertragung. Besser ist da schon eine Datenreplikationssoftware: Damit werden Daten synchron oder asynchron von einem oder mehreren Ausgangsservern auf einen Zielserver repliziert. Der Nachteil ist, dass es bei einem Ausfall keine Garantie dafür gibt, dass der Betrieb sofort wieder aufgenommen wird. Noch besser einzuschätzen ist die Hochverfügbarkeit (99,9%, 8,75 Stunden Ausfall pro Jahr), optimal die ständige Verfügbarkeit bzw. eine Always-On-Lösung (99,99%, 52 Minuten Ausfall pro Jahr und bis zu 99,9999%, 1-5 Minuten Ausfall pro Jahr).

Kostenkontrolle: Beispielrechnung für die Server-Verfügbarkeit.
Foto: Adacor

Die Ständige Verfügbarkeit ist das höchste Level der Verfügbarkeit und bietet den größten Schutz vor Ausfällen. Zu dieser Lösung gehören zwei vollständig redundante Server sowie Software zur permanenten Überwachung der Systemkomponenten.

Grundsätzlich ist zwischen Hochverfügbarkeitssoftware und einer Cluster-Lösung zu unterscheiden. Bei der Software-Lösung beträgt die Ausfallzeit weniger als eine Stunde pro Jahr, bei Hochverfügbarkeits-Clustern hingegen fast neun Stunden. Auch ist deren Grund-Ansatz verschieden: Das Cluster zielt auf eine möglichst schnelle Wiederherstellung nach einem Systemausfall ab, die Software hingegen kann Ausfallzeiten und Datenverluste automatisch erkennen und Fehler melden, bevor sie das gesamte System betreffen. Bei einer Clusterlösung bedarf es für die Entwicklung des dafür nötigen Failover-Scripts zudem ausreichender Fachkenntnisse, die bei einer Software nicht notwendig sind.

Den gewünschten Grad an Verfügbarkeit festlegen

Unterschiedliche Szenarien brauchen unterschiedliche Verfügbarkeitsniveaus. Wie entscheiden Sie, welches Level an Verfügbarkeit für Ihr Unternehmen das richtige ist? Dazu sollten Sie sich zunächst einmal die Frage stellen, wie viel Ausfallzeit Sie in Kauf nehmen können. Dabei gilt es, hinsichtlich der Wichtigkeit Ihrer Daten zu priorisieren und festzulegen, welche Daten geschäftskritisch sind, um dafür die adäquate Verfügbarkeitslösung zu wählen.

Für jede Anwendung, bei der mit sensiblen Daten gehandelt wird und beispielweise eine Rundum-Überwachung (Gebäudemanagement von Banken oder Versicherungen) zu den Compliance-Richtlinien des Unternehmens zählen, ist eine Always-On-Lösung unabdingbar. Folgendes Beispiel aus dem Bankensektor verdeutlicht das: Stellen Sie sich vor, Sie können eine Zahlung nicht fristgerecht leisten, weil das Online-Banking ausgefallen ist. Dies kostet Sie nicht nur Mahngebühren, sondern bedeutet unter Umständen auch einen Image-Verlust und eine Abstufung der Kreditwürdigkeit. Aber auch weniger sensible Geschäftsbereiche können auch nur von kurzen Ausfallzeiten betroffen sein.

SLA

Checkliste Cloud-SLAs
Um zu beurteilen, ob ein Cloud-Provider kundenfreundliche SLAs anbietet, lassen sich folgende Kriterien anlegen und überprüfen:

Punkt 1:
Kurze und klare Gestaltung von Inhalt, Struktur und Formulierung.

Punkt 2:
Version in der Landessprache des Kunden.

Punkt 3:
Klare Definitionen von Fach- und Produktbegriffen zu Beginn.

Punkt 4:
Detaillierte Ankündigung und Planung der Wartungsfenster (Beispiel: "Viermal im Jahr an vorangemeldeten Wochenenden").

Punkt 5:
Leistungsbeschreibung in Tabellenform (Übersicht!).

Punkt 6:
Klar definierte Bereitstellungszeiträume für neue Ressourcen (Beispiele: Bereitstellung virtueller Server bei Managed Cloud in maximal vier Stunden; Bereitstellung kompletter Umgebungen oder dedizierter Server in fünf bis zehn Tagen).

Punkt 7:
Bereitstellung von klar abgegrenzten Konfigurationsoptionen für Ressourcen (Beispiel: Konfiguration von Servern nach Gigahertz, Gigabyte).

Punkt 8:
Einfach unterscheidbare Service-Levels (Beispiel: Silber, Gold, Platin); Abgrenzungskriterien können sein: Verfügbarkeit, Bereitstellungszeiten, fest reservierte Kapazitäten ja/nein, Support-Level (Telefon, E-Mail).

Punkt 9:
Bei IaaS-Angeboten unbedingt auf Netzwerk-Konfigurationsmöglichkeiten und Bandbreite achten (Volumen? Im Preis inkludiert ja/nein?).

Punkt 10:
Kundenfreundlicher Reporting- beziehungsweise Gutschriftenprozess (am besten aktive Gutschriften auf Kundenkonto; kein bürokratischer, schriftlicher Prozess; möglichst einfache Beweis- und Nachweispflicht für Kunden).

Punkt 11:
Reaktionszeiten und Serviceverfügbarkeit klar beschreiben (zentrale Hotline; Reaktionszeiten auf Incidents in Stunden).

Punkt 12:
Nennung der Rechenzentrumsstandorte mit Adresse und sonstigen Informationen wie Zertifizierungen und Tier.

Punkt 13:
Definition der Verfügbarkeiten: Unterschiede hinsichtlich Verfügbarkeit Server/VM und Verfügbarkeit Admin-Konsole definieren.

Punkt 14:
Erläuterung zu Möglichkeiten der SLA-Überwachung beziehungsweise des Incident-Reportings für den Anwender (Beispiel: Link auf Monitoring-Dashboard).

Sind Sie beispielsweise Betreiber eines Online-Shopping Portals, kann der Ausfall Ihrer Webseite dazu führen, dass Sie Kunden und damit wichtige Einnahmen verlieren. Ein prominentes Beispiel ist Amazon. Serverausfälle legten im vorletzten Jahr mehrfach die Webseite beziehungsweise Cloud-Dienste des E-Commerce-Riesen lahm, weshalb Kunden Bestellvorgänge nicht abschließen konnten. Von diesem Ausfall betroffen waren auch in der Cloud gehostete Plattformen wie Instagram.

Besser ist es daher, vorzusorgen und Ausfälle von vornherein auszuschließen. Dafür ist eine Hochverfügbarkeitslösung der einfachste und sicherste Weg.

Mit hochverfügbaren Servern Zeit und Kosten sparen

Mit der richtigen Verfügbarkeitslösung lassen sich die oben beschriebenen Probleme ausschließen beziehungsweise auf ein Minimum beschränken. Umgekehrt lassen sich natürlich auch Kosten senken, denn Geschäftsausfälle, Produktionseinbußen, Entschädigungszahlungen für verloren gegangene Daten oder Vertragsstrafen gehören der Vergangenheit an. Auch sinken die Gesamtbetriebskosten denn es fallen - anders als bei Cluster-Lösungen -keinerlei Kosten für die Betriebssystem-Lizenzen oder separate Festplatten-Arrays oder Speichernetzwerke mehr an.

Auch der relativ hohe Zeitaufwand für IT-Personal bei der Konzipierung, Konfiguration und Verwaltung eines Hochverfügbarkeits-Clusters kann eingespart werden, denn die Software ist so konzipiert, dass sie sich selbst konfigurieren und verwalten kann.

Der Vorteil einer Software-basierten beziehungsweise Software-definierten Hochverfügbarkeitslösung ist, dass alle Systemkomponenten permanent überwacht, Fehler schon frühzeitig erkannt und dadurch Ausfallzeiten, Datenverluste oder Betriebsunterbrechungen vermieden werden. Die fehlertoleranten Serversysteme sind ferner für die Ausführung von VMware in einer virtualisierten Umgebung geeignet.

Das muss man bei Anwendungen in der Cloud beachten

Virtualisierung und Cloud haben einiges gemeinsam, sind aber nicht identisch. Virtualisierung meint eine Software, mit der viele Anwendungen auf einem Server, also Hardware, ausgeführt werden können. Beim Cloud-Computing hingegen handelt es sich um einen Dienst, der auf Virtualisierung angewiesen ist. Ein Cloud-Anbieter kann seinen Kunden gemeinsam genutzte Rechenressourcen anbieten, weil dessen riesige Rechenzentren voll mit virtualisierten Servern sind.

Der Trend, immer mehr Anwendungen in die Cloud zu verlagern, birgt aber einen entscheidenden Nachteil: Die Verfügbarkeit ist nicht immer garantiert. Damit die Sicherheit der Daten gewährleistet bleibt, müssen Unternehmen auch hier über eine passende Verfügbarkeitslösung nachdenken. Bislang gibt es auf dem Markt noch keine solche Lösung, aber entsprechende Unternehmen arbeiten bereits an einer Managementplattformen, mit der es möglich sein wird, für jede Anwendung in der Cloud das passende Level an Verfügbarkeit zu wählen. Damit können Unternehmen selbst entscheiden, zu welchem Zeitpunkt Ihre Anwendung "hochverfügbar" sein muss (beispielsweise in der Vorweihnachtszeit) und zu welchem sie im Status "verfügbar" laufen kann. (hal)