Business Continuity und Disaster Recovery

Vier kritische Fragen an einen Kommunikationsdienstleister

Gerald Rubant ist Experte für Daten-, Video- und Internetdienste. Als Director Sales Enterprise Business DACH bei Level 3 Communications hat er unter anderem die Verantwortung für die strategische Positionierung der Level 3 Enterprise-Services in dieser Region. Seit über 18 Jahren ist er in führenden  Vertriebspositionen in renommierten Kommunikationsunternehmen tätig und hat einen Universitätsabschluss in Wirtschaftswissenschaften.
Es gibt Versicherungen für die Erfüllung von Verträgen, die Verletzungen von Hochleistungssportlern und natürlich für Urlaubsreisen. Geht es aber um die Unternehmens-IT, wird es komplizierter.
Für wie ausfallsicher ein Anbieter seine Technik hält, wird erst anhand eines Service Level Agreement (SLA) sichtbar.
Für wie ausfallsicher ein Anbieter seine Technik hält, wird erst anhand eines Service Level Agreement (SLA) sichtbar.
Foto: fotomek, Fotolia.com

Bei den IT-Prozessen und -Systemen sind die Ausfallrisiken für Unternehmen groß und die Komplexität erschwert deren Qualifizierung. Unternehmen bleibt hier nur die Möglichkeit, ihre Interessen so gut wie möglich zu wahren.
Dies führte in der Vergangenheit zum strategischen Modell der "Business Continuity and Disaster Recovery" (BCDR)-Planung, einer Art "Selbstversicherung" gegen den Ausfall von IT-Diensten und mehr. Am Anfang steht dabei eine eingehende Risikoanalyse zur Ermittlung angemessener Maßnahmen, anschließend werden die ermittelten Risiken so effektiv wie möglich minimiert.

Zwei Begriffe spielen hierbei eine wichtige Rolle:

Business Continuity

Business Continuity (BC) bezieht sich auf Strategien und Prozesse, die im Fall einer Naturkatastrophe oder menschlichen Versagens die Wiederherstellung oder Aufrechterhaltung elementarer Dienste gewährleisten. Für einen effektiven BC-Plan bedarf es zunächst einer Untersuchung der IT-Ressourcen und -Prozesse in Bezug auf geschäftliche Relevanz: sind sie geschäftskritisch, wichtig oder marginal? Der Ausfall einer Anwendung an der Kasse einer Cafeteria hat beispielsweise geringe geschäftliche Auswirkungen. Der Ausfall einer Unternehmenswebseite ist hingegen meistens kritisch. Entsprechend des ermittelten Risikoniveaus gilt es, Sicherheitsmaßnahmen zum Schutz des jeweiligen Elements zu finden, zu testen und einzuführen.

Bei einigen Systemen stellen Ausfälle signifikante Verluste dar. Andere wiederum, obwohl auch geschäftskritisch, können nach dem Umschalten auf einen Backup-Server mit minimalen Verzögerungen Ausfälle kompensieren. Mit anderen Worten: Einige Systeme dürfen niemals ausfallen und andere müssen wiederhergestellt werden können. Dabei ist die Herausforderung nicht die Risikoklassifizierung, sondern das Finden effektiver Schutzmaßnahmen.

Zur Sicherung der Verfügbarkeit von IT-Diensten gibt es viele Möglichkeiten. Anwendungen verfügen häufig über integrierte Absicherungen gegen bestimmte Arten von Ausfällen. Für komplexere Systeme müssen diese meist eigens entwickelt und implementiert werden.

Disaster Recovery

Selbst bei vorbildlichen Business-Recovery-Plänen und idealer Umsetzung kommt es zu Ausfällen. Für diesen Fall dient die zweite Phase des IT-Risikomanagements: die Disaster Recovery (DR), eine Wiederherstellung des Systems. Die Ursachen für einen Systemausfall sind vielfältig, entsprechend enthalten DR-Pläne häufig Mehrfachabsicherungen. Für den Schutz eines unternehmenskritischen Systems kann zum Beispiel die gleichzeitige Verwendung von einem RAID-Speicher-Array, lokalen Mirrorings und nächtlichen Off-Site-Backups sinnvoll sein. Die meisten Wiederherstellungsstrategien verwenden logische oder physische Mehrfachabsicherungen.

Wiederherstellungstechniken und -Strategien sind so vielfältig wie die Katastrophenszenarien, für die sie entwickelt werden. Neue Technologien sorgen für verkürzte Wiederherstellungszeiten und helfen bei der Risikominimierung. Ob redundante Server oder robuste Rechenzentren, Unternehmen haben viele Möglichkeiten, ihre Risiken zu minimieren.

Cloud Computing revolutioniert derzeit die Wiederherstellungstechnik. Durch Virtualisierung können Unternehmen sowohl logisch als auch physisch vielfältige Wiederherstellungsoptionen in der Cloud anlegen. Die Virtualisierung verändert die Disaster Recovery grundlegend und fügt dem Thema eine umfangreiche Komplexitätsebene hinzu. Cloud-Lösungen sind einfacher zu implementieren, werfen ihrerseits jedoch BCDR-relevante Fragen auf. Dabei verweisen sie auf die Wichtigkeit eines oft als selbstverständlich geltenden Elements: des zugrundeliegenden Netzwerks.

DIE ROLLE DES KOMMUNIKATIONSNETZES

Jeder BCDR-Plan stützt sich zu einem gewissen Grad auf das Netzwerk. Denn ob Sie redundante Disk-Arrays über ein lokales Netzwerk (LAN) anbinden oder Off-Site-Cloud-Speicher über ein High-Speed-Speichernetzwerk (SAN) verwenden, dem Kommunikationsmedium kommt eine zentrale Rolle zu.

Die Anbindung ans Außennetz wird beim Netzwerkdesign und der Disaster Recovery häufig übersehen. Viele Unternehmen sind abhängig von der Kommunikation mit Zulieferern, dem Vertrieb und anderen Unternehmensstandorten. Wenn zum Beispiel ein Sturm den Gebäudekomplex am Ende der Straße, durch den die Netzwerkleitungen verlaufen, zerstört, können die Auswirkungen fatal sein.

Vier kritische Fragen

Aus kommunikationstechnischer Sicht ist das Verhindern von häufigen Fehlern eine Frage der Kompetenz und des Verantwortungsbewusstseins des Carriers. Ein Unternehmen sollte also dem Anbieter seiner Wahl gezielte Fragen stellen:

Frage 1: Kann die physische Routenvielfalt demonstriert werden?

Die Routenvielfalt ist ein zentraler Aspekt. Die Möglichkeiten der physischen Verbindung zwischen zwei Punkten sind begrenzt. Sie sind Gegenstand des Wegerechts, und auch wenn die Verbindungsmöglichkeiten zwischen zwei Städten unendlich scheinen mögen, befinden sich dazwischen häufig nur drei oder vier Trassen zur Datenübertragung.

Dazu kommt, dass nur wenige Anbieter ihre eigenen Glasfaserleitungen verlegen. Die meisten mieten oder kaufen Übertragungsrechte. Wer besitzt und wer mietet, wird dabei häufig nicht transparent gemacht.

Zur Sicherung der Unternehmenskommunikation reicht es deshalb oft nicht, Netzwerkdienstleistungen bei zwei unterschiedlichen Anbietern gleichzeitig zu beziehen, denn der eine könnte die Leitung des anderen mitverwenden. Es muss sichergestellt werden, dass es sich um physisch separate Kommunikationswege handelt. Dies kann unter Umständen auch ein einzelner Anbieter gewährleisten. Die Information ist elementar für den BCDR-Plan.

Frage 2: Wie sind die Rechenzentren bezüglich Stromversorgung, Sicherheit, Kühlung und Verbindungsvielfalt ausgestattet?

Carrier-Rechenzentren (RZ) beziehungsweise Kommunikationszentralen sind eine weitere potenzielle Fehlerquelle. Das RZ beherbergt die Geräte zur Bereitstellung der Kommunikationsdienste. Ob VoIP-, Daten- oder Videoübertragung, die Geräte benötigen einen sicheren Ort mit ausreichend Platz, abgesicherter Stromversorgung und ausreichender Kühlung.

Wie können Unternehmen herausfinden, ob ein RZ die Anforderungen der Carrier-Klasse erfüllt?

• Redundante Stromversorgung
RZ können mehrere Stromleitungen mit separaten Wegen zum Hauptstromnetz verwenden. Mehrfache Stromleitungen innerhalb eines Gebäudes sollten durch USV und einen Generator abgesichert sein.

• Physische Sicherheit
Physische Sicherheit schützt Ausrüstung vor unautorisiertem Zugriff. RZ sollten mehrere Ebenen der Zugangssicherung verwenden, zum Beispiel separate Sicherheitsbereiche und anbieterspezifische Zugänge.

• Belastbare Kühlsysteme
Hochzuverlässige, gut konstruierte Kühlsysteme sind für Netzwerk-RZ unerlässlich.

• Redundanz
Anbieter verwenden nicht nur gemeinsame Trassen, sondern auch RZ-Kapazitäten. Separate Netzwerkressourcen der Anbieter sind auch hier nicht selbstverständlich. Werden eigene RZ oder gemietete Einrichtungen verwendet? Routenvielfalt innerhalb eines RZ ist ein weiterer wichtiger Punkt. Separate physische Pfade können innerhalb eines RZ in eine gemeinsame Leitung münden. RZ mit mehrfachen Anschlüssen, Abzweigungen und Gebäudeausgängen minimieren das Risiko von Ausfällen.

Frage 3: Wird Kommunikationstechnik der Netzbetreiber verwendet?
Es besteht ein enormer Unterschied zwischen Kommunikationstechnik der Unternehmen und der Carrier. Großunternehmen und Kommunikationsdienstleister mögen in ihren Rechenzentren über Gigabyte-Router mit vergleichbaren Leistungsdaten verfügen, aber dort hören die Gemeinsamkeiten oft auch schon auf. Bei Kommunikationstechnik der Carrier-Klasse kommen meist redundante Stromanschlüsse und Hardware zum Einsatz. Typischerweise ist die Carrier-Klasse auch auf Verwendung in speziell geschützten Gebäuden und bei extremen Betriebsbedingungen ausgelegt.

Technik der Carrier-Klasse ist bei professionellen Anbietern keine Selbstverständlichkeit, denn auch die Enterprise-Klasse kann einen zuverlässigen Netzbetrieb gewährleisten. Der störungsfreie Betrieb wird hier in den meisten Fällen aber nicht vertraglich garantiert werden können. Für wie ausfallsicher ein Anbieter seine Technik hält, wird erst anhand eines Service Level Agreement (SLA) sichtbar.

Sollte kein SLA für die Verfügbarkeit von Diensten ausgestellt werden können oder das Dokument nur bestes Bemühen ohne Risikoübernahme ausdrücken, ist es ratsam, das Angebot des Dienstleisters hinsichtlich der geschäftlichen Implikationen zu überdenken.

Frage 4: Deckt das SLA die Dienste Ende-zu-Ende ab?

Ausfallsicherung und Fehlertoleranz werden in der Kommunikationstechnik auf unterschiedliche Arten realisiert. Einige Technologien verzichten sogar vollständig darauf, da es teurer sein kann, eine verlorene Information wiederherzustellen, als den Schaden hinzunehmen. Optische Übertragungssysteme verfügen in der Regel über Mechanismen zur sofortigen Fehlerbehebung.

Technische Einzelheiten können hilfreich bei der Entscheidungsfindung sein, es bedarf jedoch keines Fachmannes, um die Stärken und Schwächen eines Systems in Bezug auf die BCDR-Planung zu erkennen. Die Lösung ist einfach: das SLA aufmerksam durchlesen.

Die wichtigste Kenngröße eines SLA ist die Netzwerkverfügbarkeit. Kunden sollten verstehen, was eine Verfügbarkeitsspezifikation ist und wie sie sich zusammensetzt. Deckt sie den gesamten Kommunikationsweg ab oder nur den Kernbereich des Carrier-Netzwerks? Die besten SLAs decken den gesamten Kommunikationsweg von Ende zu Ende ab. (bw)