Ratgeber: Disaster-Recovery-Verfahren

06.09.2007
Von 
Dipl. Inform. Johann Baumeister blickt auf über 25 Jahre Erfahrung im Bereich Softwareentwicklung sowie Rollout und Management von Softwaresystemen zurück und ist als Autor für zahlreiche IT-Publikationen tätig. Sie erreichen ihn unter jb@JB4IT.de
Herkömmliche Wiedergewinnungskonzepte sehen meist das Backup von Daten und die Neueinrichtung eines Servers vor. Neue Techniken berücksichtigen auch Applikationen, Prozesse und Standorte.

Sicherung der Daten

Sicherung der Applikation

Sicherung des Standorts

Wiederanlauf/RTO

Kosten

Raid-Plattensysteme

ja

ja

nein

kein Ausfall, wenn durch Raid abgefedert

gering

Periodische Sicherung auf Band

ja

ja

nur, wenn Bänder verlagert werden

langsam

gering

Periodische Sicherung auf Platte

ja

ja

nur über Speicher-systeme

langsam

gering bis mittel

Kontinuierliche Sicherung auf Platte

ja

nein

nur über Speicher-systeme

mittel

gering bis mittel

Speichersysteme (NAS, SAN)

Sicherung durch integrierte Mirroring-Funktionen

möglich mittels Virtualisierung

ja, über Netzstrecke

schnell

hoch

Imaging von Systemen

bedingt möglich

ja

nur, wenn Images verlagert werden

langsam bis mittel

gering

Applikations-Cluster

nein

ja

ja, über Netzstrecke

schnell für Applikationen

mittel

Standby-Failover-Systeme

ja

ja

ja, über IP-Strecken

schnell

mittel

Virtualisierung

Sicherung durch integrierte Mirroring-Funktionen

möglich durch Failover

ja, über IP-Strecken

schnell für Applikationen

mittel

Ausfall-Rechenzentrum

ja

ja

ja

schnell

extrem hoch

Geschäftsprozesse werden durch Applikationen und die von ihnen verwalteten Daten abgebildet. Sie aufrechtzuerhalten ist Ziel der Disaster Recovery, auch "Business Continuity" oder "High Availability" genannt. Die folgen-den Ansätze reichen von Raid-Techniken bis hin zu Failover-Systemen im WAN. Beschrieben wird ihre Eignung, Daten, Applikationen und Standorte zu sichern.

Hier lesen Sie ...

welche Disaster-Recovery-Methoden es gibt;

wo ihre Stärken liegen;

für welche Szenarien sie sich jeweils eignen.

Fazit

Das traditionelle Disaster Recovery ging bis dato meist von einem Störfall (dem Desaster) aus. Neben den herkömmlichen Konzepten, die im Fehlerfall einen Restore der Daten vorsehen, gibt es mittlerweile weitaus leistungsfähigere Verfahren. Sie ermöglichen es, Applikationen, Prozesse und Standorte abzusichern und gleichzeitig die Ausfallzeiten zu reduzieren.

Mehr zum Thema

www.computerwoche.de

466499: Backup- und Disaster-Recovery-Lösung für Notebooks;

1218540: Backup Exec sichert kontinuierlich;

1215482: Failover-Systeme im Vergleich.

Datensicherung mit Raid-Technik

Die Raid-Technik, vor allem die Raid-Levels 1 bis 5, zählt zu den herkömmlichen Methoden der Datensicherung gegen Ausfall. Neuere Verfahren wie etwa 5E, 6 oder eine Kombination von Levels verkraften auch den gleichzeitigen Ausfall von zwei Platten im Verbund. Mit den Platten-kapazitäten wächst die Zeit, die man im Fehlerfall braucht, um die Daten wiederherzustellen. Um diesen Zeitraum gesichert zu überbrücken, empfehlen die Hersteller die Raid-Levels 5E und 6. Raid-Systeme können nur auf ihnen hinterlegte Daten und Applikationen gegen Ausfall absichern. Andere Hardwarekomponenten bleiben ungeschützt, außerdem lässt sich keine Standortsicherung vornehmen.

Backup-Systeme

Backup-Systeme sichern regelmäßig Daten und Anwendungen, nicht aber einen gesamten Server-Zustand. Als Medium werden Bänder, Bandbibliotheken und zunehmend auch Platten eingesetzt. Im Fehlerfall werden die Daten auf einem bereits vorhandenen Standby-Server oder ei-nem ad hoc eingerichteten System wiederhergestellt. Für die Langzeitsicherung und Archivierung sind Bänder unschlagbar, im Hinblick auf die für einen Wiederanlauf benötigte Zeit jedoch langsam und träge. Die Standortabsicherung unterstützen sie nur insofern, als die Daten ortsunabhängig wiederhergestellt werden können. Dazu müssen die Backup-Medien vom abzusichernden Standort entfernt aufbewahrt werden.

Virtuelle Tape Libraries haben den Vorteil, dass sie Bänder überflüssig machen. Wer sich darauf einlässt, verzichtet aber auf die Standortabsicherung und die Trennung von Quell- und Sicherungsdaten.

Der größte Nachteil der periodischen Datensicherung ist ihre Trägheit. So kann sich ein Datenverlust über einen ganzen Tag erstrecken, und die Wiederherstellung dauert häufig ebenso lang. In diesem Kontext werden heute meist zwei Ziele definiert: "Recovery Point Objective" (RPO) und "Recovery Time Objective" (RTO). RPO bezeichnet das Intervall zwischen den einzelnen Sicherungen. Mit dem RPO wird damit auch festgelegt, wie viele Daten und Transaktionen maximal verloren gehen dürfen. Bei nächtlicher Sicherung kann der Recovery Point also bis zu 24 Stunden oder einen Arbeitstag zurückliegen. Mit dem RTO wird die maximal zulässige Zeitspanne für die Wiederherstellung der Dienste definiert. Beide Zielvorgaben sollten so niedrig wie möglich sein, denn prinzipiell gilt: Je niedriger RPO und RTO, desto schneller der Wiederanlauf.

Continuous Data Protection

Mit den herkömmlichen Backup-Techniken sind also nur verhältnismäßig langwierige Recovery-Szenarien machbar. Um dem zu begegnen, bieten Hersteller unter dem Motto "Continuous Data Protection" (CDP) alternative Varianten zur Datensicherung an, die mit den herkömmlichen Backup-Konzepten so gut wie nichts gemein haben. Das beginnt bereits bei der Sicherungsfrequenz: Meist liegen ihr weitaus kürzere Intervalle Stunden oder noch geringere Zeitabstände - zugrunde. Damit sinkt der RPO-Wert erheblich.

Aber auch das Sicherungsverfahren ist anders geartet: Statt wie bisher über das Dateisystem zu operieren, wird die Snapshot-Technik angewandt. Bei Windows beruht diese auf den "Shadow Copy Services" von Microsoft, die eine schnelle Kopie des gewünsch-ten Bereichs ermöglichen.

Als Sicherungsmedium dienen stets Plattensysteme, die sich über beliebige IP-Strecken anbinden lassen. Indirekt erfüllen die CDP-Systeme damit die Forderung nach einer Standortabsicherung. Ein weiterer Unterschied zu traditionellen Backups: Die Benutzer können Dateien häufig selbst rücksichern, wodurch der RTO-Wert im günstigsten Fall gegen null tendiert. Snapshots sind eine Eins-zu-eins-Kopie des Originals und daher schnell erzeugt, kosten aufgrund ihres Volumens aber Plattenplatz. Folglich ist ihre Anzahl durch die Plattenkapazität begrenzt. Alternativ lassen sich Snapshots mit den traditionellen Sicherungsverfahren auf Band auslagern, wobei der Vorteil eines schnellen Restore allerdings verloren geht.

Aufgrund der Beständigkeit der Applikationen orientieren sich die bisher beschriebenen Verfahren fast ausschließlich an den Daten. Geht es um die Absicherung der Prozesse, kommen traditionell Ersatzsysteme zum Einsatz, die als Notfall-Server bereitstehen oder erst noch installiert werden müssen. Statt diese Ersatzhardware ungenutzt zu lassen, sollten Anwender sie in einen Cluster-Verbund einbringen. Dabei teilen sich mehrere gleichartige Server-Systeme durch vorgeschaltete Load Balancer die Last.

Clustering

Das Clustering von Systemen hat den großen Vorteil, dass es für Performance-Gewinn bei gleichzeitig höherer Verfügbarkeit sorgt und nahezu beliebig skalierbar ist. Der Nachteil: Nicht alle Applikationen sind Cluster-fähig. Für den rein lesenden Zugriff wie etwa bei Web-Auskunftssystemen ist das kein Problem, wohl aber für Anwendungen, die häufig Daten ändern. Neben der aufgeführten Cluster-Definition, bei der alle Server im Cluster immer aktiv sind und sich die Last teilen, gibt es auch andere, eher den Failover-Lösungen zuzuordnende Konzepte. Dabei steht ein Zweitsystem passiv bereit, das das primäre Sys-tem überwacht und im Fehlerfall dessen Rolle übernimmt.

Zu den neuesten Entwicklungen gehört das Clustering von Host und Gastsystemen bei der Server-Virtualisierung. Beim "Guest Clustering" bilden sämtliche Gäste einer virtuellen Umgebung einen Rechnerverbund. Vorgeschaltete Balancer verteilen dann die Last auf die Gäste. Die grundsätzlichen Anforderungen bei geclusterten Systemen gelten auch hier.

Imaging

Eine andere Variante zum Absichern von Prozessen ist das Imaging. Hierbei wird die gesamte Festplatte oder Partition eines Rechners kopiert. Das Imaging operiert nicht auf Datei-, sondern auf Sektorebene und arbeitet daher konkurrenzlos schnell. Es eignet sich vor allem dann, wenn von einem Rechnersystem eine Kopie erzeugt beziehungsweise diese im Fehlerfall schnell wiederhergestellt werden muss ("Bare Metal Restore"). Nachteilig ist allerdings, dass beim Imaging die Rücksicherung meist nur auf nahezu identische Hardware erfolgen darf.

Wie erwähnt, wurde beim Imaging ursprünglich stets das gesamte System kopiert. Mittlerweile gibt es aber auch inkrementelle Verfahren, bei denen ähnlich wie bei den Backup-Konzepten zuerst das gesamte System und danach nur noch die Änderungen gesichert werden.

Das Imaging wird vor allem zur Server-Sicherung eingesetzt. Zur Sicherung von Daten eignet es sich nur, wenn sich diese kaum ändern. Zudem lässt sich angesichts der dabei verwendeten, meist relativ großen Intervalle keine zeitnahe Sicherung realisieren. Zum Sichern von Applikationen und Standort mag Imaging jedoch hilfreich sein.

Das Gros der genannten Konzepte geht implizit von einem DAS (Direct Attached Storage) aus. SAN (Storage Area Network) und NAS (Network Attached Storage) bedürfen anderer Sicherungsverfahren. Sie werden primär eingesetzt, um Speichersysteme zu konsolidieren.

Da SAN und NAS Rechner vom Speicher trennen, ermöglichen sie einen schnellen Restore. Gleichzeitig bieten die Hersteller in der Regel eigene Vorrichtungen zur Sicherung der Daten, das Mirroring, an. Dabei werden die Daten eins zu eins auf einen zweiten Pool im SAN übertragen. Diese Replikation kann synchron oder asynchron erfolgen.

Die Replikation

Durch synchrone Replikation lässt sich höchstmögliche Aktualität bei gleichzeitiger Performance-Einbuße erreichen. Umgekehrt steigt bei der asynchronen Replikation die Performance auf Kosten der Datenaktualität. Eine Eigenheit der asynchronen Replikation ist ihre räumliche Unabhängigkeit: Während synchrone Verfahren meist über SAN-Netze abgewickelt werden und deren Hardware-Chakteristika unterliegen, ist die asynchrone Replikation von der verwendeten Basistechnik unabhängig.

Die Sicherung der Inhalte im SAN erreicht damit beste RPO- und RTO- Werte in Bezug auf die Daten. Um hingegen Prozesse zu sichern, sind Clustering oder Failover notwendig. Der gravierendste Nachteil des SAN sind die Kosten zumindest, wenn es sich um Fibre-Channel-SANs handelt. Mit iSCSI entkrampft sich die Kostensituation, da jeder Server ohnehin mit einem Netz-Interface ausgestattet und ferner kein dediziertes Fibre-Channel-Know-how notwendig ist. iSCSI erlaubt Speicherdatentransfers über TCP/IP-Netze.

Bei den beschriebenen Konzepten stehen entweder die Daten oder die Applikationen im Fokus kaum aber beides. Daher werden für die Absicherung meist mehrere Lösungen benötigt. Um sowohl Daten als auch Applikationen abzusichern, werden andere Verfahren eingesetzt.

Duplizierung der Komponenten

Zu solchen Verfahren gehört die Duplizierung sämtlicher Hard- und Softwarekomponenten. Im Großen angewandt, käme dies einem Ausfall-Rechenzentrum mit identischer Hardware gleich. Duplizieren lassen sich auch einzelne Server und deren Dienste. Hierbei operieren beide Systeme und ihre Softwaredienste parallel und unabhängig voneinander. Durch Vorkehrungen wie Hardwaresignale oder Software-Heartbeats überwachen sich die Systeme gegenseitig. Beim Ausfall einer Komponente übernimmt der noch fehlerfrei arbeitende "Partner" die Aufgaben.

Lösungen je nach Distanz

Je nach Entfernung zwischen den sich gegenseitig sichernden Systemen bieten sich unterschiedliche Lösungen an: Sind beide in einem Gehäuse untergebracht, übernehmen spezielle Hardwarebaugruppen die Replikation aller Signale und Softwareabläufe. In diesem Fall ist der Standort nicht abgesichert. Bei größerer Distanz zwischen den Systemen bieten sich Konzepte an, die über SAS oder iSCSI operieren. Ist die Entfernung der Systeme im LAN oder WAN noch größer, lassen sich Duplizierungsszenarien definieren, die Unternehmensstandorte oder gar Kontinente überbrücken.

Bei den hier beschriebenen Fail-over-Systemen werden Applikationen und Daten gleichermaßen abgesichert. Ihr Ziel ist es, durch Replizierung der Daten und Dienste den Betrieb eines ausgefallenen Servers binnen Minuten auf einem redundant gehaltenen Zweitgerät fortzuführen. Die Über-wachung des primären Servers erfolgt meist durch Watchdogs und Timer. Mitunter verlangen die Toolsets eine Eins-zu-eins-Abbildung des gesamten Systems. Andere wiederum sind flexibler und kommen auch mit unterschiedlicher Hardware zurecht. Dabei kann ein Sicherungs-Server sogar für mehrere Primärgeräte eingesetzt werden. Diese Eins-zu-n-Abbildung erlaubt demnach die Absicherung mehrerer Systeme bei reduzierten Hardware- und Lizenzkosten.

Unterschiede gibt es ferner bei der Logik der Datenreplikation. In der Regel klinken sich die Werkzeuge in das Ein- und Ausgabesystem des Betriebssystems oder der abzusichernden Softwarekomponente ein und greifen die Schreiboperationen somit zeitnah ab. Es handelt sich dabei meist um die Operationen einer Datenbank, eines Mail- oder des Dateisystems. Folglich werden die Werkzeuge auch für Microsofts SQL Server, Microsoft Exchange oder das NTFS-Dateisystem von Windows angeboten.

Virtualisierung

Auch Virtualisierungskonzepte bieten neue Möglichkeiten für Disaster Recovery. Häufig werden dabei bestehende Absicherungsverfahren verknüpft. Sind etwa die System-Images auf Speichersystemen im SAN hinterlegt, kann ein laufendes System-Image durch eine überwachende Management-Software mittels Mirroring auf einen zweiten Rechner übertragen werden. Da das System-Image das Betriebssystem sowie temporäre Daten umfasst, erfolgt so eine Applikationsabsicherung. Unabhängig davon ist die Absicherung der Daten auch durch SAN-Mirroring möglich. Je nach SAN-Technik und geografischer Distanz zwischen Original und Spiegel ist sogar eine Standortabsicherung machbar.

Neue Replikationstechniken erhöhen die Verfügbarkeit. Sie kombinieren das Imaging mit der inkrementellen Sicherung der Daten und des Systemstatus. In einem ersten Schritt wird das Rechnersystem samt Daten, Applikationen und Betriebssystem auf einem weiteren Rechner als Image hinterlegt. Zur Laufzeit der Anwendung werden dann die Änderungen an den Daten, aber auch an der Konfiguration des Rechners und seiner Software laufend auf das Backup-System übertragen. Im Fehlerfall wird durch Imaging wieder ein neuer Rechner samt Daten aufgesetzt. Die hierzu benötigte Zeit hängt vom Datenvolumen ab. Da das Backup-System nur eine Kopie der Applikationen und Daten erhält, kann es mehrere Server gleichzeitig absichern dies gilt sowohl für die Applikationsprozesse als auch die Daten. (kf)