Daten nur einmal speichern

29.03.2007
Von 
Rechtsanwalt seit 1994 Fachanwalt für Informationstechnologierecht und Arbeitsrecht Datenschutzbeauftragter TÜV Tätigkeitsschwerpunkte: IT-Recht Arbeitsrecht Vergaberecht
Deduplizierungstechniken filtern Dubletten aus Backup-Dateien aus und reduzieren das Volumen beträchtlich.
Die meisten Unternehmen transportieren Sicherungskopien manuell.
Die meisten Unternehmen transportieren Sicherungskopien manuell.

Unternehmen sehen sich noch immer stark wachsenden Datenmengen gegenüber. Besonders heikel ist dies bei unstrukturierten Daten. Das E-Mail-Volumen beispielsweise legt jährlich um 25 Prozent zu, sagen die Analysten vom Enterprise Storage Forum. Zwar werden Massenspeicher Jahr für Jahr um 20 Prozent billiger, aber die absoluten Speicherkosten steigen weiter an. Was nicht wächst, sind die Backup-Fenster.

Die Methoden

• Deduplizierung auf Dateiebene: Doppelte Dateien werden ausgefiltert. Das Innere der Dateien interessiert nicht (zum Beispiel EMC Centera).

• Deduplizierung auf Blockebene: Datenblocks fixer oder variabler Länge werden auf Dubletten untersucht. Statt zweimal oder öfter veränderter Datenblocks werden Zeiger auf das Original gespeichert (zum Beispiel Quantum/Adic, Falconstor, Diligent).

• In-Band-Deduplizierung: Die Deduplizierungs-Appliance befindet sich im Datenpfad zwischen Quelle und Backup-Medium (zum Beispiel Quantum/Adic, Diligent).

• Out-of-Band-Deduplizierung: Die Deduplizierung findet nach abgeschlossenem Backup außerhalb des Datenpfads zwischen Quelle und Backup-Medium statt (zum Beispiel Sepaton).

Dem Backup-Dilemma wird immer öfter mit einer mehrstufigen Speicherumgebung zuleibe gerückt, bei der zumindest die Nearline-Komponente als Festplattensystem ausgeführt ist. Disk-based Backup und Virtual Tape Libraries (VTL) sind hier die beiden wichtigsten Techniken. Die Enterprise Strategy Group ermittelte, dass rund ein Drittel der von ihr befragten Unternehmen bereits VTL-Lösungen nutzen, obwohl die Produkte dafür oft noch nicht ausgereift erscheinen und Investitionen zu tätigen sind. Denn Disks sind den Anwendern, verglichen mit Tape, trotz preisgünstiger SATA-Platten noch immer zu teuer: 74 Prozent der befragten Anwender zögern in erster Linie wegen hoher Anschaffungskosten mit der Einführung einer Virtual-Tape-Lösung.

Kein Informationsverlust

Diesen Hemmschuh könnte eine andere Technik beseitigen, die gerade von sich reden macht: die Deduplizierung. Darunter versteht man die Entfernung von Dubletten aus dem Datenvolumen. Die Vorteile des Ansatzes sind offensichtlich: Das Datenvolumen wird reduziert, ohne dass Informationen verloren gehen - je nach Hersteller finden sich Einsparungen um 20 bis 50 Prozent, und das Backup-Fenster wird drastisch kleiner. Das senkt dann auch die Hardware- und Betriebskosten, weil weniger Speicherplatz benötigt wird. Dazu kommen in vielen Fällen erheblich schnellere Recovery-Prozeduren. Je nach Beschaffenheit der gespeicherten Daten kann es dank Deduplizierung durchaus mehrere Monate dauern, bis eine VTL-Appliance voll gelaufen ist und die nächste Ebene der Speicherhierarchie - die Archivierung - zum Zug kommt. Die gesicherten Daten bleiben also wesentlich länger im reaktionsschnellen Nearline-Speicher und können bei Bedarf in Sekundenschnelle restauriert werden.

Außerdem eignen sich Deduplizierungstechniken auch für ein Disaster Recovery, bei dem die Daten zu vertretbaren Kosten einer entfernten Niederlasssung überspielt werden. Denn die benötigten WAN-Bandbreiten schrumpfen aufgrund des geringeren Datenvolumens erheblich - und damit auch Dauer und Kosten der Prozedur. Das gilt zumindest für In-Band-Appliances, die den Datenstrom bearbeiten, bevor er aufs Backup-Medium gerät. In-Band-Lösungen reduzieren die Verarbeitungs- geschwindigkeit. Bei einer Deduplizierung außerhalb des Datenpfades (Out-of-Band) wird zunächst das Speichervolumen für das komplette Volumen bereitgestellt, ehe es in einem zweiten Schritt reduziert wird.

Das Reduktionsvolumen ist umso größer, je feiner die Lösung granuliert: Werden nur doppelt vorhandene Dateien aussortiert, kann weniger Platz gespart werden, als wenn das System auf oder gar unterhalb der Blockebene nach Dubletten fahndet. Auch die Vielseitigkeit einer Lösung sollte bei der Auswahl bedacht werden: Arbeitet ein Produkt nur mit Speichernetzen (SANs) zusammen, oder lässt es sich auch an andere vernetzte Infrastrukturen anbinden? Wer sich für reine Softwareprodukte entscheidet, ist möglicherweise auf ein Betriebssystem festgelegt. Ganz generell geht der Trend dahin, Deduplizierung mit Soft- oder Hardwarelösungen für Backup und Recovery zu kombinieren. Ein anderer Aspekt ist die Zukunftssicherheit der Hersteller. Hier stehen traditions- und erfolgreiche oder zumindest gut etablierte Anbieter wie Quantum/ Adic und EMC mit Techniken von Diligent und Avamar oder Falconstor relativ späten Einsteigern wie Sepaton oder Data Domain gegenüber. Letztere haben interessante Techniken entwickelt, müssen aber erst noch beweisen, ob sie auf einem Markt mit starken Konsolidierungstendenzen bestehen können. (kk)