Storage-Management: Daten nur einmal speichern

24.04.2007
Von 
Rechtsanwalt seit 1994 Fachanwalt für Informationstechnologierecht und Arbeitsrecht Datenschutzbeauftragter TÜV Tätigkeitsschwerpunkte: IT-Recht Arbeitsrecht Vergaberecht
Deduplizierungstechniken filtern Dubletten aus Backup-Dateien aus und reduzieren das Volumen beträchtlich.

Unternehmen sehen sich noch immer stark wachsenden Datenmengen gegenüber. Besonders heikel ist dies bei unstrukturierten Daten. Das E-Mail-Volumen beispielsweise legt jährlich um 25 Prozent zu, sagen die Analysten vom Enterprise Storage Forum. Zwar werden Massenspeicher Jahr für Jahr um 20 Prozent billiger, aber die absoluten Speicherkosten steigen weiter an. Was nicht wächst, sind die Backup-Fenster. Deshalb müssen beispielsweise Sicherungskopien schneller gezogen werden als bisher üblich.

Dem Backup-Dilemma wird immer öfter mit einer mehrstufigen Speicherumgebung zuleibe gerückt, bei der zumindest die Nearline-Komponente als Festplattensystem ausgeführt ist. Disk-based Backup und Virtual Tape Libraries (VTL) sind hier die beiden wichtigsten Techniken. Die Enterprise Strategy Group ermittelte, dass rund ein Drittel der von ihr befragten Unternehmen bereits VTL-Lösungen nutzen, obwohl die Produkte dafür oft noch nicht ausgereift erscheinen und Investitionen zu tätigen sind. Denn Disks sind den Anwendern, verglichen mit Tape, trotz preisgünstiger SATA-Platten noch immer zu teuer: 74 Prozent der befragten Anwender zögern in erster Linie wegen hoher Anschaffungskosten mit der Einführung einer Virtual-Tape-Lösung.

Hier lesen Sie ...

  • was die Ausbreitung von VTLs hemmt;

  • was Deduplizierung ist und was sie leistet;

  • wie Deduplizierung funktioniert;

  • wer Deduplizierung anbietet und

  • welche Kriterien für die Auswahl zu beachten sind.

Diesen Hemmschuh könnte eine andere Technik beseitigen, die gerade von sich reden macht: die Deduplizierung. Darunter versteht man die Entfernung von Dubletten aus dem Datenvolumen. Die Vorteile des Ansatzes sind offensichtlich: Das Datenvolumen wird reduziert, ohne dass Informationen verloren gehen - je nach Hersteller finden sich Einsparungen zwischen Faktor 20 und 50 -, und das Backup-Fenster wird drastisch kleiner. Das senkt dann auch die Hardware- und Betriebskosten, weil weniger Speicherplatz benötigt wird. Dazu kommen in vielen Fällen erheblich schnellere Recovery-Prozeduren. Je nach Beschaffenheit der gespeicherten Daten kann es dank Deduplizierung durchaus mehrere Monate dauern, bis eine VTL-Appliance voll gelaufen ist und die nächste Ebene der Speicherhierarchie - die Archivierung - zum Zug kommt. Die gesicherten Daten bleiben also wesentlich länger im reaktionsschnellen Nearline-Speicher und können bei Bedarf in Sekundenschnelle restauriert werden.

Die Methoden der Deduplizierung

  • Deduplizierung auf Dateiebene: Doppelte Dateien werden ausgefiltert. Das Innere der Dateien interessiert nicht (zum Beispiel EMC Centera).

  • Deduplizierung auf Blockebene: Datenblocks fixer oder variabler Länge werden auf Dubletten untersucht. Statt doppelt oder mehrfach veränderter Datenblocks werden Zeiger auf das Original gespeichert (zum Beispiel Quantum/Adic, Falconstor, Diligent).

  • In-Band-Deduplizierung: Die Deduplizierungs-Appliance befindet sich im Datenpfad zwischen Quelle und Backup-Medium (zum Beispiel Quantum/Adic, Diligent).

  • Out-of-Band-Deduplizierung: Die Deduplizierung findet nach abgeschlossenem Backup außerhalb des Datenpfads zwischen Quelle und Backup-Medium statt (zum Beispiel Sepaton).

Außerdem eignen sich Deduplizierungstechniken auch für ein Disaster Recovery, bei dem die Daten zu vertretbaren Kosten einer entfernten Niederlassung überspielt werden. Denn die benötigten WAN-Bandbreiten schrumpfen aufgrund des geringeren Datenvolumens erheblich - und damit auch Dauer und Kosten der Prozedur. Das gilt zumindest für In-Band-Appliances, die den Datenstrom bearbeiten, bevor er aufs Backup-Medium gerät. In-Band-Lösungen reduzieren allerdings die Verarbeitungsgeschwindigkeit. Bei einer Deduplizierung außerhalb des Datenpfades (Out-of-Band) wird zunächst das Speichervolumen für das komplette Volumen bereitgestellt, ehe es in einem zweiten Schritt reduziert wird.