Storage-Management: Daten nur einmal speichern

24.04.2007 von Thomas Feil
Deduplizierungstechniken filtern Dubletten aus Backup-Dateien aus und reduzieren das Volumen beträchtlich.

Unternehmen sehen sich noch immer stark wachsenden Datenmengen gegenüber. Besonders heikel ist dies bei unstrukturierten Daten. Das E-Mail-Volumen beispielsweise legt jährlich um 25 Prozent zu, sagen die Analysten vom Enterprise Storage Forum. Zwar werden Massenspeicher Jahr für Jahr um 20 Prozent billiger, aber die absoluten Speicherkosten steigen weiter an. Was nicht wächst, sind die Backup-Fenster. Deshalb müssen beispielsweise Sicherungskopien schneller gezogen werden als bisher üblich.

Dem Backup-Dilemma wird immer öfter mit einer mehrstufigen Speicherumgebung zuleibe gerückt, bei der zumindest die Nearline-Komponente als Festplattensystem ausgeführt ist. Disk-based Backup und Virtual Tape Libraries (VTL) sind hier die beiden wichtigsten Techniken. Die Enterprise Strategy Group ermittelte, dass rund ein Drittel der von ihr befragten Unternehmen bereits VTL-Lösungen nutzen, obwohl die Produkte dafür oft noch nicht ausgereift erscheinen und Investitionen zu tätigen sind. Denn Disks sind den Anwendern, verglichen mit Tape, trotz preisgünstiger SATA-Platten noch immer zu teuer: 74 Prozent der befragten Anwender zögern in erster Linie wegen hoher Anschaffungskosten mit der Einführung einer Virtual-Tape-Lösung.

Hier lesen Sie ...

  • was die Ausbreitung von VTLs hemmt;

  • was Deduplizierung ist und was sie leistet;

  • wie Deduplizierung funktioniert;

  • wer Deduplizierung anbietet und

  • welche Kriterien für die Auswahl zu beachten sind.

Diesen Hemmschuh könnte eine andere Technik beseitigen, die gerade von sich reden macht: die Deduplizierung. Darunter versteht man die Entfernung von Dubletten aus dem Datenvolumen. Die Vorteile des Ansatzes sind offensichtlich: Das Datenvolumen wird reduziert, ohne dass Informationen verloren gehen - je nach Hersteller finden sich Einsparungen zwischen Faktor 20 und 50 -, und das Backup-Fenster wird drastisch kleiner. Das senkt dann auch die Hardware- und Betriebskosten, weil weniger Speicherplatz benötigt wird. Dazu kommen in vielen Fällen erheblich schnellere Recovery-Prozeduren. Je nach Beschaffenheit der gespeicherten Daten kann es dank Deduplizierung durchaus mehrere Monate dauern, bis eine VTL-Appliance voll gelaufen ist und die nächste Ebene der Speicherhierarchie - die Archivierung - zum Zug kommt. Die gesicherten Daten bleiben also wesentlich länger im reaktionsschnellen Nearline-Speicher und können bei Bedarf in Sekundenschnelle restauriert werden.

Die Methoden der Deduplizierung

  • Deduplizierung auf Dateiebene: Doppelte Dateien werden ausgefiltert. Das Innere der Dateien interessiert nicht (zum Beispiel EMC Centera).

  • Deduplizierung auf Blockebene: Datenblocks fixer oder variabler Länge werden auf Dubletten untersucht. Statt doppelt oder mehrfach veränderter Datenblocks werden Zeiger auf das Original gespeichert (zum Beispiel Quantum/Adic, Falconstor, Diligent).

  • In-Band-Deduplizierung: Die Deduplizierungs-Appliance befindet sich im Datenpfad zwischen Quelle und Backup-Medium (zum Beispiel Quantum/Adic, Diligent).

  • Out-of-Band-Deduplizierung: Die Deduplizierung findet nach abgeschlossenem Backup außerhalb des Datenpfads zwischen Quelle und Backup-Medium statt (zum Beispiel Sepaton).

Außerdem eignen sich Deduplizierungstechniken auch für ein Disaster Recovery, bei dem die Daten zu vertretbaren Kosten einer entfernten Niederlassung überspielt werden. Denn die benötigten WAN-Bandbreiten schrumpfen aufgrund des geringeren Datenvolumens erheblich - und damit auch Dauer und Kosten der Prozedur. Das gilt zumindest für In-Band-Appliances, die den Datenstrom bearbeiten, bevor er aufs Backup-Medium gerät. In-Band-Lösungen reduzieren allerdings die Verarbeitungsgeschwindigkeit. Bei einer Deduplizierung außerhalb des Datenpfades (Out-of-Band) wird zunächst das Speichervolumen für das komplette Volumen bereitgestellt, ehe es in einem zweiten Schritt reduziert wird.

Granularität entscheidet über Reduktionsrate

Wie organisieren Firmen ihre Backup-Prozesse?
Foto: Quantum

Das Reduktionsvolumen ist umso größer, je feiner die Lösung granuliert: Werden nur doppelt vorhandene Dateien aussortiert, kann weniger Platz gespart werden, als wenn das System auf oder gar unterhalb der Blockebene nach Dubletten fahndet. Auch die Vielseitigkeit einer Lösung sollte bei der Auswahl bedacht werden: Arbeitet ein Produkt nur mit Speichernetzen (SANs) zusammen, oder lässt es sich auch an andere vernetzte Infrastrukturen anbinden? Wer sich für reine Softwareprodukte entscheidet, ist möglicherweise auf ein Betriebssystem festgelegt. Ganz generell geht der Trend dahin, Deduplizierung mit Soft- oder Hardwarelösungen für Backup und Recovery zu kombinieren. Ein weiterer Aspekt ist die Zukunftssicherheit der Hersteller.

Der Markt für Deduplizierungslösungen

  • Atempo integriert in Backup-Lösung;

  • Asigra integriert in agentenlose Client-Backup-Lösung;

  • Data Domain kombiniert globale Datenreduktion mit Kompression;

  • EMC/Avamar bietet Volltextsuche im gesicherten Datenbestand;

  • Diligent ist eine In-Band-Deduplizierung;

  • Falconstors "SIR" (Single Instance Recovery) ist in zahlreichen OEM-Produkten enthalten;

  • Quantum/Adic integriert hardwarebasierende Deduplizierung von Datenblöcken flexibler Länge und Kompression in einem Gerät;

  • Sepaton verwendet Grid-ähnliche Strukturen zum Speichern der Daten;

  • Symantec/Veritas ist eine Gemeinschaftslösung von Symantec und Netapp für Disk-based Backup;

  • Timespring ist eine Lösung insbesondere für Storage-Dienstleister.

Hier stehen traditions- und erfolgreiche oder zumindest gut etablierte Anbieter wie Quantum/Adic und EMC mit Techniken von Diligent und die zu EMC gehörende Firma Avamar oder Falconstor relativ späten Einsteigern wie Sepaton oder Data Domain gegenüber. Letztere haben zwar interessante Techniken entwickelt, müssen aber erst noch beweisen, ob sie langfristig auf einem Markt mit derart starken Konsolidierungstendenzen bestehen können. (kk)

Weitere Artikel zum Thema Backup und Disaster Recovery: