Angetestet

Deduplizierung spart Speicherplatz

22.08.2007
Von Christoph Lange

Was ist Deduplizierung?

Unter den Begriff Deduplizierung fallen alle Techniken, die darauf abzielen, doppelt oder mehrfach vorhandene Daten nur ein einziges Mal zu speichern. Ziel ist es, das Gesamtvolumen der Daten deutlich zu reduzieren und so kostbaren Plattenplatz einzusparen. Die redundant vorhandenen Informationen werden dabei durch Platzhalter ersetzt, die auf den Speicherort des Originals verweisen.
Die Erkennung redundanter Daten kann auf mehreren Ebenen erfolgen. Am einfachsten ist die Entfernung mehrfach vorhandener, identischer Dateien. Wesentlich feiner arbeiten Reduktionsverfahren auf Block- oder auf Bit-Ebene. Sie erzielen deutlich größere Einsparungen. Ein klassisches Beispiel ist die Powerpoint-Datei, in der lediglich eine Folie geändert wurde. Die granularen Block- und Bit-Level-Techniken speichern nur die geänderten Daten dieser Folie, während es sich für dateiorientierte Lösungen um eine neue Datei handelt, die deshalb ein zweites Mal vollständig gespeichert werden muss.

Große Auswirkungen auf die Funktionsweise der Reduzierungssysteme hat auch der Zeitpunkt, zu dem die Deduplizierung stattfindet. In-Band-Lösungen sortieren die Dubletten im Zuge des normalen Backups gleich mit aus. Dies hat den Nachteil, dass pro Backup-Session nur ein Deduplizierungsprozess möglich ist. Zudem leidet die Sicherungsgeschwindigkeit, weil die für die Datenreduktion erforderlichen Vergleichsoperationen zusätzlich zum normalen Backup betrieben werden müssen. Positiv schlägt dagegen zu Buche, dass In-Band-Lösungen keinen zusätzlichen Speicherplatz benötigen.
Out-of-Band-Systeme nehmen die Deduplizierung erst nach Abschluss des Backups vor. Dadurch wird zusätzlicher Speicherplatz benötigt, weil alle Daten zunächst traditionell zu sichern sind. Andererseits beeinträchtigt die Deduplizierung die Backup-Performance nicht, was insbesondere bei kleinen Zeitfenstern wichtig sein kann. Die Deduplizierung erfolgt ebenfalls schneller, weil sie sich bei einer nachgelagerten Verarbeitung parallelisieren lässt.

Quantum hat für die DXi-Systeme eine spezielle Technik gewählt, um die Nachteile des In-Band-Ansatzes abzumildern. Der Trick besteht darin, die Deduplizierung nicht sofort auszuführen, sondern mit einem kleinen Zeitversatz von mindestens 30 Sekunden. Die zu sichernden Daten werden zunächst in ihrer ursprünglichen Form auf Platte geschrieben. Die DXi-Software zerlegt sie anschließend sofort in 256-MB-Einheiten und markiert jeden dieser so genannten Chunks nach Ablauf von 30 Sekunden als einen Kandidaten für die Deduplizierung.

Das Backup auf die VTL läuft währenddessen parallel weiter. Die Übergabe der Chunks an die Deduplizierungs-Engine erfolgt zeitnah und wird von einer HSM-Software (Hierarchical Storage Management) gesteuert, die Bestandteil des von der DXi verwendeten File-Systems "Stornext" ist. Die Engine betrachtet die Daten als Bit-Muster und sucht darin nach identischen Bit-Sequenzen. Der hierfür eingesetzte Algorithmus geht von einer bestimmten Mindestblockgröße aus, da bei zu kleinen Einheiten zu viele Platzhalter erstellt werden müssten. Im Anschluss an die Deduplizierung komprimiert das System die Daten, wodurch es weitere kleinere Redundanzen beseitigt.
Der von Quantum gewählte Ansatz hat den Vorteil, dass die Performance der VTL relativ konstant bleibt. Bei einer sofortigen Deduplizierung würde die Geschwindigkeit je nach Art der zu sichernden Daten stärker schwanken. Gleichzeitig benötigen die DXi-Systeme im Vergleich zu Out-of-Band-Lösungen nur relativ wenig zusätzlichen Plattenplatz, weil sie die Daten sehr schnell weiterverarbeiten. (kk)