Einsatz und Nutzen

Ratgeber - Virtual Tape Library

31.03.2013
Von Beate Herzog

Deduplizierung und Kompression zur weiteren Optimierung

Um die Nutzung des physikalischen Speicherplatzes weiter zu verbessern, haben die meisten Hersteller virtueller Bandsysteme in den vergangenen Jahren Deduplizierung und Kompression eingeführt. Mithilfe der Deduplizierung werden gleiche Datenabschnitte innerhalb verschiedener Sicherungssätze gesucht. Wird ein gleicher Datenabschnitt mehrfach abgelegt, ersetzt das System alle weiteren Kopien durch kürzere Verweise auf das erste Original. Die dadurch erzielte Reduzierung des physikalisch belegten Speicherplatzes ist abhängig von den Datensätzen sehr groß - Hersteller geben bis zu 90 Prozent weniger benötigten Speicher an. Das bedeutet, dass sich im Idealfall bis zu neunmal mehr Sicherungen auf der Bibliothek ablegen lassen als ohne Deduplizierung. Allerdings sichert der Anwender in den meisten Fällen inkrementell, also sowieso nur die gegenüber dem letzten Backup geänderten Daten. Damit dürfte sich die reell zu erzielende Deduplizierungsleistung im Produktiveinsatz auf unter 50 Prozent einpendeln.

Der Einsatz einer solchen Software kann entweder auf bereits gespeicherte Daten erfolgen oder aber im Datenstrom, bevor überhaupt auf Platte geschrieben wird. Die erste Option hat den Vorteil, dass die Deduplizierung keinen Einfluss auf die Geschwindigkeit der Sicherung hat, allerdings wird dieser durch den zunächst vollständig benötigten Speicherplatz erkauft. Die zweite Option sichert bereits nur noch die tatsächlich geänderte Datenmenge, allerdings wird hierzu eine wesentlich höhere Prozessorleistung benötigt. Deduplizierung kann auch das Einsammeln von Backups aus entfernten Niederlassungen beschleunigen, indem die zu transportierende Datenmenge wesentlich reduziert und die erforderliche Bandbreite reduziert werden.

Manche Hersteller bieten neben der Deduplizierung auch die "klassische" Kompression für ihre Systeme an. Hierbei werden unterschiedlich lange gleichartige Abschnitte innerhalb von Datensätzen gesucht und durch kürzere Platzhalter ersetzt. Dieses Verfahren ist nicht neu, wurde es doch bereits vor Jahrzehnten für den Bandbetrieb eingeführt. Alle Hersteller geben als durchschnittliche Kompressionsrate 2:1 an, auf einem 100 GByte großen Datenabschnitt lassen sich damit also 200 GByte Informationen ablegen. Komprimierung "kostet" allerdings wesentlich mehr Prozessorleistung als Deduplizierung.

Der Anwender sollte beide Methoden und deren Wirkungsgrade für seine spezifischen Daten testen. Oft ist es sogar sinnvoll, zunächst zu deduplizieren und die dann noch vorhandenen Daten zu komprimieren, um den physikalischen Speicherplatz bestmöglich zu nutzen.