EMC sitzt an der Quelle

Deduplizierung - wie geht das?

29.11.2010
Von 
Thomas Pelkmann ist freier Journalist in München.

Alles Doppelte muss raus

Dabei würde es völlig ausreichen, die exemplarisch erwähnte Präsentation nur ein einziges Mal zu sichern, selbst wenn die Kollegen den ein oder anderen Änderungsvorschlag einarbeiten. Denn damit ändert sich nicht die gesamte Vorführung, sondern allenfalls einzelne Teile.

Diesem Grundgedanken ist die so genannte Deduplizierung ("Dedup") von Daten verpflichtet: Bei Informationen, die ihren Weg auf dauerhafte Speichermedien finden sollen, filtern Deduplizierungsprogramme alle doppelten Daten heraus. Statt einmal erzeugte Informationsblöcke immer wieder zu speichern, legen Dedup-Anwendungen einen Block einmal ab und verweisen im Wiederholungsfalle einfach auf diese Informationseinheit. Das spart in der Summe enormen Speicherplatz und verringert so die abgelegte Datenmenge um bis zu den eben vorgerechneten 90 Prozent.

Wer gerade wieder eine Rechnung über die Anschaffung von Bandlaufwerken oder Festplatten abgezeichnet hat, wird ermessen können, was eine Einsparung in dieser Größenordnung im Budget ausmacht. Dabei ist der Spareffekt paradoxerweise umso höher, je mehr Daten ein Unternehmen produziert.

Per Definition, etwa von den Marktbeobachtern von IDC, ist Datendeduplizierung "eine Technologie, die doppelt vorhandene Daten in ein einziges gemeinsames Datenobjekt normalisiert, um Speicherkapazitätseffizienz zu erzielen." Im einfachsten Fall vergleichen Dedup-Algorithmen komplette Dateien und sortieren vollständig identische Kopien aus. Sobald ein Kollege in Ihrer Präsentation also auch nur ein Zeichen ändert, weil Sie zum Beispiel ein Komma vergessen haben, würde die Datei erneut gesichert.

Tatsächlich arbeiten moderne Deduplikationstechniken wesentlich flexibler: Sie unterteilen Daten in kleine Blöcke ("Chunks") und vergleichen so schon viel kleinteiliger und damit Speicher schonender. Für jedes erfasste Segment erstellen Dedup-Anwendungen eine Prüfsumme ("Hash"), die dann in einem Index gespeichert wird. Bei späteren Speicherungen derselben Datei mit Abwandlungen werden dann nur die tatsächlich geänderten Blöcke gespeichert. Auf die identischen Teile verweisen dann so genannte Data Pointer.