EMC sitzt an der Quelle

Deduplizierung - wie geht das?

29.11.2010

Thomas Pelkmann ist freier Journalist in München.

Alles Doppelte muss raus

Dabei würde es völlig ausreichen, die exemplarisch erwähnte Präsentation nur ein einziges Mal zu sichern, selbst wenn die Kollegen den ein oder anderen Änderungsvorschlag einarbeiten. Denn damit ändert sich nicht die gesamte Vorführung, sondern allenfalls einzelne Teile.

Diesem Grundgedanken ist die so genannte Deduplizierung ("Dedup") von Daten verpflichtet: Bei Informationen, die ihren Weg auf dauerhafte Speichermedien finden sollen, filtern Deduplizierungsprogramme alle doppelten Daten heraus. Statt einmal erzeugte Informationsblöcke immer wieder zu speichern, legen Dedup-Anwendungen einen Block einmal ab und verweisen im Wiederholungsfalle einfach auf diese Informationseinheit. Das spart in der Summe enormen Speicherplatz und verringert so die abgelegte Datenmenge um bis zu den eben vorgerechneten 90 Prozent.

Wer gerade wieder eine Rechnung über die Anschaffung von Bandlaufwerken oder Festplatten abgezeichnet hat, wird ermessen können, was eine Einsparung in dieser Größenordnung im Budget ausmacht. Dabei ist der Spareffekt paradoxerweise umso höher, je mehr Daten ein Unternehmen produziert.

Per Definition, etwa von den Marktbeobachtern von IDC, ist Datendeduplizierung "eine Technologie, die doppelt vorhandene Daten in ein einziges gemeinsames Datenobjekt normalisiert, um Speicherkapazitätseffizienz zu erzielen." Im einfachsten Fall vergleichen Dedup-Algorithmen komplette Dateien und sortieren vollständig identische Kopien aus. Sobald ein Kollege in Ihrer Präsentation also auch nur ein Zeichen ändert, weil Sie zum Beispiel ein Komma vergessen haben, würde die Datei erneut gesichert.

Tatsächlich arbeiten moderne Deduplikationstechniken wesentlich flexibler: Sie unterteilen Daten in kleine Blöcke ("Chunks") und vergleichen so schon viel kleinteiliger und damit Speicher schonender. Für jedes erfasste Segment erstellen Dedup-Anwendungen eine Prüfsumme ("Hash"), die dann in einem Index gespeichert wird. Bei späteren Speicherungen derselben Datei mit Abwandlungen werden dann nur die tatsächlich geänderten Blöcke gespeichert. Auf die identischen Teile verweisen dann so genannte Data Pointer.

Aktuelle Technologie-Themen:

Aktuelle Artikel im Überblick:

Aktuelle Artikel im Überblick:

Aktuelle Management-Themen:

Aktuelle Karriere-Themen:

Events

Aktuelle Podcasts im Überblick:

Aktuelle Webcasts im Überblick:

Aktuelles aus den Hot Topics auf COMPUTERWOCHE: -Anzeige-

Archiv

EMC sitzt an der Quelle

Deduplizierung - wie geht das?

Alles Doppelte muss raus

Aktuelle Technologie-Themen:

Aktuelle Artikel im Überblick:

Aktuelle Artikel im Überblick:

Aktuelle Management-Themen:

Aktuelle Karriere-Themen:

Events

Aktuelle Podcasts im Überblick:

Aktuelle Webcasts im Überblick:

Aktuelles aus den Hot Topics auf COMPUTERWOCHE: -Anzeige-

Aktuelle Technologie-Themen:

Aktuelle Management-Themen:

Aktuelle Karriere-Themen:

Archiv

Alles Doppelte muss raus

Per E-Mail versenden

Artikel als PDF kaufen

Über den Autor