EMC sitzt an der Quelle

Deduplizierung - wie geht das?

29.11.2010
Von 
Thomas Pelkmann ist freier Journalist in München.
Anzeige  Muss man angesichts der sinkenden Speicherpreise überhaupt noch über Datenmengen sprechen? Oder handelt es sich um ein Randthema, das die ungeteilte Aufmerksamkeit kaum lohnt? Für die Antwort sollte man zumindest wissen, worüber man redet. Eine Übersicht.
Platz satt durch Deduplizierung: Stellen Sie sich vor, Sie könnten 90 Prozent Ihrer Storage-Infrastruktur sparen.
Platz satt durch Deduplizierung: Stellen Sie sich vor, Sie könnten 90 Prozent Ihrer Storage-Infrastruktur sparen.

In der IT der Neuzeit steigen nicht nur die Storage-Kapazitäten stark an, sondern - und das in noch explosiverem Maße - auch die Mengen der gespeicherten Daten. Laut IDC ergab die Menge der im Jahr 2006 weltweit erzeugten und replizierten digitalen Daten eine Summe von 173 Milliarden GByte. Verglichen mit dem Jahr 2011 ist das eher wenig: Für das kommende Jahr schätzt IDC ein weltweites Speicheraufkommen von stolzen 1.773 Milliarden GByte - das entspricht einer Verzehnfachung der Datenmengen in nur fünf Jahren.

Das Internet mit seinem endlosen Gezwitscher ("Twitter") in den sozialen Netzwerken sowie die Unternehmen mit zunehmend digitalisierten Prozessen tragen zu diesem Datenwachstum in nicht unerheblichem Maße bei. Dazu kommt, dass nur wenige Informationen irgendwann dem digitalen Vergessen anheim fallen. Aufbewahrungsfristen und Dokumentationspflichten sorgen dafür, dass kaum etwas von dem gelöscht wird, was einmal seinen Weg auf Festplatten und Bandlaufwerke gefunden hat.

Dass das meiste von diesen exorbitanten Speichermengen dennoch überflüssig ist, zeigt eine einfache Rückwärtsrechnung. Wenn sich, was Anbieter und Analysten übereinstimmend vorrechnen, durch die Reduktion redundanter Daten bis zu 90 Prozent Speicherplatz sparen lässt, heißt das umgekehrt, dass gerade einmal zehn Prozent der Daten wirklich einzigartig sind. Der Rest besteht - zumindest technisch gesehen - aus nichts als überflüssigen Wiederholungen und Doppelungen.

Wer zum Beispiel seine soeben erstellte Firmenpräsentation per E-Mail nicht nur an den Chef, sondern auch ans Marketing und an die drei Kollegen aus der eigenen Abteilung weiterleitet, verursacht damit ein Fünffaches der Menge an Daten, die seine Präsentation eigentlich produziert hat. Und wer ein - zugegebenermaßen hoffnungslos veraltetes - Backup-System einsetzt, dass Tag für Tag den kompletten Firmenspeicherinhalt sichert, erzeugt in kürzester Zeit locker das Vielfache davon.