Chunks statt Redundanz

Deduplizierung ist rechtskonform und spart Geld

Thomas Pelkmann ist freier Journalist in Köln.
Anzeige  Wer mit explodierendem Datenaufkommen seine Storage-Infrastruktur nicht hoffnungslos überfordern möchte, sollte sich über eine Reduktion der Daten Gedanken machen. Daten-Deduplizierung spart nicht nur Bandbreite und Speicherplatz; in der Summe lässt sich damit bares Geld sparen.

Ein Großteil der in Unternehmensnetzen gespeicherten Daten ist Schrott, hat jüngst der Datenintegrationsspezialist Informatica in einer Umfrage herausgefunden: Acht von zehn Managern haben dort eingeräumt, dass in ihren Firmennetzen ungenutzte Daten und Applikationen schlummern. Zudem seien viele Informationen redundant oder inkonsistent vorhanden. Der Datenschrott kostet die Unternehmen richtig Geld; in Einzelfällen berichteten die IT-Verantwortlichen in der Informatica-Umfrage von jährlichen Kosten in Millionenhöhe.

Aber gibt es überhaupt überflüssige Daten in den Unternehmen? Die befragten CIOs erzählen von Daten, die aus Rechtsgründen aufbewahrt werden müssen; in Deutschland gilt zum Beispiel für alle Dokumente, die zu Streitigkeiten führen könnten, eine Aufbewahrungsfrist von sechs Jahren; für Buchungssätze und Jahresabschlüsse gelten sogar zehn Jahre. Einzelne Patientenakten in Krankenhäusern und Arztpraxen müssen gar bis zu 30 Jahren vorgehalten werden. Kein Wunder, dass es bei den Lebenszyklen moderner Datenbankanwendungen schnell zu vermeintlich unbrauchbaren und unlesbaren Datenmüllbergen kommt. Eine Alternative zur Aufbewahrung existiert dennoch nicht.

IDC-Studie

ROI-Daten im Überblick

Die Analysten von IDC haben neun EMC-Kunden nach dem ROI ihrer Deduplizierungsprojekte gefragt. Dabei gaben die Kunden die folgenden Daten zu Protokoll:

  • Kosteneinsparungen pro Jahr von über 1.000.000 US-Dollar.

  • ROI über drei Jahre von 264 Prozent und eine Amortisation innerhalb von 6,6 Monaten.

  • Kosteneinsparungen im ersten Jahr nach der Bereitstellung von 200.000 US-Dollar für nicht geleistete Anschaffungskosten für Bandlaufwerke-/bibliotheken.

  • Jährliche Einsparung von rund 156.000 Dollar im Bereich der Wartung von vorhandener Hardware für Bandlaufwerke-/bibliotheken.

  • Vermiedene Kosten in Höhe von 80.000 US-Dollar für neue Server.

  • Verkürzte Wiederherstellungszeit von 4,6 Stunden auf etwa 35 Minuten.

  • Einsparung von 1,6 Vollzeitäquivalenten für IT-Mitarbeiter über drei Jahre.

Durch das Reduzieren redundanter Daten gibt es aber zumindest eine Möglichkeit, solche Alt-, aber auch aktuelle Daten platzsparend abzulegen. Datendeduplizierung heißt das Verfahren der Wahl: Hier werden bei jedem Speichervorgang nicht einfach alle Daten auf die Laufwerke gespielt, sondern nur solche, die sich seit dem letzten Speichervorgang geändert haben.

Um das möglichst effizient zu erledigen, zerlegen Deduplizierungsalgorithmen die zu speichernden Daten in kleinste Teile (Chunks) und vergleichen bei späteren Speichervorgängen die neuen Schnippsel mit den bereits abgelegten. Treffen Deduplizierungsprogramme auf schon bekannte Byte-Folgen, wird lediglich ein Verweis darauf abgelegt, nicht aber die Folge selbst.