Storage-Kosten senken

Drei Techniken für effizientere Speicher

04.05.2009
Von 
Martin Bayer ist Chefredakteur von COMPUTERWOCHE, CIO und CSO. Spezialgebiet Business-Software: Business Intelligence, Big Data, CRM, ECM und ERP.
Die IT-Budgets werden knapper, doch die Datenberge wachsen unaufhörlich an. Deshalb müssen die Anwender ihre Storage-Umgebungen auf mehr Effizienz trimmen.

Die Verantwortlichen für die Speicherlandschaften in den Unternehmen stecken in einem Dilemma: Angesichts der Finanzkrise streicht das Management vielerorts die IT-Budgets zusammen. Gleichzeitig werden die Storage-Aufgaben nicht leichter. Nach wie vor wachsen die Datenberge, die abgelegt und verwaltet werden wollen. Um aus dieser Zwickmühle herauszukommen, sind die Unternehmen gezwungen, ihre Speicherumgebungen zu optimieren und effizienter zu machen. Die Anbieter versprechen ihren Kunden mit einer Vielzahl neuer Techniken Hilfe bei diesen Hausaufgaben.

1. Deduplizierung spart Speicherplatz

Unter Deduplizierung fasst man Techniken zusammen, die Anwender unterstützen sollen, Datenredundanzen zu erkennen und zu beseitigen. Ziel ist, das Volumen der zu speichernden Daten zu reduzieren und damit Speicherplatz auf den Storage-Systemen einzusparen. Außerdem soll die Netzauslastung sinken. Mit Hilfe von De-Duplication-Funktionen werden mehrfach vorhandene Datenbestände nur ein einziges Mal abgespeichert. Die Tools ersetzen redundant abgelegte Informationen durch Platzhalter, so genannte Pointer, die auf den Speicherort der Originaldatei verweisen.

Redundante Daten lassen sich auf verschiedene Art und Weise erkennen. Content-Adressed-Storage-Systeme (CAS), die es schon seit einigen Jahren gibt, identifizieren Daten nach dem Inhalt der Information und nicht nach ihrer Lage auf dem physischen Medium. Damit ist gewährleistet, dass identische Datensätze nicht mehrmals auf dem Speichermedium abgelegt werden.

Moderne Deduplizierungs-Techniken gehen noch einen Schritt weiter:

  • Sie zerlegen Dateien in einzelne Segmente unterschiedlicher Größe, so genannte Chunks.

  • Im nächsten Schritt prüfen die De-Duplication-Tools auf Byte-Ebene, welche Chunks sich wiederholen, und ersetzen die redundanten Teile durch Pointer, die wesentlich weniger Speicherplatz benötigen.

Deduplizierung sorgt dafür, dass identische Daten nur einmal abgespeichert werden. Das spart Platz in den Storage-Systemen.
Deduplizierung sorgt dafür, dass identische Daten nur einmal abgespeichert werden. Das spart Platz in den Storage-Systemen.

Ein Beispiel: Ändert sich in einer Powerpoint-Präsentation eine Folie, würde ein dateibasierendes Deduplizierungs-Werkzeug zwei verschiedene Versionen dieser Datei ablegen. Ein Tool, das die Informationen granularer zerlegt, würde erkennen, dass sich nur ein Teil verändert hat, und entsprechend auch nur die beiden Versionen dieser einen Folie abspeichern. Alle anderen Folien der Powerpoint-Präsentationen blieben unverändert ein einziges Mal auf dem Speichermedium abgelegt. Mit Hilfe der De-Duplication-Technik auf Byte-Ebene lassen sich also deutlich mehr redundant vorliegende Informationen erkennen und verhindern. Die Einspareffekte, was den benötigten Speicherplatz betrifft, sind damit wesentlich größer.

Neben der Art und Weise, wie die zu speichernde Information zerlegt wird, unterscheiden sich auch die Methoden, an welcher Stelle im Datenverarbeitungsprozess die Deduplizierung stattfindet:

  • In-Band- oder Inline-Tools sortieren die redundanten Daten direkt im Backup-Vorgang aus. Das hat den Vorteil, dass Anwender von vornherein Backup-Speicher sparen und die Systeme von Haus aus kleiner anlegen können. Allerdings geht In-Band auf Kosten der Backup-Geschwindigkeit, da immer nur ein Datenstrom analysiert werden kann. Außerdem verlangsamen die notwendigen Rechenoperationen für die Analyse und Modifikation der Daten den Sicherungsprozess. Gerade wenn nur kleine Zeitfenster für das Backup zur Verfügung stehen, kann diese Variante problematisch werden.

  • Schneller funktionieren Outband- oder Post-Processing-Verfahren. Dabei werden die Daten zunächst auf das Backup-Medium übertragen und erst dort in einem zweiten Schritt von den De-Duplication-Tools durchleuchtet. Das hat den Vorteil, dass Unternehmen die Informationen zügig in mehreren Backup-Strömen sichern können. Auch das Deduplizieren funktioniert schneller, da sich die Daten nachgelagert parallelisiert verarbeiten lassen. Allerdings müssen bei dieser Methode die Backup-Medien größer ausfallen, da die Daten zunächst ganz herkömmlich abgespeichert und erst nachgelagert optimiert werden.

Laut EMC-Manager Mika Kotro steht Deduplizierungs erst am Anfang. Aktuell werde die Technik nur im Backup-Umfeld eingesetzt.
Laut EMC-Manager Mika Kotro steht Deduplizierungs erst am Anfang. Aktuell werde die Technik nur im Backup-Umfeld eingesetzt.

Die Hersteller sehen in der Deduplizierung großes Potenzial für mehr Speichereffizienz, räumen im gleichen Atemzug aber auch ein, dass noch etliche Hausaufgaben zu erledigen sind. "Das Thema Deduplizierung steht erst am Anfang", sagt Mika Kotro, Product Marketing Manager von EMC. Aktuell werde die Technik nur im Backup-Umfeld eingesetzt. Um alle Möglichkeiten auszureizen, Speicherressourcen einzusparen, müssten Unternehmen neben den Backups auch ihre primären und sekundären Daten dedupliziert vorhalten können, ergänzt Peter Wüst, Director Systems Engineering von Netapp. Erst dann sei Deduplizierung optimal umgesetzt.

Aus Sicht von Ralf Colbus, Storage-Spezialist von IBM, kämpft die Technik derzeit noch mit Performance-Problemen. Die Systeme müssten in der Lage sein, verloren gegangene Daten schnell wiederherzustellen. Darüber hinaus dürften im Produktivbereich De-Duplication-Tools zu keinen Leistungseinbußen führen. Aus diesem Grund gebe es noch keine Deduplizierungs-Lösungen für das Highend, sagt Markus Schneider, zuständig für das Product Marketing der Speicherlösungen von Fujitsu Technology Solutions. Hier beständen noch Probleme in Sachen Skalierbarkeit und Geschwindigkeit.