Deduplizierung spart Speicherplatz

16.08.2007
Durch die Beseitigung redundanter Daten soll sich das Volumen der gesicherten Daten drastisch reduzieren. Im COMPUTERWOCHE-Test musste die Virtual Tape Library "DXi5500" von Quantum zeigen, was sie kann.

Angesichts der ungebremst steigenden Datenmengen benötigen Unternehmen immer schnellere Backup- und Restore-Lösungen, um die Sicherung der Geschäftsdaten innerhalb des Backup-Zeitfensters zu bewerkstelligen. Abhilfe versprechen Virtual Tape Libraries (VTL), die sich wie eine Bandbibliothek verhalten, die Daten aber auf schnelle Festplatten sichern.

Fazit

Durch die Integration einer Deduplizierungstechnik sind die Virtual Tape Libraries von Quantum nun in der Lage, auf dem gleichen Speicherplatz deutlich größere Datenmengen zu sichern. In der Praxis dürften Reduktionsraten um das Zehn- bis 20-fache durchaus realistisch sein.

Unternehmen können damit entweder Speicherplatz sparen oder von den gesicherten Dateien mehr Versionen länger auf dem schnellen Disk-Se-kundärspeicher der VTL vorhalten. Die In-Line-Deduplizierung der DXi-Systeme erfolgt vollständig transparent, hat allerdings im Vergleich mit einer nachgelagerten Deduplizierung den Nachteil, dass die Sicherungsgeschwindigkeit niedriger liegt.

Welche Lösung sich für ein Unternehmen besser eignet, hängt von den jeweiligen Anforderungen ab. Vor einer Investition in die nicht ganz billige Deduplizierung sollte eine Pilot-Teststellung ermitteln, wie groß die Speicherplatzeinsparungen und die Sicherungs- und Wiederherstellungs-Geschwindigkeiten voraus-sichtlich sein werden.

So wurde getestet

Für den COMPUTERWOCHE-Test der DXi5500 von Quantum wurde ein Fibre-Channel-Netz aufgebaut, das die virtuelle Bandbibliothek mit zwei Windows-2003-Test-Servern verband, die als Backup-Server dienten. Ein 4-Gbit/s-FC-Switch "Silkworm 200E" von Brocade stellte die SAN-Anbindungen her. Die Windows-Server waren mit je einem 4-Gbit/s Dual-Port Host-Bus-Adapter des Typs "QLA 2462" von Qlogic bestückt. Als Backup-Software wurde auf dem ersten Server EMC "Legato Networker 7.3" installiert. Die Datensicherungen vom zweiten Server auf die DXi5500 erfolgten mit Hilfe von Symantec "Backup Exec 11d".

Was ist Deduplizierung?

Unter den Begriff Deduplizierung fallen alle Techniken, die darauf abzielen, doppelt oder mehrfach vorhandene Daten nur ein einziges Mal zu speichern. Ziel ist es, das Gesamtvolumen der Daten deutlich zu reduzieren und so kostbaren Plattenplatz einzusparen. Die redundant vorhandenen Informationen werden dabei durch Platzhalter ersetzt, die auf den Speicherort des Originals verweisen.

Die Erkennung redundanter Daten kann auf mehreren Ebenen erfolgen. Am einfachsten ist die Entfernung mehrfach vorhandener, identischer Dateien. Wesentlich feiner arbeiten Reduktionsverfahren auf Block- oder auf Bit-Ebene. Sie erzielen deutlich größere Einsparungen. Ein klassisches Beispiel ist die Powerpoint-Datei, in der lediglich eine Folie geändert wurde. Die granularen Block- und Bit-Level-Techniken speichern nur die geänderten Daten dieser Folie, während es sich für dateiorientierte Lösungen um eine neue Datei handelt, die deshalb ein zweites Mal vollständig gespeichert werden muss.

Große Auswirkungen auf die Funktionsweise der Reduzierungssysteme hat auch der Zeitpunkt, zu dem die Deduplizierung stattfindet. In-Band-Lösungen sortieren die Dubletten im Zuge des normalen Backups gleich mit aus. Dies hat den Nachteil, dass pro Backup-Session nur ein Deduplizierungsprozess möglich ist. Zudem leidet die Sicherungsgeschwindigkeit, weil die für die Datenreduktion erforderlichen Vergleichsoperationen zusätzlich zum normalen Backup betrieben werden müssen. Positiv schlägt dagegen zu Buche, dass In-Band-Lösungen keinen zusätzlichen Speicherplatz benötigen.

Out-of-Band-Systeme nehmen die Deduplizierung erst nach Abschluss des Backups vor. Dadurch wird zusätzlicher Speicherplatz benötigt, weil alle Daten zunächst traditionell zu sichern sind. Andererseits beeinträchtigt die Deduplizierung die Backup-Performance nicht, was insbesondere bei kleinen Zeitfenstern wichtig sein kann. Die Deduplizierung erfolgt ebenfalls schneller, weil sie sich bei einer nachgelagerten Verarbeitung parallelisieren lässt.

Quantum hat für die DXi-Systeme eine spezielle Technik gewählt, um die Nachteile des In-Band-Ansatzes abzumildern. Der Trick besteht darin, die Deduplizierung nicht sofort auszuführen, sondern mit einem kleinen Zeitversatz von mindestens 30 Sekunden. Die zu sichernden Daten werden zunächst in ihrer ursprünglichen Form auf Platte geschrieben. Die DXi-Software zerlegt sie anschließend sofort in 256-MB-Einheiten und markiert jeden dieser so genannten Chunks nach Ablauf von 30 Sekunden als einen Kandidaten für die Deduplizierung.

Das Backup auf die VTL läuft währenddessen parallel weiter. Die Übergabe der Chunks an die Deduplizierungs-Engine erfolgt zeitnah und wird von einer HSM-Software (Hierarchical Storage Management) gesteuert, die Bestandteil des von der DXi verwendeten File-Systems "Stornext" ist. Die Engine betrachtet die Daten als Bit-Muster und sucht darin nach identischen Bit-Sequenzen. Der hierfür eingesetzte Algorithmus geht von einer bestimmten Mindestblockgröße aus, da bei zu kleinen Einheiten zu viele Platzhalter erstellt werden müssten. Im Anschluss an die Deduplizierung komprimiert das System die Daten, wodurch es weitere kleinere Redundanzen beseitigt.

Der von Quantum gewählte Ansatz hat den Vorteil, dass die Performance der VTL relativ konstant bleibt. Bei einer sofortigen Deduplizierung würde die Geschwindigkeit je nach Art der zu sichernden Daten stärker schwanken. Gleichzeitig benötigen die DXi-Systeme im Vergleich zu Out-of-Band-Lösungen nur relativ wenig zusätzlichen Plattenplatz, weil sie die Daten sehr schnell weiterverarbeiten.

Allerdings sind die Kosten pro MB bei Disk-Systemen nach wie vor höher als bei Tape Libraries. Und je mehr Versionen einer Datei vorgehalten werden müssen, umso mehr Speicherplatz benötigen die Backup-Daten. Eine gängige Faustregel lautet, dass das Datenvolumen auf den Backup-Systemen im Lauf der Zeit etwa die zehnfache Menge der zu sichernden Primärdaten erreicht.

Deutliche Datenreduktion

Deshalb bieten immer mehr Hersteller ihre VTL-Lösungen mit einer integrierten oder nachgelagerten Deduplizierung an. Die Beseitigung von Redundanzen in den gesicherten Daten soll das Gesamtvolumen drastisch reduzieren. Einige Anbieter geben an, dass sich die Datenmenge um den Faktor 50 bis 100 verringern lässt. In der Praxis dürften allerdings eher Werte zwischen 10 und 20 realistisch sein.

Die im computerwoche-Test erzielten Reduktionsraten deuten in eine ähnliche Richtung: Sie stiegen kontinuierlich an, von anfänglich 3,9 auf über 7,5. In Datenmengen ausgedrückt bedeutet eine Reduzierung um den Faktor 3,9, dass 53 GB Primärdaten nach der Sicherung und Deduplizierung auf dem Backup-System lediglich 14 GB Speicherplatz belegen. Bei einem Minimierungsfaktor von 7,5 schrumpft der Speicherbedarf auf nur noch 7 GB. Am Ende des computerwoche-Tests waren auf der virtuellen Bandbibliothek 765 GB Daten gespeichert, die vor der Sicherung und Deduplizierung ein Datenvolumen von 5,7 TB ausmachten. Bei einer längeren Testphase wäre die Optimierungsrate vermutlich noch weiter gestiegen, da sich der Einsparungseffekt der Deduplizierung im Zeit-verlauf immer stärker auswirkt.

Aufgrund des deutlich geringeren Platzbedarfs können Unternehmen mit einer Deduplizierungslösung mehr Versionen der gesicherten Dateien über einen längeren Zeitraum auf dem VTL-System vorhalten. Dadurch lassen sich im Ernstfall wesentlich mehr Dateien direkt vom schnellen Backup-to-Disk-System wiederherstellen. Die Deduplizierung eröffnet auch neue Möglichkeiten für Desaster-Recovery-Lösungen, weil wesentlich weniger Daten als bisher zum zweiten Standort repliziert werden müssen. Durch die starke Reduzierung der zu übertragenden Daten lassen sich nun über WAN-Verbindungen deutlich größere Datenvolumen replizieren.

DXi-Familie von Quantum

Die Backup-Spezialisten von Quantum bieten die VTL-Systeme der DX-Familie seit kurzem auch mit integrierter Deduplizierung an. Zur Wahl steht derzeit das Einstiegsmodell DXi3500, das bis zu acht Festplatten aufnimmt, sowie der größere Bruder DXi5500 mit maximal 24 Laufwerken.

Zum computerwoche-Test trat ein DXi5500-System an, das mit 24 500-GB-Festplatten ausgestattet war und damit eine nutzbare Speicherkapazität von 7,2 TB bot. Die Maschine verfügt über vier hot-plug-fähige Netzteile. Die Lüfter lassen sich ebenfalls im laufenden Betrieb austauschen. Die 24 Festplatten sind als Raid-5-Verbünde aus jeweils sechs Disks konfiguriert.

Leistung sticht

Für schnelle Übertragungsraten sorgen zwei Raid-Controller von 3ware, die über jeweils zwölf Kanäle mit der geteilten Backplane kommunizieren. Pro Raid-Controller ist ein globales Hot-Spare-Laufwerk fest zugewiesen. Quantum hat die Raid-Controller absichtlich nicht redundant ausgelegt, sondern das System für eine maximale Performance optimiert. Quantum weist aber darauf hin, dass die auf der VTL gespeicherten Backup-Daten auf jeden Fall zusätzlich auf Band gesichert werden sollten.

Als Betriebssystem für die Backup-Appliance setzt Quantum "CentOS" ein, die frei erhältliche Clone-Version von Red Hat Enterprise. Das Testsystem war mit zwei Xeon-CPUs und 4 GB Arbeitsspeicher ausgestattet. Die Komprimierung der Daten erfolgt in Hardware.

Die DXi3500 unterstützt bis zu acht Partitionen und 32 virtuelle Bandlaufwerke, den größeren Bruder DXi5500 kann der Administrator in maximal 16 voneinander unabhängige Partitionen mit bis zu 64 Laufwerken aufteilen. Neben DLT 7000 Drives emulieren die DXi-Systeme auch LTO-2- und LTO-3-Laufwerke.

Für die Host-Anbindung verfügt das DXi5500-System über zwei Gigabit-Ethernet-Ports und zwei oder vier FC-Ports (2 Gbit/s). Die VTL kann die deduplizierten Daten über IP-Verbindungen auf eine andere DXi-Maschine replizieren. Derzeit ist ein System in der Lage, seine Daten über vier parallele Verbindungen zu replizieren. Damit ist es zum Beispiel möglich, die Backup-Daten von vier Filialen kontinuierlich zur Zentrale zu übertragen.

Installation und Konfiguration

Die DXi5500 lässt sich auf mehreren Wegen in das Netzwerk einbinden. Ist ein DHCP-Server (DHCP = Dynamic Host Configuration Protocol) vorhanden, erhält die zweite Netzwerkkarte der VTL automatisch eine IP-Adresse. Die erste Karte ist mit einer Default-IP-Adresse konfiguriert. Für den Test wurde eine serielle Verbindung mit der DXi hergestellt und die IP-Konfiguration auf diesem Weg durchgeführt.

Die Verwaltung des Systems erfolgt vollständig über eine Web-Oberfläche. Quantum empfiehlt hierfür den Internet Explorer. Um alle Funktionen nutzen zu können, muss auf dem Administrationsrechner eine Java-Runtime installiert sein. Bei der ersten Anmeldung an der DXi5500 startet automatisch ein Assistent, der den Administrator durch die für die Erstkonfiguration erforderlichen Schritte führt.

Nachdem die grundlegenden Einstellungen durchgeführt waren, ging es daran, die virtuellen Bandbibliotheken für die beiden Test-Server einzurichten. Hierfür muss die VTL offline genommen werden. Für den "Legato"-Server wurde eine Library mit sechs virtuellen Laufwerken und 50 Bändern angelegt. Der "Backup-Exec"-Server erhielt eine Bibliothek mit vier Drives und 20 Kassetten. Die Partitionierung der VTL war innerhalb weniger Minuten abgeschlossen. Die virtuellen Bänder lassen sich mit einem Schreibschutz versehen.

Host-Anschluss per auch iSCSI

Die Verbindung der Backup-Server mit der VTL erfolgt wahlweise über iSCSI oder FC. Das DXi-System kann sowohl die Robotik als auch die Bandlaufwerke nach außen als FC-LUN (Logical Unit Number) oder als iSCSI-Device präsentieren. Bei den iSCSI-Einstellungen kann der Administrator unter anderem die Authentifizierung per CHAP (Challenge Handshake Authentication Protocol) aktivieren. Die FC-Settings ermöglichen es, entweder der DXi als Gesamtsystem einen World Wide Name (WWN) zuzuweisen oder für jeden FC-Port eine eigene WWN zu konfigurieren.

Für den Test wurde mit Hilfe der Funktion Auto-Populate die eine VTL komplett dem FC-Port 1 zugewiesen und die andere dem FC-Port 2. Dadurch erhielt jeder der beiden Backup-Server exklusiven Zugriff auf seine VTL. Um NAS-Shares nutzen zu können, muss das DXi-System entweder ins Active Directory oder in eine Windows Workgroup integriert werden.

Einige Backup-Lösungen wie zum Beispiel Netbackup 6.0 sind bereits in der Lage, DXi-Systeme nativ zu erkennen. Beim computerwoche-Test zeigte sich, dass "Legato Networker 7.3" die DXi5500 zwar als Bandbibliothek einrichten kann, allerdings funktionierte der Barcode-Scanner nicht richtig. Deshalb wurde für diesen Backup-Server noch einmal eine neue VTL mit einer "ATL-7000"-Emulation aufgesetzt. Die für diesen Server konfigurierte virtuelle "ATL-1000"-Library wurde auf Anhieb korrekt erkannt und eingerichtet. Nach der Inventarisierung der beiden Bibliotheken und dem Labeln der Bänder waren alle Vorbereitungen für die Backup- und Restore-Tests beendet.

Die Geschwindigkeit einer Datensicherung mit gleichzeitiger Deduplizierung hängt stark davon ab, wie die Daten strukturiert sind. Quantum gibt für die DXi5500 als Maximalwert 800 GB pro Stunde an, was etwa 220 MB/s entspricht. Um im computerwoche-Test eine optimale Performance zu erzielen, wurden für die virtuellen Bandlaufwerke die Block- und die Puffergröße auf den größten Wert eingestellt.

Legato vor Backup-Exec

Der Legato-Server erzielte Übertragungsraten von bis zu 114 MB/s, während der Backup-Exec-Server auf Spitzenwerte von 62 MB/s kam. Die durchschnittliche Transferrate betrug 38 MB/s beziehungsweise 20 MB/s. Der große Unterschied zwischen diesen beiden Systemen ist auf ihre Festplattenkonfigurationen zurückzuführen. Der Legato-Server sicherte 226 GB Testdaten, die auf einem schnellen Raid-0-Stripe-Set aus zwei SAS-Disks lagen. Der Backup-Exec-Server dagegen war nur mit einer einfachen U320-SCSI-Disk ausgestattet, auf der 112 GB Testdaten gespeichert waren. Bei der parallelen Sicherung und Deduplizierung wurden maximale Übertragungsraten von 175 MB/s erzielt, wobei die Festplatten-Performance der Backup-Test-Server den Flaschenhals darstellte. Die Angabe des Herstellers von 220 MB/s erscheint deshalb als durchaus realistisch. Bei der Rücksicherung der beiden Testdatensätze erzielten beide Server durchschnittliche Transferraten von etwa 20 MB/s. Die Spitzenwerte lagen bei 111 MB/s beziehungsweise bei 55 MB/s.

Am Ende des Tests hatte das DXi-System 5,7 TB Primärdaten auf 765 GB Backup-Daten reduziert. Die Deduplizierung arbeitet partitionsübergreifend, betrachtet also alle auf der DXi gespeicherten Daten, nicht nur die einzelner Partitionen. (kk)