EMC sitzt an der Quelle

Deduplizierung - wie geht das?

29.11.2010
Von 
Thomas Pelkmann ist freier Journalist in München.

Dedup an der Quelle oder am Ziel

Sozusagen der letzte Schrei bei den Dedup-Algorithmen ist die Unterteilung in Blöcke nicht starrer, sondern variabler Größe. "Ein Ansatz mit variabler Länge", heißt es bei IDC, "kann die Segmentgröße je nach Content-Typ dynamisch anpassen." Damit sei es möglich, redundante Datensegmente zu berücksichtigen, deren Position sich bei Änderung einer Datei in einem Byte-Stream verschoben habe. "Bei einem Ansatz mit fester Länge werden redundante Daten, deren Position sich geändert hat, nicht erkannt." Das aber sei "ineffizient", weil eigentlich redundante Segmente dann erneut gespeichert werden müssen.

Für die Suche nach überflüssigen Redundanzen haben sich zwei Verfahren etabliert: das Deduplizieren an der Quelle und am Ziel. Beim Dedup an der Quelle, ein Verfahren, das zum Beispiel EMC bevorzugt, werden Redundanzen ausgefiltert, bevor Daten für das Backup auf die Speichermedien übertragen werden. Die zielbasierte Deduplizierung erfolgt dagegen nach der Übertragung der Daten direkt am Backup-Speicher-Device.

Beide Verfahren sind Ziel führend, haben aber für sich genommen Vor- und Nachteile. So reduziert die Quellvariante die Menge der über das Netz ans Ziel übertragenen Daten um das Zehn- bis Zwanzigfache. In Unternehmen, deren Netzwerke schon im Normalbetrieb an die Leistungsgrenze kommen oder die mit einer Vielzahl von Außenstellen arbeiten, verhindert dieses Verfahren eventuelle Übertragungsengpässe. Der Gewinn sind eine höhere Verfügbarkeit und eine bessere Performance des Firmennetzes.

Zudem ist Dedup an der Quelle flexibler als am Ziel: Hier können Daten aller Art gespeichert werden, egal, ob sie kompatibel zur Deduplikations-Anwendung sind. Zudem benötigt diese Variante keine zusätzliche Hard- oder Software am Ziel. Schließlich verringert die Quell-Variante die Zeit für Backups, weil redundante Daten schon vor dem Transport durchs Netz und dem eigentlichen Backup-Prozess ausgefiltert und damit stark reduziert werden.

Dieser Gewinn muss vor allem mit Prozessorlast bezahlt werden, weil der Desktop-PC oder der Server für die Deduplizierung der Daten zuständig sind, und nicht das Storage-System. Im Extremfall kann das spürbare Leistungseinbußen auf produktiven Maschinen zur Folge haben.