Wide Area Storage als Big-Data-Infrastruktur

Big Data – Daten richtig speichern

02.09.2013 von Frank Herold
Wie speichert man Inhalte, die für immer existieren sollen? Und wie lässt sich jederzeit und ohne Zeitverzögerung darauf zugreifen? Wide Area Storage ist ein vielversprechender Lösungsansatz.

Die umfassende Analyse von Daten ist in manchen Unternehmensteilen längst Realität. Internet-basierte Marketing-Systeme erfassen "auto-magisch" Massen an Informationen über potentielle Kunden und deren Präferenzen. Flash-fähige digitale Filmkameras können binnen einer Nacht entladen und wieder genutzt werden und sind damit Lichtjahre entfernt von den Zeiten, in denen jedes Einzelbild auf ein extrem teures Medium gebrannt wurde.

Vor dem Hintergrund technologischer Fortschritte nimmt das Thema "Big Data" ein immenses Volumen an. Herkömmliche Storage-Technologien stoßen bei der langfristigen Vorhaltung der Daten schnell an ihre Grenzen.
Foto: ben chams, Fotolia.de

Nicht genug: anschließend mussten sie mit unvergleichbar höherem Aufwand manuell verarbeitet und editiert werden. Unternehmen generieren, speichern und analysieren zunehmend HD Videos anstatt Texte, was ein hundertfach höheres Präzisionsniveau von Daten pro Nutzer und pro Produkt mit sich bringt. So erfassen beispielsweise bei der amerikanischen Rennserie NASCAR 18 HD-Kameras das Geschehen auf der Rennstrecke, ermöglichen direkten Datenzugriff, -suche und -analyse.

Was ist Big Data?
Was ist Big Data?
Nur 14 Prozent der Bundesbürger wissen, was mit dem Schlagwort „Big Data! gemeint ist, so hat der Bitkom herausgefunden. Experton-Advisor Carlo Velten fasst das Phänomen in fünf Thesen zusammen.
Big Data ist mehr ...
... als IT.
Eigentums- und Verwertungsrechte ...
... über Datenbestände werden zum entscheidenen Wettbewerbs- und Innovationsfaktor.
Der Markt steckt noch ...
... in den Kinderschuhen. Bis sich klar definierte Marktkategorien herausbilden, wird Jahre dauern.
In den kommenden zwei bis drei Jahren ...
... werden die Infrastrukturanbieter, die Analytics-Spezialisten und die Berater das große Geschäft machen.
Erfolg oder Misserfolg ...
... hängen nicht nur von rechtlichen Rahmenbedingungen und öffent¬lichen Investitionen, sondern auch vom vertrauensbildenden Umgang mit den Kundendaten ab.

Daten horten- aber wo?

Vor dem Hintergrund technologischer Fortschritte wie wiederverwendbaren Aufnahme-Medien, höher auflösenden Kameras oder fein granulierter Datenerfassung und -analyse von Videos nimmt das Thema "Big Data" ein immenses Volumen an. Herkömmliche Storage-Technologien stoßen bei der langfristigen Vorhaltung dieser Daten schnell an ihre Grenzen, zumal gleichzeitig auch der effiziente Sofortzugriff gewährleistet werden soll, um das Potenzial der Daten jederzeit voll auszuschöpfen. Denn vielleicht entpuppt sich das Terabyte, das die seismischen 3D-Daten eines Ölfelds in sich trägt, in der nächsten Dekade als wichtige Öl-Ader oder ein genomisches Profil von heute liefert den entscheidenden Hinweis für die Krebsheilung von morgen.

Die Grenzen traditioneller Storage-Lösungen lassen sich mit Object- und Cloud-Storage-Technologien weiter nach hinten verschieben. Allerdings können sie auch neue operative und funktionale Zwänge schaffen. Eine neue Storage-Generation verfügt über die Stärken von Object Storage und bewahrt gleichzeitig die operationale und funktionale Flexibilität. Wide Area Storage ermöglicht eine umfassendere Nutzung von Big Data unter Aufrechterhaltung von Integrität und Langlebigkeit der Daten.

Die natürlichen Grenzen von RAID

Aber wo genau liegen die Grenzen traditioneller Storage Systeme, die Object-Storage-Lösungen überwinden sollen? RAID ist bekanntlich die Basis traditioneller Speichersysteme und hat sich als besonders effektiv für die Datenintegrität in einer einzelnen Gruppe von vier bis zwölf Disks erwiesen.

Doch Datensätze in Petabytes-Größe benötigen entweder Disk-Gruppen von mehr als zwölf Disks oder die Daten müssen auf mehrere RAID-Gruppen verteilt werden. Erstere Variante erhöht das Risiko für Datenverlust aufgrund eines Hardware-Ausfalls und die letzte Variante sorgt für einen rapiden Anstieg der Kosten und Komplexität bei der Verwaltung von Datenkonsistenz und -Integrität über mehrere Disk-Einheiten.

Das Datenwachstum macht zudem die Fehlerquote von Disk-Laufwerken zu einem echten Problem. Werden zum Beispiel Daten von einem vollen 3-TByte-Disk-RAID-Array mit 10 Disks gelesen, ergibt sich eine ungefährere Wahrscheinlichkeit für einen Datenverlust durch einen zufälligen Bitfehler von eins zu drei. RAID hat keinen Mechanismus für die proaktive Erkennung von Bitfehlern. Zudem müssen bei RAID alle Disks lokal vorliegen, im Normalfall auf dem gleichen Controller. Damit bietet RAID begrenzte Sicherheit gegenüber Knoten-Ausfällen und überhaupt keine Sicherheit gegenüber Katastrophen am Ort der Unternehmenseinheit.

Replikation kaschiert Unebenheiten von RAID

Replikation ist eine adäquate Antwort auf die Problemstellen von RAID. Replikation ist in der einfachen Definition das Überkreuz-Kopieren der Daten zwischen zwei oder mehreren Standorten, um den Rückgriff auf Daten im Falle eines Ausfalls gewährleisten zu können. So wird die Integrität, Wiederherstellbarkeit und Zugänglichkeit der Daten deutlich erhöht.

Leider birgt auch Replikation ganze eigene Schattenseiten: Sie senkt den Grad an nutzbarem Speicherplatz und führt zu neuen Verwicklungen, die die Kosten der Storage-Umgebung enorm in die Höhe treiben. So müssen Replikate stets weit genug entfernt von den Primärdaten vorgehalten werden, damit sie im Katastrophenfall ausreichenden Schutz genießen.

Je weiter, je besser wäre jedoch ein Trugschluss, da die Synchronisation der Dateien notwendig ist für angemessene Recovery Point Objectives (RPO). Und diese bedingt eine replikationsfähige, aber leider recht hohe und damit kostenintensive Netzwerk-Bandbreite. Alles in allem bietet Replikation zusätzlichen Disaster Recovery Schutz, vermag die Kosten der Storage Infrastruktur im Extremfall jedoch zu verdoppeln.

Object Storage alles austariert?

Objektspeicher bieten einen völlig anderen Ansatz für das Storage Management. Während traditionelle Storage-Systeme Daten in einem hierarchischen Verzeichnis für Ordner und Dateien darstellen, präsentiert Object Storage Daten in einem flachen Objekt Namensraum (Namespace) aus einfachen Schlüsselworten- und Wertepaaren. Dieser Ansatz ermöglicht Administratoren digitale Datensätze fast grenzenlos zu skalieren.

Die Verarbeitung der Daten geschieht mittels einfacher Netzwerk-basierter Protokolle wie HTTP. Auf diese Art kann der Datenabruf an hochperformante Netzwerk-Switches und Router ausgelagert werden, mit dem Effekt, dass Daten ohne jeglichen virtuellen "Overload" über zahlreiche Storage Knoten verteilt werden können. Zudem kann die Kapazität der Systeme ohne Ausfallzeiten, Leistungseinbußen, Umbauten oder Migrationsmaßnahmen erweitert werden.

Ein weiterer Vorteil der Netzwerk-freundlichen Protokolle und der Verteilungslogik ist die einfache Übermittlung von Daten an unterschiedliche Rechenzentren rund um den Globus. Während der Datenzugriff über lange Distanzen ganz automatisch Latenzen mit sich bringt, wurden die Netzwerkprotokolle von Object-Storage-Systemen für lange Distanzen optimiert, inklusive Netzwerk-Level Kompression, geographischer Lastausgleich und lokalem Caching.

Sicherungsalgorithmen: Erasure Codes

Während Algorithmen der ersten Object-Storage-Generation bereits über einfache Formen der Datensicherung mittels gleichzeitiger Datenkopien über drei oder mehr Knoten verfügen, sind jüngere Implementierungen mit deutlich raffinierteren Sicherungsalgorithmen ausgestattet. Bekannt sind sie unter dem Namen "Erasure Codes". Die Weltraumkommunikation nutzt sie seit Jahrzehnten, um die Integrität der Kommunikationsübertragung zu wahren.

Wo RAID Daten in eine feste Anzahl von Datenblöcken und Prüfsummen trennt, konvertieren die Algorithmen Daten in feste aber gänzlich unterschiedliche Codes, die für die Speicherung getrennt und während des Abrufs wieder zusammengesetzt werden. Da jeder Code einmalig ist, kann eine beliebige Untermenge an Codes verwendet werden, um die Daten wiederherzustellen. Diese Algorithmen ermöglichen Regelwerke, die vor dem Ausfall von Disks, Knoten oder sogar ganzen Rechenzentren schützen - auf einem einzigen System und mit weit weniger Verlust an Redundanzen als bei RAID- oder Replikationslösungen. Datenintegrität wird hier stärker durch individuelle Codes als durch ganze Disk-Reihen geschaffen mit individuell anpassbaren Sicherungsgraden in ein und demselben Storage System.

Unternehmen können ihre Regeln für die Langlebigkeit von Daten entsprechend ihren unterschiedlichen Anforderungen an die Datensicherung anpassen - ohne Hardware-Änderungen und ohne Daten aus dem System zu kopieren.

Grenzen reiner Object Storage Lösungen

Object Storage verhält sich ähnlich wie der Parkservice in einem schicken Hotel. Das Auto wird komfortabel von einem Angestellten geparkt und der Angestellte weiß genau, wie er die Autos parkt, um den vorhandenen Parkraum bestmöglich auszunutzen. Das Parkticket ist dabei der Schlüssel, um sein Auto wiederzubekommen. Verliert man sein Parkticket, muss man mindestens seine Autopapiere samt Ausweis vorzeigen, um sich als Eigentümer auszuweisen.

Was das Parkticket beim Auto ist, ist die Anwendung bei Objektspeicher. Alternative Formen, um die Daten anzusprechen (beispielsweise Pfade, Suchindex) müssen von der Anwendung außerhalb des Objektspeichers gelagert werden. Das macht es sehr schwer, Daten über mehrere Anwendungen zu teilen, so lange sie nicht denselben Objekt-Index nutzen. Auch eine ad hoc-Nutzung von Daten durch den Nutzer wird durch den Schlüssel-Mechanismus enorm erschwert, denn die Daten können nicht über eine gewöhnliche Datei- und Ordnerstruktur aufgerufen werden. Erschwerend kommt hinzu:

IT-Trendtechnologien - derzeit im Einsatz -
IT-Trendtechnologien - Die Wichtigkeit
Desktop-Virtualisierung hat in Sachen Relevanz deutilch die Nase vor, auch in kleineren Unternehmen.
IT-Trendtechnologien - die wichtigsten Vorteile
Technologien deren Vorteile gesehen werden, kommen auch zum Einsatz.
IT-Trendtechnologien - derzeit im Einsatz
Cloud Computing spielt bei kleineren Unternehmen derzeit eine untergeordnete Rolle.
IT-Trendtechnologien - Im Einsatz und geplant
BYOD wird wohl gerade in größeren Unternehmen weiter zunehmen.
IT-Trendtechnologien - dies planen die Unternehmen
Cloud Computing wird bei großen Unternehmen eine immer größere Rolle spielen.

Die Zukunft von Object Storage

Das Essentielle für die erfolgreiche Nutzung von Object Storage ist die Fähigkeit, unstrukturierte Daten im Objektspeicher zu verwalten. Die gebräuchlichste Art, wie Unternehmen unstrukturierte Daten managen können, ist mittels eines Network Attached Storage Systems (NAS).

Dessen Vorzüge auch für Object Storage zu nutzen, führt zu interessanten Ergebnissen. Erstens können durch die Bereitstellung eines klassischen Filesystem-Namensraums Unternehmen unstrukturierte Daten in den Objektspeicher migrieren. Das vergrößert ihre Haltbarkeit und reduziert die Kosten für ihre Vorhaltung. Zweitens sind CIFS und NFS-Protokolle mit zahlreichen Betriebssystemen kompatibel; damit wird der Zugriff auf den Objektspeicher garantiert. Nutzer greifen so auch eigenständig und nach Bedarf auf Daten zu. Nicht zuletzt können IT-Administratoren viele der traditionellen operativen Best Practices für Datenmanagement und Sicherheit in Anspruch nehmen, da Objektspeicher in einem Dateisystem abgebildet werden. Diese neue Art von Object Storage firmiert sich unter Wide Area Storage (WAS).

Ein weiteres entscheidendes Merkmal von Wide Area Storage ist die Fähigkeit zum aktiven Data Lifecycle Management durch den Einsatz etablierter Storage-Management-Strategien. Lösungen für "Hierarchisches Speicher Management" (HSM) haben diese Eignung in traditionellen Speichersystemen bereits unter Beweis gestellt. Unternehmen, die HSM nutzen, sehen Objektspeicherung als logische Erweiterung ihres bestehenden Regelwerks.

Wide Area Storage als Archivlösung

WAS kann ebenso als attraktives Langzeit-Archiv dienen. Denn Object Storage bietet die gleichen Sicherheitslevels wie Tape - aber mit viel geringeren Latenzen. Objektspeicher können auch als Verbindung zu Object-Storage-basierenden Cloud-Lösungen dienen. Die variable Einsatzfähigkeit öffnet eine große Bandbreite an Off-Site-Lösungen für die langfristige Datenvorhaltung.

Neben dem Archivierungspotential sind Object-Storage-Architekturen so angelegt, dass sie automatisch Multi-Site-Recovery-fähig sind. Da Daten mittels Standardnetzwerken über Knoten verteilt sind, können die Knoten als Mix aus lokal, Außenstelle oder mehreren Stellen konzipiert werden. Fällt ein gesamtes Rechenzentrum aus, so lassen sich die Daten in der Zweigstelle trotzdem wiederherstellen.

Im Ergebnis verfügen Anwender über eine automatische Multi-Site-Sicherung ohne die Notwendigkeit einer Installation, Konfiguration und Koordination dedizierter Replikationsfähigkeiten. Die Multi-Site-Verteilung bietet zudem bezahlbaren Datenzugriff von jedem Standort. Nutzer können Daten von lokalen Knoten aufrufen und geschriebene Daten werden über alle Zweigstellen verteilt - ohne die administrativen Kopfschmerzen des Managements bidirektionaler Replikation.

Nicht zuletzt bietet Wide Area Storage die Möglichkeit der Nutzung sowohl mit Dateisystem-basierten Klienten als auch mit Anwendungen, die speziell für die Nutzung von Object Storage entwickelt wurden. Das garantiert den breitesten Datenzugang innerhalb eines Unternehmens.

Mit dem Besten aus zwei Welten eröffnet Wide Area Storage Unternehmen neue Anwendungsszenarien für eine umfangreichere Nutzung von Big Data - ohne zu verwässern. (cvi)