Wide Area Storage als Big-Data-Infrastruktur

Big Data – Daten richtig speichern

Frank Herold blickt auf 15 Jahre Erfahrung in der IT- und Speicherbranche zurück. Bei Quantum leitet er den Bereich Consulting für die gesamte Produktlinie im EMEA-Raum. Bis zur Fusion mit Quantum war er bei ADIC etliche Jahre als Consultant, Senior Consultant und als Manager Presales tätig. Vor seiner Zeit bei ADIC verantwortete diplomierte Maschinenbau-Ingenieur in einem deutschen Softwarehaus die Bereiche Entwicklung und Support.
Wie speichert man Inhalte, die für immer existieren sollen? Und wie lässt sich jederzeit und ohne Zeitverzögerung darauf zugreifen? Wide Area Storage ist ein vielversprechender Lösungsansatz.

Die umfassende Analyse von Daten ist in manchen Unternehmensteilen längst Realität. Internet-basierte Marketing-Systeme erfassen "auto-magisch" Massen an Informationen über potentielle Kunden und deren Präferenzen. Flash-fähige digitale Filmkameras können binnen einer Nacht entladen und wieder genutzt werden und sind damit Lichtjahre entfernt von den Zeiten, in denen jedes Einzelbild auf ein extrem teures Medium gebrannt wurde.

Vor dem Hintergrund technologischer Fortschritte nimmt das Thema "Big Data" ein immenses Volumen an. Herkömmliche Storage-Technologien stoßen bei der langfristigen Vorhaltung der Daten schnell an ihre Grenzen.
Vor dem Hintergrund technologischer Fortschritte nimmt das Thema "Big Data" ein immenses Volumen an. Herkömmliche Storage-Technologien stoßen bei der langfristigen Vorhaltung der Daten schnell an ihre Grenzen.
Foto: ben chams, Fotolia.de

Nicht genug: anschließend mussten sie mit unvergleichbar höherem Aufwand manuell verarbeitet und editiert werden. Unternehmen generieren, speichern und analysieren zunehmend HD Videos anstatt Texte, was ein hundertfach höheres Präzisionsniveau von Daten pro Nutzer und pro Produkt mit sich bringt. So erfassen beispielsweise bei der amerikanischen Rennserie NASCAR 18 HD-Kameras das Geschehen auf der Rennstrecke, ermöglichen direkten Datenzugriff, -suche und -analyse.

Daten horten- aber wo?

Vor dem Hintergrund technologischer Fortschritte wie wiederverwendbaren Aufnahme-Medien, höher auflösenden Kameras oder fein granulierter Datenerfassung und -analyse von Videos nimmt das Thema "Big Data" ein immenses Volumen an. Herkömmliche Storage-Technologien stoßen bei der langfristigen Vorhaltung dieser Daten schnell an ihre Grenzen, zumal gleichzeitig auch der effiziente Sofortzugriff gewährleistet werden soll, um das Potenzial der Daten jederzeit voll auszuschöpfen. Denn vielleicht entpuppt sich das Terabyte, das die seismischen 3D-Daten eines Ölfelds in sich trägt, in der nächsten Dekade als wichtige Öl-Ader oder ein genomisches Profil von heute liefert den entscheidenden Hinweis für die Krebsheilung von morgen.

Die Grenzen traditioneller Storage-Lösungen lassen sich mit Object- und Cloud-Storage-Technologien weiter nach hinten verschieben. Allerdings können sie auch neue operative und funktionale Zwänge schaffen. Eine neue Storage-Generation verfügt über die Stärken von Object Storage und bewahrt gleichzeitig die operationale und funktionale Flexibilität. Wide Area Storage ermöglicht eine umfassendere Nutzung von Big Data unter Aufrechterhaltung von Integrität und Langlebigkeit der Daten.

Die natürlichen Grenzen von RAID

Aber wo genau liegen die Grenzen traditioneller Storage Systeme, die Object-Storage-Lösungen überwinden sollen? RAID ist bekanntlich die Basis traditioneller Speichersysteme und hat sich als besonders effektiv für die Datenintegrität in einer einzelnen Gruppe von vier bis zwölf Disks erwiesen.

Doch Datensätze in Petabytes-Größe benötigen entweder Disk-Gruppen von mehr als zwölf Disks oder die Daten müssen auf mehrere RAID-Gruppen verteilt werden. Erstere Variante erhöht das Risiko für Datenverlust aufgrund eines Hardware-Ausfalls und die letzte Variante sorgt für einen rapiden Anstieg der Kosten und Komplexität bei der Verwaltung von Datenkonsistenz und -Integrität über mehrere Disk-Einheiten.

Das Datenwachstum macht zudem die Fehlerquote von Disk-Laufwerken zu einem echten Problem. Werden zum Beispiel Daten von einem vollen 3-TByte-Disk-RAID-Array mit 10 Disks gelesen, ergibt sich eine ungefährere Wahrscheinlichkeit für einen Datenverlust durch einen zufälligen Bitfehler von eins zu drei. RAID hat keinen Mechanismus für die proaktive Erkennung von Bitfehlern. Zudem müssen bei RAID alle Disks lokal vorliegen, im Normalfall auf dem gleichen Controller. Damit bietet RAID begrenzte Sicherheit gegenüber Knoten-Ausfällen und überhaupt keine Sicherheit gegenüber Katastrophen am Ort der Unternehmenseinheit.

Replikation kaschiert Unebenheiten von RAID

Replikation ist eine adäquate Antwort auf die Problemstellen von RAID. Replikation ist in der einfachen Definition das Überkreuz-Kopieren der Daten zwischen zwei oder mehreren Standorten, um den Rückgriff auf Daten im Falle eines Ausfalls gewährleisten zu können. So wird die Integrität, Wiederherstellbarkeit und Zugänglichkeit der Daten deutlich erhöht.

Leider birgt auch Replikation ganze eigene Schattenseiten: Sie senkt den Grad an nutzbarem Speicherplatz und führt zu neuen Verwicklungen, die die Kosten der Storage-Umgebung enorm in die Höhe treiben. So müssen Replikate stets weit genug entfernt von den Primärdaten vorgehalten werden, damit sie im Katastrophenfall ausreichenden Schutz genießen.

Je weiter, je besser wäre jedoch ein Trugschluss, da die Synchronisation der Dateien notwendig ist für angemessene Recovery Point Objectives (RPO). Und diese bedingt eine replikationsfähige, aber leider recht hohe und damit kostenintensive Netzwerk-Bandbreite. Alles in allem bietet Replikation zusätzlichen Disaster Recovery Schutz, vermag die Kosten der Storage Infrastruktur im Extremfall jedoch zu verdoppeln.