Speicher-Grid: IT-Netz für morgen?

30.03.2005
Von Rainer Graefen
Das neue Konzept soll für billigeres Daten-Management und unbegrenzten Zugriff sorgen.

Anders als beim Grid Computing, das beliebig skalierbare Rechenleistung zum Ziel hat, gibt es keinen Sinn, Speicherkapazität zu skalieren. Schließlich lassen sich Speichersysteme im Storage Area Network (SAN) oder Network Attached Storage (NAS) schon heute beliebig zu riesigen Datenlagerhallen erweitern. Während skalierbare Rechenleistung allerdings die Rechenzeit verkürzt, würden der Aufbau und das Vorhalten nicht benötigter Speicherkapazität die Lagerhaltungskosten in die Höhe treiben.

Bei Grid Storage handelt es sich im Kern nicht um ein zu lösendes Lagerproblem massenweise anfallender Daten, sondern um zwei große und altbekannte Speicherthemen. Erstens soll die Schere zwischen sinkenden Initialkosten für die Hardwareanschaffung und den steigenden Management-Kosten wieder ein Stück weit geschlossen werden, und zweitens will man den unbegrenzten Datenzugriff bewerkstelligen. Die Lösung beider Probleme wurde den Anwendern schon mit der Erfindung des SAN versprochen. Zu lösen war das Problem aber noch nicht einmal mit der Speichervirtualisierung, die alle Speichersysteme als Speicherblöcke in einem gemeinsamen Pool abbildet.

Gegenwärtig sind es vor allem IBM mit "Data Grid", Hewlett-Packard (HP) mit "Storage Grid" sowie Network Appliance (Netapp) mit "Grid Storage", die Speicher-Grids voranbringen könnten. IBM stellt dazu die beiden Produkte "Total Storage SAN Volume Controller" und "SAN Filesystem" bereit, HP vermarktet das "Reference Information Storage System" (RISS), und Netapp setzt auf die beiden Produktlinien "Data Ontap 7G" und die 2004 von Spinnaker Networks übernommene Technik "Spinserver", die so schnell als möglich zusammengeführt werden sollen.

Die Ansätze der drei Unternehmen sind - trotz Namensähnlichkeit - sehr unterschiedlich. Für IBM ist Ausgangs- und Endpunkt der Datenspeicherung ein Storage Area Network, ein schnelles Netzwerk, in dem nicht nur Hunderte Terabyte, sondern Hunderte Petabyte von Daten transportiert werden. Ob in diesem Speichernetz die Daten mit dem Fibre-Channel-(FC-) oder einem iSCSI-Protokoll auf Basis von Ethernet übertragen werden, dürfte IBM gleichgültig sein. NAS-Systeme integrieren sich in diesem Konzept als NAS-Header in das große Ganze. Zu klären ist im Laufe der nächsten Jahre, ob sich digitale Daten, analoge Sprache und Speicherblöcke auf ein 10-Gigabit-Ethernet konvergieren lassen. Abhängig vom Preis-Leistungs-Verhältnis werden das die Kunden entscheiden, und IBM wird sich dem Druck der Marktkräfte sicher nicht entgegenstemmen und auf dem FC-Protokoll bestehen.

Storage Grid: Die Alternative zu EMCs Centera

Zu sehen ist jedenfalls schon heute, dass ein Gigabit-SAN auf IP-Basis nicht ausreichen wird, um Datenmassen im Petabyte-Bereich zu bewegen. Im Prestigeprojekt am Genfer Kernforschungszentrum Cern erzielt man im Augenblick bei einer "kleineren" iSCSI-Testinstallation mit 27 TB Speicherkapazität einen Datendurchsatz von 700 MB/s. Mindestens die zehnfache Geschwindigkeit dürfte notwendig sein, um die von der nächsten Beschleunigergeneration produzierten Datenmassen auf Festplatten zu lagern. Unterstellt, der Unternehmensspeicher ist als Pool virtualisiert, verlangt IBM für das SAN Filesystem nach Listenpreis für eine Basisversion mindestens 60000 Euro. Ist noch Hardware in Form von X-Series-Servern für die Verwaltung der Metadaten anzuschaffen, so ist von Initialkosten von 150000 Euro auszugehen. Laut IBM-Angaben haben mehr als 50 Großkunden das SAN Filesystem im produktiven Einsatz.

Bei Hewlett-Packard haben sich die Entwickler von RISS im ersten Schritt auf eine Archivierungslösung konzentriert, die im Gegensatz zur "Centera" von EMC gleich die Suchmaschine integriert. HP will dem Administrator ein modular erweiterbares System an die Hand geben, das die primären Speichersysteme von E-Mails, Preislisten, Produktbeschreibungen, Videoclips, Sprachaufzeichnungen oder auch Röntgenbildern, also dem "fixed content", befreit. Geworben wird für das Produkt vor allem mit seinen Fähigkeiten bei der E-Mail-Archivierung. Unterstützt werden inzwischen die Mail-Server Exchange 5.5, 2000 und 2003, Lotus Domino V5 und V6 sowie Sendmail.

Mit einer digitalen Signatur wird jede Datei vor Verfälschungen geschützt. Ein zusätzlicher Zeitstempel erlaubt die Anwendung von Retention-Policies, so dass Inhalte tatsächlich erst nach dem Verfallsdatum gelöscht werden.

RISS wird vom Hersteller als Storage Grid vermarktet. Das Basissystem baut auf einer Grid-Struktur mit Kapazität für 4 TB Daten auf, beinhaltet Volltextindexierung und Inhaltsschutz sowie in jeder Zelle eine eigene Suchmaschine. Ein Storage Grid mit 65 TB soll laut Produkt-Manager Tim Nolte in zehn Sekunden Treffer liefern. Erweitert wird in Schritten von 1,2 TB. Die Erstinstallation benötigt einen Installationsservice von HP.

Smarte Speicherzellen mit Recheneinheit

Das RISS besteht aus modularen, standardisierten Zellen (Smart Cells), die in der kapazitäts- stärkeren Fassung mindestens zehn 19-Zoll-Rechnereinschübe umfassen. Ein Kickstart-Server betankt die Smart Cells mit der benötigten Software. Die derart "intelligent" gemachten Knoten aus Proliant-Rechnern mit ein oder zwei Prozessoren, 2 GB Hauptspeicher, der als schneller Zwischenspeicher fungiert, und einem 400 GB großen Raid-5-Verbund bilden das Rückgrat der Highspeed-Smart-Cells. Weitere Zellen lassen sich - so die

Vision - für die SAN-Anbin-dung, als Datei-Server und für die Datenspeicherung von einem in RISS integrierten Kickstart-Server aus konfigurieren. Angesichts der existierenden und geplanten Smart Cells stellt sich allerdings die Frage, wie weit das System rekonfigurier- bar ist. Die Kosten von knapp 400000 Euro für die- se Version haben wohl viele Kunden abgeschreckt, so dass HP seit Anfang September 2004 auch eine kleinere Version mit einem Speichervolumen von 1,2 TB anbietet. Der Preis: 95000 Euro für das Basismodul, jede weitere Smart Cell mit 400 GB Speicherkapazität schlägt mit 20000 Euro zu Buche.

Netapp hat im November 2004 das neue Betriebssystem Data Ontap 7G herausgebracht, das mit "Flexclone" und der dynamischen Speichervirtualisierung "Flexvol" nach Angaben von Unternehmensvertretern wichtige Funktionen für die Grid-Storage-Strategie bringt. Das Upgrade ist für diejenigen Kunden kostenfrei, die über einen Servicevertrag mit Softwarewartung verfügen. Das Feature Flexvol muss nicht freigeschaltet werden, Flexclone dagegen schon. Der Einstiegspreis für einen Filer "FAS 250" mit dem neuen Betriebssystem beträgt 19 300 Euro, für die Flexclone-Option sind weitere 6600 Euro zu bezahlen.

Flexvol löst ein altes Problem der Filer: Der Anwender musste sich bislang zwischen den beiden Parametern Kapazität oder Datendurchsatz entscheiden. Dank Flexvol belegen jetzt Raid-Gruppen nicht mehr komplette diskrete Festplatten. Vielmehr wird der Datencontainer nur noch entsprechend der tatsächlich benötigten Kapazität über das komplette Array gezogen. Damit steht allen Anwendern der jeweils maximale Datendurchsatz des Array zur Verfügung. Zusätzliche Festplatten lassen sich sehr einfach integrieren und erhöhen die Gesamtleistung. Da die Raid-Gruppen abhängig vom Projektbedarf verkleinert und vergrößert werden können, lässt sich die Speicherkapazität des Array deutlich besser ausreizen.

Schnelle Integration unterschiedlicher File-Systeme

Flexclone erweitert die bekannt guten Snapshot-Funktionen der Netapp-Filer. Sie werden mit der neuen Funktion wiederbe schreibbar. Eine Anwendung kann damit nicht nur zu einem früheren Datenzustand zurückkehren, sondern mit diesem auch gleich weiterarbeiten.

Bis Anfang 2006 sollen Data Ontap und Spinserver-Betriebssystem codekompatibel sein. Da Data Ontap auf dem "Berkeley Fast File System" aufbaut, Spinnaker aber das "Andrew File System" benutzt, hatte man anfangs erwartet, dass sich die Integration bis ins Jahr 2007 hinziehen könnte.

Hersteller verfolgen individuelle Lösungen

Bisherige Grid-Storage-Lösungen spiegeln die gegenwärtige Lage der Hersteller wider: Netapp hat auf Grund vieler Filer in größeren Unternehmen einerseits ein Management-Problem, andererseits die Herausforderung zu lösen, wie sich die Last der vielen Boxen verteilen lässt. Dazu kommen neue Anforderungen: Partner sollen Anwendungen zum Information-Lifecycle-Management (ILM) und für die Einhaltung gesetzlicher Aufbewahrungspflichten entwickeln und vermarkten.

IBM setzt auf ein hochperformantes Filesystem, das die Nagelprobe in kommerziellen Unternehmen mit vielen kleinen Dateibewegungen noch bestehen muss. HP schließlich versucht eine Gratwanderung zwischen Server- und Speichervirtualisierung. Allen Protagonisten gemein ist, dass sie letztendlich ein universelles Dateisystem umsetzen müssen, das die Unterschiede zwischen den Betriebssystemen und ihren Anwendungen einebnet. (kk)