Drei Techniken für effizientere Speicher

16.04.2009
Von 
Martin Bayer ist Chefredakteur von COMPUTERWOCHE, CIO und CSO. Spezialgebiet Business-Software: Business Intelligence, Big Data, CRM, ECM und ERP.
Die IT-Budgets werden knapper, doch die Datenberge wachsen unaufhörlich an. Deshalb müssen die Anwender ihre Storage-Umgebungen auf mehr Effizienz trimmen.

Die Verantwortlichen für die Speicherlandschaften in den Unternehmen stecken in einem Dilemma: Angesichts der Finanzkrise streicht das Management vielerorts die IT-Budgets zusammen. Gleichzeitig werden die Storage-Aufgaben nicht leichter. Nach wie vor wachsen die Datenberge, die abgelegt und verwaltet werden wollen. Um aus dieser Zwickmühle herauszukommen, sind die Unternehmen gezwungen, ihre Speicherumgebungen zu optimieren und effizienter zu machen. Die Anbieter versprechen ihren Kunden mit einer Vielzahl neuer Techniken Hilfe bei diesen Hausaufgaben.

1. Deduplizierung

Unter Deduplizierung fasst man Techniken zusammen, die Anwender unterstützen sollen, Datenredundanzen zu erkennen und zu beseitigen. Ziel ist, das Volumen der zu speichernden Daten zu reduzieren und damit Speicherplatz auf den Storage-Systemen einzusparen. Außerdem soll die Netzauslastung sinken. Mit Hilfe von Deduplication-Funktionen werden mehrfach vorhandene Datenbestände nur ein einziges Mal abgespeichert. Die Tools ersetzen redundant abgelegte Informationen durch Platzhalter, so genannte Pointer, die auf den Speicherort der Originaldatei verweisen.

Redundante Daten lassen sich auf verschiedene Art und Weise erkennen. Content-Adressed-Storage-Systeme (CAS), die es schon seit einigen Jahren gibt, identifizieren Daten nach dem Inhalt der Information und nicht nach ihrer Lage auf dem physischen Medium. Damit ist gewährleistet, dass identische Datensätze nicht mehrmals auf dem Speichermedium abgelegt werden.

Moderne Deduplizierungs-Techniken gehen noch einen Schritt weiter. Sie zerlegen Dateien in einzelne Segmente unterschiedlicher Größe, so genannte Chunks. Im nächsten Schritt prüfen die Deduplication-Tools auf Byte-Ebene, welche Chunks sich wiederholen, und ersetzen die redundanten Teile durch Pointer, die wesentlich weniger Speicherplatz benötigen. Ein Beispiel: Ändert sich in einer Powerpoint-Präsentation eine Folie, würde ein dateibasierendes Deduplizierungs-Werkzeug zwei verschiedene Versionen dieser Datei ablegen. Ein Tool, das die Informationen granularer zerlegt, würde erkennen, dass sich nur ein Teil verändert hat, und entsprechend auch nur die beiden Versionen dieser einen Folie abspeichern. Alle anderen Folien der Powerpoint-Präsentationen blieben unverändert ein einziges Mal auf dem Speichermedium abgelegt. Mit Hilfe der Deduplication-Technik auf Byte-Ebene lassen sich also deutlich mehr redundant vorliegende Informationen erkennen und verhindern.

Schnelleres Backup mit Outband

Neben der Art und Weise, wie die zu speichernde Information zerlegt wird, unterscheiden sich auch die Methoden, an welcher Stelle im Datenverarbeitungsprozess die Deduplizierung stattfindet. In-Band- oder Inline-Tools sortieren die redundanten Daten direkt im Backup-Vorgang aus. Das hat den Vorteil, dass Anwender von vornherein Backup-Speicher sparen und die Systeme von Haus aus kleiner anlegen können. Allerdings geht In-Band auf Kosten der Backup-Geschwindigkeit, da immer nur ein Datenstrom analysiert werden kann.

Schneller funktionieren Outband- oder Post-Processing-Verfahren. Dabei werden die Daten zunächst auf das Backup-Medium übertragen und erst dort in einem zweiten Schritt von den Deduplication-Tools durchleuchtet. Das hat den Vorteil, dass Unternehmen die Informationen zügig in mehreren Backup-Strömen sichern können. Auch das Deduplizieren funktioniert schneller, da sich die Daten nachgelagert parallelisiert verarbeiten lassen. Allerdings müssen bei dieser Methode die Backup-Medien größer ausfallen, da die Daten zunächst ganz herkömmlich abgespeichert und erst nachgelagert optimiert werden.

Potenzial noch nicht ausgereizt

Die Hersteller sehen in der Deduplizierung großes Potenzial für mehr Speichereffizienz, räumen im gleichen Atemzug aber auch ein, dass noch etliche Hausaufgaben zu erledigen sind. "Das Thema Deduplizierung steht erst am Anfang", sagt Mika Kotro, Product Marketing Manager von EMC. Bisher werde die Technik nur im Backup-Umfeld eingesetzt.

Um alle Möglichkeiten auszureizen, Speicherressourcen einzusparen, müssten Unternehmen neben den Backups auch ihre primären und sekundären Daten dedupliziert vorhalten können, ergänzt Peter Wüst, Director Systems Engineering von Netapp. Erst dann sei Deduplizierung optimal umgesetzt.

Performance darf nicht leiden

Aus Sicht von Ralf Colbus, Storage-Spezialist von IBM, kämpft die Technik derzeit noch mit Performance-Problemen. Die Systeme müssten in der Lage sein, verloren gegangene Daten schnell wiederherzustellen. Darüber hinaus dürften im Produktivbereich Deduplication-Tools zu keinen Leistungseinbußen führen. Aus diesem Grund gebe es noch keine Deduplizierungs-Lösungen für das Highend, sagt Marcus Schneider, zuständig für das Product Marketing der Speicherlösungen von Fujitsu Technology Solutions. Hier beständen noch Probleme in Sachen Skalierbarkeit und Geschwindigkeit.

2. Thin Provisioning

Mit Hilfe von Thin Provisioning sollen Anwender die Kapazität ihrer Speichersysteme effizienter auslasten können. Nicht nur Speichersysteme, auch Energie und Stellfläche ließen sich einsparen.

Richten Storage-Administratoren Speicherressourcen auf klassische Weise ein, werden oft große Teile der vorhandenen Kapazitäten verschwendet. Im Zuge eines solchen "Hard Provisioning", das auch als "Fat Provisioning" oder "Exact Provisioning" bezeichnet wird, weisen die Speicherverantwortlichen Anwendern oder Anwendungen dediziert bestimmte Ressourcen zu. Mit diesem Vorgang – dedicate on allocation – ist die so zugeteilte Speicherkapazität fest geblockt und steht anderen Anwendern oder Anwendungen nicht zur Verfügung. Darüber hinaus lässt sich der allokierte Speicher nur aufwändig modifizieren. Deshalb bemessen die Administratoren den Speicher meist sehr großzügig. Die Folge: Große Teile der eingekauften Speicherressourcen liegen ungenutzt brach. Experten sprechen von einer durchschnittlichen Auslastungsrate vieler Storage-Systeme von gerade einmal 25 Prozent.

Diese Verschwendung soll sich durch Thin Provisioning verhindern lassen. Dabei wird der Anwendung mehr Speicher vorgegaukelt, als das System in Wirklichkeit u udafür reserviert hat. Der Platz wird aber erst dann tatsächlich belegt, wenn die Anwendung Daten auf das Medium schreibt. Benötigt diese mehr Speicher, bedient sich das System automatisch aus einem freien Speicher-Pool und weist mehr Kapazitäten zu. Wann dies geschehen soll, kann der Administrator über einen bestimmten Schwellenwert festlegen. Darüber hinaus müssen sich die Verantwortlichen nicht mehr um den Speicherbedarf einzelner Anwender und Anwendungen kümmern, sondern nur noch die Gesamtkapazität des Systems im Auge behalten. Erst wenn der freie Speicherplatz unter einen bestimmten Pegel zusammenschmilzt, gilt es zusätzliche Ressourcen einzukaufen.

Kein Speicher auf Vorrat

Damit erleichtert Thin Provisioning die Administration der Storage-Umgebungen: zum einen durch die automatisierte Speicherzuteilung, zum zweiten dadurch, dass von Haus aus weniger Kapazitäten benötigt werden. Letzteres hat außerdem zur Folge, dass der Energiebedarf sinkt und die Unternehmen weniger Stellplatz in ihren Rechenzentren benötigen. Darüber hinaus sparen die IT-Verantwortlichen beim Einkauf, da sie keinen Speicher mehr auf Vorrat einzukaufen brauchen. Gerade angesichts der drastisch fallenden Preise für Harddisks kann dieser Faktor das Budget deutlich entlasten.

Den Speicherexperten zufolge eignet sich Thin Provisioning allerdings nicht für jedes Unternehmen. "Je kleiner der Gesamtspeicherplatz ist und je weniger Systeme angeschlossen werden, umso weniger sinnvoll ist Thin Provisioning", sagt EMC-Manager Kotro. Zwar gebe es einen Trend, dass Thin Provisioning zunehmend auch auf kleineren Systemen eingesetzt werde, ergänzt Schneider von Fujitsu. Der Nutzen der Methode sei allerdings umso größer, je mehr Applikationen und Server auf ein Storage-System konsolidiert sind.

3. Virtualisierung

Was mit Thin Provisioning auf einzelnen Storage-Systemen beginnt, geht mit der Virtualisierung ganzer Speichernetze weiter. Mit Hilfe entsprechender Techniken lassen sich die in einem Storage Area Network (SAN) organisierten Speicherressourcen effizienter auslasten und virtuelle Kapazitäten flexibel verschiedenen Servern zuweisen. Administratoren können im laufenden Betrieb die Größe von LUNs verändern beziehungsweise diese zwischen verschiedenen Speichersystemen migrieren. Damit lassen sich so genannte Tiered-Storage-Architekturen aufbauen, in denen die Daten je nach Anforderung auf dem entsprechenden Speichertyp abgelegt werden können: Informationen, auf die schnell und oft zugegriffen wird, lassen sich zum Beispiel auf schnellen Solid State Drives platzieren, während Daten, die nur gelegentlich aufgerufen werden, ihren Platz auf herkömmlichen SATA-Festplatten finden. Moderne Management-Konsolen sind mittlerweile sogar in der Lage, diesen Prozess automatisch abzuwickeln.

Darüber hinaus bieten virtualisierte Speichernetze eine Reihe weiterer Vorteile: Die IT-Verantwortlichen können Disk Arrays verschiedener Hersteller in einem gemeinsamen Speicher-Pool zusammenfassen. Im SAN verwendete Techniken und Protokolle wie Fibre Channel (FC) und Internet SCSI over IP (iSCSI) spielen für die Virtualisierungsschicht keine Rolle. Funktionen wie Snapshots, Spiegelungen, Replikation und Backups, die zuvor dediziert bestimmten Maschinen zugeordnet waren, lassen sich in einer virtualisierten Umgebung flexibel verteilen.

Je nachdem, wo die Instanz sitzt, gibt es unterschiedliche Ansätze, das SAN zu virtualisieren: Host-, Storage-, Switch- oder Netz-basierend.

Host-basierende Virtualisierungslösungen eignen sich vor allem dann, wenn Anwender nur eine begrenzte Anzahl von Servern betreiben. Für ein einheitliches Storage-Management muss dabei allerdings eine homogene Server-Infrastruktur vorausgesetzt werden. Außerdem gilt es, die im SAN vorhandenen Storage-Ressourcen für alle angebundenen Server entsprechend zu partitionieren. Auch bei Storage-basierenden Virtualisierungslösungen sind die Anwender meist gezwungen, sich auf einen Speicheranbieter festzulegen. Zwar offerieren einzelne Storage-Anbieter inzwischen integrierte Virtualisierungstechniken, mit deren Hilfe sich Disk Arrays von Fremdanbietern als externe LUNs einbinden lassen, wegen fehlender Standards ist dies jedoch nicht die Regel. Herstellerunabhängigkeit und damit größere Flexibilität versprechen dagegen Switch-basierende Virtualisierungslösungen. Die Schaltzentralen kommen von Haus aus mit allen gängigen Server- und Storage-Plattformen zurecht.

Virtualisieren mit Special Appliance

Neben diesen Ansätzen, die auf bereits vorhandener Infrastruktur aufsetzen, gibt es dedizierte Virtualisierungs-Appliances, die sich in das Netz einklinken lassen. Dabei unterscheidet man zwischen Geräten, die direkt im Datenstrom zwischen Server und Speicher hängen (In-Band oder symmetrisch), und Appliances außerhalb des Datenpfads (Out-of-Band oder asymmetrisch). In-Band-Lösungen sind relativ einfach zu implementieren. Die Virtualisierungsinstanz ordnet die LUNs den einzelnen Servern zu und organisiert den gesamten Datenverkehr. Für die angeschlossenen Server bildet die Appliance das Speichersystem. Dort sind auch die Inhaltstabellen der logischen Laufwerke hinterlegt. Problematisch dabei: Fällt die In-Band-Appliance aus, ist das gesamte Speichernetz lahmgelegt. Um die Verfügbarkeit zu sichern, muss der entsprechende Rechner redundant ausgelegt werden. Außerdem lassen sich Management-Aufgaben ausschließlich über die Virtualisierungslösung abwickeln, da alle dafür notwendigen Informationen von den Storage-Systemen auf die Appliance abgezogen sind. Weiterer Schwachpunkt: Da der gesamte Datenverkehr zwischen Servern und Storage über den In-Band-Rechner läuft, kann sich dieses System – sofern es nicht entsprechend performant ausgelegt ist – als Flaschenhals entpuppen.

Außerhalb des Datenstroms

Diesem Problem lässt sich mit Out-of-Band-Appliances begegnen. Diese sitzen außerhalb des Datenstroms und kommunizieren via LAN mit den Host-Bus-Adaptern (HBA) in den Servern. Dort hinterlegt die Virtualisierungslösung, auf welche LUNs der Host zugreifen darf. Für diese Methode müssen allerdings so genannte Agenten auf den Servern installiert werden. Dafür ist diese Konfiguration weniger anfällig als In-Band-Appliances. Das System kommt mit weniger Leistung aus, da es lediglich Metadaten verwalten muss und die Input/Output-Operationen auf herkömmlichem Weg direkt zwischen Server und SAN abgewickelt werden. Außerdem bricht bei einem Ausfall der Out-of-Band-Appliance nicht gleich die ganze Speicherarchitektur zusammen. Basisfunktionen des SAN lassen sich weiter nutzen.

Anwenderunternehmen virtualisieren neben ihren Primärspeichern mittlerweile auch ihre Bandbibliotheken. Virtual Tape Libraries (VTLs) emulieren mit Hilfe einer speziellen Software ein Bandlaufwerk, sitzen in Wirklichkeit jedoch auf herkömmlichen Disk Arrays. Der Vorteil: Backup-Daten lassen sich so schneller ablegen, weil sie zuerst auf einer Festplatte fixiert und erst dann in einem zweiten Schritt im Hintergrund auf eine Bandbibliothek geschrieben werden. Gerade wenn das Backup-Fenster zeitlich begrenzt ist, empfiehlt sich diese Methode. Mit der Emulation müssen die Administratoren zudem ihren Backup-Prozess nicht modifizieren, da die VTL den Servern wie gewohnt ein Bandlaufwerk zum Sichern der Daten vorspielt.

Angesichts der um sich greifenden Virtualisierung scheint es nur noch eine Frage der Zeit, bis die gesamte Storage-Infrastruktur unter einer gemeinsamen Management-Schicht verschwindet. Speicherfunktionen würden dann automatisiert abgewickelt, der Verwaltungsaufwand deutlich reduziert. Bislang fehlen jedoch die notwendigen Standards, um den Traum von einer Unified Storage Architecture wahr werden zu lassen.

Storage-Virtualisierung kaum geübt

Laut einer Studie von Techconsult aus dem vergangenen Jahr liegt in Sachen Speichereffizienz in deutschen Betrieben noch einiges im Argen:

  • 60 Prozent der rund 200 befragten Unternehmen räumten ein, dass ihre Speichersysteme übers Jahr gesehen durchschnittlich nur zur Hälfte gefüllt sind.

  • Etwa 15 Prozent der Befragten sprachen sogar von einer Auslastung von lediglich einem Viertel.

Vor allem mittelständische Firmen haben Probleme, eine effiziente Storage-Landschaft zu betreiben. Die Verantwortlichen in den Unternehmen täten sich schwer, den eigenen Speicherbedarf richtig einzuschätzen, so die Techconsult-Analysten.

Umso erstaunlicher erscheint es, dass sich bislang nur wenige Betriebe mit StorageVirtualisierung beschäftigen, um ihre Speicherlandschaften besser auszulasten:

  • Nicht einmal zehn Prozent der Firmen betreiben Speichervirtualisierung.

  • Von den kleinen Unternehmen mit weniger als hundert Mitarbeitern befassen sich sogar nur zwei Prozent mit Storage-Virtualisierung.

  • 16 Prozent der Unternehmen mit mehr als 500 Beschäftigten virtualisieren ihren Speicher.

  • Wenn Unternehmen Speicher virtualisieren, wird meist nur ein Teil (50 bis 75 Prozent) des gesamten Datenvolumens davon erfasst.

Fallstrick Lizenzierung

Analysten von Gartner empfehlen Unternehmen bereits seit längerem, sich vor dem Einsatz virtualisierter Umgebungen intensiv mit dem Thema Lizenzierung zu befassen. Der zunächst erhoffte Spareffekt kann durch steigende Lizenzkosten der eingesetzten Software schnell zunichtegemacht werden:

  • Laut einer Studie von Techconsult bemängeln 23 Prozent der befragten Anwender, dass die Lizenzmodelle noch nicht ihren Anforderungen gerecht werden.

  • In 33 Prozent der Großunternehmen schränken unausgereifte Lizenzmetriken den Einsatz von Virtualisierung ein.

An dieser Stelle sind vor allem die Hersteller gefordert. Denn die Preise aus der Welt der physischen Rechner sind nicht nahtlos auf die Konzepte einer virtualisierten Infrastruktur übertragbar.

Beispiele:

  • Ein Unternehmen setzt dieselbe Software für mehrere virtuelle Maschinen auf demselben Server ein. Je nach Lizenzmodell können zum Beispiel für acht virtuelle Maschinen mit der Anwendungssoftware auf einem Vier-CPU-Server vier oder acht Lizenzen erforderlich sein.

  • Wer im Rahmen seines Disaster-Recovery-Plans eine Kopie einer virtuellen Maschine vorhält, muss dafür eine Lizenz vorweisen können. Der Einsatz einer entsprechenden Backup-Software würde nach gängiger Praxis für jeden virtuellen Server eine Lizenz erfordern – ein Kostenfaktor, der unweigerlich ein großes Stück der Einsparungen wieder auffressen würde.

Angesichts des Dickichts der verschiedenen Lizenzierungsmodelle müssen Anwender ihren Lizenzbedarf für virtualisierte Umgebungen vorausschauend planen. Einige Hersteller bewegen sich bereits auf die virtuelle Realität zu. Beispielsweise bietet Acronis mit seiner Virtual Edition eine angepasste Backup- und Recovery-Lösung. Jede Lizenz erlaubt Administratoren die Sicherung und Wiederherstellung von bis zu 99 virtuellen Servern zu einem festen Preis – solange sie sich auf demselben physischen Host befinden.

Storage – Effizienz inklusive

Viele Hersteller haben auf veränderte Storage-Anforderungen reagiert und bieten Geräte mit vorintegrierten Techniken an, die die Effizienz des Speichers verbessern sollen:

  • EMC liefert die erst jüngst vorgestellten "Symmetrix-V-Max"-Systeme mit der "Virtual Matrix Architecture" aus. Damit sollen sich alle Storage-Ressourcen in einem zentralen und flexiblen Pool integrieren lassen. Darüber hinaus sollen Anwender ihre Storage-Infrastruktur automatisiert einfacher verwalten können. Beispielsweise lassen sich mit "Auto-Provisioning" Speicherressourcen wie Ports und Host Bus Adapters (HBAs) zu Gruppen zusammenfassen. Wird ein weiteres Volume in den Speicher-Pool eingefügt, erkennen alle Ports und HBAs dies automatisch. Früher hätte der neue Speicher mit wesentlich mehr Aufwand integriert werden müssen.

  • IBM bietet mit der "TS 7650 ProtecTIER" eine dedizierte Deduplizierungs-Appliance an. Das Backup-Device vereint Server, Controller, Speicher und Software vorkonfiguriert in einer Maschine. Redundante Daten werden beim Sichern herausgefiltert und damit das Backup schlanker. Die TS 7650 kann laut Hersteller bis zu zwölf virtuelle Bibliotheken, 256 virtuelle Laufwerke und 125.000 virtuelle Kassetten emulieren. Mit der integrierten Virtualisierung müssten Administratoren ihre Storage-Umgebung nicht modifizieren, um die Backups effizienter zu machen.

  • Hewlett-Packard integriert in seine aktuellen Modelle der "Enterprise-Virtual-Array"-Serie (EVA) die erweiterte "SAN Virtualization Services Platform" (SVSP). Damit ließen sich laut Hersteller mehr Produkte von Drittanbietern in einen virtualisierten Speicher-Pool einbinden. Anwendungen und Daten sollen sich im laufenden Betrieb zwischen verschiedenen Systemen hin- und herschieben lassen. Damit verringere sich der Aufwand für die Administration der Systeme sowie für Migration, Backup und Replikation von Daten. Anwender sollen die vorhandenen Kapazitäten zu mehr als 70 Prozent auslasten können.