Storage Tiering

In Schichten zum optimalen Speicher

16.11.2012 von Bernd Reder
Mit Automated Tiered Storage (ATS) können Unternehmen Daten je nach Nutzungsgrad auf dem passenden Speichermedium ablegen und so ihre IT optimieren.

Lange Zeit war in Unternehmen die Vorstellung verbreitet, dass Speicherplatz "nichts kostet". Gefördert wurde dieses Denken durch die Preisentwicklung bei Massenspeichern wie Festplatten, Bandlaufwerken und neuerdings Solid State Drives (SSD): Die Kapazitäten der Speichermedien stiegen, die Preise gingen nach unten. So kostet bei SATA-Harddisks der Enterprise-Klasse ein Gigabyte derzeit etwa 7 bis 10 Cent. Bei SAS-Modellen (Serial-Attached Storage) sind es rund 50 Cent, bei den preisgünstigsten Modellen zirka 12 Cent.

Doch die rapide steigenden Datenmengen in den Rechenzentren haben dazu geführt, dass "Storage" mittlerweile ein erheblicher Kostenfaktor ist. Nach Schätzungen des Marktforschungsinstituts IDC steigt das Datenvolumen in einem Rechenzentrum um 60 Prozent pro Jahr. Ein Data Center mit Storage-Systemen, auf denen heute 100 TByte Daten lagern, muss laut dieser Rechnung im Jahr 2022 Speicherkapazitäten von11 Petabyte vorhalten.

Allerdings werden nicht alle Daten im selben Maße genutzt. Nach Untersuchungen von EMC beträgt die Wahrscheinlichkeit, dass Nutzer auf Daten zugreifen, die älter als 90 Tage sind, nur 10 Prozent. Bei Informationsbeständen, die ein halbes Jahres alt sind (180 Tage), sinkt der Wert auf 1 Prozent, und nach einem Jahr erreicht er 0,01 Prozent. Deshalb bietet es sich an, ein Schichtenmodell (Storage Tiering) zu verwenden, also häufig verwendete Daten auf schnellen, dafür kostspieligeren Speichermedien wie SAS-Platten und Solid State Drives (SSDs) vorzuhalten, weniger häufig nachgefragte Informationen dagegen auf preisgünstige SATA-Festplatten, Virtual Tape Libraries (VTL) und Bandbibliotheken auszulagern.

Tiered Storage als Nachfolger von Hierarchical Storage Management

Storage Tiering ist kein brandneues Konzept. Die Grundlagen sind bereits seit mehreren Jahrzehnten bekannt und stammen aus der Mainframe-Welt. Sie wurden in Form des Hierarchical Storage Management (HSM), Information Lifecycle Management (ILM) sowie Automated Tiered Storage in den vergangenen 20 Jahren verfeinert.

Der Grundgedanke blieb derselbe: "Hot Data", also solche, die schnell bereitgestellt werden müssen, geschäftskritisch sind und auf die Anwender häufig zugreifen, werden auf schnellen Speichermedien wie SAS-RAID-Konfigurationen oder Flash-Speichern vorgehalten. Weniger wichtige Informationen ("Cold Data") lagern dagegen auf preisgünstigeren Medien wie SATA-Festplatten-Arrays oder Archivierungsmedien.

Klassisch ist ein Ansatz mit drei Ebenen (Tiers):

Dieses Modell ist jedoch nach Ansicht einiger Fachleute überholt. Sie empfehlen eine feingliedrigere Struktur, die vier bis fünf Ebenen vorsieht. Die amerikanische Beratungsgesellschaft Horison Information Strategies beispielsweise, die sich auf den Bereich Storage konzentriert hat, favorisiert vier Ebenen (siehe Tabelle). Zu den drei bestehenden Tiers 1 bis 3 kommt ein Tier 0 hinzu. Seine Merkmale:

Storage-Ebenen / Tiers

Ebene (Tier)

Tier 0

Tier 1

Tier 2

Tier 3

Datenbestand

1 -3 %

12 – 20 %

20 – 25 %

43 – 60 %

Speichertechnik

SSD

Fibre Channel, Hochleistungs-Disk-Arrays

Fibre Channel, Disk-Arrays mittlerer Leistungsstufe

Tape Libraries

Klassifizierung

Hohe I/O-Werte, kurze Antwortzeiten gefordert

Unternehmenskritisch, Anwendungen, die umsatzrelevant sind

Wichtige bis sensible Daten, wichtige Anwendungen

Archivdaten, wichtig für Erfüllung von Compliance-Vorgaben

TByte pro Administrator

Wenige TByte

30 TByte

30 – 100 TByte

Bis zu mehrere Petabyte

Verfügbarkeit

99,999 %

99,999 %

99,99 %

99,0 % bis 99,9 %

Akzeptable Ausfallzeit

keine

keine

Unter 5 h / Jahr

Unter 1 Tag / Jahr

I/O-Performance

Mehr als 1 Million IOPS

200.000 – 300.000 IOPS

100.000 bis 200.000 IOPS

Mäßige bis niedrige Anforderungen an I/O

Recovery Point Objective von Backup

Unter 4 h

Unter 4 h

Unter 12 h

1 Tag oder länger

Preis / GByte

Sehr hoch

hoch

mittel

niedrig

Quelle:

Horison Information Strategies

Automated Tiered Storage

Mithilfe von Automated Tiered Storage (ATS) lassen sich Daten automatisch auf dem Speichersystem beziehungsweise Storage-Medium platzieren, welches für den betreffenden Datenbestand das optimale Preis-Leistungsverhältnis bietet. Dies gilt für die Verfügbarkeit, Zugriffszeiten und den Preis pro GByte. ATS fasst unterschiedliche Speicherressourcen zu virtualisierten Storage-Pools zusammen, zwischen denen Daten hin und her bewegt werden.

Wo ein Daten-"Stück" (Junk oder Block) idealerweise gelagert wird, ermitteln ATS-Lösungen anhand von Meta-Daten, welche die Nutzungsintensität und Bedeutung dieser Daten widerspiegeln. Eine zentrale Funktion von aktuellen ATS-Systemen ist die Fähigkeit, keine kompletten Volumes zu verwalten, sondern Sub-LUNs, also kleine, oft nur mehrere MByte große Datenbereiche auf Volumes von Speichermedien. Damit ist es möglich, Daten innerhalb kürzester Zeit von einem Tier auf einen anderen zu transferieren.

Wann sich Storage Tiering aus strategischer Sicht lohnt

Die Einführung von Storage Tiering ist längst nicht mehr nur eine Frage der Technik, über die die IT-Abteilung im Alleingang entscheidet. Ein CIO muss gegenüber der Geschäftsführung oder dem Finanzvorstand gute Argumente anführen, um grünes Licht und ein Budget für den Umbau der Storage-Umgebung zu erhalten. Die Implementierung von Storage Tiering ist dann empfehlenswert, wenn einer oder mehrere der folgenden Faktoren vorhanden sind:

  1. Wenn der Geschäftserfolg des Unternehmens entscheidend von der IT-Infrastruktur und damit auch von der Storage-Umgebung abhängt. Das klingt trivial, ist jedoch vielen Unternehmen nicht bewusst. Selbst ein mittelständischer Handwerksbetrieb mit 25 oder 50 Mitarbeitern kann Kosten sparen und den Service verbessern, wenn er ein effizientes Daten- und Storage-Management implementiert.

  2. Wenn absehbar ist, dass bei den Anwendungen, die über das Unternehmensnetz bereitgestellt werden, drastische Änderungen anstehen.

  3. Wenn im Unternehmen viele unterschiedliche Anwendungen vorhanden sind, gegebenenfalls sogar abteilungsspezifische Applikationen. Dies führt dazu, dass eine Vielzahl von Datentypen und -formaten Verwendung findet. In der Praxis kann ein Großteil der Informationsbestände auf Speichermedien der Kategorien 3 ausgelagert werden.

  4. Wenn die IT-Abteilung immer mehr Ressourcen für die Verwaltung der Datenbestände bereitstellen muss, speziell mehr Storage-Spezialisten. Dieser Trend erfordert die Automatisierung von Storage-Management-Aufgaben, etwa mithilfe von Automated Tiered Storage.

  5. Wenn die IT-Abteilung nachweisen kann, dass sie maßgeblich zum Geschäftserfolg beiträgt beziehungsweise die Geschäftsführung sich dieser Tatsache bewusst ist.

  6. Wenn die Kommunikation zwischen Fachabteilungen und IT-Abteilung "funktioniert". Dies betrifft vor allem die klare Definition der Anforderungen seitens der Fachabteilungen an die IT. Die IT-Fachleute können auf Basis dieser Daten Rückschlüsse auf die Auslastung der Storage-Systeme ziehen und nötigenfalls das Storage-Management und die Speicherkapazitäten entsprechend anpassen.

Vorteile von automatischem Storage Tiering

Nach Studien und Erfahrungsberichten von Anwendern lassen sich mithilfe von ATS die Kosten um 15 bis 30 Prozent senken. Dies bezieht sich auf die Aufwendungen für die Anschaffung und den Betrieb der Speichersysteme, also Enterprise-SSDs, SAS- und Fibre-Channel-Platten-Arrays, SATA-RAID-Konfigurationen et cetera. Weitere Einsparungen sind möglich, wenn ergänzende Techniken wie Thin Provisioning zum Einsatz kommen, also das "Überbuchen" von physikalischem Speicherplatz. Zudem reduziert ATS im Vergleich zum Hierarchical Storage Management den Verwaltungsaufwand, weil sich Prozesse automatisieren lassen. Dies schlägt sich in Kosteneinsparungen von etwa 10 bis 20 Prozent nieder.

Weitere positive Faktoren von Automated Tiered Storage sind nach Angeben der Hersteller entsprechender Systeme das geringere Risiko, dass Service Level Agreements nicht eingehalten werden, die höhere Verfügbarkeit von Daten sowie kürzere Backup- und Restore-Zeiten. Allerdings erfordert eine ATS-Konfiguration wegen der höheren Komplexität ein fundiertes Know-how bei Planung und Betrieb.

Klassifizierung von Daten ist der Schlüssel

Automated Tiered Storage funktioniert nur im Zusammenspiel mit einer effizienten Klassifizierung der Daten und Anwendungen, die auf Storage-Ressourcen zugreifen. Ein Kriterium ist, wie wichtig bestimmte Informationen für die Geschäftstätigkeit eines Unternehmens sind. Nach Angaben der amerikanischen Beratungsfirma Horison Information Strategies lassen sich Daten in vier Kategorien einteilen: I/O-intensive Daten, unternehmenskritische, wichtige beziehungsweise sensible Informationen sowie Archivdaten.

Zu den I/O-intensiven Datenbeständen zählen beispielsweise Datenbanken, Komponenten von Betriebssystemen, Indices, Verzeichnisse und Anwendungen aus dem Bereich High-Performance-Computing. Geschäftskritisch sind unter anderem Oracle- und SQL-Datenbanken, Virtual Machines, OLTP-Komponenten und bestimmte Anwendungen wie Reservierungssysteme. Beispiele für wichtige Daten sind unter anderem Web-Server, Datenbanken, Cloud-Speicher sowie ERP- und CRM-Anwendungen. Auf Tier 3 sind dagegen E-Mail-, Multimedia- und Dokumentenarchive angesiedelt, Off-Site-Backups, Wikis und archivierte Log-Dateien. Ein wichtiges Auswahlkriterium bei ATS-System ist, ob sie Funktionen enthalten, die eine Klassifizierung von Daten ermöglichen oder ob dazu eine externe Software erforderlich ist.

Produkte und Anbieter

Es ist nicht überraschend, dass die etablierten Anbieter von Storage-Systemen im Bereich ATS dominieren. Allerdings haben sich einige von ihnen durch Zukäufe das entsprechende Know-how gesichert, so beispielweise Dell durch die Übernahme von Compellent. Neben den Herstellern von Storage-Systemen wie Dell, EMC, Hitachi Data Systems, HP, Fujitsu, IBM und Netapp bieten einige Unternehmen Software-Lösungen für ATS an. Dazu zählen beispielsweise Datacore (SANsymphony-V) und Point Software (Point Storage Manager).

Mit ihren ATS-Lösungen sprachen die Hersteller in der Vergangenheit primär größere Unternehmen an, die umfangreiche Datenbestände verwalten müssen. Typische Vertreter dieser Kategorie sind unter anderem EMCs VMAX-Speichersysteme, welche die FAST-VP-ATS-Software verwenden, HPs XP-Systeme in Verbindung mit dem Tiered Storage Manager sowie die 3PAR-Geräte mit der ATS-Lösung "Adaptive Optimization". Ebenfalls für Großunternehmen ausgelegt sind die Storwize-v7000- und DS8000-Speichersysteme von IBM. Beide nutzen die ATS-Software Easy Tier. Hitachi Data Systems hat für seine Storage-Systeme mit integriertem ATS den Begriff "Dynamic Tiering" kreiert. Die Geräte der Reihe VSP sind sowohl in Versionen für größere Unternehmen als auch für mittelständische Firmen erhältlich.

Storage-Medien

Speichermedium

Übertragungsrate (MByte/s)

Kosten / GByte (Stand: 2011)

PCI-Flash-Speicher

1500

26 $

Solid State Drive (SSD)

500

1,98 $

SAS-Festplatte

200

0,69 $

SATA-Festplatte

150

0,04 $

LTO-5-Bandlaufwerke

140

0,04 $

Public-Cloud-Speicherdienste

2 bis ?

Abhängig von Bandbreite und Service Provider

Quelle: SNIA / NetApp

Storage Tiering: Lösungen für den Mittelstand

Eternus-DX Speichersystem
Foto: Fujitsu

Dediziert für mittelständische Anwender ausgelegt ist dagegen Version 15 der Eternus-SF Management-Software, die Fujitsu im Mai 2012 vorstellte. Sie wird zusammen mit den Eternus-DX Speichersystemen ausgeliefert und unterstützt ATS respektive Automated Storage Tiering (AST). Dieselbe Zielegruppe spricht Dell mit Dell Compellent Automated Tiered Storage an. Die "Data-Progression"-Technik von Compellent erlaubt es, Daten in Fragmente ("Junks") von 512 KByte bis 4 MByte aufzuteilen und auf unterschiedlichen virtualisierten Storage-Ressourcen zu speichern. Wo welche Daten vorgehalten werden, kann der Administrator der Policy Engine von Dell Compellent überlassen oder manuell vorgeben.

EMC, laut IDC Markführer bei festplattenbasierten Storage-Systemen, spricht den Mittelstand mit dem EMC VNX an, in Verbindung mit FAST VP und der FastCache-Software. FastCache verwendet Enterprise-Flash-Laufwerke, um die vorhandene Cachekapazität auf bis zu 2 Terabyte zu erweitern. Die Lösung überwacht eingehende I/O-Vorgänge (Input/Output) auf deren Zugriffshäufigkeit und kopiert automatisch häufig verwendete Daten aus den Back-End-Laufwerken in den Cache. Damit lässt sich die Leistung bei Arbeitslastspitzen erhöhen.

Hitachi wiederum führt Hitachi VSP mit Dynamic Tiering ins Feld. Pro Volume lassen sich drei Tiers einrichten, mit SSDs, Fibre-Channel- beziehungsweise SAS-Laufwerken sowie SATA-Harddisks. Dynamic Tiering nutzt eine Tiering Page Size von 42 MByte. Ein Volume kann bis zu 60 TByte groß sein.

IBMs Easy-Tier-Software unterstützt zwei Ebenen – eine mit SSDs, die andere mit unterschiedlichen Festplatten-Typen. Ebenso wie Hitachi nutzt Easy Tier eine "Heat Map", um zwischen "heißen", sprich wichtigen und besonders gefragten Daten, und "kalten" Informationen zu differenzieren. Das bereits erwähnte Storwize-7000-System kommt sowohl für größere als auch mittelständische Anwender in Betracht. In Storwize integriert ist eine Echtzeit-Datenkompressionstechnik. Dank ihr können auf den Storage-Systemen laut IBM bis zu fünf Mal mehr Daten gespeichert werden als bei Konkurrenzsystemen. Das Komprimieren und Dekomprimieren soll keine negativen Auswirkungen auf die Performance haben.

Bei HPs 3PAR-F-Systemen in Verbindung mit Adaptive Optimization lassen sich Daten-Chunklets von 256 MByte auf unterschiedliche Tiers verteilen. Mit Adaptive Optimization kann der Administrator festlegen, ob das automatische Storage Tiering eher eine hohe Leistung oder niedrige Kosten berücksichtigen soll. Besonders ausgeprägt sind bei HPs Ansatz die Automatisierungsfunktionen, sprich die automatische Verlagerung von Daten auf Grundlage von Regeln (Policies).

Eine Sonderstellung in Bezug auf Automated Tiered Storage nimmt Netapp mit den FAS-Systemen der Reihe 2000 und 3000 ein. Der Hersteller setzt bei Virtual Storage Tiering auf Flash-basierte PCIe-Cache-Module in Verbindung mit der Cache-Speicherung sowohl von Random-Lese- als auch -Schreibvorgängen durch die automatisierte Verwendung von SSD-Laufwerken. Diese Technik namens Flash Pool stellt laut Netapp sicher, dass für die Mehrzahl der Applikations-Workloads die Festplatten-Technik zum Zuge kommt, die sich in puncto Kapazität dafür am besten eignet. Als Primärspeicher dienen im Gegensatz zu den Lösungen anderer Hersteller SATA-Platten.

Storage Tiering - was die Zukunft bringt

Am Beispiel von Netapp wird deutlich, in welche Richtung sich Storage Tiering entwickeln könnte. Ein Trend ist das Caching von Daten in schnellen Speichern, vorzugsweise SSDs oder Flash-basierten Cache-Speichern in Speichersystemen, speziellen Appliances und in Server-Systemen. Die "heißesten" Daten werden in diesen Fällen im Cache vorgehalten, weniger gefragte in Enterprise-SSDs in der Storage-Umgebung oder auf dem Server. Gefördert wird diese Entwicklung durch die sinkenden Preise bei Flash-Speichern. Eine DC-S3700-SSD von Intel, die für den Einsatz in Rechenzentren konzipiert ist und Anfang 2013 auf den Markt kommt, kostet beispielsweise je nach Modell zwischen 2,35 Dollar und 2,5 Dollar pro Gigabyte.

Kontrovers diskutiert wird eine zweite Entwicklung: die Integration von Cloud-Storage-Kapazitäten als weitere Ebene in das Tiered-Storage-Modell. Es bietet sich an, vorzugsweise Archiv-Daten in Public oder Community Clouds zu speichern. Die Anbieter von Storage-Lösungen sind für diesen Trend gerüstet. So können Nutzer von EMCs VNX-Speicherlösung mithilfe der Cloud Tiering Appliance (CTA) des Unternehmens Daten in Public Clouds speichern. Ende Oktober kündigten NetApp und Citrix eine integrierte Lösung für die Storage-Automatisierung und das Zuweisen von Speicher-Ressourcen in Cloud-Umgebungen an. Und mit ARX Cloud Extender hat F5 eine Appliance entwickelt, mit der sich eine Storage-Infrastruktur in die Cloud ausdehnen lässt.

Allerdings ist die Einführung eines "Cloud Tier" nicht unumstritten, Stichworte Datenschutz und Zugriff auf die Daten über – teure und teilweise unzuverlässige – Weitverkehrsleitungen. Für das Konzept sprechen die niedrigen Kosten und die Flexibilität: Bei Bedarf kann der Nutzer Speicherkapazitäten hinzubuchen oder abbestellen.

Checkliste 1: Den Ist-Zustand und die Anforderungen analysieren

Die Beratungsgesellschaft IDC hat Tipps für Anwender zusammengestellt, die eine ATS-Lösung implementieren möchten. Im ersten Schritt sollte der Anwender seine Anforderungen präzisieren:

Welche Anwendungen und Daten sind unternehmenskritisch?

Welche Storage-Kapazitäten sind vorhanden?

Welches Budget und welche personellen Ressourcen sind vorhanden?

Checkliste 2: Einen Anbieter finden

Im zweiten Schritt geht es laut IDC daran, den "richtigen" Anbieter der Automated-Storage-Tiering-Lösung zu finden. Dabei helfen folgende Fragen:

Checkliste 3: Die richtige ATS-Lösung finden

Zum Abschluss noch einige Punkte, auf die Interessenten laut IDC bei der Evaluierung einer ATS-Lösung achten sollten:

Ist in die Lösung Virtualisierung integriert?

Wie ist es um die Granularität der Datenmengen bestellt?

Wie viele MByte umfasst die minimale Page Size, also die kleinste Datenmenge, die zwischen Tiers bewegt werden kann?

Ist die Lösung echtzeitfähig?

Welche Automatisierungsfunktionen stehen bereit?'

Gibt es die Möglichkeit, Snapshots zu erstellen? Arbeitet die Lösung mit Storage-Management-Produkten anderer Hersteller zusammen?

Stellt die ATS-Lösung Daten für weiter gehende Verwaltungs- und Optimierungsaufgaben bereit, etwa über die Nutzung von Daten und über die Auslastung von Platten-Arrays?

Dies ist wichtig, um beispielsweise Thin Provisioning-Konzepte umzusetzen.

Wie kann das ATS-System erweitert werden?