Artgerechte Datenhaltung senkt Kosten

30.09.2005 von Manfred Buchmann

Wer die Kostenspirale der Datenhaltung in den Griff bekommen will, sollte sich mit mehrstufiger Speicherarchitektur und "artgerechter" Datenhaltung befassen.

Hier lesen Sie ...

wie eine mehrstufige Speicherarchitektur funktioniert;
wofür sich Tiered Storage eignet;
welche Voraussetzungen dafür nötig und welche Probleme zu lösen sind.

Daten speichern ist eine der leichtesten Übungen. Mausklick oder STRG S genügt - und auf der Festplatte am Ende eines Speicherpfads sind ein paar Blöcke mehr belegt. Die Chancen stehen gut, dass dies auch so bleibt: Benutzer neigen eher zum Speichern als zum Löschen von Daten. Abgesehen davon steht heute so gut wie jedem Geschäftsvorgang - vom Datenbankeintrag über Korrespondenz bis zum Finanzbericht - ein digitales Abbild gegenüber, das je nach Bedeutung auch auf lange Sicht sicher zu verwahren ist. Wachsende Datenberge sind in einer digital agierenden Ökonomie unvermeidbar. Was sich jedoch vermeiden lässt, sind die hohen Kosten für ungeeignete Speichermedien.

Frei nach George Orwell sind alle Daten gleich, nur manche Daten sind gleicher. Als 0/1-Abfolgen auf einem Speichermedium sind sie tatsächlich gleich. "Gleicher" werden sie allein durch ihren Wert. Dieser Wert enthält zudem eine dynamische Komponente, da er sich im Zeitverlauf sehr stark und vor allem abrupt ändern kann. Tiered Storage ist nun ein Ansatz, der Datenkategorien und Speichermedien zueinander in Beziehung setzt und durch artgerechte Datenhaltung eine Senkung der Storage-Kosten erzielen will.

So einfach sich diese Definition auch anhört, dahinter steht eine Reihe von Kriterien, die gegeneinander abzuwägen sind. Das Ausmaß der Datensicherheit gehört ebenso dazu wie die Performance oder die Häufigkeit der Benutzung. Sie bestimmen die Art des Speichermediums. Sieht man einmal von optischen Speichern ab, dreht sich heute im Enterprise-Segment alles um Festplatten und Tape in den verschiedensten Kombinationen und Ausprägungen.

Online, nearline, offline

Online Storage basiert in aller Regel auf Fibre-Channel-Platten. Abgesehen von Solid State Disks bieten sie die höchste Performance und Zuverlässigkeit und sind zugleich der kostenintensivste Speicher. Generell ist zu beachten, dass Festplatten aufgrund ihrer mechanischen Komponenten nicht hundertprozentig ausfallsicher sind. Fibre-Channel-Raid-Systeme eignen sich für Daten, die geschäftskritisch sind, häufig genutzt werden und schnell bereitstehen müssen. Datenbanken, E-Mail und Workflow-Systeme sind dafür typische Enterprise-Applikationen.

Ein Preissprung besteht bereits beim Wechsel zu Nearline Storage. Hier wird statt auf Fibre-Channel-Platten auf Serial-ATA-(SATA-)Disks gespeichert. Diese sind zwar weniger leistungsfähig, dafür aber kostengünstiger, und stehen mithilfe von Sicherheitstechniken wie "Raid Double Parity" (Raid DP) der Zuverlässigkeit einer Fibre-Channel-Platte in nichts nach. Diese Software - ein Patent von NetApp - geht über herkömmlichen Raid-Schutz mit nur einer Parity weit hinaus. Raid DP schützt vor Datenverlust beim gleichzeitigen Ausfall zweier Platten in einem Volume oder bei Ausfall einer Platte, gefolgt von einem Block- oder Bit-Fehler, bevor die Rekonstruktion vollständig gelungen ist. Dieser doppelte Datenschutz lässt sich auf bis zu fünf gleichzeitige Ausfälle beziehungsweise vier Ausfälle, gefolgt von einem Block- oder Bit-Fehler, vor Abschluss der Wiederherstellung erweitern.

Nearline Storage eignet sich besonders für den Disk-to-Disk-Backup, als Online-Archiv etwa für Bilddatenbanken, Patientendaten und andere Referenzdaten oder aber dann, wenn nicht die Performance, sondern die Kosten im Vordergrund stehen.

Die dritte und in manchen IT-Umgebungen bereits ausrangierte Technik sind die herkömmlichen Magnetbandspeicher. Tape wandelt sich vom typischen Backup-Medium mit ehemals ausgefeilten Rotationsschemata zu einem Archivmedium mit Langzeitperspektive. Preislich gesehen ist Tape nach wie vor die günstigste Lösung. In der Regel haben die Benutzer aber über das Netzwerk keinen direkten Zugriff auf eine Bandkopie, so dass hier von offline gesprochen wird.

Backup ist am wichtigsten

Verfügbarkeit und Performance sind heute die beiden Hauptforderungen an eine Speicherinfrastruktur. Tiered Storage liefert eine Struktur, die sich als Grundlage für darauf ausgerichtete Datensicherungstrategien anbietet. Backup ist eine der IT-Aufgaben, die einerseits elementar sind, andererseits aber eine Belastung für den Tagesbetrieb darstellen. Ununterbrochener Datenzugriff für die Benutzer und steigendes Datenaufkommen kollidieren sehr schnell mit den Backup-Zeiten. Unvollständige Backups und lange Zugriffszeiten sind die Folge. In einer Tiered-Storage-Struktur ist die Datensicherung vom Disk-to-Disk-Backup bis zur Archivierung in Bandbibliotheken kaskadierbar.

Die Daten bewegen sich

Die Daten lassen sich am schnellsten per Snapshot-Technik auf der Festplatte sichern. Die Snapshot-Kopien selbst können anschließend über NDMP-basiertes Backup auf Tape gespeichert werden. Das sicherlich häufigste Szenario besteht aus Online- und Nearline-Festplattenspeicher sowie Tape. Ein Snapshot der Daten auf dem Online-Speicher wird für kurzfristige Restores dort vorgehalten und gleichzeitig auf ein zweites System - in der Regel ein Nearline-Storage - übertragen. Das Backup auf Tape würde schließlich von hier aus erfolgen.

Auf diese Weise werden Belastung und Overhead der Sicherung auf Band vom primären Online-Speicher abgezogen. Dies ist einer der Hauptvorteile des Disk-to-Disk-Backup, das so die Forderung nach permanenter Verfügbarkeit (24 x 7) erfüllt, lokal ebenso wie remote. Darüber hinaus lassen sich mithilfe von Datenspiegelungen auch Disaster-Recovery-Szenarien aufsetzen. Während die Daten des Hauptstandorts asynchron oder synchron an den zweiten Standort gespiegelt werden, ist es gängig, dort eine gestaffelte Backup-Architektur zu implementieren.

Tiered Storage ist zudem die Infrastrukturvoraussetzung für Information Lifecycle Management (ILM). ILM verspricht die Lösung eines alten Speicherproblems: die automatisierte Bewertung der Daten gemäß ihrer Wichtigkeit für das Unternehmen und ihre Lagerung auf dafür geeignetem Speicher.

Voraussetzung für ILM

Traditionelle Datenspeicherlösungen machen keinen Unterschied zwischen Datentypen: Sie repräsentieren eine Art Einheitslösung, die Storage, Replizierung, Backup und Datenlöschung exakt gleich behandelt. Für ILM dagegen müssen zunächst die vorhandenen Datentypen gemäß folgender Kriterien definiert werden:

Strukturierte Daten wie etwa eine Datenbank;

Halbstrukturierte Daten wie etwa eine E-Mail, die unstrukturierte Daten in einem strukturierten Format enthält;

Unstrukturierte Daten wie etwa Dokumente, Tabellen, Fotos und Internet-Dateien, die typischerweise in einem Filesystem abgelegt sind

Der nächste Schritt ist die Klassifizierung der Daten nach ihrem Typ und die Zuordnung dieser Klassifizierungen auf die korrespondierenden Storage-Klassen in Abstimmung mit den geschäftlichen Anforderungen. Ob es sich dabei um die dauerhafte Aufbewahrung von Compliance-Daten mithilfe von WORM-Storage handelt, um ökonomischen Online-Zugriff dank Migration auf Nearline-Storage oder um das Löschen von Daten - die laufende Verwaltung während des gesamten Lebenszyklus ist unerlässlich. Noch wichtiger ist die kontinuierliche Neubewertung der Daten, da ihr Wert in Abhängigkeit von den jeweiligen Geschäftsanforderungen im Lauf der Zeit schwankt. Klassifizierung und Zuordnung

Um die Daten möglichst automatisiert dem passenden Speicher zuordnen zu können, muss einerseits eine Datenklassifizierung gemäß Typ, Besitzer, Größe, Zeitpunkt der letzten Änderung, Compliance-Bedarf und dergleichen erfolgen. Andererseits muss ein Daten-Management vorhanden sein, dass im Sinne einer "Entscheidungsautomatik" je nach Einstufung der Daten eine bestimmte Zuordnungsregel umsetzt. Diese Regeln diktieren den Storage-Typ - etwa hoch performante Festplatten, Nearline-Disk, WORM-Disk oder Bandlaufwerk -, die notwendigen Aktionen wie Replizierung oder Backup, die Einstellung der Aufbewahrungsfrist der Informationen oder die Migrationsstrategie für optimale Storage-Nutzung oder Revisionssicherheit.

Dies zeigt bereits, dass ILM ohne eine mehrstufige Storage-Struktur, die unterschiedlichen Datenklassen Rechnung trägt, nicht realisierbar wäre.

Mit dem Aufbau einer mehrstufigen Speicherarchitektur lassen sich die Kosten der Datenhaltung optimieren. Die Voraussetzung ist allerdings eine generelle Püfung der vorhandenen Struktur. Es stellt sich die Frage nach notwendigen Protokollen, Betriebssystemen und der Verkabelung ebenso wie nach dem Konsolidierungspotenzial im Storage-Bereich. Die Entscheidung, welche Daten von welchem Speicher über welche Netzwerke an den Nutzer geliefert werden, muss das IT-Management treffen. Die Wahl eines für ein Fibre-Channel-SANs ist mit anderen Kosten verbunden als ein NAS- oder IP-SAN-Umfeld.

Den größten Konsolidierungseffekt bietet eine so genannte Unified-Storage-Architektur, die jeder beliebigen Applikation unter verschiedenen Betriebssystemen artgerechten Datenzugriff erlaubt und die dafür nötigen Protokolle auf einer universellen Online-Plattform unterstützt. Von dieser Basis ausgehend lassen sich alle weiteren Speicherstufen bis hin zum revisionssicheren Archiv kaskadieren.