Die Daten möglichst mobil halten

19.10.2005
Von Marc-Philipp Kost 
Wer eine mehrstufige Speicherarchitektur aufbaut, spart nicht nur Kosten.
Über eine Konsole hat der Administrator Zugriff auf alle Komponenten der Speicherumgebung. Der Anwender bekommt von alledem nichts mit und hat stets ungehinderten Zugriff auf das gewünschte Dokument.
Über eine Konsole hat der Administrator Zugriff auf alle Komponenten der Speicherumgebung. Der Anwender bekommt von alledem nichts mit und hat stets ungehinderten Zugriff auf das gewünschte Dokument.

Tagtäglich entsteht in Unternehmen eine regelrechte Flut unterschiedlicher Daten und Inhalte: Vor allem E-Mails, aber auch Office-Dokumente und Anwendungsdaten erfordern immer größere Speicherkapazitäten. Gleichzeitig sollen die Unternehmen die Leistungsfähigkeit ihrer IT steigern und flexibel auf Marktveränderungen eingehen. Sie sind deshalb gezwungen, innerhalb ihrer Informationsinfrastrukturen verschiedene Service-Levels abzubilden. Gesetzliche Regelungen und interne Prozessvorgaben tun ein Übriges, dass Unternehmen ihre vormals monolithische IT aufbrechen und mehrstufige Architekturen implementieren.

Hier lesen Sie …

• wie eine mehrstufige Speicherinfrastruktur die Servicequalität der IT verbessert;

• wie durch Automatisierung die Verwaltung von Informationen trotz steigender Datenmengen und Komplexität im Griff gehalten werden kann;

• warum Informationen dynamisch verschiedenen Datenkategorien zugeordnet werden sollten;

• was bei der Datenklassifizierung zu beachten ist.

Glossar

• Datenklassifizierung: gliedert alle Daten im Unternehmen in Kategorien mit bestimmten Attributen. Zum Klassifizierungsvorgang gehört, dass jede Gruppe anhand gemeinsamer Eigenschaften näher definiert wird (zum Beispiel ähnliche Serviceziele).

• Enterprise-Content-Management (ECM): verwaltet unternehmensweit unstrukturierte Daten von der Entstehung über die Verarbeitung bis zur Löschung. Über ECM können Inhalte einfach gesucht, über verschiedene Kanäle veröffentlicht und von verteilten Nutzergruppen verwendet werden.

• Information-Lifecycle-Management (ILM): eine Strategie, bei der die IT-Infrastruktur auf der Grundlage des sich ändernden Wertes von Informationen an die geschäftlichen Anforderungen angepasst wird.

• Tiered Storage: bezeichnet ein mehrstufiges Speichernetzwerk. Jede Ebene bildet spezifische Serviceziele ab, so dass Daten entsprechend ihren Anforderungen gespeichert werden können.

• Virtualisierung: trennt die logische von der physikalischen Sicht auf die Infrastruktur. So können die Daten im Hintergrund verschoben werden, ohne den Zugriff der Anwendungen zu beeinträchtigen.

Zu erreichen ist das durch die Klassifizierung der Daten und die Aufteilung der Informationsinfrastruktur in unterschiedliche Speicherebenen (Tiered Storage). Allerdings steigt dadurch die Komplexität der IT, und der Verwaltungsaufwand wächst. Die Verantwortlichen benötigen deshalb Lösungen, die die Administration heterogener Umgebungen vereinfachen und die Mobilität von Informationen steigern.

Informations-Management beginnt mit Datenklassifizierung

Der erste Schritt in Richtung einer Tiered-Storage-Umgebung beginnt mit der Erfassung und Klassifizierung aller im Unternehmen vorhandenen Daten. Dabei geht es um den Wert der Informationen für das Unternehmen: Wie kritisch ist jede einzelne Datei und jeder Datensatz für die Geschäftsprozesse? Gibt es rechtliche Archivierungsvorgaben? Welche Anwendungen benötigen sie, und in welcher Form greifen sie darauf zu?

Diese Fragen hat sich zum Beispiel die Direktbank ING-DiBa AG gestellt und ihre Daten analysiert. Da gibt es etwa Transaktionsdaten, die innerhalb von Millisekunden abgerufen werden müssen. Weniger aktuelle Informationen, zum Beispiel ein abgeschlossener Konteneröffnungsantrag, werden nur noch selten für Data Mining oder für das Berichtswesen benötigt. Dennoch müssen sie revisionssicher über einen bestimmten Zeitraum vorgehalten werden. Wieder andere Daten sind innerhalb kürzester Zeit veraltet und können oder müssen sogar gelöscht werden. Erst wenn klar ist, welche Informationen vorhanden sind und welche Anforderungen sie an ihren Speicherort stellen, lassen sich die nötigen Service-Levels für die Storage-Umgebung formulieren.

Tiered Storage bringt wirtschaftliche Vorteile

Das Spektrum des Tiered Storage reicht von hochverfügbaren Umgebungen für kritische Produktionsdaten, die zusätzlich an einen zweiten Standort gespiegelt werden, über Online-Archive bis hin zu Bandrobotern für die Datensicherung und -archivierung. Dazwischen lassen sich vielfältige Zwischenstufen einrichten, um die Serviceziele für Anwendungsdaten wie E-Mail oder Datenbank zu erreichen.

Der Braunschweiger Energiekonzern BS|Energy teilt beispielsweise seine Informationen in drei Verfügbarkeitsklassen ein. Klasse 1 ist für die Speicherung und Sicherung weniger wichtiger Daten wie Home Directorys oder das SAP-Testsystem vorgesehen und besteht aus Midrange-Systemen mit FC-Platten (Fibre Channel). Klasse 2 bietet die Standard-Speicher-Performance ebenfalls auf Basis der Mittelklassespeicher mit FC-Technologie, allerdings mit einer zusätzlichen Spiegelung. Die kritischen, produktiven SAP-Daten der Klasse 3 lagern auf hochperformanten, gespiegelten Highend-Systemen. Unveränderliche Daten, die nicht mehr aktiv benötigt werden, wird das Unternehmen künftig in ein Online-Langzeitarchiv mit ATA-Platten und Worm-Funktionalität verlagern. Generell gilt: Je wichtiger die Daten für ein Unternehmen sind, desto höher sollte ihre Verfügbarkeit sein und desto teurer sind die geeigneten Speichermedien.

Kombinierte Techniken auf den Speicherebenen

Für die Einrichtung der Speicherebenen können Technologien wie Storage Area Network (SAN), Network Attached Storage (NAS) oder Content Addressed Storage (CAS) innerhalb eines Speichernetzes kombiniert werden. Einige Hersteller bieten mittlerweile sogar innerhalb eines Systems verschiedene Speicherklassen an. So können beispielsweise in einem Array leistungsfähige und teure FC-Festplatten mit günstigeren ATA-Drives kombiniert werden. Und selbst innerhalb der FC-Technik gibt es mittlerweile unterschiedliche Typen, so dass auch im Highend eine Abstufung möglich ist. Ist der tatsächliche Wert der Informationen bekannt, lassen sich die Speicherinvestitionen dementsprechend planen und die Gesamtkosten senken.

Die Vorteile von Tiered Storage lassen sich auch im Archiv nutzen. Wenn Transaktionsspeicher und Backup-Umgebung von allen unveränderlichen Daten entlastet und diese in ein sich selbst verwaltendes Langzeitarchiv basierend auf CAS verlagert werden, vereinfacht dies den Backup-Prozess und senkt den Verwaltungsaufwand.

Dynamische Informationsverwaltung

Datenklassifizierung und Tiered Storage sind aber noch nicht der Weisheit letzter Schluss, weil es sich dabei um statische Lösungen handelt. Unternehmen sollen Informationen dynamisch zwischen den Speicherebenen verschieben. "Die abgewickelte Bestellung eines Kunden muss nicht unbedingt zwei Jahre lang auf den teuren Online-Systemen verfügbar sein und dort unnötig Speicherplatz belegen", verdeutlicht Jürgen Niemann, Leiter der Abteilung IT-Services des Verpackungsunternehmens Krones AG. "Nach einer gewissen Zeit verschieben wir solche Daten auf ein Worm-System und archivieren sie dort wesentlich kostengünstiger."

Für IT-Administratoren oder gar die Anwender ist das Thema aber zu komplex und kann allein aufgrund der Masse an Daten im Unternehmen nicht manuell erledigt werden. Hier sind Lösungen gefordert, die kontinuierlich den Wert der Informationen überprüfen und sie automatisch einer neuen Kategorie zuweisen, sobald sich dieser verändert.

Für die kontinuierliche Klassifizierung der Dokumente eignen sich beispielsweise DMS/ECM-Systeme, File-System-Archivierung (HSM = Hierarchisches Storage Management), E-Mail-Anwendungen und Datenbanken. Entscheidend ist das Verständnis für die Prozesse im Unternehmen und wie sich diese auf die Informationen auswirken - und umgekehrt. Wenn beispielsweise ein Pharmaforscher im Labor ein Content-Element erstellt, kann dies in verschiedenen Prozessen eine wichtige Rolle spielen: Die Information kann in der Folge Teil eines Patentantrages, einer klinischen Studie, eines Antrags für ein neues Medikament oder der Schulungsdaten für den Außendienst sein. Damit überschreitet das Element viele Grenzen innerhalb und außerhalb des Unternehmens.

Daten schon bei der Erstellung den Prozessen zuordnen

Unterschiedlichste Systeme wie Publishing Engines, Applikationen für klinische Studien sowie Vertriebs- und Marketing-Portale müssen damit interagieren. Wenn die Inhalte schon bei ihrer Erstellung bestimmten Prozessen zugeordnet werden, kann eine Auswirkungsanalyse schon frühzeitig die Lebensphasen einer Information und ihre voraussichtlichen Anforderungen an den Speicherort aufdecken, beispielsweise ob sie später archiviert werden muss oder nach Beendigung des letzten Prozesses gelöscht werden kann. Diese Informationen werden, neben Basisangaben wie Erstellungsdatum und Quelle, in den Metadaten gespeichert. Ein weiterer Vorteil ist, dass der Content später über die Metadaten sehr viel einfacher wieder aufzufinden ist. Natürlich kann dies nicht nach einem statischen Schema ablaufen, in dem genau die Zeitpunkte und Migrationsstufen vorgegeben sind. Das System muss hingegen eigenständig den Status der Informationen im Rahmen der zugeordneten Prozesse analysieren und sie den entsprechenden Informationsklassen zuordnen.

Ändert sich die Klassifizierung, und damit auch die nötigen Service-Levels, müssen die Daten innerhalb der Infrastruktur migriert werden. Auch dies sollte mittels intelligenter Management-Software automatisiert ablaufen. Dazu werden in einem Regelwerk die Speicherebenen und ihre Service-Levels in Bezug gesetzt.

Eine einheitliche Management-Umgebung nötig

So kann das System eigenständig ermitteln, ob die Daten korrekt abgelegt sind, und sie gegebenenfalls verschieben. Voraussetzung für eine solche dynamische Informationsverwaltung ist eine einheitliche Management-Umgebung für die gesamte Infrastruktur mit allen Speichersystemen und Netzkomponenten. Sie muss in der Lage sein, die Daten ohne Auswirkungen auf die Applikationen zwischen den Speicherebenen zu verschieben. Das gelingt mit Virtualisierungslösungen, die die physikalische von der logischen Speicherebene trennen. (kk)