Die Basis für das Daten-Management der 90er Jahre

Optische Medien bekommen die Terabyte-Lawine in den Griff

14.09.1990

*Norbert Vorstädt ist für GEI Rechnersysteme GmbH, Aachen, tätig.

Optische Speichermedien werden in den 90er Jahren eine Vervielfachung der installierten Speicherkapazität ermöglichen. In Verbindung mit einer immer stärkeren Dezentralisierung von Rechenleistung und Datenbeständen sind neue Konzepte der Datenorganisation und Datensicherung erforderlich.

Wie verwaltet man Hunderte von GB an Hunderten von Unix-Workstations? Wie sieht ein solides Datensicherungskonzept für ein Netz mit 1000 GB verteilter Plattenkapazität aus? Wie behält der DV-Manager den Überblick über freie Kapazitäten im Netz?

Jeder Schritt auf dem Weg zum Kapazitätszuwachs der Speicher hat uns neue Konzepte in der Systemarchitektur beschert. Virtuelle Hauptspeicher-Verwaltung, Demand Paging, Caching auf Hauptspeicher- wie auf Plattenspeicher-Ebene sind selbst aus Workstations heute nicht mehr wegzudenken. Der größte konzeptionelle Erdrutsch wurde jedoch von dem enormen Preissturz für leistungsfähige Zentraleinheiten ausgelöst. Die Folge war und ist eine starke Dezentralisierung der Verarbeitung. Statt Hunderte von Arbeitsplätzen mit einem zentralen Mainframe zu verbinden, von dem sie ihre Rechenleistung beziehen, ist es möglich geworden, jeden einzelnen Arbeitsplatz mit einem eigenen Rechner auszustatten. Damit geht eine deutliche Verbesserung des Bedienungskomforts am Arbeitsplatz einher, denn große Teile dieser "persönlichen" Rechenleistung können für grafische Benutzeroberflächen und dergleichen eingesetzt werden.

Fast unbemerkt sind bei dieser "Landflucht der MIPSe" auch die Datenbestände aufs Land gezogen und auf die Arbeitsplatz-Rechner verteilt worden. Dies ist nicht weiter verwunderlich, denn dort wird ja schließlich mit ihnen gearbeitet. Um so mehr haben sich jedoch auch unangenehme Konsequenzen dieser Datenverteilung bemerkbar gemacht:

- Der gemeinsame Zugriff auf Daten ist schwieriger zu koordinieren und erfordert entsprechende Mechanismen im Netz.

- Die Datensicherung wird in die Hände vieler Anwender gelegt, die jetzt selbst dafür verantwortlich sind.

- Grafische Anwendungen haben das Datenvolumen pro Benutzer drastisch erhöht.

- Die Archivierung von Arbeitsergebnissen ist wegen der Größe der Bestände und der Vielzahl der beteiligten Personen schwieriger geworden.

Inzwischen haben wir uns so an das Tempo des Fortschritts gewöhnt, daß keiner mehr in Ehrfurcht erstarrt, wenn zur Bezeichnung der Speicherkapazität die nächst größere Einheit und damit die nächsten drei Nullen fällig sind. Nur allzu leicht nehmen wir den Sprung von GB zu TB hin. Dabei verliert man schnell aus dem Auge, daß die neue Dimension der Speichergrößen auch neue Konzepte für die Organisation der Daten erfordert. Allzu leicht gerät auch in Vergessenheit, daß die optischen Platten - Wunderwaffe Nummer eins in Sachen Speicherkapazität nicht in allen Eigenschaften den guten alten Magnetplatten überlegen sind. Da aber unsere heutigen Betriebssysteme und die Struktur der Filesysteme auf Magnetplatten abgestimmt sind, gehört eine ganze Menge Technik dazu, die neuen optischen Technologien praktisch nutzbar zu machen.

Die Aufzeichnungsdichte dieses Mediums liegt deutlich höher als die bei herkömmlichen Magnetplatten. Kapazitäten von 600 MB auf einer 5-Zoll-Scheibe und von über 6,5 GB bei einer 12-Zoll-Scheibe sind heute schon an der Tagesordnung. Wertvoller noch als die reine Erhöhung der Schreibdichte ist die berührungsfreie Abtastung. Diese sorgt nicht nur für eine gesteigerte Zuverlässigkeit, sondern erlaubt auch den Einsatz einer Plattenwechsler-Technik, Optical Library Unit oder schlicht Jukebox genannt. Ähnlich dem Prinzip der guten alten Musikbox werden dabei einige Dutzend Platten in einem Magazin aufbewahrt und mittels eines Robot-Arms auf Anforderung in ein optisches Plattenlaufwerk gesteckt. Vorteil: Auf etwa die 50fache Kapazität einer einzigen Scheibe ist in wenigen Sekunden zugreifbar.

Mit dieser Technik sind Speicherkapazitäten im TB-Bereich realisierbar geworden, und das im Online-Zugriff. Doch hat auch dieses neue Medium seine Schattenseiten, Aufgrund der wesentlich höheren Spurdichte sind die Positioniervorgänge zeitaufwendiger geworden. Mittlere Positionierzeiten liegen immer noch um etwa eine Zehnerpotenz über denen von Magnetplatten. Dazu kommt das Vorhandensein von zwei Spezies, nämlich den nur einmal be. schreibbaren WORM- (Write once read multiple-) und den mehrfach beschreibbaren EO-(Erasable optical-)Platten. Beide verhalten sich grundsätzlich anders als Magnetplatten und erfordern andere Verfahren zur Verwaltung der gespeicherten Informationen.

Die ersten Versuche, optische Platten in Rechnersysteme zu integrieren, endeten deshalb auch damit, Magnetband-Laufwerke zu emulieren. Gegenüber einem Magnetband bietet die optische Platte freilich viele Vorteile: höhere Kapazität, schnelle Positionierbarkeit, und eine Jukebox kann sogar ein Bandarchiv ersetzen. Doch stellen solche Emulationen keinen Ersatz für Magnetplatten dar.

Eine bessere Ausgangsbasis für die , Integration der optischen Platten erhält man mit Hilfe des Caching-Prinzips. Dieses wird heute in allen Stufen der Speicherhierarchie - wirkungsvoll eingesetzt: Die Grundidee ist einfach und wird von jedermann angewandt, der am Schreibtisch arbeitet. Die Papiere, mit denen man momentan arbeitet, liegen auf der Schreibtischoberfläche griffbereit. Alles andere kann im Schrank verstaut werden. Dieser faßt zwar erheblich mehr, dafür muß man aber auch aufstehen und ihn aufschließen. So sorgt im Rechner meist ein Hauptspeicher-Cache mit extrem kurzer Zugriffszeit dafür, daß 98 Prozent aller Hauptspeicher-Zugriffe schneller ablaufen. In der nächst tieferen Stufe der Speicherhierarchie kümmert sich dann ein Disk-Cache darum, daß die meistgebrauchten Plattenblöcke im Hauptspeicher vorrätig gehalten werden.

Warum also dieses Prinzip nicht ausdehnen und der ganzen Speicherpyramide einen Sockel aus optischen Platten hinzufügen? Ein Beispiel für solche magnetisch-optischen Gespanne sind Server, bei denen nicht auf Block-, sondern auf File-Ebene granularisiert wird.

Das bedeutet: Die häufig benötigten Files werden auf Magnetplatte gespeichert, alle anderen auf optischen Platten, wo sie binnen weniger Sekunden hervorgeholt werden können. Ohne den vorgeschalteten Magnetplatten-Cache wäre eine sinnvolle Nutzung der optischen Platten fast nicht möglich und bliebe auf wenige Spezialanwendungen beschränkt.

Ein solches System arbeitet zunächst wie ein normaler NFS-Fileserver und legt alle Daten auf seinen Magnetplatten ab. Gerät der Füllstand der Magnetplatten in den sogenannten grünen Bereich, so werden entsprechend viele Files bei der nächsten Auslagerungsperiode das ist normalerweise in der nächsten Nacht - auf optische Platten umgebettet. Auf der Magnetplatte verbleiben lediglich der Directory-Eintrag und die ersten KB des Files. Dadurch ist ein ausgelagerter File für den Benutzer genauso sichtbar und genauso leicht zu manipulieren wie ein magnetischer File. Gerät der Füllstand in die gelbe oder sogar in die rote Zone, wartet das System nicht erst bis zur nächsten Nacht mit der Auslagerung, sondern handelt sofort. Ausgelagert werden natürlich diejenigen Files, die seit längerer Zeit nicht mehr benötigt wurden. Will der Anwender auf einen ausgelagerten File zugreifen, so wird dieser automatisch wieder von der optischen Platte auf die magnetische geholt. Dazu braucht der User nicht bis zum Abschluß des Transfers zu warten, sondern er erhält die Daten schon während des Umkopierens. Zugriffe auf den Anfang eines Files können meist schon aus den ersten KB prompt geliefert werden, die beim Auslagern auf der Magnetplatte verblieben sind.

Resultat: Für den Benutzer sieht der gesamte Datenbestand SO aus, als sei er auf Magnetplatten gespeichert. Außer einer kleinen Verzögerung, wenn der File von der optischen Platte geholt werden muß, merkt er vom Wirken der optischen Platten und Jukeboxen Oberhaupt nichts. Der Benutzer kümmert sich normalerweise nicht einmal darum, auf welchem Medium ein File gespeichert ist. Vor allem jedoch ist die gesamte Directory-Struktur des Datenbestands permanent auf Magnetplatte verfügbar und für den Benutzer sichtbar. Diese Eigenschaft ist ein Schlüsselkriterium für die Akzeptanz optischer Speicher in Netzwerk-Systemen: Der Benutzungskomfort darf gegenüber dem bei herkömmlichen Magnetplatten nicht geringer werden. "Seamless Integration" ist gefordert.

Neue Konzepte sind notwendig

Bei allem Wachstum hinsichtlich der Kapazitäten von Magnetplatten und optischen Platten sind die Datensicherungs-Medien bisher zurückgeblieben. Selbst bei fortschrittlichen Techniken wie dem Helical-Scan-Verfahren, mit dessen Hilfe sich immerhin über 2 GB auf eine Bandkassette unterbringen lassen, würde eine Komplettsicherung eines 1000-GB-Datenbestands etwa 500 solcher Kassetten füllen. Der Sicherungsvorgang würde über 1000 Stunden, also etwa sechs Wochen, benötigen. Schon aus diesen Zahlen wird sofort klar, daß auch bei der Datensicherung neue Konzepte gefunden werden müssen, will man den neuen GB-Segen sinnvoll nutzen. Moderne Server bieten bereits ein solches Verfahren der neuen Generation an, den sogenannten Baseline-Backup.

Die Grundidee des Baseline-Backups liegt in der deutlichen Verringerung der zu transferierenden Datenmenge. Vergleicht man den Inhalt von zwei im Monatsabstand erstellten Full-Backups, so stellt man fest, daß viele Files auf beiden Sicherungen identisch sind. Diese Files wurden also nicht modifiziert. Das Baseline-Backup-Verfahren macht sich diese Tatsache zunutze, indem solche Files auf ein sogenanntes Baseline Backup Set - in der Regel ein Satz optischer Platten - einmalig gesichert werden. Bei den regulären Full- und Incremental-Backup-Läufen wird dann lediglich ein Pointer auf die entsprechende Stelle im Baseline Backup Set abgelegt.

In der Praxis erzielt man mit diesem Verfahren eine Reduktion der zu sichernden Datenmenge um bis zu zwei Zehnerpotenzen. Die Information, welche Files in das Baseline Backup Set Überführt werden können, ist für den Server ein Nebenprodukt. Denn das sind dieselben Files, die sich soweit stabilisiert haben, daß sie von magnetischer auf optische Platte umgelagert werden können.

Sind große Datenmengen und deren Sicherung in einem zentralen Konzept noch zu meistern, so gibt uns die Verteilung der Daten in dezentral organisierten Unix-Workstation-Netzen neue Probleme auf. Daher wird häufig der Versuch unternommen, trotz der dezentralen Netzstruktur eine zentrale Datenhaltung vorzunehmen. Erfolg ist einem solchen Unterfangen langfristig nur bei Archivdaten beschieden. Ein Beispiel: In einem Netz arbeiten 50 CAD-Workstations, jede davon mit einem 1-GB-Plattenspeicher ausgestattet, an einem zentralen Fileserver mit 100 GB Kapazität.

Die meisten während der Tagesarbeit benötigten Files sind auf den Platten der Workstations lokal vorrätig. Lediglich die Arbeitsergebnisse, sprich: die Archiv-Versionen der CAD-Files, werden über das Netz auf den zentralen Server übertragen, wo sie zur Langzeitspeicherung auf optischen Platten abgelegt werden.

Während ein solches Modell sicher tragfähig ist, wäre der Versuch, die 50 Workstations ohne lokale Platten zu betreiben und alle Daten auf einem zentralen Server zu halten, mangels entsprechender Netz-Kapazität sicher zum Scheitern verurteilt. Die Übertragungskapazität eines Ethernet mit wenigen 100 KB/s reicht für ein zügiges Arbeiten an den Workstations nicht aus.

Sobald wir jedoch, - wie im obigen Falle - etwa 50 GB in Form lokaler Platten im Netz verteilen, haben wir auch für eine Datensicherung dieser Platten zu sorgen. Hier wird der DV-Manager heute weitgehend alleingelassen. Soll er 50 Benutzern zumuten, die Datensicherung ihrer Platte selbst vorzunehmen? Soll er sie über das Netz zentral sichern? Wenn ja, auf welches Medium? Und wirklich professionelle Software für so eine Datensicherung steht in der Regel auch nicht zur Verfügung, zumindest nicht als Bestandteil von Unix. Die Hersteller von Hochkapazitäts-Fileservern haben dieses Defizit erkannt und bieten zusammen mit ihren Produkten entsprechende Software-Tools zur dezentralen Datensicherung an. Im Falle der beschriebenen Server steht dem DV-Manager ein "Global-Backup-Paket" zur Verfügung, das die automatische Datensicherung der Workstations auf die optischen Platten bewerkstelligt. Mit Hilfe eines Full-Screen-Benutzer-Interfaces legt man für jede Workstation einen Backup-Plan an, der die täglichen und wöchentlichen Sicherungsaktivitäten beschreibt. Die auf den Workstations und dem Server installierte Software sorgt dann - meist über Nacht - für die automatische Datensicherung. Und auch der "Ernstfall" wird dem Benutzer leicht gemacht. Über ein komfortables Benutzer-Interface kann er gesicherte Files vom Server zurückladen, ohne sich um Details wie Volume-Nummern, und Backup-Generationen kümmern zu müssen. Ein Online-Katalog aller jemals gesicherten Files zeigt ihm alle möglichen Optionen und Versionen für den Restore-Vorgang.

Noch einen Schritt weiter als ein solches globales Backup-Konzept geht die Verallgemeinerung des Caching-Mechanismus, den das System zwischen den magnetischen und optischen Platten anwendet. Dieses kurz ISA (Infinite Storage Architecture) genannte Konzept läßt sich auf das gesamte lokale Netz übertragen. Das bedeutet, die ISA-Software in jeder Workstation und jedem Fileserver überwacht die Nutzungshäufigkeit der lokalen Files und lagert zu Zeiten geringer Netzauslastung die "alten Brocken" auf den zentralen optischen Fileserver aus. Sie bleiben jedoch im Directory des Ursprungsrechners erhalten und werden bei Benutzung automatisch wieder auf die lokale Platte geholt.

In einer solchen netzweiten ISA findet automatisch eine Verschiebung von Files an ihren optimalen Lagerplatz statt: Tägliche Arbeitsdaten finden sich auf den lokalen Platten der Workstations und dezentralen File- und Computer-Server. Längere Zeit nicht mehr benutzte Files werden zur Entlastung der lokalen Platten auf ein zentrales, billiges und sicheres Medium ausgelagert - natürlich völlig transparent für den Benutzer.

Eine neue Generation von Softwareprodukten für das dezentrale Daten-Management ist derzeit in der Entstehung. Erst diese erlaubt eine Nutzung der gigantischen Speicherkapazitäten optischer Medien auf breiter Front. Optische Platten und Jukeboxen sind zwar wertvolle, aber lediglich elementare Bausteine für Fileserver der 90er Jahre. Doch erst die Daten-Management-Software macht aus diesen Bausteinen eine brauchbare Netz-Infrastruktur.