Speichern und Archivieren/Optimale Konsolidierung für die Langzeitarchivierung

Konzepte für die Sicherung digitaler Daten auf Bändern

24.05.1996

Digitale Daten sind - was gern verdrängt wird - sehr heikel: Magnetbänder, das heißt Magnetbandkassetten und Magnetbandspulen, reagieren beispielsweise nicht nur auf Schwankungen der Temperatur und Luftfeuchtigkeit, sondern auch auf Staub, Erdmagnetismus und die Beanspruchung durch Lesegeräte. Oft genügt schon die Beschädigung eines einzigen Bits, um alle Informationen auf einem Medium unlesbar zu machen.

Ein derartiger Exodus der Daten ist bei Informationen, die aufgrund steuer- oder handelsrechtlicher Bestimmungen aufbewahrungspflichtig sind, für ein Unternehmen nicht akzeptabel. Doch auch anderweitige Datenverluste können sehr kostspielig werden. Da Magnetbänder in aller Regel ihr "Mindesthaltbarkeitsdatum" innerhalb von maximal vier Jahren überschritten haben beziehungsweise die Lesbarkeit von Magnetbändern bereits nach zwei Jahren deutlich abnehmen kann, besteht der derzeit einzig praktikable Weg darin, die Datenbestände sorgfältig umzukopieren. Neuartige Tape-Stacking-Konzepte können klassische Backup-Systeme dabei in mehrfacher Hinsicht sinnvoll ergänzen.

Bei Organisation und Handling von Bändern in den Großrechenzentren steht die zeitgerechte, sequentielle Speicherung einzelner Datenbestände meist im Vordergrund. Die Aspekte der Sicherheit und der optimalen Auslastung vorhandener Datenträger behandeln viele Anwender demgegenüber mit einer geringeren Priorität.

Mit den klassischen Kopier- und Speicherungsverfahren zum Erstellungszeitpunkt ist jedoch kaum eine Gruppierung möglich. Ein Storage-und-Space-Management, das heißt eine gezielte Steuerung der Belegung und Auslastung, ist bei Bändern noch weitgehend unüblich. Untersuchungen über die Ausnutzung beziehungsweise Belegung von Bändern zeigen, daß rund ein Drittel aller Kassetten mit weniger als 5 MB, die Hälfte mit weniger als 50 MB belegt sind.

Hintergrund dieser immer noch unzureichenden Band- und Kassettenauslastung, die zudem Archivierungsprobleme aufwerfen kann, sind die herkömmlichen Arten der Dateiarchivierung. Bei Werkzeugen, die für eine Migration von Datenbeständen sorgen, die über eine längere Zeit nicht bewegt wurden, wie zum Beispiel DFHSM (Data Facility Hierarchical Storage Manager) von IBM, besteht das Problem darin, daß der Anwender keine Möglichkeit hat, den Kopiervorgang selbst zu bestimmen.

Derartige Werkzeuge verwalten das Band nicht als eigenständiges professionelles Speichermedium. Die Datenbestände werden vielmehr mit anderen zusammen, in eine Art Sammeldatei verpackt, auf Band gespielt. Somit lassen sich die einzelnen Datenbestände nicht direkt vom Band weiterverarbeiten, sondern sind bei Bedarf erst wieder auf die Platte zurückzuschreiben.

Für eine Langzeitarchivierung ist es bei Beständen auf Magnetbändern erforderlich, daß Daten nach zwei Jahren bewegt werden, um Leseproblemen vorzubeugen. Gleichzeitig sollten für die Datenbestände automatisch Sicherheitskopien angelegt werden. Ein flexibles Tool für das Storage-und-Space-Management sollte zudem wesentliche Informationen zur Identifizierung der kopierten Datenbestände direkt beim Kopieren übernehmen können - zum Beispiel Erstellungsdatum und -uhrzeit, Ersteller, Sperrfrist.

Eine weitere Anforderung ergibt sich daraus, daß Bandlaufwerke in immer kürzeren Zeiträumen vom Markt verschwinden. Um zu verhindern, daß vor Jahren archivierte Datenbestände einfach deshalb nicht mehr greifbar sind, weil beispielsweise das Laufwerk defekt ist und keine Ersatzteile mehr verfügbar sind, ist es bei Technologiewechseln erforderlich, auch Datenbestände rechtzeitig zu übertragen. Es ist also von Anfang an eine Migrationsphase einzuplanen, in der die Langzeitsicherung auf die neue Technologie umkopiert wird.

Als Wechselspeichermedium hat sich als Ersatz für die Magnetbandspulen die Kassette etabliert. Bei der Übertragung von alten Langzeitarchiven auf Kassette ist ein Werkzeug nötig, das für eine strukturierte Übertragung sorgt.

Darüber hinaus lassen sich einige allgemeine Vorsichtsmaßnahmen für die Speicherung auf Kassetten formulieren:

Aus verschiedenen Gründen gehören automatisierte Kassettenbestände eines Roboters in den unbemannten Teil des Rechenzentrums. Denn damit ist ein wesentlich höheres Maß an Zugriffssicherheit gegeben, und es läßt sich verhindern, daß jemand einen Datenbestand einfügt oder entfernt.

Ein Problem kann sich außerdem bezüglich der Beschichtung von Kassetten ergeben. Komplette Roboterbestände von Kassetten müssen häufig nur deshalb ausgetauscht werden, weil fehlerhafte Kassetten, deren Beschichtung sich gelöst hat, aus anderen Installationen eingesetzt wurden. Über das Laufwerk gelangen diese Partikel dann auf andere, eigene Kassetten des Rechenzentrums oder auf andere Laufwerke innerhalb eines Roboters.

Auf diese Weise kann das Einlagern eines Datenbestands zu einer Art Schmutzvirus führen, der sich im Roboter fortsetzt. Deshalb empfiehlt es sich, automatisierte Kassettenbestände in den unbemannten Teil des Rechenzentrums auszulagern und Fremdbänder nur auf manuell bediente Kassettenlaufwerke einzulesen. Sämtliche Datenbewegungen erfolgen damit auf logischer Ebene, und zwar durch Umkopieren. Das setzt natürlich in den meisten Rechenzentren voraus, daß auch im Sicherungsarchiv ein Robotersystem eingesetzt wird.

Früher war es in vielen Umgebungen üblich, mit harten Datensperrfristen zu operieren. Seit einiger Zeit setzt sich das Generationsverfahren mit sogenannter Katalogkontrolle durch. Letztendlich bestimmt hierbei der MVS-Katalog die Verweildauer von Dateien auf den Bändern.

Durch verschiedene Sperrfristen verfallen einige Dateien auf dem Band früher als andere. Der somit logisch freigewordene Platz läßt sich jedoch nicht nutzen, da das Band ein sequentielles Medium ist.

Bisher wurde zwischen Stacking und Recycle unterschieden. Stacking beschreibt die Konsolidierung von wenig ausgelasteten Bändern. Die Datenbestände vieler solcher Bänder werden auf wenige andere Bänder umkopiert, die damit völlig ausgelastet werden. Die Eingabebänder werden danach freigegeben.

Recycle bezeichnet hingegen das regelmäßige Durchsuchen der konsolidierten Ausgabebänder nach solchen, deren Dateien beispielsweise zu mehr als 50 Prozent verfallen sind. Diese werden anschließend wiederholt konsolidiert.

Eine neue Möglichkeit bietet hierbei die Integration des Recycle-Verfahrens in den Stacking-Prozeß, indem der Belegungsgrad in die Auswahl der zuerst zu konsolidierenden Bänder mit einfließt. Somit werden zuerst die am schlechtesten ausgelasteten Bänder konsolidiert.

Nachdem man eine Zeitlang regelmäßig "gestackt" hat, werden Bänder mit höherem Belegungsgrad selektiert - unter anderem auch solche, die schon "gestackt" sind, deren Dateien jedoch schon zum Teil verfallen sind. Das heißt, daß zum optimalen Zeitpunkt anhand der Auslastung implizit ein Recycle stattfindet.

In Ergänzung zu klassischen Backup-Systemen in IBM-Mainframe-orientierten Rechenzentren gibt es für diesen Markt ein neuartiges Tape-Stacking-Konzept, mit dem der Anwender nicht nur eine zuverlässige und fristgerechte Langzeitarchivierung sicherstellen kann. Es trägt auch deutlich zur Kostenoptimierung bei der Archivierung bei. Mit diesem Tape-Stacking-Konzept läßt sich das Bandarchiv konsolidieren, indem Dateien von schlecht ausgelasteten Kassetten durch Kopieren auf andere Datenträger fließen.

Dadurch entstehen einige wenige volle Kassetten, während die übrigen wieder anderweitig Verwendung finden können. Das System läßt sich problemlos in Standard-Bandverwaltungs- und Robotersysteme integrieren. Durch automatische Merge-Läufe werden Datenverluste auf Bandbeständen verhindert, die zu veralten drohen.

Das systematische Reduzieren von Bandaltlasten erhöht die Datensicherheit. Eine noch bessere Sicherheit läßt sich durch die Möglichkeit des dualen Kopierens erzielen: Beim Erstellen beziehungsweise Bestücken einer Kassette wird automatisch eine Kopie angefertigt. Außerdem ist das Recycle im Stacking-Verfahren integriert.

Zusammenfassend läßt sich feststellen, daß das Tape-Stacking-System die bessere Ausnutzung neuer Bandtechnologien gewährleistet. Es stellt damit einen sinnvollen Schritt auf dem Weg zu den High-Capacity-Speichermedien der Zukunft dar.

Kurz & bündig

Da Bänder sequentiell beschrieben werden, die Dateien, die sie enthalten, aber unterschiedliche Sperrfristen haben, ergeben sich bei den Löschvorgängen logische "Löcher" und schlecht ausgelastete Speichermedien. Zur Konsolidierung der Datenarchive dienen die Verfahren Stacking und Recycle. Verbindet man die beiden Methoden sinnvoll miteinander, ergeben sich niedrigere Kosten, ein geringerer Zeitaufwand und eine höhere Sicherheit.

*Gert Adolphsen ist Division Manager der Beta Systems Software AG in Berlin.