Archivierung im Bundesarchiv

Daten für die Ewigkeit

12.08.2009 von Heide Witte
Das Bundesarchiv verwahrt mehr als 300 Kilometer Akten und Fotos. Auch immer mehr digitale Unterlagen kommen hinzu.
Lagerung von Mirkrofilmen beim Bundesarchiv

"Bei uns werden all die Unterlagen archiviert, die von anderen Bundesbehörden nicht mehr dauernd benötigt werden", beschreibt IT-Leiter Wilhelm Valder die Aufgabe des Bundesarchivs. "Wir sichern die Dokumente, erschließen sie und machen sie für die Öffentlichkeit nutzbar." Seit mehr als 20 Jahren werden auch digitale Unterlagen im Original gespeichert. Der Datenbestand umfasst inzwischen rund 9,2 Millionen Dateien. Sie verteilen sich auf 203 digitale Archivobjekte, also inhaltlich zusammengehörende Datenkomplexe. Dazu gehören beispielsweise die Volkszählungsdaten der DDR von 1971 und 1981, die Ermittlung und Entschädigung von NS-Zwangsarbeitern oder die Beschäftigtenstatistik der Bundesanstalt für Arbeit. "Die ältesten digitalen Daten stammen aus den 70er Jahren und können heute noch interpretiert werden", sagt Valder. Da die papiergebundene Verwaltung voraussichtlich weiter abnimmt, während die Behörden zunehmend mit elektronischen Fachsystemen und elektronischer Vorgangsbearbeitung operieren, muss das Bundesarchiv auf die Abgabe von immer größeren Datenmengen vorbereitet sein. Die bislang vorhandene Infrastruktur war dafür allerdings nicht ausgelegt.

Lösung: "Archivemanager" von Grau Data

Seit Sommer vergangenen Jahres werden im Rahmen des Pilotprojekts "Digitales Archiv" elektronische Unterlagen auf einem Speichersystem von Hewlett-Packard (HP) archiviert. Als Archivierungssoftware verwendet das Bundesarchiv den "Archivemanager" der Grau Data AG mit Sitz in Schwäbisch Gmünd. Die Lösung ist in der Lage, Daten bis in den Petabyte-Bereich (1 Petabyte = 1000 Terabytes) zu sichern und selbständig in einem zentralen Speichersystem zu archivieren. Die Daten lassen sich zum Beispiel von Festplatte zu Festplatte und/oder auf Magnetbänder parallel kopieren und aufbewahren. Die Software unterstützt die Netzwerkprotokolle CIFS (Common Internet File System) und NFS (Network File System), zudem verfügt sie über eine offene Filesystem-Schnittstelle. Sie arbeitet mit jeder gängigen Third-Party-Archivapplikation zusammen. Zum Einsatz kommt sie überall dort, wo große Datenmengen zur Archivierung anfallen - etwa bei Videoproduktionen, in Krankenhäusern, aber auch beim Bayerischen Rundfunk, Polizeiorganisationen sowie den Verteidigungsministerien von Frankreich und den Niederlanden.

IT-Landschaft mit Linux

Entscheidend bei der Auswahl der neuen Lösung waren für IT-Leiter Valder folgende Kriterien: Die Daten müssen sich auf unbegrenzte Zeit, revisionssicher und gemäß diversen Compliance-Bestimmungen - etwa GoBS (Grundsätze ordnungsmäßiger DV-gestützter Buchführungssysteme) und GDPdU (Grundsätze zum Datenzugriff und zur Prüfbarkeit digitaler Unterlagen) - aufbewahren lassen. Darüber hinaus soll die Archivierung extrem großer Datenmengen möglichst kostengünstig erfolgen. Der Archivemanager als zentraler Archivspeicher passte in dieses Konzept: "Die Lösung unterstützt das Betriebssystem Linux, das bei uns überwiegend im Einsatz ist", erläutert Valder. "Und sie sorgt dafür, dass die richtigen Informationen zur richtigen Zeit am richtigen Ort verfügbar sind."

Auswahlkriterien

Unbegrenzte, revisionssichere Ablage;

Erfüllung von Compliance-Bestimmungen wie GDPdU und GoBS;

Verwaltung großer Datenmengen;

Linux-Unterstützung;

Einsparungen.

Sparpotenzial genutzt

Der Archivemanager schreibt die Daten zunächst auf eine Festplatte - die Performance Disk - und bereitet sie für die Archivierung vor. Nach einer definierten Zeitspanne und individuell festgelegten Richtlinien werden die Informationen dann auf verschiedenen Medien abgelegt - beispielsweise auf revisionssicheren, weil nicht überschreibbaren WORM-Medien (Write Once Read Multiple). Für die Archivierung auf Bändern sprachen nach den Worten von Valder vor allem wirtschaftliche Gründe. Vorteilhaft sei aber auch, dass der Archivemanager mehrere Medien gleichzeitig beschreiben kann. Die Daten auf den Speichermedien können jederzeit gelesen werden, das Programm arbeitet hardware- und software-unabhängig. Und schließlich verbessert es die Servicequalität: Durch die automatisierte Verlagerung von Dateien lassen sich mehrstufige Speicherlösungen im Sinne eines Hierarchical-Storage-Managements einfach verwalten und an die jeweiligen Geschäftsanforderungen anpassen. Dies reduziert den Aufwand in der Administration und entlastet das IT-Personal.

Einsparungen verzeichnet Valder aber auch außerhalb des eigentlichen Archivierungsprojekts: "Wir bekommen ab und zu digitalisierte Bestände, die auf Platten liegen, auf die jedoch äußerst selten zugegriffen wird. Und das ist sehr teuer." Mit Hilfe des Archivemanagers ließen sich diese Bestände auf deutlich preiswertere Bänder verlagern. Auch Millionen von Fotos im TIF-Format (Tagged Image Format), die im Bildarchiv auf teuren Platten liegen, wanderten auf Bänder, um wieder Platz zu schaffen. "Auf den schnellen Platten liegen dann nur noch Bilder, auf die täglich zugegriffen wird." (sp)