Archive, Formate, Revisionsicherheit

Was ist was bei der Archivierung

14.01.2014
Von 
Dr. Klaus Manhart hat an der LMU München Logik/Wissenschaftstheorie studiert. Seit 1999 ist er freier Fachautor für IT und Wissenschaft und seit 2005 Lehrbeauftragter an der Uni München für Computersimulation. Schwerpunkte im Bereich IT-Journalismus sind Internet, Business-Computing, Linux und Mobilanwendungen.

Die wichtigsten Archivformate

Formatfrage: PDF/A gilt als Standard für Langzeitarchivierung. Foto: PDF Association
Formatfrage: PDF/A gilt als Standard für Langzeitarchivierung. Foto: PDF Association
Foto: PDF Association

Zu archivierende Dokumente sollten immer in dafür geeigneten Formaten archiviert werden. Institutionen wie das Bundesamt für Sicherheit in der Informationstechnik (BSI) empfehlen die Beschränkung auf Standardformate.

Erste Wahl sind herstellerunabhängige Standards, die von anerkannten Organisationen wie der ISO oder dem W3C spezifiziert sind, zum Beispiel ASCII, Unicode, SVG und XML. Für die Archivierung infrage kommen aber auch Bildformate wie TIFF.

Da zum Archivierungszeitpunkt oft nicht klar ist, welche Merkmale eines Dokumentes für eine spätere Reproduktion erforderlich sind, wird das Originaldokument oft in mehreren Formaten gespeichert, was als Rendition bezeichnet wird.

Neben der strukturellen Repräsentation in einer XML-Datei speichern deshalb viele Archivierungssysteme das Dokument in Form eines TIFF-Bildes, gegebenenfalls auch zusammen mit einer elektronischen Signatur zur Beglaubigung der Authentizität.

Einige herstellerabhängige Formate haben sich als Quasi-Standards am Markt durchgesetzt, bestes Beispiel ist PDF von Adobe. Die Spezifikation ist frei verfügbar, steht aber unter der alleinigen Kontrolle des Eigentümers.

Beim BSI finden Sie eine Liste von Formaten, die für die langfristige Archivierung von Text-, Bild-, Audio- und Videodateien geeignet sind.

Archivformate - Beispiel PDF

PDF kommt eine besondere Bedeutung bei der Archivierung zu. 2005 hat die ISO das PDF/A-Format ("A" = Archive) als Standard für die Langzeitarchivierung von Dokumenten zertifiziert. Das BSI empfiehlt dieses Format ebenfalls für die Langzeitarchivierung. Seitdem wird PDF im Markt hoch gehandelt.

Der Standard PDF/A (ISO Standard 19005-1) basiert auf PDF 1.4, schließt aber einige Funktionen davon aus, die eine langfristige Darstellbarkeit beeinträchtigen könnten. Dazu wurde eine Teilmenge von PDF definiert, mit der sich zu archivierende Dokumente so beschreiben lassen, dass die Forderungen für Langzeitarchiverung erfüllt sind. Damit soll eine langfristige Lesbarkeit der Dokumente garantiert sein - und zwar unabhängig davon, mit welcher Anwendungssoftware und auf welchem Betriebssystem sie ursprünglich erstellt wurden.

Seit 2005 PDF/A als Standard verabschiedet wurde, hat sich das Format weiterentwickelt. Mit PDF/A-2 gibt es eine aktuelle Version des Formats, das auf PDF 1.7 beruht und um Aspekte wie die JPEG-2000-Kompression erweitert wurde. PDF/A-2-Dokumente können zudem Dateianhänge enthalten, sofern diese selbst PDF/A-1- oder PDF/A-2-konform sind.

Mit PDF/A-3 wurde 2012 ein weiterer Teil der Norm veröffentlicht. Während PDF/A-2 nur PDF/A-konforme Dateianhänge erlaubt, dürfen bei PDF/A-3 beliebige Dateitypen als Anlagen verwendet werden, um den Anforderungen verschiedener Benutzergruppen gerecht zu werden.

Weiterführende Infos

Der wichtigste Standard für die elektronische Archivierung ist das OAIS "Reference Model for an Open Archive Information System". Das Referenzmodell beschreibt die Funktionen und Komponenten, die für eine langzeitige elektronische Archivierung notwendig sind.

Eine interessante Anlaufstelle ist das "Kompetenznetzwerk Langzeit-Archivierung und Langzeitverfügbarkeit digitaler Ressourcen" - kurz: Nestor. Nestor nimmt sich aller Aspekte der Archivierung an, ist allerdings wissenschaftlich orientiert und wendet sich vor allem an "Gedächtnisinstitutionen" wie Museen, Bibliotheken und Rechenzentren.

Auf welchem Stand sich die internationale Fachwelt bei der Suche nach langfristigen Aufbewahrungsstrategien befindet, haben Projektmitarbeiter in dem kostenfreien PDF-Handbuch "Kleine Enzyklopädie der digitalen Langzeit-Archivierung" zusammengefasst. (mje)

Dieser Artikel basiert auf einem Beitrag der CW-Schwesterpublikation TecChannel. (mhr)