PDF/A konserviert Schriftstücke

21.12.2005
Von Carsten Heiermann
Das Format eignet sich zur flexiblen Langzeitarchivierung von Zeichnungen und Dokumenten.

Anbieter von Dokumenten-Management-Systemen bezeichnen das Portable Document Format Archive (PDF/A) als eine der großen Innovationen im Jahr 2005. Kürzlich wurde das Format (ISO 19005-1) von der International Organization for Standardization (ISO) als Standard für die Langzeitarchivierung anerkannt. Damit wird vermieden, dass Unternehmen für die Archivierung eigene Unterdialekte von PDF erzeugen. Anwender können sicherstellen, dass ihre Dokumente auch über Jahre lesbar bleiben, wenn sie diese im PDF/A-Format abspeichern.

Werden die Dokumente nur in dem nativen Format einer Software abgelegt, muss der Anwender das Programm samt Betriebssystem vorhalten, damit die Dateien lesbar bleiben. Die Branche spricht hier von der "musealen" Instandhaltung veralteter Geräte und Programme sowie der Konservierung des dazugehörigen Know-hows.

Eine Lösung besteht darin, Dokumente in einem Standardformat abzuspeichern, beispielsweise als Bilddatei im Tagged Image File Format (TIFF) oder JPEG (Joint Photografic Expert Group). Laut dem im IT-Grundschutzbuch enthaltenen Maßnahmenkatalog M4.170 des Bundesamtes für Sicherheit in der Informationstechnik (BSI) sind beide als Formate für die Langzeitarchivierung von Bildern und Bildrepräsentationen von Dokumenten geeignet. Im Gegensatz zu den nativen Formaten unterstützen zahlreiche Programme diese Dateitypen. Darüber hinaus können die Dokumente nicht verändert werden - eine Voraussetzung, die vom Gesetzgeber beispielsweise im Rahmen der Grundsätze ordnungsgemäßer Buchführung (GoBs) gefordert wird.

Keine Recherche in TIFFs möglich

Doch die Bildformate haben Nachteile: Das originäre Aussehen der Datei, dazu gehören beispielsweise Farbinformationen, geht verloren. Hinzu kommt, dass die Dokumente nicht volltextrecherchefähig sind und recht groß werden können.

Im Bereich der gescannten (oder digitalisierten) Dokumente haben sich JPEG2000-Formate etabliert. Dies gilt insbesondere bei Archiven und Bibliotheken, aber auch bei großformatigen Karten wie zum Beispiel im deutschen Kataster- und Vermessungsbereich. Auch diese Formate sind von der ISO-Gruppe standardisiert und bereits fester Bestandteil vieler Scan-, Archiv- und Dokumenten-Management-Lösungen. In diesen Formaten abgespeicherte Scans überzeugen mit einer hohen Qualität und weisen dennoch bedeutend kleinere Dateigrößen als JPEG oder TIFF auf. Mit JPEG2000 kann sowohl verlustfrei als auch hoch komprimiert archiviert werden.

PDF kann jeder lesen

Die dritte Alternative ist das Abspeichern als PDF-Datei als proprietäres, aber offen gelegtes Format. Schließlich kann "jeder" aktuelle PDF-Dateien lesen, dafür hat Adobe mit seinem kostenlosen Reader gesorgt. Allerdings hat der Anwender keine Reglementierung, welche Inhalte er in seine PDFs integriert. Beispielweise kann auf externe Quellen verlinkt werden, die eventuell nach einiger Zeit nicht mehr vorhanden sind. Eine langfristige Lesbarkeit ist somit nicht gewährleistet. Das IT-Grundschutzbuch des BSI rät aufgrund der fehlenden Standardisierung davon ab, PDF zur elektronischen Archivierung zu nutzen, und wenn doch "sollte das Datenformat PDF separat dokumentiert werden".

Seit Herbst 2005 gibt es jedoch das zertifizierte PDF/A. Es handelt sich um eine von PDF 1.4 abgeleitete Variante zur Langzeitarchivierung. Die Syntax schreibt detailliert vor, welche Inhalte erlaubt sind. Beispielsweise muss der Content in der Datei enthalten sein. Fremdabhängigkeiten oder Referenzen zu externen Quellen, welche die langfristige Lesbarkeit beeinträchtigen könnten, sind ausgeschlossen. Die genutzten Schriften müssen komplett eingebunden sein. Eine Verschlüsselung ist nicht zulässig. Durch diese und andere Vorschriften soll eine langfristige Lesbarkeit der Dokumente garantiert sein - und zwar unabhängig davon, mit welcher Software und auf welchem Betriebssystem sie ursprünglich erstellt wurden.

Sowohl für gescannte Dokumente als auch für vektorisierte Dateien oder beispielsweise Office-Dateien und CAD-Zeichnungen lässt sich PDF/A verwenden. Das ging bisher nur mit PDF - verbunden mit den genannten Schwierigkeiten.

Es ist nicht notwendig, beispielsweise Word-Files zunächst in TIFF gerastert zu speichern: Der Anwender kann sie direkt in PDF/A konvertieren und noch immer vektorisiert sowie revisionssicher ablegen.

Da es sowohl für Raster- als auch Vektordateien geeignet ist, hat PDF/A gute Chancen, sich als einheitliches Archivformat durchzusetzen. Doch bekanntlich hat eine Münze zwei Seiten: Durch das Einbetten der Fonts steigt zwangsläufig die Dateigröße an - ein kleiner Haken an der Geschichte, der aber im Vergleich zu den Vorteilen durchaus in Kauf zu nehmen ist. (fn)