Archive, Formate, Revisionsicherheit

Was ist was bei der Archivierung

14.01.2014 von Klaus Manhart
Geschäftsdokumente müssen heute von jedem Unternehmen langfristig und sicher archiviert werden. Sie sollten so gespeichert werden, dass sie Compliance-Regeln und rechtlichen Anforderungen genügen. Hier finden Sie die wichtigsten Begriffe, die Sie für die Dokument-Archivierung unbedingt kennen sollten.

Heute müssen Unternehmen immer mehr elektronisch erzeugte, verarbeitete und gespeicherte Dokumente und Daten langfristig archivieren. Die Geschäftsdaten sollten dabei dauerhaft und applikationsneutral archiviert und so gespeichert werden, dass sie autark und über den gesamten Document-Lifecycle lesbar sind.

Foto: Slavoljub Pantelic - shutterstock.com

Das ist aus zwei Gründen wichtig: Zum einen hat jedes Unternehmen seine internen Compliance-Regeln und regulatorischen Anforderungen, die zum Teil auch branchenspezifisch sind. Zum anderen gibt es die vom Gesetzgeber verlangten Aufbewahrungspflichten. Im öffentlichen Bereich etwa müssen Daten über mindestens 70 Jahre vorgehalten werden.

Zurzeit gibt es zwar nur wenige Segmente wie das Sozialgesetzbuch, in denen die Archivierung elektronischer Unterlagen gesetzlich geregelt ist. Der Gesetzgeber spricht aber ganz klar von einer allgemeinen Aufbewahrungspflicht, der Unternehmen und öffentliche Verwaltungen nachkommen müssen - egal, ob die Dokumente in Papierform oder digital vorliegen.

Langzeitarchivierung und revisionssichere Archivierung

Mit digitaler Archivierung ist allgemein die datenbankgestützte, langfristige und sichere Speicherung von Daten gemeint. Die Informationen müssen stabil und geschützt aufbewahrt werden und wieder reproduzierbar sein. Von Langzeitarchivierung spricht man, wenn die Dokumente mindestens zehn Jahre gespeichert werden sollen.

Die revisionssichere Archivierung geht noch einen Schritt weiter und verschärft die Anforderungen - wie etwa, dass die Daten auf dem Archivträger unveränderbar zu speichern sind.

Die revisionssichere Archivierung verlangt insbesondere, bestimmten gesetzlichen Vorgaben zu genügen. Das sind hauptsächlich die Forderungen, wie sie das Handelgesetzbuch (HGB), die Abgabenordnung (AO) und die Grundsätze ordnungsmäßiger DV-gestützter Buchführungssysteme (GoBS) beschreiben.

Aus dem HGB lassen sich zehn Merkmale der revisionssicheren Archivierung ableiten. Die wichtigsten davon sind:

Records Management

Records Management (RM) ist eine Möglichkeit der revisionssicheren Archivierung. RM entspricht im Deutschen in etwa der Begriff "Aktenführung" oder "Schriftgutverwaltung". Dessen Ziel ist es, wichtige, aufbewahrungswürdige und vor allem aufbewahrungspflichtige Informationen nachprüfbar zu dokumentieren und abzulegen.

Für das elektronische Records Management stehen Programme zur Verfügung, die digitale Medien und herkömmliche physische Archive verwalten. RM-Software bietet beispielsweise Funktionen zur geordneten Ablage von Informationen, zur Thesaurus- und wortgestützten Identifizierung sowie zum Schutz von Dokumenten oder bestimmten Teilen davon.

Zeitstempel und elektronische Signaturen ermöglichen die Verwaltung von Aufbewahrungs- und Vernichtungsfristen. Um nachträgliche Veränderung auszuschließen, erledigt die RM-Software auch die Speicherung der Daten auf physisch unveränderbaren Medien.

Records Management ist im Übrigen kein Thema, das sich nur auf reine Dokumente bezieht. So wird es zunehmend wichtig, auch Inhalte wie Web-Content revisionssicher zu hinterlegen. Damit lassen sich beispielsweise Änderungsstände einer Website zu einem bestimmten Zeitpunkt dokumentieren - und für gerichtliche Auseinandersetzungen nachweisen.

Archivsysteme

Marktübliche Archivlösungen bestehen heute meist aus mehreren Elementen. Sie müssen zum einen auf die Robustheit und Langlebigkeit der Hardware achten, zum anderen sollte die genutzte Software die Datenmigration erleichtern.

Ablauf: Archivsysteme - im Bild Secdocs von Fujitsu - verfügen über einen definierten Workflow. Foto: Fujitsu
Foto: Fujitsu

Für die normale Langzeitarchivierung genügen Archivsysteme, die aus Datenbanken, Archivsoftware und Speichersystemen bestehen. Diese Systeme basieren meistens auf einer Referenzdatenbank und verweisen mit den Verwaltungs- und Indexkriterien auf einen externen Speicher, in dem die Informationsobjekte gehalten werden.

In der Regel ist das Archivsystem in eine IT Infrastruktur eingebunden und wird von verschiedensten IT-Systemen genutzt. Das zu archivierende Dokument erhält das Archivsystem entweder direkt vom Client oder von einer anderen Anwendung. Das Dokument wird zunächst in einen Zwischenspeicher gelegt, und es wird eine Dokument-ID generiert. Zu dieser Dokument-ID werden zudem entsprechende Stichwörter in einer Indexdatenbank gespeichert.

Die Datenbank erlaubt es über den Index jederzeit, das Dokument wiederzufinden und dem Anwender bereitzustellen. In den meisten Fällen erfolgt in regelmäßigen Intervallen eine Datensicherung auf einen nicht veränderbaren Datenträger.

NCI- und CI-Dokumente

Bei der Archivierung wird grundsätzlich zwischen dem physischen (Papier-)Dokument und dem digitalen Dokument unterschieden. Physische Dokumente liegen in der Regel in Papierform oder anderen analogen Formaten vor. Die im Dokument enthaltenen Informationen können nur von Menschen verarbeitet werden. Sie lassen sich jedoch durch Scanner in eine digitale Form überführen.

Um Medienbrüche zu vermeiden, wird heute in vielen Unternehmen eine komplette Digitalisierung angestrebt. Digitalisierte Dokumente können als Non Coded Information"-Dokumente (NCI) und "Coded Information"-Dokumente (CI) vorliegen.

NCI-Dokumente sind digitalisierte Abbilder, also Faksimiles, des papiergebundenen Originals. Sie liegen nur als Rasterbild vor. Um die Datei elektronisch bearbeitbar zu machen oder sie per Volltextsuche wiederzufinden, muss das NCI-Dokument mittels Optical-Character-Recognition (OCR)-Software in CI-Dokumente transferiert werden.

Ein CI-Dokument ist ein digital erstelltes Dokument, das durch Zeichensätze kodiert ist und von Programmen direkt ausgewertet werden kann. Durch Techniken wie OCR lassen sich aber NCI-Dokumente in CI-Dokumente überführen. In CI-Dokumenten ist im Unterschied zu NCI-Dokumenten eine Volltextrecherche möglich.

Datenerfassung: OCR, ICR und OMR

Nicht-digitale Dokumente lassen sich teil- und vollautomatisch erfassen. Eine teilautomatische Erfassung ist zum Beispiel das Einscannen von Textdokumenten. Hierzu werden verschiedene Erkennungstechnologien wie OCR (Optical Character Recognition), ICR (Intelligent Character Recognition) oder OMR (Optical Mark Recognition) genutzt.

Bei OCR (Optical Character Recognition) wird der Text einer gedruckten Vorlage durch einfachen Mustervergleich automatisch erkannt und in maschinenlesbare Zeichen transformiert. Auf diese Weise wird möglichst 1:1 ein digitales Abbild der Papiervorlage erzeugt. Das elektronische Dokument kann dann digital weiterarbeitet und gespeichert werden - das Original kann klassisch archiviert oder auch vernichtet werden.

Moderne Texterkennung geht heute aber über OCR hinaus. Bei der Weiterentwicklung "Intelligent Character Recognition" (ICR) wird die Qualität der Texterkennung durch Kontextanalyse verbessert. Typische Fehler von OCR-Systemen wie ein eingescanntes "8estellung", bei dem "B" als "8" identifiziert wird, können durch ICR-Methoden korrigiert werden, wenn der Kontext berücksichtigt wird. Dabei wird die Qualität der Ergebnisse durch Vergleiche mit Wörterbüchern und einen Abgleich mit Referenzlisten und statistisch-linguistischen Verfahren verbessert.

Die dritte Erkennungstechnologie "Optical Mark Recognition" (OMR) liest mit großer Sicherheit spezielle Markierungen in vordefinierten Feldern aus und hat sich beim Einlesen von Fragebögen, Multiple-Choice-Tests und Vordrucken bewährt.

Neben manueller und halbautomatischer Erfassung lassen sich Daten auch vollautomatisch - direkt aus Anwendungsprogrammen heraus - generieren. Beispielsweise kann ein ERP-System Bestelldaten erzeugen, wenn es den Lagerbestand automatisch über eine Schnittstelle prüft.

Archivierungsmedien I: HD, Bänder, Cloud

Für die normale, nicht revisionssichere Archivierung kommen vor allem Festplatten und Magnetbänder in Betracht. Beide Systeme sind wiederbeschreibbar, also nicht revisionssicher.

Normale Festplatten eignen sich aufgrund des hohen Ausfallrisikos allerdings nur bedingt für die Langzeitarchivierung. Die meisten Hersteller geben eine durchschnittliche Lebensdauer von fünf Jahren an. Bei Festplatten, die nur als Backup-Medium dienen, kann man von einer Haltbarkeit von zehn Jahren ausgehen.

Anders sieht es aus, wenn man Festplatten in einem RAID-Verbund zusammenschließt. Durch Redundanz wird die Ausfallsicherheit erhöht RAID 5 beispielsweise ist eine kostengünstige Möglichkeit, Daten auf mindestens drei Festplatten redundant und für den Nutzer bequem handhabbar zu speichern.

Magnetbänder sind seit Jahrzehnten im Einsatz und eignen sich besonders zur Speicherung großer Datenmengen. Da auf Bänder nur sequentiell zugegriffen werden kann, ist der Datenabruf allerdings langsam. Aufgrund der hohen Kapazitäten bei langen Zugriffszeiten eignen sich Bänder vor allem für Backups von laufenden Systemen. Die Lebensdauer von Bändern ist von vielen Faktoren abhängig, unter normalen Bedingungen erreichen sie eine Lebenszeit zwischen 20 und 30 Jahren.

In neuerer Zeit kommt auch die Cloud als Archivspeicher in Mode. Die zu archivierenden Dokumente werden hier nicht mehr lokal im Rechenzentrum gespeichert, sondern in weltweit vernetzten Cloud Data Centern. Symantec bietet beispielsweise mit Enterprise Vault.cloud bereits ein Cloud-basiertes Archivsystem an. Rechtlich sind Cloud-Archive allerdings noch umstritten.

Archivierungsmedien II: revisionssicher speichern

Weil Festplatten und Magnetbänder wiederholt beschreibbar sind, gehören sie nicht zu den revisionssicheren Medien. Bei einer revisionssicheren Archivierung dürfen die Daten auf dem Medium nur einmal geschrieben werden und anschließend weder veränderbar noch löschbar sein. Solche Storage-Medien bezeichnet man als WORM (Write Once, Read Many).

WORM-Datenträger sind im Idealfall physikalisch vor Veränderungsmöglichkeiten geschützt. Dies ist bei TrueWORM-Medien wie optischen und magnetoptischen Datenträgern der Fall. Hier ist die Write-Once-Eigenschaft von der Hardware vorgegeben.

Bei anderen Medien, die die WORM-Eigenschaft nicht per se aufweisen, kann das Write-Once-Merkmal über eine Softwarelösung "nachgerüstet" werden; man spricht dann von SoftWORM.

TrueWORM-Systeme sind digital-optische Wechseldatenträger wie die CD-R oder DVD-ROM. Da sie nur einmal beschreibbar sind, werden sie den rechtlichen Anforderungen der Unveränderbarkeit von Daten gerecht.

Optische Medien wie CD-Rs, DVDs, DVD-RAMS und Blu-ray-Discs haben zudem den Vorteil, dass durch das berührungslose Auslesen kein mechanischer Verschleiß stattfindet. Das BSI empfiehlt CD-Rs für kleine Archive und DVD-R und DVD-RAMs und Blu-ray-Discs für mittelgroße Archive. Für sehr große Archive sind diese Datenträger nicht geeignet.

Was die Haltbarkeit betrifft, geht man von deutlich weniger als 30 Jahren aus. Bei DVD-RAMs sind es bis zu 30 Jahre, bei Blu-ray-Discs etwa 50 Jahre.

Aktuell kommen diese Speichermedien im Zeitalter serverbasierter Speicherung und Cloud-Lösungen als Träger von digitalen Informationen aus der Mode, sind aber aus historischen Gründen immer noch im Einsatz.

Archivierungsmedien III: Revisionssicherheit nachrüsten

Um auf Festplatten revisionssicher zu speichern, kann man die WORM-Funktionalität softwaretechnisch als SoftWORM über Contend Adressed Storage (CAS) nachbilden. Dabei wird jedes digitale Objekt, das in einem CAS-System abgelegt wird, über einen Hash-Wert repräsentiert. Ein Überschreiben oder Verändern von Daten ist damit unmöglich.

Auch NAS/SAN-Systeme können für die revisionssichere Archivierung eingesetzt werden, wenn sie die Bedingungen der Revisionssicherheit mit unveränderbarer Speicherung sowie Schutz vor Manipulationen und Löschen erfüllen.

Magnetbänder lassen sich ebenfalls auf die Anforderungen professioneller Archivierungszwecke hochrüsten. Ist eine revisionssichere Speicherung auf Bändern erforderlich, können kryptografische Verfahren, die eine Änderung der Daten anzeigen, eingesetzt werden.

WORM-Tapes stellen über spezielle Bandmedien und besondere Laufwerke die Einmalbeschreibbarkeit sicher. Besonders in Rechenzentren, in denen Bandroboter und Library-Systeme bereits vorhanden sind, sind WORM-Tapes eine einfach zu integrierende Komponente für die Langzeitarchivierung.

Die wichtigsten Archivformate

Formatfrage: PDF/A gilt als Standard für Langzeitarchivierung. Foto: PDF Association
Foto: PDF Association

Zu archivierende Dokumente sollten immer in dafür geeigneten Formaten archiviert werden. Institutionen wie das Bundesamt für Sicherheit in der Informationstechnik (BSI) empfehlen die Beschränkung auf Standardformate.

Erste Wahl sind herstellerunabhängige Standards, die von anerkannten Organisationen wie der ISO oder dem W3C spezifiziert sind, zum Beispiel ASCII, Unicode, SVG und XML. Für die Archivierung infrage kommen aber auch Bildformate wie TIFF.

Da zum Archivierungszeitpunkt oft nicht klar ist, welche Merkmale eines Dokumentes für eine spätere Reproduktion erforderlich sind, wird das Originaldokument oft in mehreren Formaten gespeichert, was als Rendition bezeichnet wird.

Neben der strukturellen Repräsentation in einer XML-Datei speichern deshalb viele Archivierungssysteme das Dokument in Form eines TIFF-Bildes, gegebenenfalls auch zusammen mit einer elektronischen Signatur zur Beglaubigung der Authentizität.

Einige herstellerabhängige Formate haben sich als Quasi-Standards am Markt durchgesetzt, bestes Beispiel ist PDF von Adobe. Die Spezifikation ist frei verfügbar, steht aber unter der alleinigen Kontrolle des Eigentümers.

Beim BSI finden Sie eine Liste von Formaten, die für die langfristige Archivierung von Text-, Bild-, Audio- und Videodateien geeignet sind.

Archivformate - Beispiel PDF

PDF kommt eine besondere Bedeutung bei der Archivierung zu. 2005 hat die ISO das PDF/A-Format ("A" = Archive) als Standard für die Langzeitarchivierung von Dokumenten zertifiziert. Das BSI empfiehlt dieses Format ebenfalls für die Langzeitarchivierung. Seitdem wird PDF im Markt hoch gehandelt.

Der Standard PDF/A (ISO Standard 19005-1) basiert auf PDF 1.4, schließt aber einige Funktionen davon aus, die eine langfristige Darstellbarkeit beeinträchtigen könnten. Dazu wurde eine Teilmenge von PDF definiert, mit der sich zu archivierende Dokumente so beschreiben lassen, dass die Forderungen für Langzeitarchiverung erfüllt sind. Damit soll eine langfristige Lesbarkeit der Dokumente garantiert sein - und zwar unabhängig davon, mit welcher Anwendungssoftware und auf welchem Betriebssystem sie ursprünglich erstellt wurden.

Seit 2005 PDF/A als Standard verabschiedet wurde, hat sich das Format weiterentwickelt. Mit PDF/A-2 gibt es eine aktuelle Version des Formats, das auf PDF 1.7 beruht und um Aspekte wie die JPEG-2000-Kompression erweitert wurde. PDF/A-2-Dokumente können zudem Dateianhänge enthalten, sofern diese selbst PDF/A-1- oder PDF/A-2-konform sind.

Mit PDF/A-3 wurde 2012 ein weiterer Teil der Norm veröffentlicht. Während PDF/A-2 nur PDF/A-konforme Dateianhänge erlaubt, dürfen bei PDF/A-3 beliebige Dateitypen als Anlagen verwendet werden, um den Anforderungen verschiedener Benutzergruppen gerecht zu werden.

Weiterführende Infos

Der wichtigste Standard für die elektronische Archivierung ist das OAIS "Reference Model for an Open Archive Information System". Das Referenzmodell beschreibt die Funktionen und Komponenten, die für eine langzeitige elektronische Archivierung notwendig sind.

Eine interessante Anlaufstelle ist das "Kompetenznetzwerk Langzeit-Archivierung und Langzeitverfügbarkeit digitaler Ressourcen" - kurz: Nestor. Nestor nimmt sich aller Aspekte der Archivierung an, ist allerdings wissenschaftlich orientiert und wendet sich vor allem an "Gedächtnisinstitutionen" wie Museen, Bibliotheken und Rechenzentren.

Auf welchem Stand sich die internationale Fachwelt bei der Suche nach langfristigen Aufbewahrungsstrategien befindet, haben Projektmitarbeiter in dem kostenfreien PDF-Handbuch "Kleine Enzyklopädie der digitalen Langzeit-Archivierung" zusammengefasst. (mje)

Dieser Artikel basiert auf einem Beitrag der CW-Schwesterpublikation TecChannel. (mhr)