Ratgeber Langzeitarchivierung

Auf immer und ewig archiviert

09.04.2014 von Bernd Reder
Die gesetzeskonforme und revisionssichere Langzeitarchivierung von Dokumenten ist eine Wissenschaft für sich. Papierdokumente sind auch nach Jahrhunderten noch zugänglich. Dagegen müssen für elektronische Daten spezielle Vorkehrungen getroffen werden, damit sie nach zehn Jahren oder später noch lesbar sind. Eine Schlüsselrolle spielt die Wahl der Archivierungsmedien und der Dateiformate.

Papier ist nicht nur geduldig, es eignet sich auch hervorragend als Träger für Informationen, die rechtskonform und revisionssicher archiviert werden müssen. Wird es richtig gelagert, kann ein Dokument aus säurefreiem Papier mehrere Hundert Jahre überdauern. Doch mittlerweile liegen immer mehr Daten nur noch in elektronischer Form vor: Steuerdokumente, Verträge, Entwicklungsunterlagen oder Umsatzstatistiken. Und an die Stelle des Briefs oder des Fax-Dokuments treten E-Mails und Instant Messages.

Je nach Branche gelten in Deutschland unterschiedliche Vorgaben in Bezug auf die Langzeitarchivierung von Unterlagen. Besonders lange müssen Dokumente im medizinischen Bereich aufbewahrt werden.
Foto: BMWi

Viele dieser Unterlagen müssen Jahre, teilweise Jahrzehnte lang aufbewahrt werden. Bei Geschäftsunterlagen beträgt der vom Gesetzgeber vorgegebene Archivierungszeitraum bis zu zehn Jahre, bei Patientendaten sind es bis zu 30 Jahre. Für Gebäudepläne, Katastereinträge und Unterlagen für medizinische Geräte gilt, dass sie über den gesamten Lebenszeitraum hinweg aufbewahrt werden müssen.

Differenzierung Archivierung und Backup

Häufig werden die Begriffe "Backup" und "Archivierung" fälschlicherweise in einen Topf geworfen. Beide Verfahren unterscheiden sich jedoch in wesentlichen Punkten:

Backup: Es wird eine Kopie von Produktionsdaten für den Fall erstellt, dass diese durch Benutzerfehler oder einen Hardware-Defekt verloren gehen und wiederhergestellt werden müssen. Als Speichermedium für Backup-Daten dienen Festplatten beziehungsweise Storage-Systeme, Bänder (Tapes) und Cloud-basierte Online-Speicher. Backups decken in der Regel ein schmales Zeitfenster ab, je nach Branche und Geschäftsfeld reicht es von wenigen Stunden bis hin zu mehreren Monaten. Wichtig ist das möglichst schnelle Wiederherstellen (Retention) von verlorengegangenen Datenbeständen.

Archivierung ist das systematische und langfristige Verlagern von Daten von Produktivsystemen auf spezielle Datenträger wie Magnetbänder, optische Speichermedien oder Festplatten. Die Daten müssen in einer Form archiviert werden, die nachträgliche Änderungen unterbindet. Bei der Langzeitarchivierung ist eine Aufbewahrung über einen Zeitraum von zehn Jahren und länger gefordert.

Warum Langzeitarchivierung wichtig ist

Für Unternehmen ist das Langzeitarchivieren von Unterlagen aus mehreren Gründen unverzichtbar. Zum einen erfordern gesetzliche Vorgaben wie das Handelsgesetzbuch, die Abgabenordnung (AO) und die Grundsätze zum Datenzugriff und zur Prüfbarkeit digitaler Unterlagen (GDPdU), dass Firmen Geschäftsdaten bis zu zehn Jahre lang aufbewahren. Diese Daten müssen Firmen Behörden, etwa dem Finanzamt, bei Bedarf umgehend und in einem maschinenlesbaren Format zur Verfügung stellen.

Der zweite Punkt ist die Beweissicherung, beispielsweise im Rahmen eines Schadenersatzprozesses wegen eines angeblichen Konstruktionsfehlers eines Produkts. Dann muss ein Unternehmen auch noch nach Jahrzehnten die Originalunterlagen vorlegen können. Damit ein archiviertes elektronisches Dokument als Beweismittel zugelassen wird, ist es allerdings erforderlich, kryptografisch signierte Dokumente in ihrem Beweiswert zu sichern und sie nötigenfalls zusammen mit den Metadaten, Signaturen und Beweissicherungen (Evidence Records) zu exportieren. Das erfolgt mithilfe einer Middleware. Details dazu hat das Bundesamt für Sicherheit in der Informationstechnik (BSI) in der Technischen Richtlinie (TR) 03125 fixiert. Eine vom BSI zertifizierte beweiswerterhaltende Langzeitarchivierungslösung ist beispielsweise SecDocs von Fujitsu.

Eine Langzeitarchivierung von Daten bietet weiterhin die Möglichkeit, auf vorhandenes Know-how zurückzugreifen oder dieses bei Bedarf an Interessenten zu verkaufen (Verwertung von Patenten). Für öffentliche Einrichtungen wie Bibliotheken oder staatliche Archive ist die Langzeitarchivierung von Dokumenten die Grundlage ihrer Tätigkeit.

Verfügbarkeit von Datenträgern und Laufwerken berücksichtigen

Bezogen auf die gespeicherten Datenmengen dominieren im Bereich Archivierung laut der Marktforschungsgesellschaft ESG weltweit drei Speichermedien: Externe und interne Festplatten sowie Tapes. Cloud-basierte Archivierungsangebote gewinnen jedoch an Boden.
Foto: ESG

Wenn Daten zehn Jahre oder länger aufbewahrt werden sollen, spielen die Archivierungsmedien und die entsprechenden Schreib-/Lesesysteme eine zentrale Rolle. Eines der größten Probleme ist, dass zu wenige gesicherte Daten über die Haltbarkeit von Speichermedien wie Magnetbänder, Festplatten, DVDs oder Flash-Speicher verfügbar sind. Bei optischen Medien gilt eine Lebensdauer von 10 bis 30 Jahren als realistisch, bei Festplatten sind es etwa 5 Jahre. Magnetbänder können 30 Jahre oder mehr überstehen. Anwender sind allerdings gut beraten, wichtige Daten rechtzeitig auf neue Medien umzukopieren. Als Faustregel gilt, dass dies bei optischen Medien und Bändern alle fünf Jahre erfolgen sollte. Flash-Speicher wie Solid State Drives (SSDs) werden derzeit so gut wie gar nicht als Archivierungsmedien eingesetzt. Dazu sind sie schlichtweg zu teuer.

Eignung von Medien für Langzeitarchivierung

Anforderung

Festplatte

Tape

Optische Medien

Für häufige Zugriffe ausgelegt

ja

nein

nein

Kurze Zugriffszeiten

ja

nein

je nach Medium

Kurze Archivierungsdauer (< 1 Jahr)

ja

ja

ja

Mittlere Archivierungsdauer (< 10 Jahre)

nein

ja

ja

Lange Archivierungsdauer (10 - 20 Jahre)

nein

ja

ja

Auslagerung des Mediums möglich

nein

ja

ja

Daten nicht veränderbar

nein

mit WORM-Tape

mit WORM-Disk

Quelle: NESTOR-Handbuch Version 2.3

Zu berücksichtigen ist zudem, wie lange die Hard- und Software zur Verfügung steht, mit der sich archivierte Daten auslesen lassen. Zwei Beispiele: Die US-Weltraumbehörde NASA kann nicht mehr auf Magnetbänder mit Daten der Mars-Sonden Pioneer und Viking zugreifen, weil die entsprechenden Bandlaufwerke vom Markt verschwunden sind. Ein vergleichbares Problem ist bei Archivdaten der ehemaligen DDR aufgetreten.

NASA - Archivierung der Superlative

Archiv der Superlative: Die Advanced Supercomputing Division der US-Raumfahrbehörde NASA hat Daten in einer Tape Library mit 115 Petabyte Kapazität archiviert. Das System stammt von SGI.
Foto: NASA / SGI

Die Weltraumbehörde NASA setzt zum Archivieren der Daten ein Bandspeicher-System mit 115 Petabyte Kapazität ein. Die Arbeitsdaten liegen auf Festplatten-Storage-Systemen (RAID) und werden auf Tapes verlagert (Disk to Tape), wenn NASA-Fachleute sie nicht mehr benötigen. Aus Sicherheitsgründen werden von jedem Datensatz zwei Kopien erstellt und in separaten Gebäuden gespeichert.

Als Server für die Archivierung der Daten setzt die NASA zwei Altix-4700-Hochleistungsmaschinen von SGI ein, die über Fibre-Channel-Festplatten mit 380 beziehungsweise 535 TByte Kapazität verfügen.
Die Server übermitteln Daten, die archiviert werden sollten, mit 5 GBit/s über ein Storage Area Network zu einem Tape-Speichersystem der Reihe SGI Spectra Logic mit 115 Petabyte Volumen. Die sechs Tape Libraries verfügen über 59.120 Slots. Zudem kommen 92 LTO-5-Tape-Laufwerke zum Einsatz.

Langzeitarchivierung: Organisation der Daten und Dateiformate berücksichtigen

Eine Voraussetzung für eine effiziente Langzeitarchivierung ist ein funktionierendes Datenmanagement. Dies ist in vielen Unternehmen nur in unzureichendem Maße vorhanden, weil einzelne Abteilungen unterschiedliche Datentypen verwenden: Forschungsergebnisse oder Marktinformationen liegen als Rohdaten vor, die in "Working Data" (Arbeitsdaten) umgesetzt werden, etwa Berichte. Diese Datentypen werden wiederum in unterschiedlichen Systemen gespeichert: Rohdaten beispielsweise in einer Projektdatenbank in der Forschungs- und Entwicklungsabteilung, Dokumente in einem EDRMS (Electronic Document and Records Management System). Für die Archivierung müssen alle diese Daten zusammengeführt, konsolidiert, in Standardformate wie PDF/A, TIFF oder XML überführt und archiviert werden.

Eine der größten Herausforderung besteht im Umgang mit unterschiedlichen Dateiformaten. Es ist wenig hilfreich, wenn ein Dokument beispielsweise in einem proprietären Format vorliegt, das Jahrzehnte später nicht mehr lesbar ist. Gleiches gilt für komprimierte Files (ZIP, RAR), Datenbankformate und spezielle E-Mail-Dateiformate wie PST von Outlook. Das BSI empfiehlt daher als Standardformate für die Langzeitarchivierung von Dokumenten und Bildern die Formate PDF/A, SGML, XML, JPEG und TIFF, gegebenenfalls ASCII.

Generell muss ein digitales Archivierungssystem folgende Anforderungen erfüllen:

Dateiformate für die Langzeitarchivierung

Laut dem IT-Grundschutzkatalog (M 4.170) des Bundesamts für Sicherheit in der Informationstechnik (BSI) müssen Dateiformate, die bei der elektronischen Langzeitarchivierung eingesetzt werden, folgende Kriterien erfüllen:

  • das Datenformat sollte möglichst langfristige Relevanz haben,

  • die Dokumentstruktur sollte eindeutig interpretiert werden können,

  • der Dokumentinhalt sollte elektronisch weiterverarbeitet werden können,

  • gesetzliche Vorschriften müssen berücksichtigt werden,

  • die Grammatik und Semantik des Datenformates sollten ausführlich dokumentiert sein, sodass eine spätere Migration zu anderen Formaten problemlos möglich ist,

  • Merkmale des Originaldokuments (elektronisch oder in Papierform) sollen später eindeutig nachweisbar sein, auch wenn das Originaldokument nicht mehr vorhanden ist.

Diese Voraussetzungen erfüllen jedoch nur wenige Dateitypen und Dokumentenbeschreibungssprachen:

SGML (Standard Generalized Markup Language) ist eine Dokumentenbeschreibungssprache, welche die logische Struktur und den Inhalt von elektronischen Dokumenten beschreibt. Sie kann als Format für die Langzeitarchivierung von elektronischen Dokumenten verwendet werden. Allerdings muss auch die Semantikspezifikation (DTD, Document Type Definitions) mit archiviert werden. Das BSI empfiehlt zudem, zusätzlich eine grafische Repräsentation des Ursprungsdokuments zu archivieren, etwa als TIFF-Bilddatei, weil SGML keinerlei Layout-Informationen enthält.

HTML (Hyper Text Markup Language) ist eine Strukturbeschreibungssprache für elektronische Dokumente, wird jedoch nicht als Format für die Langzeitarchivierung empfohlen. Der Grund: Es ist schwierig, das Gesamtdokument inklusive der verlinkten Bilder, Subdokumente und Querverweise zu archivieren.

XML kann als Format für die Langzeitarchivierung genutzt werden. Bei der Archivierung sind jedoch auch die Semantikspezifikationen (Document Type Definitions) und gegebenenfalls auch die Layout-Daten zu speichern.

PDF (Portable Document Format) speichert neben den Strukturinformation von elektronischen Dokumenten auch Layout-Informationen. Speziell für Langzeitarchivierung wurde die Version PDF/A (A wie Archivierung) entwickelt. Damit lassen sich Dokumente vollständig, eindeutig, zugänglich und erschließbar beschreiben.

TIFF (Tagged Image File Format) wird zur Speicherung gerasterter Bilder verwendet. Eine TIFF-Datei besteht aus einem Datei-Header und der Bildinformation. Der Header enthält Daten zum Bild, beispielsweise über die Auflösung oder das eingesetzte Kompressionsverfahren. TIFF ist in komprimierter Form als Format für die Langzeitarchivierung von Bildern und Bildrepräsentationen von Dokumenten tauglich.

GIF (Graphics Interchange Format) wird nur für kurz- und mittelfristige Archivierung empfohlen, weil bei der Konvertierung in GIF Bildinformationen verloren gehen.

JPEG (Joint Photographic Experts Group) eignet sich besonders für Farb- und Grauwertbilder. Auch dieses Format kommt für die Langzeitarchivierung von Bildern und Bildrepräsentationen von Dokumenten in Betracht. Für eine revisionssichere Archivierung empfiehlt das BSI, bei der Auswahl der Kompressionsstufe eine verlustfreie Kompression zu wählen.

ASCII: Dieses Format führt das BSI nicht auf. Plain-Text-Dokumente (.txt) haben den Vorteil, dass sie bereits seit Jahrzehnten im Einsatz sind und von unterschiedlichen Systemen (Unix, Linux, Windows, MacOS et cetera) gelesen werden können. Allerdings vermisst das BSI im Vergleich zu XML oder SGML bei ASCII eine "langfristige Stabilität hinsichtlich der Syntax und Semantik der Daten".

Zentrales Archivierungssystem aufbauen

Ein Fehler, den Unternehmen und öffentliche Einrichtungen häufig begehen, ist der Einsatz mehrerer Archivierungssysteme, etwa für einzelne Unternehmensbereiche oder für unterschiedliche Dokumententypen wie E-Mails und Office-Dokumente. Dies erhöht die Komplexität der Archivierungsinfrastruktur und damit die Gefahr, dass Medienbrüche und Fehler auftreten. Zudem ist ein solches Vorgehen kostspielig.

Alle Dokumente und die entsprechenden Meta-Daten (Informationen, die Dokumente beschreiben) sollten digital erzeugt beziehungsweise übernommen werden. Dies stellt sicher, dass Dokumente dieselben Datenformate aufweisen und nach einheitlichen Kriterien indiziert werden. Nur in Ausnahmefällen sollten Unterlagen von Hand gescannt und indiziert werden. Dies wird sich jedoch nie ganz ausschließen lassen.
Die Dokumente sollten zusammen mit den Meta-Daten in einem Container abgelegt werden. Das macht es einfacher, ein digitales Archiv auf ein anderes Archivierungssystem zu übertragen, etwa wenn der Anbieter gewechselt wird.

Meta-Daten für schnellen Zugriff und Rechteverwaltung

Das Ablegen von Daten in einem Archiv ist jedoch nur die halbe Miete. Ebenso wichtig ist es, bei Bedarf schnell auf Informationen zugreifen zu können. Eine Schlüsselrolle spielen dabei die angesprochenen Meta-Daten. Nicht jedes Dateiformat kann im Header die entsprechenden Informationen ablegen. Im Abschnitt "Dateiformate für die Langzeitarchivierung" unten ist aufgeführt, welche Dateiformate für das langfristige Archivieren von Informationsbeständen in Frage kommen. Die Meta-Daten (Deskriptoren) geben nicht nur Hinweise auf den Datentyp, sondern auch den Inhalt eines Dokuments. Das ist die Voraussetzung für eine erfolgreiche Suche nach einem bestimmten Dokument.

Meta-Daten bilden zudem die Grundlage für die Indizierung des Datenbestandes. Anwender sollten bei der Wahl eines Langzeitarchivierungsprodukts diesem Punkt besondere Aufmerksamkeit schenken. Eine stringente Indizierung wiederum ist die Voraussetzung für die Vergabe von Zugriffsrechten und das automatische Verteilen von Dokumenten. Zudem verhindert eine Indizierung, dass Dokumente mehrfach abgelegt werden.

Speichersysteme und Medien: von NAS bis CAS

Eine klassische "Speicher-Pyramide" in einem Unternehmensnetz: Produktivdaten werden auf schnellen RAID-Systemen und SSD-Speichern vorgehalten. Im Lauf ihres Lebenszyklus werden Informationen sukzessive auf langsamere, dafür preisgünstigere Archivierungsmedien wie Tapes oder optische Speicher wie Utra Density Optical Discs (UDO) verlagert.
Foto: Point Software & Systems

Nach einer Studie der amerikanischen Marktforschungsgesellschaft Enterprise Strategy Group (ESG) dominieren derzeit im Bereich Langzeitarchivierung drei Medientypen: interne Festplatten, externe Storage-Systeme mit Harddisks, etwa NAS-Geräte (Network-Attached Storage) und Speichersysteme, die in ein Storage Area Network (SAN) eingebunden sind, sowie Bandlaufwerke. Optische Medien wie DVDs spielen dagegen nur eine untergeordnete Rolle.

Bis 2015 wird laut ESG das Archivieren von Daten in Cloud-basierten Storage-Umgebungen an Bedeutung gewinnen. In ihnen werden 2015 etwa 12 Prozent der Daten archiviert. Anbieter von Cloud-Archivierungslösungen in Deutschland sind Artec, EMC, Fujitsu, Informatica, myOXSEED und Symantec – um nur einige zu nennen.

Die beweiswerterhaltende Archivierung gewinnt an Bedeutung. Sie erfordert jedoch eine qualifizierte digitale Signatur und weitere Maßnahmen, welche die Integrität und Authentizität eines Dokuments sicherstellen. Dies wird mithilfe einer Middleware erreicht, die auf der Technischen Richtlinie 03125 "TR-ESOR" des BSI basiert.
Foto: BSI

Viele Unternehmen integrieren Langzeitarchivierung in ihr Storage-Konzept. Dabei werden Daten abhängig davon, wie oft auf sie zugegriffen wird, auf einzelne Speicher-Ebenen und die entsprechenden Systeme verlagert. Für das Archivieren sind langsamere, dafür preisgünstigere Speichermedien vorgesehen. Eine solche Infrastruktur könnte folgendermaßen aussehen:

Trend: Langzeitarchivierung als Dienstleistung

Eine fundierte Langzeitarchivierung in Eigenregie zu etablieren, ist mit einem relativ hohen Aufwand verbunden: Der Anwender muss die entsprechende Hard- und Software anschaffen und auf dem neuesten Stand halten, dafür Sorge tragen, dass Compliance-Regeln und rechtliche Vorgaben eingehalten werden und die (Hoch-)Verfügbarkeit der Datenbestände sicherstellen. Deshalb gehen Anbieter von Archivierungslösungen dazu über, ihre Produkte als "Software as a Service" (SaaS) über eine Cloud-Computing-Umgebung bereitzustellen. Zudem besteht die Möglichkeit, die Datenarchivierung komplett an einen Dienstleister auszulagern.

Dies ist auch bei der beweiserhaltenden Langzeitarchivierung möglich. Der Service Provider hält in diesem Fall in seinem Rechenzentrum die Infrastruktur vor, also die Speichersysteme, die Software und Middleware, wie etwa SecDocs von Fujitsu. Die Abrechnung erfolgt in diesem Fall abhängig von der Nutzung. Das heißt, der Anwender zahlt nur für die Services, die er tatsächlich in Anspruch nimmt.

Bei der Nutzung von Cloud-Services ist allerdings zu prüfen, ob der Anbieter über Sicherheitszertifikate wie ISO 27001 verfügt und wo die Daten physisch gelagert werden. Vorzuziehen sind Provider, die Rechenzentren in Deutschland oder der EU betreiben und den Vorgaben des EU-Datenschutzrechts, noch besser den strengeren deutschen Datenschutzregeln unterliegen. Der Grund: Das deutsche Datenschutzrecht verlangt, dass personenbezogen Informationen wie Personalunterlagen nur in Rechenzentren gespeichert und bearbeitet werden dürfen, die in einem EU-Land liegen.

Ein weiterer Trend: Die Langzeitarchivierung findet nach wie vor im Unternehmen statt. Den Betrieb der Lösung und der entsprechenden Infrastruktur übernehmen jedoch externe Fachleute. Dieses Modell ist bereits aus anderen Bereichen bekannt, etwa bei der Verwaltung von Druckern und Kopierern (Managed Print Services). Dank eines abgestuften Zugriffs- und Sicherheitskonzepts haben in diesem Fall nur die dazu berechtigen Mitarbeiter des Unternehmens Zugang zu den elektronischen Daten. Auch dieses Konzept senkt die Betriebskosten und schont die hauseigenen IT-Ressourcen. (wh)