Archive, Formate, Revisionsicherheit

Was ist was bei der Archivierung

14.01.2014
Von 
Dr. Klaus Manhart hat an der LMU München Logik/Wissenschaftstheorie studiert. Seit 1999 ist er freier Fachautor für IT und Wissenschaft und seit 2005 Lehrbeauftragter an der Uni München für Computersimulation. Schwerpunkte im Bereich IT-Journalismus sind Internet, Business-Computing, Linux und Mobilanwendungen.

NCI- und CI-Dokumente

Bei der Archivierung wird grundsätzlich zwischen dem physischen (Papier-)Dokument und dem digitalen Dokument unterschieden. Physische Dokumente liegen in der Regel in Papierform oder anderen analogen Formaten vor. Die im Dokument enthaltenen Informationen können nur von Menschen verarbeitet werden. Sie lassen sich jedoch durch Scanner in eine digitale Form überführen.

Um Medienbrüche zu vermeiden, wird heute in vielen Unternehmen eine komplette Digitalisierung angestrebt. Digitalisierte Dokumente können als Non Coded Information"-Dokumente (NCI) und "Coded Information"-Dokumente (CI) vorliegen.

NCI-Dokumente sind digitalisierte Abbilder, also Faksimiles, des papiergebundenen Originals. Sie liegen nur als Rasterbild vor. Um die Datei elektronisch bearbeitbar zu machen oder sie per Volltextsuche wiederzufinden, muss das NCI-Dokument mittels Optical-Character-Recognition (OCR)-Software in CI-Dokumente transferiert werden.

Ein CI-Dokument ist ein digital erstelltes Dokument, das durch Zeichensätze kodiert ist und von Programmen direkt ausgewertet werden kann. Durch Techniken wie OCR lassen sich aber NCI-Dokumente in CI-Dokumente überführen. In CI-Dokumenten ist im Unterschied zu NCI-Dokumenten eine Volltextrecherche möglich.

Datenerfassung: OCR, ICR und OMR

Nicht-digitale Dokumente lassen sich teil- und vollautomatisch erfassen. Eine teilautomatische Erfassung ist zum Beispiel das Einscannen von Textdokumenten. Hierzu werden verschiedene Erkennungstechnologien wie OCR (Optical Character Recognition), ICR (Intelligent Character Recognition) oder OMR (Optical Mark Recognition) genutzt.

Bei OCR (Optical Character Recognition) wird der Text einer gedruckten Vorlage durch einfachen Mustervergleich automatisch erkannt und in maschinenlesbare Zeichen transformiert. Auf diese Weise wird möglichst 1:1 ein digitales Abbild der Papiervorlage erzeugt. Das elektronische Dokument kann dann digital weiterarbeitet und gespeichert werden - das Original kann klassisch archiviert oder auch vernichtet werden.

Moderne Texterkennung geht heute aber über OCR hinaus. Bei der Weiterentwicklung "Intelligent Character Recognition" (ICR) wird die Qualität der Texterkennung durch Kontextanalyse verbessert. Typische Fehler von OCR-Systemen wie ein eingescanntes "8estellung", bei dem "B" als "8" identifiziert wird, können durch ICR-Methoden korrigiert werden, wenn der Kontext berücksichtigt wird. Dabei wird die Qualität der Ergebnisse durch Vergleiche mit Wörterbüchern und einen Abgleich mit Referenzlisten und statistisch-linguistischen Verfahren verbessert.

Die dritte Erkennungstechnologie "Optical Mark Recognition" (OMR) liest mit großer Sicherheit spezielle Markierungen in vordefinierten Feldern aus und hat sich beim Einlesen von Fragebögen, Multiple-Choice-Tests und Vordrucken bewährt.

Neben manueller und halbautomatischer Erfassung lassen sich Daten auch vollautomatisch - direkt aus Anwendungsprogrammen heraus - generieren. Beispielsweise kann ein ERP-System Bestelldaten erzeugen, wenn es den Lagerbestand automatisch über eine Schnittstelle prüft.