Hilfe bei beeinträchtigten Layouts und Zeichen

Neuronale Netze auch für anspruchsvolle OCR-Aufgaben

10.07.1992

Optische Schrifterkennung (OCR) setzt bei anspruchsvollen Aufgabenstellungen zunehmend auf den Einsatz neuronaler Netze. "Anspruchsvoll" meint den Einsatz von OCR bei problematischen Vorlagen.

Gerade bei verunreinigten, kopierten oder gefaxten Dokumenten stößt man häufig auf stark beeinträchtigte Zeichen, die in zerrissener, verschmutzter oder verklebter Form vorliegen. Hinzu kommen oft schwierige Seitenlayouts mit "störenden" Elementen wie Trennlinien oder Kästen bei Formularen. Bei all diesen Vorlagen geht es um die Erkennung von "verrauschten Mustern" - ein für neuronale Netze prädestiniertes Einsatzgebiet.

Zu unterscheiden sind im wesentlichen zwei technische Einsatzgebiete: die Dokumentenanalyse (Erkennung von Schrift auf Papier) und Erkennung von Beschriftungen/Markierungen auf Objekten, wo es beispielsweise auch um gestanzte, geprägte oder geätzte Schriften geht. Anstelle von Flachbett- oder Einzugscannern werden hier spezielle Kameras eingesetzt.

Für das erstgenannte Einsatzfeld kommen Anwendungen wie anspruchsvolle Formularerkennung bei Versicherungen, im Handel oder der Industrie in Betracht.

Man denke etwa an die Vielzahl unterschiedlich gestalteter Formulare (zum Beispiel Versicherungsanträge), wo ausgefüllte Daten von den Text- und Linienelementen des Formulars zu separieren sind.

Schriften auf Flaschen

Bei Lieferscheinen oder Frachtbriefen können die Vorlagen stark verschmutzt und geknickt sein, die zu erkennenden Schriften in den Datenfeldern sind häufig mit schlechten Druckern erstellt oder sogar gestempelt.

Andere Ansprüche stellt das zweite große Einsatzfeld, wo es beispielsweise um die Erkennung von Schriften auf dreidimensionalen Teilen wie Flaschen, Batterien oder Salbentuben in der Fertigungskontrolle geht. Die unterschiedlichen Materialien wie Metall, Plastik oder Gummi sorgen für sehr unterschiedliche Bedingungen. Dazu kommen verschmutzte oder zerkratzte Oberflächen sowie schwierige Beleuchtungsverhältnisse.

Unabhängig vom Einsatz hat ein intelligentes OCR-System folgende Phasen erfolgreich zu absolvieren:

In der ersten Phase - der Übertragung - muß die Vorlage digitalisiert werden. Darauf folgt eine komplizierte Phase der Segmentierung, bei der sich die Erkennung auf relevante Bereiche konzentrieren muß, sprich: störende Einflüsse, etwa um einen Ziffernblock herum, müssen eliminiert werden.

Die Seitenstruktur muß erkannt und Elemente wie Spalten und Bildbereiche müssen ausgeklammert werden.

Erst dadurch kann eine korrekte Einlesung gewährleistet werden. Erst in der dritten Phase kommt es zur eigentlichen Erkennung, zur "echten" Zeichenanalyse, wo Zeichen isoliert betrachtet und erkannt werden.

* Dr. Mathias Petri ist Geschäftsführer der Signum, München