Vom Papier in den Computer-Komponenten für benutzerfreundliche Editierplätze:

Umschreibende Rechtecke separieren Zeichen

09.11.1984

Von Prof. Jürgen Schürmann und Dr. Wolfgang Doster *

Vom "papierlosen" Büro ist viel gesprochen und geschrieben worden. Was ist daraus geworden? Mit zunehmender Ausbreitung der elektronischen Informationsverarbeitung ist der Paierverbrauch keineswegs gesunken, sondern eher noch gestiegen. Der Begriff "Papier" vertritt in diesem Zusammenhang eine bestimmte Darstellungsform von Informationen, nämlich die Form für den Gebrauch durch den Menschen. Im Gegensatz dazu steht die elektronische Informationsdarstellung; mit dieser Darstellungsform arbeiten und kommunizieren Rechner untereinander.

Das letzte Jahrzehnt hat mit Arbeitsplatzrechnern, Textverarbeitungssystemen, den vielfältigen Möglichkeiten der Datenverarbeitung und überhaupt den elektronischen Techniken zahlreiche Hilfsmittel für die Generierung, Veränderung und Verarbeitung von Informationen hervorgebracht. Sie sind nur dann wirklich nutzbar, wenn entweder völlig neue Texte und Daten generiert werden, oder wenn die zu bearbeitenden Daten bereits in elektronischer Form vorliegen.

Am Büroarbeitsplatz von heute stoßen die beiden Medienbereiche, durch die Stichworte "Papier" und Elektronik gekennzeichnet, zusammen. Auf dem Schreibtisch des Sachbearbeiters begegnen sich diese beiden Welten. Sein Arbeitsfeld ist der Interaktionsbereich, in dem Informationen aus beiden Medienbereichen miteinander verbunden werden.

Experimenteller Editierplatz

Wesentliche Werkzeuge sind hier Bleistift und Tastatur. Sollen Dokumente vom Bereich "Papier" in den Bereich "Elektronik" gebracht werden oder umgekehrt, dann ist eine Umwandlung notwendig. Während jedoch mit den grafischen Techniken und den heute verfügbaren Druckern und Plottern der Übergang von der Elektronik zum Papier vergleichsweise hervorragend ausgebaut ist, muß die umgekehrte Verbindung auf oft mühevolle Weise durch entsprechende Tätigkeiten des Menschen realisiert und aufrechterhalten werden. Erst wenn auch in dieser Richtung mehr möglich ist als die heutige Technik erlaubt, kann der Informationskreislauf geschlossen werden.

Um dieses Ziel zu erreichen, wird unter dem Stichwort "Dokumentanalyse" vielerorts daran gearbeitet, den Weg vom Medienbereich Papier in den Medienbereich Elektronik in der notwendigen Breite auszubauen. Im Forschungsinstitut Ulm von AEG-Telefunken beschäftigt man sich auf dem Gebiet von Zeichen- und Bilderkennungssystemen mit diesem Problem. Zwischenergebnis ist ein experimenteller Editierplatz, bei dem mit Hilfe von bereits vorhandenen Geräten im Prinzip gezeigt wird, wie eine Lösung dieser Aufgabe aussehen könnte.

Dabei sind zwei Aspekte wichtig:

- die Aufnahme bereits vorliegender Dokumente und

- die Aufnahme von Dokumentinhalten während des Entstehens.

Bei der Aufnahme von Dokumenten, die bereits fertig vorliegen, muß man sich die Vielfalt üblicher Bürodokumente mit freier Mischung von Text- und Grafikbestandteilen vorstellen. Bei der zweiten Teilaufgabe der Aufnahme des Dokumentinhalts zum Zeitpunkt des Entstehens, kann beispielsweise als Schreibunterlage ein grafisches Tablett verwendet werden; dann lassen sich Texte Zeichnungen, Korrekturen und Kommandos unmittelbar während des Schreibens automatisch erkennen und weiterverarbeiten.

Beide Bereiche ergänzen sich in sinnvoller Weise und bilden wichtige Komponenten' für komfortable Arbeitsplatzsysteme. Das Lesen und Erkennen schriftlicher Vorlagen macht Bild- und Textinformationen, die zunächst nur auf Papier vorliegen, allen Manipulationsmöglichkeiten durch Text- und Grafikeditoren sowie jeglicher Art von elektronischer Kommunikation zugänglich. Das Lesen und Erkennen aus dem manuellen Schreibvorgang heraus erlaubt es, Auswahlfunktionen, Cursorsteuerung, Kommando- und Texteingaben wesentlich unmittelbarer vorzunehmen, als es heute mit der Maus und einer Tastatur möglich ist.

Für die Dokumentanalyse ist jedes Stuck Papier, das Informationen trägt, ein Dokument - seien das Skizzen, Formulare, Briefe, Aufsätze aus Zeitschriften oder Buchseiten. Das Dokument darf Text- und Grafikbestandteile enthalten.

Ergebnis der Dokumentanalyse soll die Darstellung des Dokumentinhalts in einer für die Weiterverarbeitung geeigneten Dokumentrepräsentation sein: Texte in ASCII-Codierung, Grafik- und Bildbereiche dagegen in Raster-, Vektor- oder Faksimile-Codierung. Die in der Dokumentrepräsentation enthaltenen Informationen müssen zunächst mindestens die Rekonstruktion des Dokumentinhalts gestatten. Die Rekonstruktion allein leistet auch schon die Faksimiletechnik, die jedoch nur Bilder zu konservieren, zu übertragen und wiederzugeben vermag. Der Bedeutungsinhalt bleibt dabei im Hinblick auf eine Weiterverarbeitung unzugänglich. Mit Hilfe der Dokumentanalyse soll aber gerade der Bedeutungsinhalt zugänglich gemacht werden.

Wichtige Aufgabe: Den Text erkennen

Zu den Aufgaben, die dabei zu lösen sind, gehört natürlich als eine der wichtigsten auch die Erkennung des Textes, also die Schriftzeichenerkennung. Gegenüber allen üblichen Schrifterkennungsanwendungen, etwa bei der Belegverarbeitung oder dem Anschriftenlesen, ist die Aufgabe hier jedoch in vielfältiger Hinsicht schwieriger: durch den nicht von vornherein bekannten grafischen Aufbau des Dokumentes, durch die mögliche Mischung mit rein grafischen Elementen wie Zeichnungen und Diagrammen und durch die Vielfalt der Schriftarten und -größen.

Das Dokumentanalysesystem soll den menschlichen Benutzer bei seiner Arbeit unterstützen. Um das wirkungsvoll tun zu können, muß es hinreichend viel von dessen Arbeit verstehen, also mit "Wissen" über den Arbeitsbereich versehen werden.

Das Dokumentanalysesystem ist daher als ein wissensbasiertes, situationsabhängig gesteuertes System organisiert, das aber vollständig unter der Kontrolle des menschlichen Benutzers betrieben wird. Wesentliche Teile sind eine Wissensdatenbank und eine interne Dokumentbeschreibung.

Die interne Dokumentbeschreibung ist eine nur während der Analyse existierende Datenbank. Sie dient gewissermaßen als eine Art Notizblock oder Wandtafel für die verschiedenen Verarbeitungsstationen, die ihre Eingangsinformation dort abholen und die Ergebnisse dort notieren. Sie enthält Zwischenergebnisse der Verarbeitung in den verschiedensten Darstellungsformaten vom Rasterbild der Vorlage bis hin zu den Erkennungsergebnissen.

Neue Organisationsstruktur

Die Wissensdatenbank enthält dagegen unveränderliches und anwendungsbezogenes Wissen - Klassifikatoren mit dem typografischen Wissen über Schriftarten und Zeichensätze, ebenfalls typografisches Wissen über den Textaufbau, Datenfeld- und Dokumententypbeschreibungen - und das Wissen über zweckmäßige Vorgehensweisen; damit ist die Kenntnis von Regeln gemeint, die beispielsweise festlegen, welche Aktionen in bestimmten Situationen den größten Erfolg bei der Erschließung und Deutung des Dokumentinhalts versprechen. Um diese Aufgaben in Griff zu bekommen, löste man sich im Forschungsinstitut von AEG-Telefunken von der bei Schrifterkennungssystemen bisher üblichen Fließbandorganisation und wählte eine neue Organisationsstruktur, die Rückgriffe auf Zwischenergebnisse erlaubt und situationsabhängig das Durchlaufen alternativer Verarbeitungszweige steuert. In der Grundkonzeption entspricht das dem, was man heute unter einem Expertensystem versteht.

Der gesamte Ablauf besteht aus einer Vielzahl teilweise recht komplexer Verarbeitungsschritte, die wiederum wegen der erforderlichen hohen Auflösung mit großen Datenmengen operieren; dieser Ablauf soll jedoch wenigstens in groben Zügen skizziert werden.

Das aufzunehmende Dokument wird mit einem handelsüblichen Telekopierer (von Gruppe 3 aufwärts) oder einem dafür spezialisierten Gerät abgetastet, das die DIN-A4-Seite in mindestens 1700 x 2400 Bildelemente auflöst. Es entsteht ein Rasterbild, das nach Zusammenhangsgebieten analysiert wird. Als Zusammenhangsgebiet gilt dabei jede zusammenhängende Gruppierung schwarzer und weißer Bildelemente. Die gefundenen Gebiete werden mit beschreibenden Parametern, ihren Randliniencodes und Angaben zur Gebietshierarchie in Listen eingetragen.

Anhand der Abmessungen ihrer umschreibenden Rechtecke lassen sich mutmaßliche Schriftzeichen von anderen Bildobjekten separieren. Beim nächsten Verarbeitungsschritt wird versucht, die Schriftzeichen als solche zu erkennen. Da auf Einzelzeichenebene nicht in allen Fällen eindeutige Entscheidungen getroffen werden können, bleiben gelegentlich auch Alternativen zurück, die dann durch nachfolgende Instanzen aufgelöst werden müssen.

Das Klassifikatorsystem muß mehr als hundert Klassen unterscheiden und an Hunderte von Schriftarten adaptiert sein. In experimentellen Systemen setzt AEG-Telefunken hierarchisch organisierte, sogenannte quadratmitteladaptierte Polynomklassifikatoren ein.

Anschließend erfolgt die Zusammenfassung von Zeichenteilen zu Zeichen, von Zeichen zu Wörtern, von Wörtern zu Zeilen und von Zeilen zu Abschnitten. Dabei wird von dem in der Wissensdatenbank abgelegten Wissen über Aufbau und Strukturierung üblicher Bürodokumente Gebrauch gemacht.

Bildbestandteile, die keine Schriftzeichen sind, wie Liniengrafiken oder Blockbilder, können als grafische Elemente weiter analysiert oder einfach faksimilecodiert abgelegt werden.

Zeichenteile zusammenfassen

Die elektronische Informationsverarbeitung bietet für die Weiterverarbeitung von Bildbereichen eine Fülle von Möglichkeiten. Dazu gehören die einfachen Bildmanipulationen wie Vergrößern und Verkleinern, Verschieben und Rotieren, Aufteilen und Zusammenfügen, Ergänzen mit neu generierten Grafik-Bestandteilen und Wiedereinfügen an beliebiger Stelle in den ursprünglichen oder in einen beliebigen neuen Text. Ebenso kann eine weitergehende inhaltliche Analyse von Bildern aus ganz bestimmten Anwendungsbereichen - etwa elektrische Schaltpläne, Flußdiagramme oder Blockbilder - durchgeführt werden.

Solche Anwendungsbereiche haben jeweils eine eigene Sprache mit einem eigenen Symbolvorrat - man denke nur an die -Symbolik elektrischer Schaltpläne, die jeweils eigene anwendungsbezogene Erkennungssysteme erfordern. Die Vielfalt der grafischen Ausdrucksformen und Vielfalt der dazugehörigen Bedeutungen läßt sich kaum durch ein allgemeines Erkennungssystem erfassen. Daher wird an dieser Stelle der Übergang in spezialisierte Bildanalysesysteme erforderlich, die natürlich ihrerseits auf denselben Prinzipien aufbauen wie die Bildanalyse für die Schrifterkennung.

Das Dokumentanalysesystem ist ein interaktiver Arbeitsplatz, an dem der menschliche Benutzer kreativ und gestaltend in den Arbeitsablauf eingreifen kann. In diesem Zusammenhang erscheint es außerordentlich attraktiv, ihm auch Eingriffe in handschriftlicher Form zu ermöglichen.

Basis zur Erkennung

Als Schreibfläche dient ein handelsübliches Grafiktablett. Bei Annäherung des Schreibstiftes an die Schreibfläche werden die Stiftkoordinaten in regelmäßiger Folge an den Auswerterechner übertragen. Das Aufsetzen des Schreibstiftes auf die Schreibfläche wird durch ein zusätzliches Signal gemeldet. Somit kann die Folge der Meßdaten in sogenannte Linienabschnitte segmentiert werden. Als Linienabschnitt wird eine Folge von Koordinatenpaaren bezeichnet, die sich vom Aufsetzen bis zum Abheben des Stiftes ergeben. Die für jeden Linienabschnitt erfaßten Meßwerte bilden die Basis für die weitere Verarbeitung bis zur Erkennung. Die volle Gleichwertigkeit der für die Erkennung benutzten Daten mit dem schließlich auf dem Papier zurückbleibenden Linienzug wird erreicht.

Je nach Schreibgeschwindigkeit und Länge des Linienzuges variiert und Anzahl der Koordinatenpaare. Beide Einflüsse werden durch Normierung neutralisiert. Ergebnis der Normierung ist für jeden Linienabschnitt ein gedachtes Winkel-über-Weglänge-Diagramm, das gewissermaßen durch Kompaßablesung an äquidistanten Meßpunkten entlang des Linienabschnittes entsteht.

Beliebige Symbole als Referenzzeichen

Die Anzahl von Meßpunkten entlang des Kurvenzuges ist ein Parameter des Systementwurfs. Es entsteht eine Folge von Winkelangaben, die zu einem Merkmalsvektor zusammengefaßt wird. Das ursprüngliche Zeichenbild ist daraus mit jeder gewünschten Genauigkeit rekonstruierbar. Der Benutzer kann beliebige Symbole zu Referenzzeichen erklären.

Am einfachsten läßt sich die Erkennung als Abstandsmessung zwischen den Merkmalsvektoren von eingegebenem und Referenz-Zeichen realisieren. Die Entscheidung fällt nach dem minimalen Abstand. Bei Zeichen mit mehreren Linienabschnitten wird jeder Linienabschnitt in der beschriebenen Weise behandelt. Zusätzlich kommt hier noch die gegenseitige geometrische Bezeichnung der Linienabschnitte ins Spiel, indem die Lage der umschreibenden Rechtecke der einzelnen Linienabschnitte eines Zeichens innerhalb eines gesamten umschreibenden Rechteckes berücksichtigt wird.

Zweckmäßigerweise werden die zu einem Zeichen gehörenden Linienabschnitte durch ein Segmentierverfahren bereitgestellt. Dieses muß unabhängig von Schreibkästchen oder ähnlichen Restriktionen arbeiten und es erlauben, sowohl Einzelzeichen als auch Zeichenfolgen darzustellen sowie überlappend zu schreiben. Ebenso muß es möglich sein, Teile von Zeichen erst nachträglich anzubringen, wie etwa i-Punkte oder den Querstrich des t.

Zweifache Möglichkeit

Das System zur Erkennung aus dem Schreibvorgang heraus wird vervollständigt durch Programme zur Visualisierung und zum Editieren der Referenzsymbole. Den Referenzsymbolen kann man einzelne ASCII-Codes oder auch Folgen solcher Codes zuordnen. Diese können je nach Verwendung üblicher Steuerzeichen als Text- oder Kommandofolgen interpretiert werden. Zusätzlich kann das Grafiktablett einen Menübereich enthalten, dessen Felder ebenfalls beliebige Aktionen zugeordnet werden können.

Die zweifache Möglichkeit freier Zuordnung - einmal auf der Seite der graphischen Symbole und zum anderen bei den Aktionen, die diese auslösen - schafft einen weiten Spielraum für die Ausgestaltung der Benutzerschnittstelle .

Der Schreibstift kann auch unmittelbar zur Cursorsteuerung verwendet werden.

Daß ein Datenverarbeitungsterminal oder ein Arbeitsplatzrechner Bestandteil eines Büroarbeitsplatzes ist - oder wenigstens dabei ist, es zu werden -, muß heute als gegeben gelten; daneben existiert die traditionelle Welt der Papierdokumentation. Sie wird auch noch sehr lange bestehen.

Die von AEG-Telefunken entwickelten Lösungsansätze für die Aufgaben des Lesens und Erkennens fertig vorliegender Dokumente und des Lesens und Erkennens aus dem Schreibvorgang heraus erlauben, den Arbeitsplatz so zu gestalten, daß alle Bestandteile miteinander verbunden sind und ein Datenaustausch zwischen ihnen möglich ist.

Durch handschriftlich ausgeführte Zeigeoperationen und Eingriffe - Auswahl zu bearbeitender Gebiete, Auflösung verbleibender Mehrdeutigkeiten und Eingabe eventueller Ergänzungen und Korrekturen - wird schließlich eine Textbearbeitung völlig ohne Tastaturbenutzung möglich. Stift und Tablett sind dann das einzige interaktive Eingabemedium, und das Dokumentanalysesystem dient zur Eingabe für eventuell schon vorliegende Textdokumente, die den Ausgangspunkt der Textbearbeitung bilden sollen. Handschriftliche Direkteingabe und die bis zur Erkennung führende Bildanalyse von Textdokumenten sind zwei wichtig erscheinende Bausteine für ein komfortables Arbeitsplatzsystem. Obwohl beide in experimentellen Versionen bereits existieren, ist noch ein weiter Weg zurückzulegen, bis die hier angedeuteten Möglichkeiten für jedermann greifbare Wirklichkeit werden.

Beide Bausteine eines derartigen Arbeitsplatzsystems, also die handschriftliche Direkteingabe und die Dokumentanalyse, werden sich sicherlich zu Komponenten des Betriebssystems entwickeln, wie Editoren, Übersetzer, Tabellenkalkulationsprogramme, Grafiksysteme oder Datenbankverwaltungen. Sie werden vom Benutzer je nach Zweckmäßigkeit zur Erreichung seiner Ziele eingesetzt und arbeiten vollständig unter seiner Verantwortung und Regie.

* Prof. Jürgen Schürmann und Dr. Wolfgang Doster, AEG-Telefunken, Frankfurt. Leicht gekürzte Fassung eines Vortrages auf dem von AEG-Telefunken veranstalteten Technischen Presse-Colloquium 84