Dokumenten-Management: Wissensbasierte Analyse und Recherche

Mit KI-Systemen sollen Anwender Papierflut eindämmen

24.04.1998

Der "Information-Overflow" in vielen Unternehmen fängt schon beim Posteingang an - die Organisatoren in Großunternehmen können ein Lied davon singen. Gefragt ist ein effizientes Informations-Management in allen betrieblichen Teilbereichen. Abhilfe können hier Verfahren der Dokumentenanalyse und des Wissens-Managements schaffen. Mit der Entwicklung solcher Instrumente beschäftigt sich eine Gruppe von mehr als 30 Forschern am DFKI.

Ziel der Arbeiten ist es, durch den Einsatz intelligenter KI-Technologien Prozesse in den Unternehmen wesentlich effizienter, benutzerfreundlicher und kostengünstiger zu gestalten und Entscheidungen effektiver zu unterstützten. Medienbrüche zwischen Papieren und elektronischen Dokumenten bei der Erfassung, Ablage und Wiederfinden sollen überbrückt und der Informationsfluß innerhalb des Unternehmens verbessert werden.

Zum Untersuchungsspektrum des DFKI gehören die Verarbeitung von Schwarzweiß- und Farbdokumenten sowie die intelligente Erkennung von Maschinen- und Handblockschrift. Daneben werden die Formularerfassung und Informationsextraktion, die automatische Indexierung und Klassifikation von Texten, die Strukturierung von Information sowie die Verwaltung und Verbreitung von Wissen einzelner Mitarbeiter analysiert. Durch die Anbindung an Dokumenten- und Workflow-Management-Systeme im Intra- und Internet sollen die Lösungen dann in das DV-Umfeld eingebunden werden.

Intuition des Menschen mit Software nachempfinden

"Die wissensbasierte Dokumentenanalyse hat sich zum Ziel gesetzt, alle Aspekte eines gedruckten Dokumentes in eine formale, elektronische Darstellung zu transformieren", erklärt DFKI-Leiter Andreas Dengel. Somit soll eine umfassende Weiterverarbeitung mittels Computer möglich sein. "Was der Mensch bereits beim Lesen von Information in Geschäftsbriefen, Aktenvermerken oder Versicherungsanträgen intuitiv macht, verlangt bei der Übertragung auf eine compu- tergestützte Lösung die Analyse von Wissen und dessen Zusammenhängen", fügt er hinzu. Dazu gehört neben dem Wissen über Schriftzeichen, deren Anordnung und das Layout von Dokumenten auch das Wissen über die Bedeutung der einzelnen Wörter einer Sprache, deren Schreibweise, die typische logische Strukturierung von Dokumentenklassen sowie das Wissen über Syntax und Semantik von Texten.

Darüber hinaus muß das Wissen über die Zusammenhänge in Geschäftsprozessen und die spezifische Rolle eines individuellen Dokuments berücksichtigt werden. Schließlich muß ein solches System auch Informationen über das Unternehmen selbst und seine Beziehungen zu seinem Umfeld (Kunden, Lieferanten, Prozesse, Gesetzgebung etc. ) in seine Aktionen einbeziehen.

Post automatisch an die richtige Stelle leiten

Welcher Vorstand eines Großunternehmens wäre nicht hocherfreut, wenn es ein System gäbe, das bereits bei Eingang die riesigen Postberge automatisch nach Empfänger, Absender und Nachrichtentyp (Rechnung, Bestellung, Reklamation etc.) indiziert und ohne Umwege an die richtige Stelle im Unternehmen weiterleitet? Ein solches System müßte anhand spezifischer Schlüssel und an der Art des Formulars sofort erkennen können, an welche Abteilung im Haus das Schreiben zu gehen hat. Ähnliche, vom DFKI in Angriff genommenen Fragestellungen sind die Klassifikation von Texten in der Pharmabranche, die Sortierung von Postrückläufen aus Fragebogenaktionen sowie die Zuordnung von Schriftstücken in Arbeitsprozessen. Daneben steht die Unterstützung von Entscheidungen auf dem Plan, wozu dem Anwender relevante Information oder die Zusammenfassung von wissenschaftlichen Dokumenten nach ihren Kernaussagen bereitgestellt werden sollen.

Für die Aufgaben der Dokumentenanalyse am Posteingang entwickelten die Forscher einen Prototyp: "Office Maid" (Office Mail Analysis, Interpretation and Delivery) kann eingehende Geschäftsbriefe, Faxnachrichten und E-Mail-Dokumente bearbeiten. Das Tool analysiert die Struktur des Dokuments, extrahiert aus einzelnen Bausteinen relevante Informationsaspekte und identifiziert den dazugehörigen Geschäftsvorgang. Gleichzeitig wird der Empfänger des Schriftstücks benachrichtigt, indem das Dokument mit der dazugehörigen Information in dessen Mailbox bereitgestellt wird.

Für die Formularerkennung erstellt das DFKI das System "Office Forms". Damit lassen sich Formula- re anhand ihres Layouts erkennen. Das System dechiffriert relevante Datenfelder oder spezielle Markierungen auch ohne Barcodes und kann handschriftliche Zeichen in den Datenfeldern erkennen und entschlüsseln. Im Unterschied zu herkömmlichen Formular-Lesesystemen, die in der Regel nur maschinenlesbare Formulartypen akzeptieren, lernt das KI-System aufgrund von Beispieldokumenten, aus den verfügbaren Informationen die richtigen Schlüsse zu ziehen. Die Erkennungsrate soll bei einem Durchsatz von mehr als 5000 Formularen pro Stunde bei über 97 Prozent liegen.

Auch der intelligenten Informationsrecherche im Internet widmen sich die Forscher am DFKI. Das System "Office Scout" unterstützt den Anwender beim Absetzen von Suchanfragen aus dem Problemkontext heraus oder sucht selbständig nach relevanten Quellen. Dazu bezieht es Unternehmensdaten und Hintergrundwissen in die Suche ein. Office Scout "beobachtet" den Benutzer bei der Auswahl von Information und erstellt entsprechende lexikalische User-Profile. Diese werden von einem Netzagenten benutzt, um weiterführende Texte aufzuspüren; so lernt das System automatisch mit.

Den quasi natürlich-sprachlichen Zugriff auf strukturierte Archive soll das System "Office Ask" erlauben. Dabei können Datenbankanfragen via Tastatur in "Spontansprache" eingegeben werden ("Zeige mir alle Dokumente zum Thema xy!"). Dadurch ist es nicht nötig, daß der Benutzer die standardisierten Abfragesprachen beherrscht und trainiert. Das System erstellt auf der Basis eines Datenbankschemas selbständig ein Lexikon und paßt es automatisch einer gegebenen Anwendung an.

Wissen von allen für alle

Die intelligente Nutzung von Informationen beschränkt sich nicht auf die bessere Unterstützung einzelner, sondern kann auch zum systematischen Aufbau des im Unternehmen verfügbaren Wissens und zu seiner effektiven Verteilung weiterentwickelt werden. Derartige Fragestellungen bearbeitet die Forschungsgruppe Wissens-Management. Das in dieser Gruppe entwickelte "Elektronische Störungsbuch" realisiert diese Gedanken in einem System zur Betriebsunterstützung komplexer Maschinen: Erfahrungen im Umgang mit im täglichen Betrieb auftretenden Störungen werden laufend aufgezeichnet. Durch die Zuordnung der einzelnen Einträge zu Modellen des Maschinenaufbaus und der denkbaren Fehler und Maßnahmen wird eine strukturierte und eindeutige Aufzeichnung erzwungen und wirkungsvoll unterstützt, so daß beim erneuten Auftreten von Störungen vollautomatisch die relevanten früheren Erfahrungen ermittelt und angezeigt werden können. Eine regelmäßige Revision der Aufzeichnungen durch Fachleute sichert und verbessert das so erworbene Wissen.

Zugriff auf heterogene Informationsquellen

Den Zugriff auf heterogene Informationsquellen und die aktive Sammlung und Verbreitung von Informationen zur Vorbereitung von Entscheidungen ermöglicht das System "Co Mem" (Corporate Memory). Das Wissen im Unternehmen oder innerhalb eines Bereichs oder Projekts wird kontinuierlich erfaßt, gepflegt und gezielt in unterschiedlichen Aufgabenkontexten zur Verfügung gestellt. Das System beantwortet nicht nur eine Vielzahl typischer Anfragen, sondern liefert auch aktiv Lösungsvorschläge und Kritik. Andererseits fordert das System die Benutzer auf, Know-how zu liefern, so daß der gesammelte Erfahrungsschatz nicht veraltet, sondern stetig aktualisiert wird und anwächst.

Angeklickt

Obwohl Software-Anbieter seit Jahren das papierlose Büro versprechen, werden die meisten Unternehmen immer noch mit Dokumenten aller Art überschwemmt. Die Zuordnung solcher Schriftstücke zur richtigen Abteilung und Weiterleitung an den zuständigen Mitarbeiter gleicht einer Sisyphusarbeit. Die Forscher am Deutschen Forschungsinstitut für Künstliche Intelligenz (DFKI) in Kaiserslautern haben Lösungen entwickelt, die auf Grundlage von künstlicher Intelligenz und wissensbasierten Techniken Anwendern helfen sollen, die tägliche Papierflut zu bewältigen.

Gerd Martin arbeitet als freier Autor in Saarbrücken.