Flaschenhals beim Capturing beheben

DMS '99: Dokumente finden statt suchen

08.10.1999
MÜNCHEN (ue) - Um Dokumente intelligenter erschließen zu können, holen die Hersteller altbekannte, bislang aber kommerziell kaum verwendete Konzepte wie neuronale Netze, Mustererkennung und Agententechnik aus der Schublade. Auf der Essener Fachmesse für Dokumenten-Management-Systeme (DMS ''99) reichten diese Verfahren vom "Posteingang" bis zum persönlichen, portalbasierten Wissens-Management.

Viele der KI-Ansätze (KI = künstliche Intelligenz) stammen bereits aus den 80er Jahren, fließen allerdings erst jetzt in nennenswertem Ausmaß in die Produkte der Dokumenten-Management-Hersteller ein. Ziel ist es, Dokumente bereits während der Erfassung so aufzubereiten, daß sie sich später gut wiederfinden lassen. Insbesondere bei Banken und Versicherungen liegt der Flaschenhals bereits am Anfang des Prozesses: Es geht darum, die mit der täglichen Post zu tausenden eintreffenden Anträge, Gutachten oder Patientenabrechnungen zu scannen (Imaging) und die daraus resultierenden Tagged-Image-File-(TIF-)Dateien mit Indexinformationen zu versehen (Capturing).

Dafür wird dem Sachbearbeiter das Bitmap zusammen mit einer Indizierungsmaske angezeigt, die er heute allerdings meist noch manuell ausfüllen muß. Mechanismen zur optischen Zeichenerkennung (Optical Character Recognition = OCR) helfen zwar dabei, die Non-coded Information (NCI) in eine Coded Information (CI) zu überführen, eine automatische Indizierung läßt sich daraus jedoch nur bedingt ableiten. Hersteller wie COI, Filenet, IBM, Insiders oder SER gehen jetzt dazu über, diesen Vorgang über Verfahren der Intelligent Character Recognition (ICR) zu automatisieren.

Die auf der Messe von mehreren Anbietern für Krankenversicherungen gezeigten Lösungen arbeiten mit verfeinerten OCR-Mechanismen, über die CI-Daten aus den Bitmaps ausgelesen werden, um daraus Indexdaten zu erzeugen. Dies setzt jedoch voraus, daß es sich um Standardformulare handelt, in denen ein Feld und der Typ des darin enthaltenen Datums wie Patienten- oder Kundennummer eindeutig definiert sind.

Noch einen Schritt weiter gehen Systeme wie "Prosar-Aida" von IBM. Neben der Übersetzung von maschinen- und handschriftlichen Dokumententeilen verwenden sie auch neuronale Techniken, um etwa das von Ärzten recht unterschiedlich ausgefüllte Feld "Patientennummer" über Checks und Vergleiche als solches zu identifizieren. Darüber hinaus gibt es die Möglichkeit, verschiedene Formulararten über Regeln der Fuzzy-Logik zu unterscheiden. Der Vorteil hier: Rechnungen, Anträge, Lieferscheine oder andere Belegarten der Eingangspost müssen zum Scannen nicht mehr vorsortiert werden.

Das neue Capture-Modul "ICR-Batch" von Easy erkennt den Angaben zufolge außer Handschriften auch Kringel, mit denen der Bearbeiter einen Text markiert hat. In Vorbereitung ist derzeit die Komponente "Genius" zur automatischen Klassifizierung von heterogenen Dokumenten. Eine andere Besonderheit bei Easy: Farbiger Post- eingang läßt sich mit Hilfe einer Layer-Technik ebenfalls durch den normalerweise nur auf Schwarzweiß anwendbaren OCR-Prozeß schicken.

Die automatische Klassifizierung von Dokumenten hob auch SER mit "E-Classify" und "Brainware" in den Mittelpunkt des Messeauftritts. Grundlage von Brainware ist eine auf dem Prinzip neuronaler Netze implementierte "algorithmische Softwarebibliothek". Das System soll sich im Rahmen eines iterativen Lernprozesses an die Klassifikationsgewohnheiten des Benutzers anpassen. Für die dazu notwendige Trainingsphase reichen dem Hersteller zufolge etwa 20 Beispieldokumente pro Klasse. Textdateien, die unbereinigt aus einem OCR-Verfahren übernommen werden, lassen sich mit 85prozentiger Wahrscheinlichkeit klassifizie- ren. Als Produktpremiere präsentierte SER "Win Classify", das auf Brainware-Technik basiert und diese speziell für Micro- soft-Office-Umgebungen verfeinert.

Allerdings lassen sich KI-Methoden wie in Brainware nicht ohne weiteres auf hochvolumige Anwendungen mit Langzeitarchiv-Charakter übertragen. Bei Filenet sieht man darin allenfalls eine Hilfestellung, um Informationen vorab zu sondieren. Der Hersteller hatte vor einigen Jahren selbst Versuche in diese Richtung unternommen, dabei aber festgestellt, daß die Erwartungen der Anwender über der Qualität der Ergebnisse lagen. Um etwa im Call-Center-Bereich eine Terabyte-große Datenbank online benutzen zu können, seien einfache und eindeutige Indexstrukturen gefragt. Deshalb ist es in solchen Fällen nach wie vor üblich, Dokumente für eine schnelle Antwortzeit mit möglichst wenigen Schlagworten (Kunden- oder Rechnungsnummer, Sachbearbeiter, Datum etc.) zu indizieren, diese Metadaten in einem relationalen Repository abzulegen, während die Dokumente selbst als Objekte in einem File-System auf Platte oder einem optischen Medium (Worm) gespeichert sind.

Geht es nicht um massenhaft anfallende Formulare wie Verträge und Rechnungen, sondern zum Beispiel um umfangreiche technische Dokumentationen, favorisiert Filenet ein Zerlegen dieser Dokumente in einzelne Module. Der Mehrwert entsteht durch die Verknüpfung der Komponenten, so daß der Benutzer mit einer einzigen Abfrage gleich mehrere, inhaltlich verwandte Themen erfassen kann. Damit sei eine effektivere Suche als bei der Volltext-Recherche möglich.

Damit Anwender auch bei Volltext-Verfahren gezielter auf Dokumente zugreifen können, verfolgen Hersteller wie Easy oder Documentum den Ansatz der "semantischen Konzeptsuche". Dabei arbeitet man mit Thesauri, in denen Experten Begriffe sowie deren Beziehungen und Synonyme festgelegt haben. Hintergrund ist der, daß ein Verfasser sein Dokument verschlagwortet, der Benutzer jedoch nach anderen beziehungsweise anderssprachigen Begriffen sucht. Rund 4500 solcher Konzepte will Easy mit "Intelli- search" zur Verfügung stellen. Documentum konzentriert sich dabei auf Branchen wie die Pharmaindustrie, wobei ein semantischer Baum als Grundgerüst vom Anwender individuell erweitert werden kann. Eine Alternative zu derart vorstrukturierten Wörterbüchern bieten selbstlernende Systeme, bei denen sich der Wortschatz im Laufe des Programmgebrauchs aufbaut.

Ob Index- oder Volltext-Suche, beide Varianten bergen laut Ulrich Kampffmeyer, Chef der Hamburger Unternehmensberatung Project Consult, ihre Probleme. Wer im Zuge einer revisionssicheren Archivierung mit einer Index-Datenbank arbeitet, muß sehr viele Vorkenntnisse über die Organisation seiner relationalen Datenhaltung, logischen Archivstruktur, Suchbegriffe und Benutzerberechtigungen haben. Beim Volltext-Ansatz entfallen diese Probleme zwar weitgehend, dafür gibt ein Suchbegriff eine oft unübersichtliche Trefferliste aus, unter Umständen aber nicht das, was eigentlich gewünscht wurde.

Verbesserungen hier kommen laut Kampffmeyer erstaunlicherweise weniger von der Dokumenten-Management-Branche selbst als von Datenbankanbietern, die Techniken der relationalen und Volltext-Datenbanken über Meta-Repositories verschmelzen, sowie aus dem Internet-Lager. Beispiele für diesen integrativen Ansatz sind die Notes-Architektur von Lotus oder die Firma Open Text. Letztere bietet mit dem Produkt "Livelink" und der darauf aufbauenden Portaltechnik "My-Livelink" ein komplett Browser-basiertes System an. Neben sogenannten Activators zur direkten Anbindung etwa von R/3 oder Notes gibt es generische Corba-Schnittstellen mit Object Request Brokern (ORBs), deren Services je nach Bedarf in Java, C, C++ oder auch Cobol geschrieben sein können, um an das proprietäre Format des jeweiligen Fremdsystems zu kommen.

Die Ablage in Livelink entspricht einer objektorientierten Folder-Struktur, so daß die Suche in Volltext, nach Schlagworten und über Strukturen (Ordnern) erfolgen kann. Die vollständig Corba-kompatible Portaltechnik arbeitet darüber hinaus rollenbasiert und mit Agententechnik, bei der Push-Mechanismen für den individuell automatisierten Informationseingang sorgen sollen.

Diese Produktkategorie steht den Experten zufolge bereits an der Schwelle zwischen dem klassischem Dokumenten-Management und dem Knowledge-Management. Laut Ulf Freiberg, Bereichsleiter bei CSC Ploenzke, geht die Entwicklung der meisten Hersteller derzeit allerdings noch in Richtung verbesserter Suchtechniken, gefragt sind jedoch effektivere Findalgorithmen. Um die verstreuten Wissensbasen des eigenen Hauses besser koordinieren zu können, hat sich Ploenzke für das Produkt "Autonomy" entschieden und den gleichnamigen US-Hersteller auf dem eigenen Messestand gleich mitpräsentiert.

Das Tool stellt eine Mischung aus neuronalen Netzen und linguistischen Algorithmen dar. Es bietet Agententechnik für aktives Suchen, die Bereitstellung kontextabhängiger Informationen sowie ein intelligentes Verbinden von Texten. Laut Freiberg werden Profile über das Suchverhalten nicht nur erstellt, sondern auch verknüpft. Letzteres soll bewirken, daß zwei völlig unbekannte Personen mit gleichen Rechercheprofilen aufeinander aufmerksam gemacht werden.

Freiberg sieht in diesen Techniken eine Ergänzung der klassischen Funktionen aus dem Scan-, Archivierungs- und Dokumenten-Management-Umfeld. Hersteller, die ihre Systeme ohnehin auf Komponententechniken wie Active X Controls oder Javabeans umgestellt haben, könnten Verfahren wie das von Autonomy ohne größere Probleme anbinden.

XML vorerst nur als Austauschformat geeignet

Welche Auswirkungen die Extensible Markup Language (XML) auf die Dokumenten-Management-Branche hat, wurde auf der Messe recht einheitlich beurteilt. XML bietet die Chance, Struktur- und inhaltliche Informationen inklusive der Metadaten systemneutral darzustellen. Die selbstbeschreibenden XML-Objekte gelten als geeignetes Austauschformat zwischen Plattformen - die meisten Hersteller experimentieren damit.

Vor allzu großer Euphorie wird jedoch gewarnt. Jürgen Gulbins, bei Ixos für Produktdefinition und -architektur zuständig, sieht im wesentlichen zwei Probleme. Die Syntax sei bei XML klar, die Semantik dagegen nicht, was zu Interpretationsproblemen beim Empfängersystem führen könne. Auch die Datenablage ist nach Auffassung Gulbins kritisch zu bewerten, da XML das benötigte Speichervolumen vervielfacht: Ist in einer relationalen Tabelle zum Beispiel die Position einer Telefonnummer definiert, wird bei jedem XML-Eintrag die Tag-Anweisung "Telefonnummer" mitgespeichert. Speziell bei Formularen könnte dies zu Auswüchsen führen.

Kampffmeyer ergänzt, daß auch Schutzmerkmale wie Zugriffsberechtigungen bei XML noch nicht geklärt sind.

Für Gulbins liegt das Potential von XML deshalb im Inter-Applikationsaustausch beziehungsweise dokumentenorientierten E-Commerce. Als Beispiel nennt er zwei R/3-Systeme, deren Anwendungen sich zwar bekannt, aber nicht aufeinander abgestimmt sind. Ein Bestellschein etwa ließe sich auf diese Weise samt Metainformationen zwischen zwei R/3-Installationen verschicken, protokollieren und archivieren.