Dokumentenklassifizierung als Pflichtkür

Posteingang: Die letzte Hürde ist genommen

22.09.2000
ESSEN (ue) - Während die Internet-Funktionen von Dokumenten-Management-Systemen (DMS) noch in den Kinderschuhen stecken, hat die Branche einen der letzten Flaschenhälse dokumentenorientierter Prozesse weitgehend beseitigt: Ohne Tools zur automatisierten Klassifizierung der Eingangspost hat ein Hersteller kaum noch Überlebenschancen, so der Tenor auf der DMS Expo in Essen.

Die auf der Messe ausgestellten Lösungen zur intelligenten Klassifizierung, Indizierung und Datenextraktion wurden vom Publikum denn auch dankbar aufgenommen, drückt der Schuh hier doch besonders. Wer täglich einen Berg von mehr als 10000 Briefen erhält, möchte diesen möglichst unsortiert über seine Scanner-Straße und Optical-Character-Recognition-(OCR-)Software einlesen können, wobei das System etwa Rechnungen, Lieferscheine, Verträge oder Briefe selbständig unterscheidet. Auch die anschließende Indizierung der Images, bei der Basisinformationen wie Datum, Autor oder Kundennummer eines Belegs als Metainformationen in einem Repository abgelegt werden, sollte nicht wie bisher manuell am Bildschirm, sondern automatisch erfolgen. Schließlich geht es noch darum, wichtige Daten auch aus einem unstrukturierten Dokument zu extrahieren, um sie an andere Applikationen wie ERP-Systeme weiterzureichen. Derartige Prozesse - in der Fachsprache auch als Imaging und Capturing bezeichnet - mit intelligenten Tools zu unterstützen war bislang eher eine Domäne von Spezialisten wie ICR oder Captiva. Klassische DMS-Anbieter hatten in dieser Hinsicht selbst nichts anzubieten, bis im vergangenen Jahr die Firmen Easy und SER jeweils durch Übernahmen in den Besitz von Klassifizierungswerkzeugen gelangten und diese in den Mittelpunkt ihres Messeauftritts rückten. Inzwischen haben sich diese zu einer Standarddisziplin entwickelt, ohne die ein Hersteller kaum Überlebenschancen hat, heißt es unter Marktbeobachtern.

Verwirrend ist die Situation für den technisch wenig versierten Anwender jedoch, weil die Produkte zur intelligenten Dokumentenklassifizierung auf drei völlig unterschiedlichen Techniken beruhen. Das auf der Messe gezeigte Spektrum umfasste regelbasierte, statistisch-stochastische sowie neuronale Ansätze beziehungsweise Mischformen daraus. Bei der Kleindienst-Tochter ICR, deren "Formsrec"-Produktfamilie im Rahmen eines Partnervertrags zum Beispiel von Filenet angeboten wird, favorisiert man regelbasierte Methoden. Die Highend-Lösung ist für Großprojekte gedacht und soll dort Informationen aus strukturierten Dokumenten gewinnen. Kombiniert werden mehrere Schrifterkennungs-Engines, frei definierbare Plausibilitätskontrollen, Fuzzy Logic und ein automatisierter Datenbankabgleich. Die extrahierten Daten lassen sich an Workflow-, Dokumenten-Management- oder ERP-Systeme wie R/3 übergeben.

Diese Technik wurde inzwischen zur Analyse und Klassifikation von halb- und unstrukturierten Dokumenten (Eingangsrechnungen, Lieferscheinen, Briefe etc.) weiterentwickelt. Hier sollen die Erkennungsmechanismen unter anderem Firmenlogos und Betreffangaben identifizieren oder die Kundennummer vom Erstellungsdatum unterscheiden können.

Mit "Aida for Invoices" wendet sich der Hersteller speziell an den hochvolumigen Rechnungseingang, der aufgrund der Vielfalt und Komplexität der Formulare einen zeit- und personalintensiven Flaschenhals im Bearbeitungsprozess darstellt. Highlights hier sind regelbasierte Analyseverfahren im Zusammenspiel mit Plausibilitätskontrollen.

ICR betont ausdrücklich den Nachteil reiner formularbasierter Verfahren, in denen vorab festgelegt ist, an welcher Stelle zum Beispiel Rechnungs- oder Kundennummer zu stehen haben. Solche Lösungen stoßen an ihre Grenzen, wenn ein Lieferant sein Formulardesign ändert, womit zum Beispiel große Handelshäuser mit 10 000 und mehr Zulieferern ständig konfrontiert sind. Sinnvoller sei es, stattdessen innerhalb eines Regelwerks die für ein Dokument typischen und häufig vorkommenden Begriffe zu definieren, um es nach dem Scan- und OCR-Prozess zu klassifizieren. Der Sachbearbeiter muss sich dann über seine Nachbearbeitungsmaske nur noch auf zweideutig interpretierbare oder fehlende Felder konzentrieren.

Ebenfalls regelbasiert arbeitet das von IBM in der DMS-Suite "Content Manager" eingesetzte "Prosar-Aida" der Firma Paradatec. Das System zur "intelligenten Freiformanalyse" unstrukturierter Dokumente führt auf der Grundlage schlüsselwortbasierter Regeln eine Klassifikation aller Posteingangsdokumente durch. Der große Vorteil liegt laut IBM darin, indizierungsrelevante Informationen unabhängig von der Position dieser Daten auf einem Dokument zu finden. Der Klassifikation schließt sich eine vom Anwender konfigurierbare Extraktion der Daten an. IBM nimmt für sich in Anspruch, dass man im Gegensatz zur Konkurrenz bereits auf mehrere Installationen bei Großkunden verweisen kann - eine davon scannt, analysiert und indiziert 180000 Blatt Papier pro Tag.

Als ein Verfechter von stochastischen Verfahren lässt sich die Firma Easy mit ihrem Produkt "Genius" einordnen. Der Software liegt eine Technik zugrunde, die mit der statistischen Häufigkeit von Dokumentbestandteilen arbeitet. Über ihren Inhalt wird eine via OCR eingelesene Datei (Image) dann einem Objekt (zum Beispiel einer Rechnung) zugeordnet. Zwar gibt man bei Easy zu, dass regelbasierte Verfahren aufgrund der dort getroffenen Vorabdefinitionen genauer arbeiten, dafür sei bei der stochastischen Methode keine tief gehende Systemkenntnis nötig. Auch der Aufwand für die Erstellung des Regelwerks entfalle. Die Extraktion der Daten aus dem Image erfolgt über einen Zoneneditor, der sich darauf trainieren lässt, zum Beispiel eine Kundennummer unabhängig von deren Platzierung auf dem Formular zu erkennen.

Einen hybriden Ansatz aus regelbasierten und stochastischen Verfahren verfolgt die CE AG über ihre Beteiligung an Insiders. Andreas Dengel, wissenschaftlicher Direktor am Deutschen Forschungszentrum für Künstliche Intelligenz in Kaiserslautern und geschäftsführender Gesellschafter der Insiders GmbH, warnt vor dem Einsatz ausschließlich regelbasierter und im allgemeinen nicht lernfähiger Systeme, da der Aufwand für spezifische Kategorisierungsaufgaben und die zur Lösung von Klassifizierungsproblemen notwendige Expertise leicht unterschätzt werde. Demgegenüber bringe die Verbindung statistisch gewonnener Texteigenschaften mit Klassifikationsregeln, die anhand maschineller Lernverfahren automatisch erstellt wurden, klare Vorteile.

So erschließt die Insiders-Entwicklung "Mindaccess" Bedeutungsinhalte von und zwischen Dokumenten und organisiert diese thematisch. CE will das Produkt unter den Bezeichnungen "Profiler" und "Docscape" als fortschrittliche Retrieval-Mechanismen innerhalb der neu vorgestellten DMS-Komplettlösung "Cetiq" anbieten. Das Tool beherrscht den Unternehmensangaben zufolge neben der Korrelation von Inhalten auch eine so genannte Feature-Extraktion, bei der unter Verwendung charakteristischer Begriffe komplette Textsammlungen durchforstet und die einzelnen Dokumente in ihrer Relevanz etwa für eine Trendanalyse beurteilt werden können.

Als "Capture Intelligence" vertreibt CE das Insider-Produkt "Smartfix", das auf die Klassifikation und Indizierung des gescannten Posteingangs auch in Form unsortierter Belegstapel spezialisiert ist. Zu den Features hier gehören außer dem Training von Formularen die Definition von Lesezonen und Attributen, das Trainieren unstrukturierter Dokumente über die Angabe von Schlüsselwörtern, die Definition von Plausibilitätsprüfungen sowie der Abgleich etwa mit Stammdaten der Datenbank oder mit individuell angelegten Thesauri.

Die Anhänger der Technik neuronaler Netze waren auf der DMS Expo unter anderem von SER und Captiva vertreten. SER sorgte mit "Brainware" bereits im vergangenen Jahr für Aufsehen. Grundlage des Produkts ist eine auf dem Prinzip neuronaler Netze implementierte "algorithmische Softwarebibliothek". Das System soll sich im Rahmen eines iterativen Lernprozesses an die Klassifikationsgewohnheiten des Benutzers anpassen. Für die dazu notwendige Trainingsphase reichen dem Hersteller zufolge wenige Beispieldokumente pro Klasse aus. Textdateien, die unbereinigt aus einem OCR-Verfahren übernommen werden, lassen sich mit 85-prozentiger Wahrscheinlichkeit klassifizieren, hieß es seinerzeit.

Inzwischen geht Brainware in dem neuen Markennamen "Serware" auf, einer Sammlung diverser Suiten inklusive Workflow-Engine für das gesamte DMS-Spektrum. Als Knowledge-Management-Knoten in die Systemarchitektur eingeflochten, erlaubt Brainware außer Dokumentenklassifikation auch die Gewinnung von Bestands- und Prozesswissen, einen inhaltsbezogenen (assoziativen) Zugriff auf Wissensbestände (Retrieval) sowie die Datenextraktion aus strukturierten und unstrukturierten Dokumenten. Der Hersteller verteidigt seinen Ansatz gegenüber anderen, zum Beispiel regelbasierten Verfahren: die "Lernkurve", also der Aufwand, mit dem das System für einen zunehmenden Detaillierungsgrad trainiert werden muss, steige bei Brainware linear, bei anderen dagegen exponentiell.

Dieses Argument lassen die zuvor genannten Vertreter etwa von regelbasierten und stochastischen Methoden nicht gelten. So gibt IBM zu bedenken, dass Produkte auf Basis neuronaler Netze den Anwender mit einer Blackbox konfrontieren, hinter der sich eine nicht nachvollziehbare Klassifikationssystematik verstecke. Ein korrigierender Eingriff, etwa weil die Fehlerrate zu hoch ist oder Detailänderungen vorzunehmen sind, sei nicht möglich. Außerdem entpuppe sich das Einpflegen neuer Dokumenttypen als wenig anwenderfreundlich, da ein bereits verifiziertes System dann komplett in Frage gestellt wird und völlig neu trainiert werden muss. Ein entsprechender Zeitaufwand lasse sich einplanen, die Unsicherheit bleibe jedoch.

Trends auf der DMS Expo 2000Bei zwei Dritteln aller Projekte verlangen die Anwender inzwischen auch eine Dokumenten-Management-Option für Thin-Client-Umgebungen, resümiert Bernhard Zöller von Zöller & Partner aus seiner Beratererfahrung. Was einfache Funktionen betrifft, etwa die Suche in Archiven via Browser, werden diese Forderungen mittlerweile von nahezu allen Herstellern erfüllt. Problematisch stellt sich die Situation dar, wenn komplette Dokumenten-Management-Prozesse Internet-fähig sein sollen. Bislang war die DMS-Branche damit beschäftigt, ihre ursprünglichen Stand-alone-Pakete etwa für Imaging, Capturing, Dokumenten-Management und Cold zumindest mit einem einheitlichen, meist "fetten" Windows-Client auszustatten. Die technische Integration des Frontends zu den diversen Servern übernimmt dabei eine in die Systemarchitektur eingelagerte Middleware. Um nun neben Windows-Desktops auch schlanke Web-Umgebungen bedienen zu können, wird die Desktop-Logik zur Middleware zurückgeführt und dort in Form von Softwareservices auch für andere Applikationen zur Verfügung gestellt.

Sehr gut lässt sich dieser Trend bei Filenet und CE beobachten. Filenet setzt bei seinen "Panagon Web-Services" auf Active X und Java. "Visual Workflo" ist dabei als "E-Process-Service" integriert, wobei das Repository die Workflow-Definitionen im XML-Format speichert. Die übrigen DMS-Produkte des Herstellers sind neuerdings als "E-Content-Services" verfügbar.

Dreh- und Angelpunkt der von CE erstmals zur Messe vorgestellten Komplettlösung "Cetiq" ist die "Content Management Middleware". Version 1 dieser voraussichtlich erst im nächsten Jahr verfügbaren Suite läuft zunächst auf Windows NT, soll dann aber als Java-Applikations-Server plattformunabhängig werden. CE nutzt XML, um die Middleware-APIs vom Cold- und Capture-Modul oder von anderen E-Business-Applikationen aus anzusprechen.

Weitere Trendthemen auf der DMS Expo waren stellvertretend für die Branche bei Easy zu sehen. Um seine DMS-Software unter der Bezeichnung "Myeasy.de" für das Application-Service-Providing fit zu machen, hat der Hersteller die Systemfunktionen zur Mandantenverwaltung ausgebaut und das File Transfer Protocol für die Übertragung von Massendaten eingeführt.

In Richtung Microsoft-Welt hat Easy seine Archivkomponente jetzt als Dienst in den Exchange-Server integriert. Der Mail-Server wird entlastet, indem die dort aufgelaufenen Daten entweder zu einem festgelegten Zeitpunkt, nach Erreichen eines definierten Volumens oder manuell aus der Outlook-Oberfläche in den Archiv-Server transferiert werden. Die Darstellung des Archivs erfolgt in der Windows-Ordnerleiste.

MessekritikMit knapp 20000 Besuchern und 410 Ausstellern konnte die dreitägige DMS Expo in Essen erneut zulegen und so den Anschluss an vergleichbare internationale Messen wie die AIIM Show in den USA finden. Trotz allen Lobs für diese Leistung übt Branchenkenner Ulrich Kampffmeyer von der Hamburger Project Consult GmbH auch Kritik an dem Konzept des Veranstalters Gruppe 21. Obwohl die Besucherzahl deutlich gestiegen ist, sei durch den enormen Zuwachs an Ausstellungsfläche ein gegenteiliger Eindruck entstanden. Davon betroffen waren besonders die neu hinzu gekommenen Messebereiche "CSC Solutions" und "Voice", die früh morgens und nachmittags an Geisterhallen erinnerten, in denen sich nur die Aussteller zum Plausch trafen. Entsprechend die Ausstellerreaktionen, die von äußerst positiven über "insgesamt zufriedene" Reaktionen bis zu Äußerungen wie "Dabei sein ist alles" reichten. Für das nächste Jahr plant der Veranstalter bereits eine weitere Halle ein.

Web-Content-ManagementUm sich einen modernen Anstrich zu geben, stellt die DMS-Branche dem Begriff "Content-Management" gern den Zusatz "Web" voran. Diese drei Buchstaben haben es jedoch in sich: Die Herausforderung besteht darin, nicht nur beliebige, aber in sich geschlossene Dokumentobjekte zu verwalten und zu erschließen. Beim Web-Content müssen zusätzlich die zahlreichen in einer Site enthaltenen Informationsobjekte (Kataloge, Hyperlinks, GIF-Dateien) sowie die in Web-Dokumenten eingelagerten Prozeduren (Scripte) verwaltet werden. Noch schwieriger wird es, wenn diese Komponenten auf unterschiedlichen Servern lagern und über eine Art Redaktionssystem dynamisch montiert werden. Schließlich sind auch eine ausgefeilte Versionskontrolle für jede Veränderung der Objekte sowie eine Systemskalierbarkeit nötig, die im Gegensatz zu einer Abteilungslösung die unvorhersagbaren Zugriffsspitzen des Internet bewältigt.

Hier haben die meisten DMS-Hersteller entgegen ihren Marketing-Versprechen bislang noch wenig zu bieten. Zu den innovativen Ausnahmen auf der DMS Expo zählten die Web-Content-Ansätze von Documentum, die in Version 4i ihrer gleichnamigen Suite den "E-Content Server" eingeführt hat. Über ihn sollen sich geschäftskritische Inhalte dynamisch mit Web-Inhalten verbinden lassen, wobei der Hersteller die stabile Versionskontrolle des Systems betont. Neben verteilten Repositories unterstützt Documentum als Mitglied mehrerer XML-Organisationen die Metasprache über die gesamte Produktpalette. Zur Verteilung der Inhalte verfügt die Suite über so genannte "Site Delivery Services". Diese bestehen im Wesentlichen aus einem Web-Cache-Server, der Metainformationen aus den Repositories auf einem File-Server abbildet. Darüber hinaus sorgt eine von Marimba lizenzierte Lösung für die inkrementellen Updates der Daten auf dem Web-Server. Schließlich ist aus rechtlichen Gründen ein Audit Trail integriert, mit dem sich die Historie sämtlicher Zugriffe nachvollziehen lässt. Als Authoring-Tool bietet Documentum einen eigenen Web-Publisher, der allerdings nur begrenzte Funktionen aufweist und deshalb um Fremdprodukte wie Macromedias Dreamweaver ergänzt werden kann.