Dokumenten-Management/Intelligentes Information Retrieval als KM-Basistechnik

Recherchetechniken: Suchen und Finden sind zweierlei

18.02.2000
Nach einem Knowledge-Management-Szenario der Gartner Group wird eine Technologie, die unstrukturierte Inhalte von Dokumenten präzise finden, auswerten und einordnen kann, nicht vor dem Jahr 2003 verfügbar sein. Gibt es einen Königsweg der Recherche? Thomas Gerick* untersucht die gängigen Verfahren für intelligentes Information Retrieval und stellt den neuen ISO-Standard "Topic Maps" als Hoffnungsträger vor.

Schon vor Jahren beschrieb Eugen Roth die Erfahrung, dass Fragen und Antworten nicht in einem ausgewogenen Verhältnis zueinander stehen. Übertragen auf den richtigen Umgang mit Informationen in Unternehmen ist diese Problematik drängender denn je. Nach einer IDC-Studie wird die in Intranets zu verarbeitende Informationsmenge innerhalb der nächsten fünf Jahre um mehr als das Zehnfache steigen.

Verschärft wird die Situation noch dadurch, dass rund 80 Prozent der unternehmensstrategisch relevanten Informationen in Form von Berichten, Gutachten, Produktbeschreibungen, Patenten etc. vorliegen, also wenig oder gar nicht strukturiert und stark kontextabhängig sind. Mit gängigen Recherchetechniken sind diese Informationen in der Regel nur mit großem Aufwand oder überhaupt nicht verwertbar.

Mehr als die Hälfte der Unternehmen verbinden mit dem Begriff Knowledge-Management in erster Linie den effizienten Zugriff auf relevante Informationen. Das ergab eine aktuelle Umfrage der Meta-Group unter 297 deutschen Unternehmen. Dahinter steckt die Erwartung, das breite Informationsangebot mit dem tatsächlichen Informationsbedürfnis der Anwender besser in Einklang bringen zu können. Information Retrieval (IR) befasst sich mit dem technisch gestützten Prozess dieses Wissenstransfers. Auf dem Markt gibt es inzwischen eine Reihe hochintelligenter Such- und Informationsbewertungs-Technologien, die teilweise auch über Push-Mechanismen zur differenzierten individuellen Informationsversorgung verfügen.

Im Folgenden werden die wichtigsten Verfahren vorgestellt und neue Trends aufgezeigt.

Unternehmenswissen liegt heute meist in heterogener Form vor. Projekt- oder Qualitätsdokumente sind beispielsweise in Textform weitgehend unstrukturiert in File-Systemen abgelegt. Bereits ab einer Menge von zirka 1000 Dokumenten findet man Untersuchungen zufolge ohne größeren Aufwand nichts mehr wieder. Eine Möglichkeit, diese Ordnung aufrechtzuerhalten, besteht darin, die Dokumente zu kategorisieren, zu gliedern und mit Schlagworten zu versehen. In der Praxis erweist sich dies jedoch als nur wenig funktionsfähig: Für den Anwender bedeutet diese Tätigkeiten bei der Ablage seines Dokumentes einen zusätzlichen Aufwand. Dies führt häufig dazu, dass er auf das Hinterlegen von Dokumenten verzichtet.

Ein weiteres Problem ist die geringe Flexibilität einer solchen Kategorisierung. Know-how-Pools sind meist über Jahre organisch gewachsen und die Dokumente auf der Grundlage von Kategorien abgelegt, die im Laufe der Zeit veralten. Dies führt zu einer weiter sinkenden Akzeptanz der Anwender, denn die Suche wird immer aufwendiger und die Trefferquote geringer.

Eine mögliche Lösung bietet die Volltextsuche. Die Suche im Freitext erlaubt es, nach den im Dokument auftretenden Begriffen zu suchen. Die Anfrage läßt sich über numerische oder Boolsche Verknüpfungen beziehungsweise Abstandsoperatoren verfeinern und ist auch heute noch die mit Abstand am weitesten verbreitete Methode. Daneben lassen sich Worte trunkieren und die ausgelassenen Wortteile durch Wildcards ersetzen.

Ein hohes Maß an Recherchekompetenz ist unabdingbare Voraussetzung, um bei spezifischen Themen mit der Kenntnis von Vieldeutigkeiten, Homonymen und Synonymen das Richtige zu finden. Den Anspruch, spezifische Inhalte von Dokumenten exakt aufspüren zu können, kann das Boolsche Retrieval allein nicht überzeugend erfüllen, da Worte als Zeichenketten ohne Bezug der Syntax und Semantik betrachtet werden.

Für die Erschließung von Wissen aus Dokumenten werden derzeit Produkte angeboten, die sich im Wesentlichen in drei Gruppen mit unterschiedlichen Technikprinzipien aufteilen. Das Ziel ist in allen Gruppen, einen Mehrwert gegenüber der einfachen Volltextsuche zu schaffen.

Das erste Technikprinzip sind Retrieval-Systeme, die auf linguistischen Textanalyse-Verfahren basieren. Durch Wortstammreduktion lassen sich Begriffe unabhängig von verschiedenen Wortformen auf ihren Stamm reduzieren - ein erster Schritt weg von Zeichenketten hin zur Bedeutung von Wörtern. Linguistische Verfahren verwenden heuristisches Wissen über die Verwendung der Sprache. So gibt es zum Beispiel Regelwerke für die Erkennung von Eigennamen.

Ohne eine Übersicht über Synonyme oder Homonyme ist eine linguistische Lösung jedoch schnell am Ende ihrer Möglichkeiten. Daher ist die Verwendung von Thesauri notwendig, in denen der Wortschatz nach verschiedenen Relationen (Oberbegriffe, Unteraspekte, verwandte Begriffe) organisiert ist. So werden beispielsweise bei der Suche nach Kernkraftwerken auch Dokumente gefunden, die von Meilern oder Atomkraftwerken handeln.

Fachgebietsspezifische Thesauri manuell zu erstellen ist allerdings sehr aufwendig. Heute existiert eine Vielzahl verschiedener Methoden, die Thesauruskonstruktion zu automatisieren. Jedoch weisen automatisch erstellte Thesauri bei weitem nicht die strukturelle Dichte manuell erstellter auf. Der Pflegeaufwand, der für den Erhalt der Funktionalität bei den linguistischen Verfahren aufzubringen ist, wächst überproportional zur Größe der Dokumentenbank an - ein nicht zu vernachlässigender Kostenfaktor. Trotz der Fortschritte der Computerlinguistik ist es derzeit noch umstritten, ob linguistische Systeme zu einer nachhaltigen Verbesserung der Retrieval-Performance führen können. Die Ergebnisse bei der Evaluierung von Linguistik-Software konnten bislang jedenfalls nicht überzeugen.

Die zweite Technikrichtung benutzt statistische Retrieval-Verfahren, denn in der Forschung und Entwicklung des IR herrschen mathematische und besonders statistische Ansätze vor. Dokumenteninhalte werden statistisch ausgewertet. So genannte probabilistische Modelle verwenden Methoden aus der Wahrscheinlichkeitstheorie, um relevante Inhalte aufzuspüren. Die Ergebnisse in der Anwenderpraxis sind gut.

Eine Sonderform stellen Bayes-Netze dar. Die Stärke der Bayes-Netze beruht in der Neuberechnung der Wahrscheinlichkeiten, wenn exakteres Wissen über einzelne Zustände vorliegt. Älter sind Vektorraummodelle, die den Informationsgehalt von Begriffen gewichten und mit ebenfalls gewichteten Suchtermini vergleichen. Eine Erweiterung der Boolschen Logik stellen Fuzzy-Elemente dar, die auch graduelle Aussagen zulassen und zum Beispiel Rechtschreibfehler auffangen.

Der Hauptvorteil der statistischen gegenüber den linguistischen Systemen ist der vergleichsweise geringe Administrationsaufwand. Dies wird vor allem durch "selbstlernende" Mechanismen erreicht, da hier das Zugangswissen zum Informationspool quasi von selbst mit den Dokumentenbanken mitwächst. Dieses Zugangswissen über die in den Dokumenten behandelten Themen entsteht durch die Analyse der relativen Häufigkeiten der in einem Kontext vorkommenden Wörter. Zudem können die Ergebnisse gut visualisiert werden.

Die dritte Ausrichtung ist mit den semantische Verfahren, deren Konzepte auf Modelle des menschlichen Gedächtnisses zurückgehen, auf dem Vormarsch. Intelligente Retrieval-Systeme berücksichtigen bei der inhaltlichen Erschließung von Texten die Bedeutung der Zusammenhänge von Wörtern.

Eine Internet-Suche nach einem Begriff wie "Mars" kann dann so gezielt angesetzt werden, dass die gewünschten Dokumente des US-amerikanischen Militärprogramms "Mars" angezeigt werden, während die Technik Dokumente, die den Planeten, den Kriegsgott oder den Schokoriegel beschreiben, automatisch herausfiltert. Dabei werden auch Erkenntnisse und Forschungsergebnisse der Künstlichen Intelligenz (KI) integriert.

Es gibt inzwischen ausgereifte, praxiserprobte und einfach zu bedienende Systeme auf dem Markt, die komplexes Recherche-Know-how systemseitig abbilden und für andere Anwender leicht nutzbar machen können.

So können zum Beispiel speicher- und kombinierbare Suchmuster als erprobte Volltext-Suchstrings in Form semantischer Abfragenetze das strukturierte Recherche-Know-how des Unternehmens abbilden. Dieses Strukturwissen wird durch die Knoten (Sachthemen) und die Kanten (Beziehungen) des semantischen Netzes repräsentiert. Im Unterschied zu heute gebräuchlichen, baumartig strukturierten Kategorien werden für den Anwender sofort sämtliche Querbeziehungen eines Themas sichtbar. Ein solches Verfahren ist benutzerzentriert und unterstützt den aktuellen Wissenbedarf der Anwender. Die semantischen Strukturen werden dabei über die Recherchetätigkeit der Nutzer gepflegt und weiter entwickelt.

Die Verschiedenartigkeit der Wege, dieses Zugangswissen zu "lernen", macht sich jedoch bei der Sucheffizienz der Technologien bemerkbar: Die mathematischen Pfade der statistischen Verfahren enden am "Abgrund der Formalisierbarkeit" der unendlichen Varianten an Bedeutungen und Beziehungen von Worten innerhalb eines Textes. Bei einer Suche in nicht scharf abgegrenzten, sondern sich überschneidenden Themengebieten bieten die Ergebnisse statistischer Verfahren tendenziell keinen Mehrwert gegenüber einer einfachen Volltextsuche mehr. Semantische Retrieval-Systeme können hier durch kontextsensitive, textverstehende Komponenten eine deutlich höhere Qualität der Suchergebnisse liefern. Einige Systeme generieren darüber hinaus auch kontextbezogene Inhaltsangaben der gefundenen Dokumente als weitere Hilfe für den Anwender.

Standard für die WissensverwaltungEin neuer Standard für die Wissensrepräsentation sind die "Topic Maps", die das ISO-Gremium im Herbst 1999 als ISO/IEC-Standard 13250 verabschiedet hat. Topic Maps beschreiben die elektronische Verwaltung von Wissen und stellen nach Ansicht eines der Mitautoren, Michel Biezunski, einen effizienten Weg aus der Informationsüberflutung dar. Man kann sie als umfassenderes Modell eines semantischen Netzwerkes betrachten, wobei Topics den Knoten entsprechen und Assoziationen den Beziehungen zwischen diesen Knoten. Die Assoziationen ermöglichen eine freie Verbindung zwischen Themen - unabhängig von der eigentlichen Text- beziehungsweise Dokumentenebene.

Grundsätzlich wird die Strukturierung und damit die effiziente Suche und Navigation in großen Datenmengen vereinfacht. Eine Volltextsuche in HTML-Seiten beispielsweise zum Thema "Bank" kann die verschiedenen Bedeutungen des Begriffes nicht erkennen. Die Extensible Markup Language (XML) hilft als Beschreibungsform der Topic Maps an dieser Stelle weiter, indem Informationen mit bedeutungstragenden Inhalten ausgezeichnet werden, so etwa <Geldinstitut>Bank.

Damit können Topic-Maps-Anwendungen Metastrukturen über die eigentlichen Inhalte analysieren. Die Trennung von Struktur und Dokumenten ermöglicht es, die Struktur unabhängig von den Dokumenten zu pflegen und zu nutzen. Erste erfolgreiche Systeme, die diese Architektur unterstützen, gibt es bereits. Die Experten sind sich einig: Dieser neue Ansatz ist ein Meilenstein auf dem Weg zu erfolgreich praktizierten Knowledge-Retrievals.

* Dr. Thomas Gerick ist Mitarbeiter der U.S.U. Softwarehaus Unternehmensberatung AG (tgerick@usu.de).

Abb.: Die in Intranets zu verarbeitende Informationsmenge wird innerhalb der nächsten fünf Jahre um mehr als das Zehnfache steigen. Quelle: IDC