Lernende Software spürt Wissen auf

11.11.2005
Von Albert Denz
Methoden der künstlichen Intelligenz (KI) und linguistische Verfahren können bei der Kategorisierung, Suche und Aufbereitung unstrukturierter Daten helfen.

Wissen und Information sind entscheidende Wettbewerbskriterien. Bis zum Jahr 2007 werden allein 75 Prozent aller Produktivitätszuwächse auf Wissens-Management beruhen, so die Prognose des Marktforschungsinstituts Gartner. Allerdings liegen die unternehmensrelevanten Informationen heutzutage größtenteils als unstrukturierte Daten vor. Effizientes Suchen in diesen Pools ermöglicht Software, die auf Methoden der künstlichen Intelligenz und linguistischen Verfahren basiert. Da sie die Inhalte der Texte ähnlich wie ein Mensch verstehen, können die lernfähigen Systeme wertvolle Hilfe bei der Kategorisierung, Suche und Aufbereitung unstrukturierter Daten leisten.

Mehr zum Thema

www.computerwoche.de/go/

535842: Knowledge-Management mit Topic Maps;

532557: Soziales Netzwerk transparent gestalten;

537505: Content-Management verlangt Strategie.

Fazit

Software auf Basis von künstlicher Intelligenz und Sprachtechnologie hilft Unternehmen, das in den Datenbeständen gespeicherte Know-how effektiv zu nutzen. Die Lösungen extrahieren aus der Unmenge an unstrukturierten Dokumenten entscheidendes Wissen für die Geschäfts- und Entscheidungsprozesse. Detailinformationen wie Eigennamen, Ortsangaben oder Stammdaten werden zuverlässig identifiziert, übersichtlich strukturiert und transparent für die einzelnen Unternehmenssysteme wie zum Beispiel CRM-Anwendungen aufbereitet.

Hier lesen Sie …

• wie Software aus Basis von künstlicher Intelligenz Dokumente nach Themen, Benutzerprofilen, Empfängern oder Relevanz klassifiziert;

• welchen Nutzen die Gruppierung von ähnlichen Dokumenten haben kann;

• wie Profile beim Aufbau eines Wissens-Pools helfen.

Um die Informationsflut in den Griff zu bekommen, müssen die Dokumente präzise kategorisiert werden. Nur so lassen sich die entsprechenden Informationen und Daten später schnell wiederfinden und im Rahmen der Geschäftsprozesse nutzbringend weiterverarbeiten. KI-basierende Software ermöglicht eine automatisierte, von Benutzereingaben weitgehend unabhängige Klassifizierung der Dokumente nach Themen, Benutzerprofilen, Empfängern oder Relevanz. Dafür müssen lediglich für jede gewünschte Kategorie eine bestimmte Anzahl an Beispieltexten vorgegeben werden. Anhand des Trainingsmaterials ermittelt die selbst lernende Software dann mit Hilfe von algorithmischen und statistischen Erkennungsmethoden entsprechende Muster, die diese Kategorien möglichst genau beschreiben. Neue Dokumente lassen sich auf diese Weise automatisch indexieren.

Da selbst vergleichsweise kurze Texte unzählige Wortkombinationen beinhalten und sich Muster dadurch nur schwer erkennen lassen, findet vor der Analyse eine linguistische Vorverarbeitung der Dokumente statt. Wörter werden dabei auf gemeinsame Stammformen reduziert und komplexe Begriffe zerlegt, wie etwa Steuerreform in die Bestandteile "Steuer"" und "Reform". Darüber hinaus erkennt die Software, in welchem Zusammenhang die Wörter in dem Text verwendet werden. "Bank" in Kombination mit "Kredit" und "vergeben" wird zu "Finanzinstitut", während es im Zusammenhang mit "Parkanlage" und "ausruhen" als "Sitzbank" gedeutet wird. Eine hohe Treffergenauigkeit lässt sich also nur sicherstellen, wenn KI-basierende Mustererkennungsverfahren gemeinsam mit Techniken der Computerlinguistik zum Einsatz kommen.

Neben einer multidimensionalen und hierarchisch strukturierten Klassifizierung und Einordnung der Texte in bestehende Ordnungsstrukturen kann die Software Unternehmen auch beim Aufbau neuer Kategorienmodelle unterstützen. So sind Systeme auf KI-Basis in der Lage, in einer großen Menge von Datenmaterial thematische Zusammenhänge zu identifizieren und die Dokumente entsprechend zu gruppieren. Gleichzeitig schlagen sie eine passende Kategoriebezeichnung für die jeweiligen Cluster vor und verschlagworten automatisch die betreffenden Dokumente.

Dies vereinfacht es zum einen, die Gruppen in ein Klassifizierungssystem einzuordnen. Andererseits können die Unternehmen mit Hilfe des Clustering selbst bei großen Datenmengen automatisch neue Trends oder Qualitätsmängel erkennen: Wer nämlich weiß, welches beispielsweise die wichtigsten Anliegen oder häufigsten Beschwerden der Kunden im letzten Monat waren, kann gezielt auf deren Wünsche reagieren und in Problemfällen schnell reagieren.

Fuzzy Search und das Eingrenzen der Ergebnisse

Eine weitere Arbeitserleichterung eröffnet KI-basierende Software bei der Informationssuche. Neben Standardfunktionen wie der Booleschen Kombinatorik von Stichwörtern bieten selbst lernende Suchmaschinen eine unscharfe Suche (Fuzzy Search), die auch Wortvarianten findet und partielle Treffer anzeigt. Ebenso lassen sich beliebige Textstücke als Grundlage einer Anfrage verwenden. In allen Fällen gewichten derartige Maschinen die Ergebnisse nach der relativen Frequenz der Suchbegriffe in den jeweiligen Fundstellen. Um die Treffermenge weiter einzugrenzen, erhält der Benutzer zusätzlich die wichtigsten Kategorien aufgelistet, denen die gefundenen Texte im Vorfeld zugeordnet wurden. Nach Auswahl einer dieser Kategorien zeigt die Software dann nur noch diejenigen Dokumente an, die sowohl den Suchbegriff enthalten als auch der betreffenden Kategorie angehören.

Ihren größten Nutzen entfalten selbst lernende Suchmaschinen durch assoziative Suchmechanismen. Gibt der Benutzer beispielsweise "Arbeitsmarkt" ein, berechnet die Software dynamisch Assoziationen wie "Hartz" oder "Konjukturprognose". Dies sind Begriffe, die in einer signifikanten Beziehung zu dem ursprünglichen Suchwort stehen und zusammen mit diesem in einer Teilmenge der Dokumente auftreten. Durch Auswahl eines dieser Cluster und den erneuten Start einer assoziativen Suche lassen sich die Resultate sukzessiv verfeinern und 1000 oder mehr Fundstellen mit wenigen Mausklicks auf einige wenige Dokumente reduzieren. Die Navigation kann hierbei entweder über lineare Baumstrukturen erfolgen oder über sternförmige grafische Darstellungen.

Während die bisher genannten Suchstrategien maßgeblich einer Einschränkung des Suchraums dienen, ermöglicht die Ähnlichkeitssuche, diesen zu erweitern. Der Benutzer kann sich damit beispielsweise alle im Datenbestand verfügbaren Dokumente zu einem bereits identifizierten Textinhalt anzeigen lassen. Da praktisch der gesamte Inhalt des vorab ausgewählten Textes als Suchanfrage fungiert, ist sichergestellt, dass alle Dokumente gefunden werden, die mit ihm in einer näheren Beziehung stehen. Durch das Ranking der Ergebnisse, den Zusammenschnitt der zentralen Inhalte sowie die Markierung der wichtigsten Wörter und Begriffsvarianten erhält der Benutzer einen schnellen Überblick, welche Fundstellen die für sein Anliegen größte Relevanz besitzen.

Wollen Firmen erfolgreich am Markt agieren, ist ein aktuelles Wissen über das eigene Unternehmen, die Kunden, Markttendenzen und Konkurrenten von Vorteil. Mit KI-basierender Software lassen sich interne und externe Informationsquellen wie Web-Seiten, Foren und Newsletter, öffentliche und eigene Datenbestände sowie die Unternehmenskorrespondenz kontinuierlich beobachten und systematisch auswerten. Lernfähige Softwareagenten überprüfen auf Basis von Suchprofilen automatisch die vorab definierten Quellen, extrahieren wichtige Informationen, indizieren diese und speichern sie in einer Datenbank ab. Die Intelligenz der Systeme trennt dabei wichtige von unwichtigen Informationen und filtert Dubletten zuverlässig aus.

Im Wissenspool lässt sich schneller suchen

Die oben skizzierten Recherche-, Darstellungs- und Navigationsmöglichkeiten erlauben dem jeweiligen Benutzer dann, aus dem so entstehenden Wissenspool die für ihn relevanten Informationen schnell und gezielt herauszuziehen. Darüber hinaus kann der Anwender individuelle Suchprofile erstellen, die ihn regelmäßig mit wesentlichen Informationen versorgen. In beiden Fällen legt die Software automatisch inhaltliche Beziehungen offen, sodass verborgene Zusammenhänge zu Tage treten. Verfügen die Systeme über eine integrierte Dokumentenverwaltung, können die Texte und Inhalte zudem per Mausklick zu Ergebnisberichten zusammengefasst, editiert und anderen Benutzern zur Verfügung gestellt werden. Ebenso lassen sich eigene Informationen zu den bereits bestehenden Dokumenten hinzufügen. (ws)