Lernende Software spürt Wissen auf

30.11.2005
Von Albert Denz
Methoden der künstlichen Intelligenz (KI) und linguistische Verfahren können bei der Kategorisierung, Suche und Aufbereitung unstrukturierter Daten helfen.

Wissen und Information sind entscheidende Wettbewerbskriterien. Bis zum Jahr 2007 werden allein 75 Prozent aller Produktivitätszuwächse auf Wissens-Management beruhen, so die Prognose des Marktforschungsinstituts Gartner. Allerdings liegen die unternehmensrelevanten Informationen heutzutage größtenteils als unstrukturierte Daten vor. Effizientes Suchen in diesen Pools ermöglicht Software, die auf Methoden der künstlichen Intelligenz und linguistischen Verfahren basiert. Da sie die Inhalte der Texte ähnlich wie ein Mensch verstehen, können die lernfähigen Systeme wertvolle Hilfe bei der Kategorisierung, Suche und Aufbereitung unstrukturierter Daten leisten.

Hier lesen Sie...

  • wie Software aus Basis von künstlicher Intelligenz Dokumente nach Themen, Benutzerprofilen, Empfängern oder Relevanz klassifiziert;

  • welchen Nutzen die Gruppierung von ähnlichen Dokumenten haben kann;

  • wie Profile beim Aufbau eines Wissens-Pools helfen.

Um die Informationsflut in den Griff zu bekommen, müssen die Dokumente präzise kategorisiert werden. Nur so lassen sich die entsprechenden Informationen und Daten später schnell wiederfinden und im Rahmen der Geschäftsprozesse nutzbringend weiterverarbeiten. KI-basierende Software ermöglicht eine automatisierte, von Benutzereingaben weitgehend unabhängige Klassifizierung der Dokumente nach Themen, Benutzerprofilen, Empfängern oder Relevanz. Dafür müssen lediglich für jede gewünschte Kategorie eine bestimmte Anzahl an Beispieltexten vorgegeben werden. Anhand des Trainingsmaterials ermittelt die selbst lernende Software dann mit Hilfe von algorithmischen und statistischen Erkennungsmethoden entsprechende Muster, die diese Kategorien möglichst genau beschreiben. Neue Dokumente lassen sich auf diese Weise automatisch indexieren.

Die Kategorisierung von Inhalten erlaubt es, ähnliche Dokumente zu Clustern zusammenzufassen.
Die Kategorisierung von Inhalten erlaubt es, ähnliche Dokumente zu Clustern zusammenzufassen.

Da selbst vergleichsweise kurze Texte unzählige Wortkombinationen beinhalten und sich Muster dadurch nur schwer erkennen lassen, findet vor der Analyse eine linguistische Vorverarbeitung der Dokumente statt. Wörter werden dabei auf gemeinsame Stammformen reduziert und komplexe Begriffe zerlegt, wie etwa Steuerreform in die Bestandteile "Steuer"" und "Reform". Darüber hinaus erkennt die Software, in welchem Zusammenhang die Wörter in dem Text verwendet werden. "Bank" in Kombination mit "Kredit" und "vergeben" wird zu "Finanzinstitut", während es im Zusammenhang mit "Parkanlage" und "ausruhen" als "Sitzbank" gedeutet wird. Eine hohe Treffergenauigkeit lässt sich also nur sicherstellen, wenn KI-basierende Mustererkennungsverfahren gemeinsam mit Techniken der Computerlinguistik zum Einsatz kommen.

Neben einer multidimensionalen und hierarchisch strukturierten Klassifizierung und Einordnung der Texte in bestehende Ordnungsstrukturen kann die Software Unternehmen auch beim Aufbau neuer Kategorienmodelle unterstützen. So sind Systeme auf KI-Basis in der Lage, in einer großen Menge von Datenmaterial thematische Zusammenhänge zu identifizieren und die Dokumente entsprechend zu gruppieren. Gleichzeitig schlagen sie eine passende Kategoriebezeichnung für die jeweiligen Cluster vor und verschlagworten automatisch die betreffenden Dokumente.

Dies vereinfacht es zum einen, die Gruppen in ein Klassifizierungssystem einzuordnen. Andererseits können die Unternehmen mit Hilfe des Clustering selbst bei großen Datenmengen automatisch neue Trends oder Qualitätsmängel erkennen: Wer nämlich weiß, welches beispielsweise die wichtigsten Anliegen oder häufigsten Beschwerden der Kunden im letzten Monat waren, kann gezielt auf deren Wünsche reagieren und in Problemfällen schnell reagieren.