Unstrukturierte Daten

Auf Datensuche mit Text Mining und Web Mining

20.05.2008
Von 
Dr. Klaus Manhart hat an der LMU München Logik/Wissenschaftstheorie studiert. Seit 1999 ist er freier Fachautor für IT und Wissenschaft und seit 2005 Lehrbeauftragter an der Uni München für Computersimulation. Schwerpunkte im Bereich IT-Journalismus sind Internet, Business-Computing, Linux und Mobilanwendungen.

Textuelle Cluster- und Assoziationsverfahren

Das Clustering von Dokumenten bietet eine schnelle Analysemöglichkeit von großen Dokumentsammlungen. Diese Methode wird immer dann genutzt, wenn keine vordefinierte Menge von Kategorien für die gegebene Textkollektion existiert.

Clustering textueller Daten unterscheidet sich kaum vom Clustering numerischer Daten. Die im Text Mining verwendeten Ähnlichkeits- bzw. Distanzmaße stimmen von der Grundidee her mit den Ähnlichkeits- und Distanzmaßen der numerischen Clusteranalyse überein. Aufgrund der textuellen Form dominieren hier aber Maße für binäre und kategoriale Merkmale auf der Grundlage von Indikatorvariablen (0-1-skaliert) und Häufigkeiten.

Neben der Strukturierung von Dokumenten kann Clustering auch benutzt werden, um Gruppen von Wörtern oder Phrasen zu bilden, die häufig zusammen erscheinen. Unterschiedliche Bedeutungen von Wörtern lassen sich dadurch erkennen und Mehrdeutigkeiten auflösen.

Auch die Assoziationsanalyse hat ihr textuelles Äquivalent. Analog zur numerischen Assoziationsanalyse kann in Texten nach lexikalischen Assoziationen gesucht und diese nach ihrer Stärke bewertet werden.

So lässt sich zum Beispiel aus einer Assoziation in Kunden-Mails oder Webforen zwischen dem Namen eines Produktes und negativen Zuschreibungen schließen, dass dieses Produkt in schlechtem Ruf steht. Die Erkennung von Assoziationen setzt allerdings voraus, dass die Probleme, die Synonymie und Polysemie in natürlichsprachlichen Texten einer solchen Datenanalyse bereiten, weitgehend gelöst sind.