Unstrukturierte Daten

Auf Datensuche mit Text Mining und Web Mining

20.05.2008
Von 
Dr. Klaus Manhart hat an der LMU München Logik/Wissenschaftstheorie studiert. Seit 1999 ist er freier Fachautor für IT und Wissenschaft und seit 2005 Lehrbeauftragter an der Uni München für Computersimulation. Schwerpunkte im Bereich IT-Journalismus sind Internet, Business-Computing, Linux und Mobilanwendungen.

Repräsentation textueller Daten

Textrepräsentation: Das Vektorraummodell stellt Dokumente vektoriell dar.
Textrepräsentation: Das Vektorraummodell stellt Dokumente vektoriell dar.

Erst wenn diese und andere Vorarbeiten, wie sie allgemein bei der Datenaufbereitung anfallen, erledigt sind, sind die Daten bereit für eine Auswertung. Dann können etwa linguistische Algorithmen analysieren, wie häufig bestimmte Begriffe in einer Textmenge vorkommen, an welchen Stellen sie sich befinden und welche der Begriffe oft im gleichen Zusammenhang erscheinen.

Zur Repräsentation der textuellen Daten dient häufig das Vektorraummodell aus dem Information Retrieval. Das Vektorraummodell stellt Dokumente als multidimensionale Vektoren in einem euklidischen Raum dar. Jedes Dokument wird dabei so in einen Vektor überführt, dass dessen Dimensionen den insgesamt in einem Textarchiv vorkommenden Wörtern entsprechen.

Damit repräsentiert eine Dimension eines Dokumentvektors die Häufigkeit des entsprechenden Wortes im jeweiligen Text. Die Koordinate eines Dokumentes in Richtung eines Wortes gibt die ?Nähe? eines Dokuments zum Wort an. Sind die Vektoren zweier Dokumente topologisch nahe, sind die Dokumente ähnlich.

Von Textaufbereitung bis Interpretation: Der Text Mining Prozess
Von Textaufbereitung bis Interpretation: Der Text Mining Prozess

Es folgt die eigentliche Analysephase beziehungsweise Phase der Musterentdeckung, also das eigentliche Text Mining. Die in dieser Phase verwendeten Verfahren werden von der Problemstellung bestimmt. Die wichtigsten Methoden im Kontext Text Mining stellen wir anschließend vor.

Nach der Musterentdeckung werden die Ergebnisse statistisch ausgewertet und aus betriebswirtschaftlicher Sicht interpretiert. In dieser Phase werden meist auch Visualisierungsverfahren eingesetzt. Dabei wird versucht, Fakten und Themen und deren Zusammenhänge landkartenähnlich zu präsentieren. So können Benutzer verdeckte Zusammenhänge besser erkennen. Eine anspruchsvolle Aufgabe ist dabei die Ableitung von Handlungsempfehlungen, um das betriebliche Projektziel zu erreichen.