Unstrukturierte Daten

Auf Datensuche mit Text Mining und Web Mining

20.05.2008
Von 
Dr. Klaus Manhart hat an der LMU München Logik/Wissenschaftstheorie studiert. Seit 1999 ist er freier Fachautor für IT und Wissenschaft und seit 2005 Lehrbeauftragter an der Uni München für Computersimulation. Schwerpunkte im Bereich IT-Journalismus sind Internet, Business-Computing, Linux und Mobilanwendungen.

Segmentierung von Websites

Information Extraction: ViPer, ein Mozilla PlugIn der Uni Freiburg, extrahiert Datenstrukturen von HTML-Sites (Quelle: Uni Freiburg, Informatik)
Information Extraction: ViPer, ein Mozilla PlugIn der Uni Freiburg, extrahiert Datenstrukturen von HTML-Sites (Quelle: Uni Freiburg, Informatik)

Bei der Segmentierung von Websites und anderen Daten in thematisch zusammenhängende Bereiche können Algorithmen der Clusteranalyse herangezogen werden. Die Ähnlichkeitsberechnung zweier Dokumente kann beispielsweise mit statistischer Gewichtung von Schlagwörtern erfolgen. In Frage kommen auch Feature-Vektoren aus einer linguistischen Analyse, die allerdings aufwändig errechnet werden müssen. Methodisch werden dabei meist die partitionierenden den hierarchischen Clusterverfahren vorgezogen, da die Distanzberechnungen hierarchischer Verfahren schnell an Komplexitätsgrenzen stoßen.

Neben der Klassifikation von Webseiten aufgrund des Textinhaltes, können auch die Ergebnisse der Klassifikation der Nachbardokumente herangezogen werden. Als Techniken werden sowohl klassische statistische Verfahren wie die Diskriminanzanalyse als auch Künstliche Neuronale Netze und Entscheidungsbäume eingesetzt.