Unstrukturierte Daten

Auf Datensuche mit Text Mining und Web Mining

20.05.2008
Von 
Dr. Klaus Manhart hat an der LMU München Logik/Wissenschaftstheorie studiert. Seit 1999 ist er freier Fachautor für IT und Wissenschaft und seit 2005 Lehrbeauftragter an der Uni München für Computersimulation. Schwerpunkte im Bereich IT-Journalismus sind Internet, Business-Computing, Linux und Mobilanwendungen.

Web Content Mining

Während Text Mining Dokumente allgemeiner Art analysiert, ist Web Mining eine weitere Spezialisierung, die sich mit Datenmaterial aus dem Web beschäftigt. Im Vordergrund stehen dabei die besonderen Probleme, die sich im Zusammenhang mit Webdaten ergeben. Erkenntnisse aus dem Web Mining können beispielsweise dazu verwendet werden, Nutzerbedürfnisse besser zu verstehen und Websites entsprechend zu optimieren.

Grundsätzlich befasst sich Web Mining mit zwei unterschiedlichen Aufgaben: Dem Web Usage Mining und dem Web Content Mining. Web Usage Mining erkundet das Nutzerverhalten, näheres dazu gleich. Beim Web Content Mining geht es um die automatisierte Analyse und Auswertung von Website-Inhalten. Web-Daten - meist Text, manchmal auch Multimedia-Informationen und Linksammlungen - sollen nach interessanten und ökonomisch verwertbaren Mustern durchsucht werden.

Kategorisierung, Klassifikation, Filterung und teilweise auch die Interpretation von Web-Dokumenten sind hier die wesentlichen Zielsetzungen. Die meisten Ansätze beim Web Content Mining beschäftigen sich mit der automatischen Klassifikation von Webseiten in thematisch zusammenhängende Bereiche. So können z.B. von Suchmaschinen zurück gelieferte Dokumente ähnlichen Inhalts gruppiert werden, was dem Benutzer das Auffinden relevanter Dokumente erleichtert. Solche Verfahren können auch helfen, den Aufbau eines Link-Verzeichnisses wie Yahooganz oder teilweise zu automatisieren.