Unstrukturierte Daten

Auf Datensuche mit Text Mining und Web Mining

20.05.2008
Von 
Dr. Klaus Manhart hat an der LMU München Logik/Wissenschaftstheorie studiert. Seit 1999 ist er freier Fachautor für IT und Wissenschaft und seit 2005 Lehrbeauftragter an der Uni München für Computersimulation. Schwerpunkte im Bereich IT-Journalismus sind Internet, Business-Computing, Linux und Mobilanwendungen.

Web Usage Mining - Clustering und Assoziationen

Über eine Clusteranalyse können etwa Nutzer oder Daten mit ähnlichen Eigenschaften zusammengefasst werden. Das Clustering von Nutzern ermöglicht zum Beispiel das Gruppieren homogener Besucher mit ähnlichem Browsingverhalten.

Das Entdecken solcher Nutzergruppen kann hilfreich sein, um Informationen über die Marktsegmentierung zu erhalten oder personalisierte Dienste anzubieten. Ein einfaches Beispiel ist die Gruppierung der Website-Besucher in unterschiedliche Altersklassen. Abhängig von dieser Gruppierung können dann etwa beim Wiederbesuch Benutzer dynamisch auf bestimmte altersspezifische Unterseiten weitergeleitet werden.

Assoziationsregeln können verwendet werden um Seiten, die häufig im Rahmen einer Session zusammen verwendet werden, in Beziehung zu setzen und Abhängigkeiten zwischen diesen aufzudecken. Für eine solche Regel muss die Sequenz der Seitenanfragen des Users beziehungsweise der Zeitraum, in dem sich ein Nutzer auf bestimmten Seiten bewegt, identifiziert werden. Über den Apriori-Algorithmus lassen sich dann beispielsweise alle Sequenzen von Seitenanfragen nach wiederkehrenden Teilsequenzen absuchen. Das Ergebnis ist eine zumeist sehr große Menge von Regeln, aus denen die trivialen Zusammenhänge entfernt werden müssen.

Ein Ergebnis einer Assoziationsanalyse könnte beispielsweise lauten: "Wenn Besucher auf die Unterseite /firma/produkt1 zugreifen, dann besuchten Sie in 55 Prozent der Fälle auch die Unterseite /firma/produkt2". Eine andere Regel wäre: "Wenn die Seite xy besucht wurde, dann wurde in 30 Prozent der Fälle das Produkt xy bestellt."