Benutzerverhalten analysieren

Wie Web-Mining Internet-Daten ausschlachtet

19.10.2009
Von Jürgen-Heinrich  Rohr und Karsten Winkler

Web-Mining für Fortgeschrittene

Hochwertige Online-Protokolldaten bilden die Basis für Aktivitäten im Web-Mining. Grundlage für deren Erfassung können einerseits Log-Dateien der Web-Server sein, in denen die ausgelieferten Dateien mit Zeitstempel, IP-Adresse des anfordernden Rechners und weiteren Informationen aufgezeichnet werden. Diese rein Server-seitige Datenerfassung ist aber mehr ein Notbehelf als eine vollständige und fehlerfreie Protokollierung, da insbesondere die auf unterschiedlichen Ebenen eingesetzten Zwischenspeicher und Proxy-Server sowie die oft bei Internet-Zugangsdienstleistern beobachtete dynamische Zuweisung verschiedener IP-Adressen innerhalb einer Sitzung die Daten stark verfälschen.

Konsistente Datenbasis für Web-Mining

In der Lösung SAS for Customer Experience Analytics wird mit der Speed-trap Dynamic Data Collection ein Client-seitiges Verfahren zur Echtzeitprotokollierung von Ereignissen im Browser der Besucher eingesetzt, das die Nachteile der beiden skizzierten Verfahren umgeht. Kern dieses so genannten First-Party-Verfahrens ist die einmalige Einbettung desselben parameterlosen Skripts in sämtliche ausgelieferte Web-Seiten. Nach dem Laden einer Seite übermittelt dieses Skript verschlüsselt und asynchron, zur Vermeidung von Wartezeiten, die relevanten Ereignisse an den Protokoll-Server, wobei die Kommunikation aus dem gesicherten "Sandkasten" der jeweiligen Seite im Browser heraus erfolgt. Der Detaillierungsgrad der übermittelten Ereignisse wird je Website, Seitenbereich oder Seite zentralisiert konfiguriert, so dass - im Gegensatz zu Page Tags - die Geschäftslogik nicht mittels JavaScript-Parametern in Web-Seiten zu codieren ist. Dieses äußerst wartungsarme Verfahren ermöglicht den Aufbau einer stets aktuellen, fehlerfreien und konsistenten Datenbasis für Web-Mining. Das gilt auch für Ajax-Applikationen, Flash-Inhalte oder mobile Endgeräte.

Online-Daten mit Offline-Informationen anreichern

Online-Protokolldaten hoher Qualität sind jedoch nicht alles: Zur Gewinnung einer vollständigen Sicht auf Besucher und Kunden des Vertriebskanals Internet ist die Anreicherung von online erfassten Informationen mit Offline-Daten unerlässlich. Beispielsweise können URL-Parameter wie die Seitennummer in der Datenbank des Content-Management-Systems um Informationen wie Seitentitel, Autor oder Inhaltskategorie ergänzt werden. Warenwirtschaftssysteme verfügen zudem über vielfältige Zusatzinformationen, um Artikelnummern in Warenkorbdaten anzureichern. Die Integration von Daten der Offline-Welt in analytische Basistabellen für Web-Mining ermöglicht die Generierung von weitaus größeren analytischen Mehrwerten als bei alleinigem Fokus auf Online-Protokolldaten.