Benutzerverhalten analysieren

Wie Web-Mining Internet-Daten ausschlachtet

19.10.2009 von Jürgen-Heinrich Rohr und Karsten Winkler

Das Internet hat sich zu einem unverzichtbaren Informations- und Vertriebskanal entwickelt, der große Mengen kostbarer Daten liefert. Mittelständler, die mehr aus ihren Web-Daten herausholen und damit Online-Marketing und -Vertrieb optimieren wollen, sollten auf Web-Mining setzten - eine spezielle Form des Data-Mining.

Egal, ob aufstrebende Startups oder etablierte mittelständische Unternehmen, alle haben heutzutage eine gemeinsame Priorität, nämlich die verstärkte Investition ins Internet. Die Ziele: Reputation und Sichtbarkeit erhöhen, Gewinne einfahren, Kunden finden oder Kommunikationskosten senken. Das erfordert eine konsequente Umsetzung geeigneter Maßnahmen: Die Relevanz der Web-Inhalte ist zu optimieren, es sollten nur produktaffine Zielgruppen angesprochen werden, Benutzeroberflächen sollten sich möglichst intuitiv bedienen lassen, und Bestandskunden sollten aktiv auf für sie interessante Angebote hingewiesen werden.

Das Modell Tante Emma funktioniert nicht mehr

Die sprichwörtliche Tante Emma setzte ihr Gedächtnis und ihre Intelligenz ein, um sich diesen Herausforderungen des Geschäftslebens im Krämerladen zu stellen. Sie kannte Generationen von Stammkunden, deren Freud und Leid, ihre persönlichen Interessen, Kaufhistorien und finanzielle Spielräume. Laufkundschaft wurde von Tante Emma aufgrund jahrelanger Erfahrung und kaufmännischen Gespürs bestmöglich beraten. Für Mittelständler - die häufig ein fast genauso enges und vertrautes Verhältnis mit ihrer Kundschaft pflegen - gerät der Vertriebskanal Internet aber schnell zum unüberschaubaren Terrain. Binnen kurzer Zeit sind die eigene Produktvielfalt und die vielen neuen Kanäle mit den herkömmlichen betrieblichen "Gedächtnisstützen" à la Tante Emma nicht mehr zu überblicken - und die Investition in den Web-Vertriebskanal bringt mehr Durcheinander als Return-on-Investment. Wie sind also das Gedächtnis und die Intelligenz von Tante Emma auf den Vertriebskanal Internet übertragbar?

Im Direkt-Marketing wird bereits seit Jahrzehnten ein institutionalisiertes Gedächtnis in Form von Datenbanken genutzt, oft in Kombination mit intelligenten Verfahren der Datenauswertung wie etwa Data-Mining. Dabei werden systematisch - auf statistisch-mathematischer Basis - große, meist unstrukturierte Datenbestände durchsucht und ausgewertet. Herkunftsorte dieser Datenbestände sind neben reinen Adressdatenbanken auch Ergebnisse von Online-Marketing-Aktionen sowie Daten zu speziellen Kundenverhaltensmustern. So wird beispielsweise genau festgehalten, welche Produktgruppen innerhalb eines Online-Shops ein Kunde bevorzugt ("Warenkorbanalyse"). Mit diesem Ansatz können Unternehmen trotz einer Vielzahl von Mitarbeitern, Kontaktpunkten und Produkten eine vertrauensvolle, profitable und langfristige Beziehung zu Kunden aufbauen.

Web-Inhalte personalisieren

Erklärtes Ziel von Investitionen in das Kundenbeziehungs-Management ist die Abkehr von der rein transaktionsorientierten Belieferung eines Massenmarktes mit standardisierten Produkten hin zur individuellen Ansprache des Kunden, um eine langfristige Geschäftsbeziehung aufzubauen. Im Gegensatz zum Einkauf über traditionelle Vertriebswege wie Filiale, Telefon oder Vor-Ort-Meeting ist der Besuch einer Website weitgehend frei von direkten Kontakten von Mensch zu Mensch. Aber: Der virtuelle Raum weist höchst interessante Besonderheiten auf, zum Beispiel die mögliche Personalisierung von Inhalten oder auch die denkbare direkte, ereignisgesteuerte Interaktion mit Besuchern.

Web-Mining nimmt Anleihen beim Data-Mining

Zur Bestimmung dieser zielgruppengesteuerten Inhalte bieten sich nun, analog zum Data-Mining auf "klassischen" Datenbeständen, die Methoden des Web Mining an. Anders als im konventionellen Data-Mining sind in Web-Mining-Projekten meist sehr große Mengen von Online-Protokolldaten (Beispiel Warenkorbanalyse) zu erfassen, mit teilweise speziellen Verfahren aufzubereiten und anzureichern sowie oft mit spezifischen Methoden zu analysieren und zu interpretieren. Das grundsätzliche, sehr prozessorientierte Vorgehen im Web-Mining ist aber ebenso identisch mit einem klassischen Data-Mining-Projekt wie die Mehrzahl der eingesetzten Methoden.

Methoden des Web-Mining

Zur Abgrenzung gegenüber klassischen Data-Mining-Fragen unterscheidet man im Web-Mining zwischen drei Methoden:

der Analyse von Inhalten (Web-Content-Mining),
der Gewinnung von Einsichten in das Besucherverhalten (Web-Usage-Mining) und
der Identifizierung Website-übergreifender Verweisstrukturen (Web-Structure-Mining).

Darüber hinaus lassen sich durch Text-Mining-Methoden auch eingehende E-Mails hinsichtlich ihres Inhalts klassifizieren. Anschließend können sie automatisiert an die richtige Abteilung weitergeleitet werden.

In drei Schritten zum Web-Mining

Auf dem Weg zum Web-Mining sollten mittelständische Unternehmen folgende drei Schritte in ihrer Vorgehensweise beachten:

Schritt 1: Vorbereitung und Zielvorgabe

Zunächst ist ein wirtschaftlich relevantes Ziel aus dem Online-Marketing zu formulieren, und entsprechende Erfolgskriterien sind festzulegen. Zum Beispiel wird die Steigerung der Click-through-Rate interner Verweise auf Aktionsartikeln von zwei auf fünf Prozent zur Erhöhung des Umsatzes angestrebt. Ein im Idealfall durch das Management unterstütztes Team, das fachliche und methodische Kompetenz vereint, formuliert anschließend Anforderungen an die Datenbasis, übersetzt das Marketing-Ziel in eine Web-Mining-Fragestellung und plant die Einbettung der Ergebnisse in operative Systeme etwa für nutzerspezifische Artikelempfehlungen.

Schritt 2: Web-Mining-Methode bestimmen

Nach der Festlegung von Ziel, Erfolgskriterien, Budget und Zeitplanung ist die Datenbasis zur Anwendung von Web-Mining-Methoden zu definieren, aus den Quelldatensystemen zu extrahieren und in einer Tabelle zusammenzuführen. Als Ergebnis entsteht eine so genannte analytische Basistabelle, die je Untersuchungsobjekt (etwa Sitzung eines Besuchers oder Kunde) potenziell relevante Informationen und gegebenenfalls eine oder mehrere Zielvariablen enthält. Beispiele für Variablengruppen sind demografische Informationen, Reaktionen auf Online-Marketing-Kampagnen, besuchte Seiten und Inhaltsbereiche sowie angesehene und gekaufte Produkte.

Schritt 3: Web-Mining-Prozess

Foto: SAS

Der typische Web-Mining-Prozess besteht aus folgenden Schritten: Stichprobenziehung, Exploration der Daten, Modifizierung der Daten, Modellierung der Fragestellung und Auswertung der Ergebnisse. Der Anwender im analytischen Online-Marketing modelliert die jeweilige Fragestellung in einem grafischen Prozessflussdiagramm (s. Abb.). Dort repräsentieren Pfeile den Fluss von Daten und Metadaten, während grafische Symbole die jeweils auszuführenden, parametrisierten Prozessschritte (zum Beispiel ein Regressionsverfahren) repräsentieren.

Die Anwendung des besten Modells im Rahmen eines Scoring in Stapelverarbeitung oder Echtzeit wird einerseits durch den Export der Score-Werte in beliebige Datenbanken ermöglicht. Somit können beispielsweise für Kunden Produktaffinitäten (zum Beispiel Kunde kauft häufig Wintersportartikel) oder die Zugehörigkeit zu Kundensegmenten (zum Beispiel Kunde wohnt in einer Großstadt) direkt in der Datenbank des Shop-Systems gespeichert werden.

Ein letzter, wichtiger Aspekt der Modellanwendung ist die Überwachung der Modellgüte operativ genutzter Segmente oder Vorhersagemodelle, um deren "Lebenszeit" nicht zu überschreiten. Es ist beispielsweise wenig zielführend, Kunden für den Rest ihres Lebens als "junge Wintersportinteressenten aus Großstädten" zu klassifizieren, ausgelistete Artikel zu empfehlen oder die Bonität von Kunden anhand eines fünf Jahre alten Modells zu evaluieren.

Web-Mining für Fortgeschrittene

Hochwertige Online-Protokolldaten bilden die Basis für Aktivitäten im Web-Mining. Grundlage für deren Erfassung können einerseits Log-Dateien der Web-Server sein, in denen die ausgelieferten Dateien mit Zeitstempel, IP-Adresse des anfordernden Rechners und weiteren Informationen aufgezeichnet werden. Diese rein Server-seitige Datenerfassung ist aber mehr ein Notbehelf als eine vollständige und fehlerfreie Protokollierung, da insbesondere die auf unterschiedlichen Ebenen eingesetzten Zwischenspeicher und Proxy-Server sowie die oft bei Internet-Zugangsdienstleistern beobachtete dynamische Zuweisung verschiedener IP-Adressen innerhalb einer Sitzung die Daten stark verfälschen.

Konsistente Datenbasis für Web-Mining

In der Lösung SAS for Customer Experience Analytics wird mit der Speed-trap Dynamic Data Collection ein Client-seitiges Verfahren zur Echtzeitprotokollierung von Ereignissen im Browser der Besucher eingesetzt, das die Nachteile der beiden skizzierten Verfahren umgeht. Kern dieses so genannten First-Party-Verfahrens ist die einmalige Einbettung desselben parameterlosen Skripts in sämtliche ausgelieferte Web-Seiten. Nach dem Laden einer Seite übermittelt dieses Skript verschlüsselt und asynchron, zur Vermeidung von Wartezeiten, die relevanten Ereignisse an den Protokoll-Server, wobei die Kommunikation aus dem gesicherten "Sandkasten" der jeweiligen Seite im Browser heraus erfolgt. Der Detaillierungsgrad der übermittelten Ereignisse wird je Website, Seitenbereich oder Seite zentralisiert konfiguriert, so dass - im Gegensatz zu Page Tags - die Geschäftslogik nicht mittels JavaScript-Parametern in Web-Seiten zu codieren ist. Dieses äußerst wartungsarme Verfahren ermöglicht den Aufbau einer stets aktuellen, fehlerfreien und konsistenten Datenbasis für Web-Mining. Das gilt auch für Ajax-Applikationen, Flash-Inhalte oder mobile Endgeräte.

Online-Daten mit Offline-Informationen anreichern

Online-Protokolldaten hoher Qualität sind jedoch nicht alles: Zur Gewinnung einer vollständigen Sicht auf Besucher und Kunden des Vertriebskanals Internet ist die Anreicherung von online erfassten Informationen mit Offline-Daten unerlässlich. Beispielsweise können URL-Parameter wie die Seitennummer in der Datenbank des Content-Management-Systems um Informationen wie Seitentitel, Autor oder Inhaltskategorie ergänzt werden. Warenwirtschaftssysteme verfügen zudem über vielfältige Zusatzinformationen, um Artikelnummern in Warenkorbdaten anzureichern. Die Integration von Daten der Offline-Welt in analytische Basistabellen für Web-Mining ermöglicht die Generierung von weitaus größeren analytischen Mehrwerten als bei alleinigem Fokus auf Online-Protokolldaten.