Ratgeber

Keine Angst vor Data Mining

22.05.2008 von Hilmar Buchta

Am Beispiel der Kundenkategorisierung zeigen sich die Stärken und Herausforderungen von Data-Mining-Verfahren. Erfolgsfaktoren sind ein solides fachliches Verständnis, saubere Daten, Kontrollen und gute Tools.

Mit Verfahren des Data Mining lassen sich geschäftsrelevante Muster, Regeln und Auffälligkeiten in Massendaten entdecken. Viele Anwender scheuen aber vor diesem Thema zurück, weil sie es für schwer beherrschbar und komplex halten. Doch die wachsende Verbreitung sollte Mut machen. So ist Data Mining aus den intelligenten Vorschlagslisten bei Web-Shops nicht mehr wegzudenken, und auch im Marketing und Vertrieb lässt sich ein echter Mehrwert erzielen (siehe auch den Beitrag "Datenanalyse statt Bauchgefühl"). Ein typisches Beispiel ist die Bewertung des Umsatzpotenzials von Kunden und Interessenten und deren Zuordnung in Segmente oder Kategorien.

Das Marketing kann dadurch Empfänger von Kampagnen gezielter auswählen und Änderungen im Kaufverhalten schneller erkennen. Für nachfolgende Vertriebsaktionen könnte dann ein Ziel lauten, im nächsten Jahr 20 Prozent der Kunden von der Kategorie "kauft nur sporadisch" in die bessere Kategorie "Top-Käufer" zu bringen. Wird die Kategorie auf Artikelgruppen gebildet, lassen sich sehr leicht Chancen für Cross-Selling erkennen und beispielsweise durch geschickte Gutschein-Maßnahmen unterstützen. Bei automatischen Bestellsystemen, wie sie häufig im Internet zu finden sind, könnte umgekehrt ein deutliches Abweichen der aktuellen Bestellung von der Kategoriestufe des Kunden auf einen Betrugsversuch hindeuten. Diese Bestellung könnte dann manuell geprüft werden.

Das Potenzial von Neukunden prognostizieren

Allerdings kann eine Kundenkategorisierung, die nur auf tatsächlich getätigten Umsätzen basiert, nur für Bestandskunden festgelegt werden, zum Beispiel anhand von Schwellenwerten. Verlässliche Daten über Neukunden und Interessenten fehlen hingegen. Kunden mit sehr hohem Potenzial werden so eventuell nicht rechtzeitig erkannt und daher nicht optimal betreut. Im schlimmsten Fall wechseln sie zur Konkurrenz. Um dies zu verhindern, benötigt man eine realistische Einschätzung des Potenzials des Kunden. Bei Neukunden kann Data Mining hier die entscheidende Prognose liefern und somit eine frühzeitige Einschätzung ermöglichen.

Voraussetzung hierfür ist natürlich, möglichst viele Daten über Neukunden und Interessenten zur Verfügung zu haben und in die Auswertung einzubringen. Zwar lässt eine solche Datenbasis keine hundertprozentigen Vorhersagen zu, aber selbst eine Wahrscheinlichkeit von 70 Prozent würde dem Marketing schon helfen, sein Budget gezielter einzusetzen.

Kein Hexenwerk

Im Data Mining gibt es diverse Algorithmen, die sich für die beschriebene Aufgabe eignen und eine oder mehrere Eigenschaften auf der Basis anderer Eigenschaften vorhersagen. Häufige Verfahren sind Entscheidungsbäume, Clustering, Naive Bayes oder eventuell neuronale Netze (Ergänzend siehe auch den Beitrag "Auf Datensuche mit Text Mining und Web Mining"). Diese Verfahren werden mit vorhandenen und bekannten Daten trainiert, dass heißt, sie erkennen selbst die für die Prognose relevantesten Eigenschaften und Muster und leiten dann Regeln für die Vorhersage der Zielgrößen, in diesem Beispiel die Kundenkategorie, ab.

Nach der Trainingsphase sind die Verfahren in der Lage, auch neue und bislang unbekannte Daten mit diesen Erkenntnissen einer Kundenkategorie zuzuordnen (siehe Tabelle "Training und Vorhersage"). Diese Intelligenz hat Data Mining in der Vergangenheit häufig in die Nähe von Computer-Magie gerückt. Tatsächlich handelt es sich aber um mathematische und statistische Verfahren, wie Häufigkeitsanalysen, Korrelationen und Wahrscheinlichkeitsrechnungen, die dank der modernen Werkzeuge im Bereich Business Intelligence nicht nur für Experten und Visionäre geeignet sind, sondern sich auch von entsprechend geschulten oder beratenen Fachkräften selbst bedienen und warten lassen.

Schritt für Schritt neue Kunden einordnen

Für das Beispiel Kundenanalyse sei angenommen, dass sich die Kategorie nach etwa sechs Monaten aufgrund der Verkaufszahlen stabil zuordnen lässt. Bei Überschreitung eines bestimmten Umsatzes gilt der Kunde zum Beispiel als "Top-Käufer". Bei Neukunden und Interessenten muss diese Kategorie prognostiziert werden. Zunächst wird hier ein Mining-Modell definiert. Das Modell legt unter anderem fest, welche Daten als Eingabe verwendet werden können und welche Eigenschaften vorhergesagt werden sollen. Das setzt Kenntnisse der betriebswirtschaftlichen Zusammenhänge des jeweiligen Problems voraus (siehe auch den Beitrag "Zweiter Frühling für Data Mining").

Die Datenvorbereitung für Data-Mining darf dann auch nicht unterschätzt werden, da von ihr letztlich die Möglichkeiten der Mustererkennung und Vorhersage abhängen. So sind bei der Wahl der Datenquellen die Besonderheiten des jeweiligen Mining-Algorithmus zu beachten. Viele Algorithmen verwenden beispielsweise diskrete Daten, die eventuell aus den vorhandenen Daten zu transformieren sind. Ferner müssen relationale Daten und Zeitreihen oft noch in ein einfaches Zeilenschema überführt werden, um einen Zusammenhang zwischen Eingabewerte und Vorhersagewerten herstellen zu können. Ist anfangs nicht klar, welche Algorithmen sich am besten für das Problem eignen, sollten Anwender verschiedene Algorithmen testen und die Ergebnisse vergleichen.

Das Beispiel setzt natürlich voraus, dass die zu prognostizierende Eigenschaft, hier die Kundenkategorie, sich direkt ableiten ließe für den Fall, dass genügend Daten vorhanden sind. Neben dieser Vorhersage können Data-Mining-Verfahren aber auch mit dem Ziel eingesetzt werden, die Kundenkategorien selbst zu erkennen. Hier spricht man von Clustering, dass heißt, der Mining-Algorithmus analysiert die vorhandenen Daten und teilt diese in Kategorien ein. In der Regel wird man den Kategorien dann anschließend sprechende Namen, wie "Doppeltes Haushaltseinkommen" oder "Alleinerziehend", zuordnen. In diesem Fall bezieht sich die Prognose darauf, in welches Cluster der Kunde wahrscheinlich fällt.

Data Mining als Teil von ETL-Prozessen

Hat sich der Anwender für ein Modell entschieden, kann er dies unbetreut und automatisiert weiterverwenden. Für die Trainingsphase verwenden wir in diesem Beispiel vorhandene Daten aus einem ERP-System. Zu allen Kunden, die bereits mehr als sechs Monate Kunde sind, wird die Kategorisierung zu diesem Zeitpunkt gelesen. Dies setzt aber voraus, dass die Kategorisierung im Zeitverlauf protokolliert wird, was jedoch schon wegen des Nutzens für die Erkennung von Änderungen im Käuferverhalten sinnvoll ist. Nachdem das Modell mit diesen Daten trainiert wurde, kommen die Daten von Neukunden hinzu; dann kann das Mining-Modell zur Vorhersage der Kundenkategorie genutzt werden.

Eine Möglichkeit, Data-Mining-Verfahren in die IT-Landschaft einzubinden, ist bei der Extraktion, Transformation und Laden (ETL) von Daten in ein Data Warehouse. Der Ladeprozess kann das Training und die Abfragen in einem Job kombinieren und die Daten vollautomatisch (zum Beispiel nachts) verarbeiten. Die gewünschten Daten stehen danach für das Marketing im Data Warehouse bereit. Auf diesem Weg finden Änderungen im Kaufverhalten schnell einen Niederschlag in den Daten, etwa wenn der Algorithmus festgestellt hat, dass inzwischen andere Eigenschaften für die Vorhersage herangezogen werden müssen. Diese automatischen Modellanpassungen können direkt beim Training des Modells stattfinden. Die vorhergesagte Kategorie schreiben wir zur Unterscheidung von der berechneten Kategorie in ein eigenes Feld, so dass immer klar ersichtlich ist, welche Kategorie sicher und welche vorhergesagt ist.

Ergänzende Kundendaten aufspüren

Allerdings bleiben trotz dieses systematischen Vorgehens wirklich gesicherte Prognosen bezüglich des Kaufverhaltens von Neukunden und Interessenten schwierig, solange keine ausreichenden Daten vorliegen. Unternehmen müssen daher alle Möglichkeiten zum Sammeln von Daten ausnutzen. Betreiben sie beispielsweise einen Webshop, könnten sie kundeneigene Daten erfassen lassen oder sie durch Gewinnspiele oder Kundenkarten zur Herausgabe weiterer Angaben bewegen. Eine andere Quelle sind Agenturen, die kundenrelevante Informationen verkaufen.

Einige für die Prognose benötigte Daten werden sich trotzdem nur schätzen lassen. Dafür gibt es recht gut funktionierende Verfahren, um beispielsweise das Alter aus dem Vornamen abzuleiten oder das Jahresgehalt aus Wohnort und Straße (zum Beispiel über den Mietspiegel). Solche abgeleiteten Kenntnisse sind aber unbedingt in getrennten Feldern zu speichern und müssen vom Mining-Algorithmus analysiert werden, um eventuell noch eine andere Gewichtung vorzunehmen. Und selbst dann werden Unternehmen nie über vollständige Kunden- und Interessentendaten verfügen. Moderne Mining-Algorithmen können aber auch mit Null-Werten umgehen und interpretieren diese korrekterweise so, dass die betreffenden Informationen nicht bekannt sind.

Fallstricke bei der täglichen Arbeit

Selbst wenn alle Daten vorhanden wären, bleibt die Frage, ob eine Prognose überhaupt möglich ist. Selbstverständlich ist dies nicht: Eventuell gibt es keinerlei Zusammenhang zwischen den erhobenen, den vorliegenden Daten und der zu prognostizierenden Kundenkategorie. Glücklicherweise geben die Mining-Algorithmen hierzu zumindest eine Rückmeldung. Beim Training wird typischerweise nur ein Teil der vorhandenen Daten genutzt und das Ergebnis sofort auf den übrigen Teil angewendet und überprüft. Zugleich wird diese Kreuzvalidierung gleich mehrfach vorgenommen, um eine Aussage zur Qualität der Vorhersage treffen zu können. Besondere Darstellungsformen wie das Lift-Diagramm können dann die Prognosegenauigkeit eines Algorithmus darstellen.

Training und Vorhersage
Alter	Bruttogehalt	Kinder	...	Kundenkategorie	Bekannte Daten (Trainings-Dataset)
36	20-30	Ja	...	A
39	30-40	Ja	...	B
...	...	...	...	...
20	20-30	Nein	...	??	Neue Daten (Vorhersage)
30	30-40	Nein	...	??
45	30-40	Ja	...	??
Aufteilung der Daten in Trainingsdaten und Vorhersagedaten. Trainingsdaten sind in Bezug auf die vorherzusagende Eigenschaft (hier: die Kategorie) bekannt und werden genutzt, um das Data-Mining-Modell für die Vorhersage vorzubereiten. Bei den Abfragedaten ist diese Eigenschaft unbekannt und wird durch das vorher trainierte Modell 'sinngemäß' ergänzt.

Ein anderes Problem bei der Verwendung des Data-Mining-Ansatzes zur Vorhersage von Eigenschaften besteht darin, dass es sich um eine sich selbst erfüllende Prophezeiung handeln könnte. Die Wahrscheinlichkeit einer starken Kundenbindung ist nämlich sicherlich nicht unabhängig von dem aufgewendeten Marketingbudget für einen Kunden. Dieser Vorwurf lässt sich zwar nicht komplett entkräften, jedoch kann man das Verfahren gefahrlos zum Beispiel sechs Monate laufen lassen und sich dann anschauen, inwieweit die Vorhersagen tatsächlich eingetreten sind. Wenn sich nach dieser Erprobungsphase eine gute Übereinstimmung offenbart, sind die Ergebnisse künftig für Marketingzwecke brauchbar.

Nutzen überwiegt die Aufwände

Natürlich entstehen Aufwände bei der Erstellung des Modells und vor allem später bei ihrer weiteren Pflege. Wie dargestellt, lässt sich das Modell beispielsweise in einem ETL-Prozess automatisiert und ohne Benutzereingriffe verwenden. Trotzdem ist das Modell von Zeit zu Zeit zu überprüfen und an neue Gegebenheiten anzupassen. So könnten sich beispielsweise die Voraussetzungen, die zum Modell geführt haben, geändert haben, oder die Vorhersagequalität ist nicht mehr ausreichend hoch.

Vielleicht werden auch andere Daten für die Vorhersage gebraucht. Anwender sollten zudem regelmäßig prüfen, in welchem Umfang die Vorhersagen tatsächlich wie prognostiziert eingetreten sind, also, ob der Kunde tatsächlich nach den genannten sechs Monaten in der vorhergesagten Kategorie lag. In den meisten Fällen wird jedoch der Nutzen, der unter anderem durch einen gezielteren Einsatz von Marketing-Budgets und durch eine frühe Kundenbindung entsteht, den Aufwand mehr als kompensieren und zu einem erfolgreichen Gesamtergebnis führen (siehe auch "Cortal Consors durchschaut seine Kunden").

Gute Tools sind nötig

Neben guten und möglichst vollständigen Daten sind leistungsfähige Tools ein Schlüssel zum Erfolg von Data-Mining-Projekten. Sie sollten sich intuitiv bedienen lassen und erschwinglich sein. Funktional müssen sie mehrere Mining-Verfahren parallel auf ein Problem anwenden können, die Ergebnisse grafisch darstellen und bewerten helfen sowie Auswertungen automatisieren. Häufig ist Data Mining als Zusatzprodukt zu Business-Intelligence-Lösungen erhältlich. Beispiele sind der "DB2 Intelligent Miner" von IBM oder die integrierten Mining-Funktionen im "Microsofts SQL Server" (siehe auch den Beitrag: "SAS Institute: Analytics sind der nächste Mega Hype")

Mit der Funktionsbibliothek "Weka" ist sogar eine Open-Source-Lösung für Data-Mining und deren Automatisierung erhältlich. Die Bedienung ist hier jedoch etwas umständlicher als bei den kommerziellen Werkzeugen. Insgesamt haben die Werkzeuge heute aber einen Stand erreicht, der den Einsatz dieser Technologien beherrschbar und kontrollierbar macht und einen echten Mehrwert besonders für Marketing- und Vertriebsprozesse bietet. (as)