Keine Angst vor Data Mining

16.05.2008
Am Beispiel der Kundenkategorisierung zeigen sich die Stärken und Schwierigkeiten von Data-Mining-Verfahren. Erfolgsfaktoren sind ein solides fachliches Verständnis, saubere Daten, Kontrollen und gute Tools.

Alter

Bruttogehalt

Kinder

"

Kundenkategorie

Bekannte Daten (TrainingsDataset)

36

20-30

Ja

"

A

39

30-40

Ja

"

B

"

"

"

"

"

20

20-30

Nein

"

??

Neue Daten (Vorhersage)

30

30-40

Nein

"

??

45

30-40

Ja

"

??

Mit Verfahren des Data Mining lassen sich geschäftsrelevante Muster, Regeln und Auffälligkeiten in Massendaten entdecken. Viele Anwender scheuen aber vor diesem Thema zurück, weil sie es für schwer beherrschbar und komplex halten. Doch die wachsende Verbreitung sollte Mut machen. So ist Data Mining aus den intelligenten Vorschlagslisten bei Web-Shops nicht mehr wegzudenken, und auch im Marketing und Vertrieb lässt sich ein echter Mehrwert erzielen. Ein typisches Beispiel ist die Bewertung des Umsatzpotenzials von Kunden und Interessenten und deren Zuordnung in Segmente oder Kategorien.

Erfolgsfaktoren für Data Mining

Prozesse und betriebswirtschaftlichen Hintergrund des Problems verstehen;

Anforderungen der Anwender und Ziel des Modells erfassen;

Daten sorgfältig auswählen und vorbereiten;

Qualität unterschiedlicher Mining-Algorithmen vergleichen;

Verarbeitung automatisieren;

Modell kontinuierlich kontrollieren und verbessern.

Das Marketing kann dadurch Adressaten für Kampagnen gezielter auswählen und Änderungen im Kaufverhalten schneller erkennen. Für nachfolgende Vertriebsaktionen könnte dann ein Ziel lauten, im nächsten Jahr 20 Prozent der Kunden von der Kategorie "kauft nur sporadisch" in die bessere Kategorie "Top-Käufer" zu bringen. Werden Kategorien mit Bezug auf Artikelgruppen gebildet, lassen sich sehr leicht Chancen für Cross-Selling erkennen und beispielsweise durch geschicke Gutschein-Maßnahmen unterstützen. Bei automatischen Bestellsystemen, wie sie häufig im Internet zu finden sind, könnte umgekehrt ein deutliches Abweichen der aktuellen Bestellung von der Kategoriestufe des Kunden auf einen Betrugsversuch von dritter Seite hindeuten. Diese Bestellung könnte dann manuell geprüft werden.

Allerdings kann eine Kundenkategorisierung, die nur auf tatsächlich getätigten Umsätzen basiert, nur für Bestandskunden festgelegt werden, zum Beispiel anhand von Schwellenwerten. Verlässliche Daten über Neukunden und Interessenten fehlen hingegen. Kunden mit sehr hohem Potential werden so eventuell nicht rechtzeitig erkannt und daher nicht optimal betreut. Im schlimmsten Fall wechseln sie zur Konkurrenz. Um dies zu verhindern, benötigt der Anbieter eine realistische Einschätzung des Potenzials des Kunden. Bei Neukunden kann Data Mining hier die entscheidende Prognose liefern und somit eine frühzeitige Einschätzung ermöglichen.

Mit bekannten Daten trainieren, unbekannte prognostizieren

Voraussetzung hierfür ist natürlich, möglichst viele Daten über Neukunden und Interessenten zur Verfügung zu haben und in die Auswertung einzubringen. Zwar lässt eine solche Datenbasis keine hundertprozentigen Vorhersagen zu, aber selbst eine Wahrscheinlichkeit von 70 Prozent würde dem Marketing schon helfen, sein Budget gezielter einzusetzen.

Im Data Mining gibt es diverse Algorithmen, die sich für die beschriebene Aufgabe eignen und eine oder mehrere Eigenschaften auf der Basis anderer Eigenschaften vorhersagen. Häufige Verfahren sind Entscheidungsbäume, Clustering, Naive Bayes oder eventuell neuronale Netze. Diese Verfahren werden mit vorhandenen und bekannten Daten trainiert, dass heißt, sie erkennen selbst die für die Prognose relevantesten Eigenschaften und Muster und leiten dann Regeln für die Vorhersage der Zielgrößen, in diesem Beispiel die Kundenkategorie, ab. Nach der Trainingsphase sind die Verfahren in der Lage, auch neue und bislang unbekannte Daten mit diesen Erkenntnissen einer Kundenkategorie zuzuordnen (siehe Tabelle "Training und Vorhersage"). Diese Intelligenz hat Data Mining in der Vergangenheit häufig in die Nähe von Computermagie gerückt. Tatsächlich handelt es sich aber um mathematische und statistische Verfahren wie Häufigkeitsanalysen, Korrelationen und Wahrscheinlichkeitsrechnungen, die dank der modernen Werkzeuge im Bereich Business Intelligence nicht nur für Experten und Visionäre geeignet sind, sondern sich auch von entsprechend geschulten oder beratenen Fachkräften selbst bedienen und warten lassen.

Nach sechs Monaten lässt sich der Kunde einordnen

Für das Beispiel Kundenanalyse sei angenommen, dass sich die Kategorie nach etwa sechs Monaten aufgrund der Verkaufszahlen stabil zuordnen lässt. Bei Überschreitung eines bestimmten Umsatzes gilt der Kunde zum Beispiel als "Top-Käufer". Bei Neukunden und Interessenten muss diese Kategorie prognostiziert werden. Zunächst wird hier ein Mining-Modell definiert. Das Modell legt unter anderem fest, welche Daten als Eingabe verwendet werden können und welche Eigenschaften vorhergesagt werden sollen. Das setzt Kenntnisse der betriebswirtschaftlichen Zusammenhänge des jeweiligen Problems voraus. Die Datenvorbereitung für Data Mining darf dann auch nicht unterschätzt werden, da von ihr letztlich die Möglichkeiten der Mustererkennung und Vorhersage abhängen. So sind bei der Wahl der Datenquellen die Besonderheiten des jeweiligen Mining-Algorithmus zu beachten. Viele Algorithmen verwenden beispielsweise diskrete Daten, die eventuell aus den vorhandenen Daten zu transformieren sind. Ferner müssen relationale Daten und Zeitreihen oft noch in ein einfaches Zeilenschema überführt werden, um einen Zusammenhang zwischen Eingabe- und Vorhersagewerten herstellen zu können. Ist anfangs nicht klar, welche Algorithmen sich am besten für das Problem eignen, sollten Anwender verschiedene Algorithmen testen und die Ergebnisse vergleichen.

Das Beispiel setzt voraus, dass die zu prognostizierende Eigenschaft, hier die Kundenkategorie, sich direkt ableiten lässt, für den Fall, dass genügend Daten vorhanden sind. Neben dieser Vorhersage können Data-Mining-Verfahren aber auch mit dem Ziel eingesetzt werden, die Kundenkategorien selbst zu erkennen. Hier spricht man von Clustering, dass heißt, der Mining-Algorithmus analysiert die vorhandenen Daten und teilt diese in Kategorien ein. In der Regel wird man den Kategorien dann anschließend sprechende Namen wie "Doppeltes Haushaltseinkommen" oder "Alleinerziehend" zuordnen. In diesem Fall bezieht sich die Prognose darauf, in welches Cluster der Kunde wahrscheinlich fällt.

Wann ändern Kunden ihr Kaufverhalten?

Hat sich der Anwender für ein Modell entschieden, kann er es unbetreut und automatisiert weiterverwenden. Für die Trainingsphase benutzen wir in diesem Beispiel vorhandene Daten aus einem ERP-System. Für alle Kunden, die bereits mehr als sechs Monate Kunde sind, wird die Kategorisierung zu diesem Zeitpunkt gelesen. Dies setzt aber voraus, dass die Kategorisierung immer wieder protokolliert wird, was schon allein wegen des Nutzens für die Erkennung von Änderungen im Käuferverhalten sinnvoll ist. Nachdem das Modell mit diesen Daten trainiert wurde, kommen die Daten von Neukunden hinzu; dann kann das Mining-Modell zur Vorhersage der Kundenkategorie genutzt werden.

Eine Möglichkeit, Data-Mining-Verfahren in die IT-Landschaft einzubinden, ist die Extraktion, Transformation und Laden (ETL) von Daten in ein Data Warehouse. Der Ladeprozess kann das Training und die Abfragen in einem Job kombinieren und die Daten vollautomatisch (zum Beispiel nachts) verarbeiten. Die gewünschten Daten stehen danach für das Marketing im Data Warehouse bereit. Auf diesem Weg finden Änderungen im Kaufverhalten schnell einen Niederschlag in den Daten, etwa wenn der Algorithmus festgestellt hat, dass inzwischen andere Eigenschaften für die Vorhersage herangezogen werden müssen. Diese automatischen Modellanpassungen können direkt beim Training des Modells stattfinden. Die vorhergesagte Kategorie schreiben wir zur Unterscheidung von der berechneten Kategorie in ein eigenes Feld, um sie von den "sicheren" Kategorien abzusetzen.

Ergänzende Kundendaten verbessern die Prognosen

Trotz dieses systematischen Vorgehens sind wirklich gesicherte Prognosen bezüglich des Kaufverhaltens schwierig, solange keine ausreichenden Daten vorliegen. Unternehmen müssen daher alle Möglichkeiten zum Sammeln von Daten ausnutzen. Betreiben sie beispielsweise einen Web-Shop, können sie Daten der Kunden erfassen lassen oder sie durch Gewinnspiele oder Kundenkarten zur Herausgabe weiterer Angaben bewegen. Eine andere Quelle sind Agenturen, die kundenrelevante Informationen verkaufen. Einige für die Prognose benötigte Daten werden sich trotzdem nur schätzen lassen. Dafür gibt es recht gut funktionierende Verfahren, um beispielsweise das Alter aus dem Vornamen abzuleiten oder das Jahresgehalt aus Wohnort und Straße (zum Beispiel über den Mietspiegel). Solche abgeleiteten Kenntnisse sind aber unbedingt in getrennten Feldern zu speichern und müssen vom Mining-Algorithmus analysiert werden, um eventuell noch eine andere Gewichtung vorzunehmen. Und selbst dann werden Unternehmen nie über vollständige Kunden- und Interessentendaten verfügen. Moderne Mining-Algorithmen können aber auch mit Null-Werten umgehen und interpretieren diese korrekterweise so, dass die betreffenden Informationen nicht bekannt sind.

Probleme und Aufwände im Data Mining

Selbst wenn alle Daten vorhanden wären, bleibt die Frage, ob eine Prognose überhaupt möglich ist. Selbstverständlich ist dies nicht: Eventuell gibt es keinerlei Zusammenhang zwischen den erhobenen, den vorliegenden Daten und der zu prognostizierenden Kundenkategorie. Glücklicherweise geben die Mining-Algorithmen hierzu zumindest eine Rückmeldung. Beim Training wird typischerweise nur ein Teil der vorhandenen Daten genutzt und das Ergebnis sofort auf den übrigen Teil angewendet und überprüft. Zugleich wird diese Kreuzvalidierung gleich mehrfach vorgenommen, um eine Aussage zur Qualität der Vorhersage treffen zu können. Besondere Darstellungsformen wie das Lift-Diagramm können dann die Prognosegenauigkeit eines Algorithmus darstellen.

Ein anderes Problem bei der Verwendung des Data-Mining-Ansatzes zur Vorhersage von Eigenschaften besteht darin, dass es sich um eine sich selbst erfüllende Prophezeiung handeln könnte. Die Wahrscheinlichkeit einer starken Kundenbindung ist nämlich sicher nicht unabhängig von dem aufgewendeten Marketing-Budget für einen Kunden. Dieser Vorwurf lässt sich zwar nicht komplett entkräften, jedoch kann man das Verfahren gefahrlos zum Beispiel sechs Monate laufen lassen und sich dann anschauen, inwieweit die Vorhersagen tatsächlich eingetreten sind. Wenn sich nach dieser Erprobungsphase eine gute Übereinstimmung offenbart, sind die Ergebnisse künftig für MarketingZwecke brauchbar.

Natürlich entstehen Aufwände bei der Erstellung des Modells und vor allem später bei ihrer weiteren Pflege. Wie dargestellt, lässt sich das Modell beispielsweise in einem ETL-Prozess automatisiert und ohne Benutzereingriffe verwenden.

Regelmäßige Kontrollen und Änderungen des Modells Trotzdem ist das Modell von Zeit zu Zeit zu überprüfen und an neue Gegebenheiten anzupassen. So könnten sich beispielsweise die Voraussetzungen, die zum Modell geführt haben, geändert haben, oder die Vorhersagequalität ist nicht mehr ausreichend hoch. Vielleicht werden auch andere Daten für die Vorhersage gebraucht. Anwender sollten zudem regelmäßig prüfen, in welchem Umfang die Vorhersagen tatsächlich wie prognostiziert eingetreten sind, also, ob der Kunde tatsächlich nach den genannten sechs Monaten in der vorhergesagten Kategorie lag. In den meisten Fällen wird jedoch der Nutzen, der unter anderem durch einen gezielteren Einsatz von Marketing-Budgets und durch eine frühe Kundenbindung entsteht, den Aufwand mehr als kompensieren und zu einem erfreulichen Gesamtergebnis führen.

Neben guten und möglichst vollständigen Daten sind leistungsfähige Tools ein Schlüssel zum Erfolg von Data-Mining-Projekten. Sie sollten sich intuitiv bedienen lassen und erschwinglich sein. Funktional müssen sie mehrere Mining-Verfahren parallel auf ein Problem anwenden können, die Ergebnisse grafisch darstellen und bewerten helfen sowie Auswertungen automatisieren. Häufig ist Data Mining als Zusatzprodukt zu Business-Intelligence-Lösungen erhältlich. Beispiele sind der "DB2 Intelligent Miner" von IBM oder die integrierten Mining-Funktionen in Microsofts "SQL Server".

Ausgereiftes Angebot an Werkzeugen für Data Mining Mit der Funktionsbibliothek "Weka" ist sogar eine Open-Source-Lösung für Data Mining und seine Automatisierung erhältlich. Die Bedienung ist etwas umständlicher als bei den kommerziellen Werkzeugen. Insgesamt haben die Werkzeuge heute aber einen Stand erreicht, der den Einsatz dieser Technologien beherrschbar und kontrollierbar macht und einen echten Mehrwert besonders für Marketing- und Vertriebsprozesse bietet. (as)