Ratgeber

Keine Angst vor Data Mining

22.05.2008
Von Hilmar Buchta

Fallstricke bei der täglichen Arbeit

Selbst wenn alle Daten vorhanden wären, bleibt die Frage, ob eine Prognose überhaupt möglich ist. Selbstverständlich ist dies nicht: Eventuell gibt es keinerlei Zusammenhang zwischen den erhobenen, den vorliegenden Daten und der zu prognostizierenden Kundenkategorie. Glücklicherweise geben die Mining-Algorithmen hierzu zumindest eine Rückmeldung. Beim Training wird typischerweise nur ein Teil der vorhandenen Daten genutzt und das Ergebnis sofort auf den übrigen Teil angewendet und überprüft. Zugleich wird diese Kreuzvalidierung gleich mehrfach vorgenommen, um eine Aussage zur Qualität der Vorhersage treffen zu können. Besondere Darstellungsformen wie das Lift-Diagramm können dann die Prognosegenauigkeit eines Algorithmus darstellen.

Training und Vorhersage

Alter

Bruttogehalt

Kinder

...

Kundenkategorie

Bekannte Daten (Trainings-Dataset)

36

20-30

Ja

...

A

39

30-40

Ja

...

B

...

...

...

...

...

20

20-30

Nein

...

??

Neue Daten (Vorhersage)

30

30-40

Nein

...

??

45

30-40

Ja

...

??

Aufteilung der Daten in Trainingsdaten und Vorhersagedaten. Trainingsdaten sind in Bezug auf die vorherzusagende Eigenschaft (hier: die Kategorie) bekannt und werden genutzt, um das Data-Mining-Modell für die Vorhersage vorzubereiten. Bei den Abfragedaten ist diese Eigenschaft unbekannt und wird durch das vorher trainierte Modell 'sinngemäß' ergänzt.

Ein anderes Problem bei der Verwendung des Data-Mining-Ansatzes zur Vorhersage von Eigenschaften besteht darin, dass es sich um eine sich selbst erfüllende Prophezeiung handeln könnte. Die Wahrscheinlichkeit einer starken Kundenbindung ist nämlich sicherlich nicht unabhängig von dem aufgewendeten Marketingbudget für einen Kunden. Dieser Vorwurf lässt sich zwar nicht komplett entkräften, jedoch kann man das Verfahren gefahrlos zum Beispiel sechs Monate laufen lassen und sich dann anschauen, inwieweit die Vorhersagen tatsächlich eingetreten sind. Wenn sich nach dieser Erprobungsphase eine gute Übereinstimmung offenbart, sind die Ergebnisse künftig für Marketingzwecke brauchbar.