Ratgeber

Keine Angst vor Data Mining

22.05.2008
Von Hilmar Buchta

Kein Hexenwerk

Im Data Mining gibt es diverse Algorithmen, die sich für die beschriebene Aufgabe eignen und eine oder mehrere Eigenschaften auf der Basis anderer Eigenschaften vorhersagen. Häufige Verfahren sind Entscheidungsbäume, Clustering, Naive Bayes oder eventuell neuronale Netze (Ergänzend siehe auch den Beitrag "Auf Datensuche mit Text Mining und Web Mining"). Diese Verfahren werden mit vorhandenen und bekannten Daten trainiert, dass heißt, sie erkennen selbst die für die Prognose relevantesten Eigenschaften und Muster und leiten dann Regeln für die Vorhersage der Zielgrößen, in diesem Beispiel die Kundenkategorie, ab.

Nach der Trainingsphase sind die Verfahren in der Lage, auch neue und bislang unbekannte Daten mit diesen Erkenntnissen einer Kundenkategorie zuzuordnen (siehe Tabelle "Training und Vorhersage"). Diese Intelligenz hat Data Mining in der Vergangenheit häufig in die Nähe von Computer-Magie gerückt. Tatsächlich handelt es sich aber um mathematische und statistische Verfahren, wie Häufigkeitsanalysen, Korrelationen und Wahrscheinlichkeitsrechnungen, die dank der modernen Werkzeuge im Bereich Business Intelligence nicht nur für Experten und Visionäre geeignet sind, sondern sich auch von entsprechend geschulten oder beratenen Fachkräften selbst bedienen und warten lassen.

Schritt für Schritt neue Kunden einordnen

Für das Beispiel Kundenanalyse sei angenommen, dass sich die Kategorie nach etwa sechs Monaten aufgrund der Verkaufszahlen stabil zuordnen lässt. Bei Überschreitung eines bestimmten Umsatzes gilt der Kunde zum Beispiel als "Top-Käufer". Bei Neukunden und Interessenten muss diese Kategorie prognostiziert werden. Zunächst wird hier ein Mining-Modell definiert. Das Modell legt unter anderem fest, welche Daten als Eingabe verwendet werden können und welche Eigenschaften vorhergesagt werden sollen. Das setzt Kenntnisse der betriebswirtschaftlichen Zusammenhänge des jeweiligen Problems voraus (siehe auch den Beitrag "Zweiter Frühling für Data Mining").

Die Datenvorbereitung für Data-Mining darf dann auch nicht unterschätzt werden, da von ihr letztlich die Möglichkeiten der Mustererkennung und Vorhersage abhängen. So sind bei der Wahl der Datenquellen die Besonderheiten des jeweiligen Mining-Algorithmus zu beachten. Viele Algorithmen verwenden beispielsweise diskrete Daten, die eventuell aus den vorhandenen Daten zu transformieren sind. Ferner müssen relationale Daten und Zeitreihen oft noch in ein einfaches Zeilenschema überführt werden, um einen Zusammenhang zwischen Eingabewerte und Vorhersagewerten herstellen zu können. Ist anfangs nicht klar, welche Algorithmen sich am besten für das Problem eignen, sollten Anwender verschiedene Algorithmen testen und die Ergebnisse vergleichen.