Ratgeber

Keine Angst vor Data Mining

22.05.2008
Von Hilmar Buchta

Das Beispiel setzt natürlich voraus, dass die zu prognostizierende Eigenschaft, hier die Kundenkategorie, sich direkt ableiten ließe für den Fall, dass genügend Daten vorhanden sind. Neben dieser Vorhersage können Data-Mining-Verfahren aber auch mit dem Ziel eingesetzt werden, die Kundenkategorien selbst zu erkennen. Hier spricht man von Clustering, dass heißt, der Mining-Algorithmus analysiert die vorhandenen Daten und teilt diese in Kategorien ein. In der Regel wird man den Kategorien dann anschließend sprechende Namen, wie "Doppeltes Haushaltseinkommen" oder "Alleinerziehend", zuordnen. In diesem Fall bezieht sich die Prognose darauf, in welches Cluster der Kunde wahrscheinlich fällt.

Data Mining als Teil von ETL-Prozessen

Hat sich der Anwender für ein Modell entschieden, kann er dies unbetreut und automatisiert weiterverwenden. Für die Trainingsphase verwenden wir in diesem Beispiel vorhandene Daten aus einem ERP-System. Zu allen Kunden, die bereits mehr als sechs Monate Kunde sind, wird die Kategorisierung zu diesem Zeitpunkt gelesen. Dies setzt aber voraus, dass die Kategorisierung im Zeitverlauf protokolliert wird, was jedoch schon wegen des Nutzens für die Erkennung von Änderungen im Käuferverhalten sinnvoll ist. Nachdem das Modell mit diesen Daten trainiert wurde, kommen die Daten von Neukunden hinzu; dann kann das Mining-Modell zur Vorhersage der Kundenkategorie genutzt werden.

Eine Möglichkeit, Data-Mining-Verfahren in die IT-Landschaft einzubinden, ist bei der Extraktion, Transformation und Laden (ETL) von Daten in ein Data Warehouse. Der Ladeprozess kann das Training und die Abfragen in einem Job kombinieren und die Daten vollautomatisch (zum Beispiel nachts) verarbeiten. Die gewünschten Daten stehen danach für das Marketing im Data Warehouse bereit. Auf diesem Weg finden Änderungen im Kaufverhalten schnell einen Niederschlag in den Daten, etwa wenn der Algorithmus festgestellt hat, dass inzwischen andere Eigenschaften für die Vorhersage herangezogen werden müssen. Diese automatischen Modellanpassungen können direkt beim Training des Modells stattfinden. Die vorhergesagte Kategorie schreiben wir zur Unterscheidung von der berechneten Kategorie in ein eigenes Feld, so dass immer klar ersichtlich ist, welche Kategorie sicher und welche vorhergesagt ist.