Werkzeuge kein Allheilmittel

Prozessorientiertes Vorgehen macht Data Mining effektiver

14.07.2000
Allzu oft setzten Unternehmen beim Data Mining auf rein datenzentrierte Ansätze. Doch Software-Tools allein verbessern nicht die Geschäftsabläufe. Vielmehr müssen diese analysiert, Anforderungen erarbeitet und die verfügbaren Daten aufbereitet werden. Zentrale Aufgabe ist es dabei, die Befunde korrekt auf ein mathematisches Modell zu übertragen, wie Jürgen Herr* aus seinen Projekten weiß.

Mit Data Mining können Unternehmen Informationslücken (information gaps) in den Geschäftsprozessen schließen. Die Technologie analysiert Daten der Vergangenheit, prognostiziert darauf basierend künftige Entwicklungen und lässt sich über die gesamte Wertschöpfungskette einsetzen. Absatz- und Bedarfsanalysen sind bekannte Anwendungsbereiche aus der Produktion, typische Einsatzfelder im Marketing sind das Cross-Selling oder Kundenwertprognosen (Customer-Lifetime-Value).

Datenqualität ist das A und OEin Garant für verbesserte Geschäftsabläufe, also erhöhte Wirtschaftlichkeit, ist Data Mining allerdings nicht. In vielen Projekten wird dennoch der Fehler begangen, die Methode mit einem Werkzeug gleichzusetzen und daraufhin umfangreiche Auswertungen zu machen. Wer jedoch die betriebswirtschaftlich relevanten Daten derart "blind" aus den operativen Systemen übernimmt, läuft Gefahr, die gesuchten Antworten nicht zu finden. Wer beim Data Mining nicht von Anfang an die richtigen Daten verwendet, büßt dies spätestens durch die mangelnde Qualität der Prognosemodelle.

Der Trend geht dementsprechend weg von den datenzentrierten Ansätzen hin zu einem prozessorientierten Vorgehen. Dieses versteht Data Mining als den gesamten Prozess von der Erarbeitung der geschäftlichen Anforderungen bis hin zur Umsetzung der Erkenntnisse in einer operativen Anwendung. Mit Hilfe zahlreicher Methoden und Verfahren lassen sich dabei aus großen Datenmengen komplexe Zusammenhänge herausarbeiten. Bevor es an das Design des geeigneten Prognosemodells geht, gilt es, die zugehörige Grundgesamtheit inklusive der Zielgrößen und Indikatoren zu definieren. Eine umfassende Anforderungsanalyse bildet dabei das erste Glied in der Kette. Sie liefert auch die zu lösende Aufgabenstellung, die Zielgröße. Anschließend müssen die Unternehmen in ihren Geschäftsprozessen vermeintliche Einflussfaktoren für diese Zielgröße aufspüren und passende Hypothesen formulieren. Ein Beispiel aus dem Mobilfunkbereich: "Abnehmende Handy-Nutzung deutet auf eine erhöhte Stornowahrscheinlichkeit für den Vertrag." Die Erfahrung zeigt, wie wichtig es ist, auch die Fachbereiche einzubinden. Sie sollten gemeinsam ihre Fragen präzisieren, die sich anschließend auf Basis der Vergangenheitsdaten beantworten lassen.

Im Hinblick auf die definierte Aufgabenstellung durchforsten die Experten dann die Datenquellen im Unternehmen bezüglich ihres Informationswertes. Schwierig wird der so genannte Daten-Audit insbesondere dann, wenn die relevanten Informationen nicht in einer zentralen Datenquelle vorliegen, sondern unternehmensweit in unterschiedlichen Informationssystemen verteilt sind. Oftmals spielen hier noch Legacy-Systeme und migrierte Altverfahren eine Rolle. Data Warehouses, die einen globalen Zugriff auf Daten ermöglichen, erleichtern den Daten-Audit in diesem Fall erheblich.

In der nächsten Phase heißt es, die Daten zu selektieren und so zu transformieren, dass sie die erarbeiteten Hypothesen abbilden. Dazu sind entsprechende Regeln nötig, die sich am einfachsten mit Hilfe von Abfrage- und Extraktions-Tools aufstellen lassen. Sind die relevanten Informationen für die Trainings- und Testdaten gefunden, geht es an die Aggregation (Verdichtung) und die Transformation der Daten. Dazu gehört es zum Beispiel, abgeleitete Merkmale zu generieren oder die Daten als 0/1-Vektoren zu codieren. Das erfolgt in der Regel mit Hilfe marktüblicher Online-Analytical-Processing-(Olap-)Werkzeugen. Das wesentliche Ergebnis dieser Phase sind die transformierten Quelldaten, die nun die Zielgröße und die Hypothesen abbilden und aus denen sich in der Modellierungs-Phase die Trainings- und Testdaten auswählen lassen. Für den späteren Modelleinsatz müssen die benötigten Daten dann regelmäßig und pünktlich zum Stichtag aus den operativen Systemen extrahiert und in einem Data Mart aufbereitet werden.

Auf Basis der Analysedaten entsteht ein Modell, das die Anwender und Data-Mining-Experten bewerten sollen. Letztere kennen idealerweise die unterschiedlichsten Data-Mining-Methoden, angefangen mit allgemeiner Statistik bis zu komplizierten mathematischen Verfahren wie "Entscheidungsbäumen", "Fuzzy Logik", "Clustering"-Verfahren, "Regressionen" oder "neuronalen Netzen". In der Praxis heißt es nun, das jeweils passende Verfahren zu bestimmen, da je nach Einsatzgebiet beispielsweise die Ansprüche an Stabilität und Trennschärfe divergieren. Nur sollte immer das Unternehmensziel im Vordergrund stehen und kein wissenschaftliches Ziel. Denn es geht in der Regel nicht darum, die Prognose um einen Prozentpunkt zu verbessern, sondern eine stabile, praxisorientierte Data-Mining-Lösung für eine operative Aufgabe zu entwickeln.

Typische Produkte, die die mathematische Modellierung unterstützen, sind "Quadstone Decisionhouse", "Data Engine" von MIT, "SAS Enterprise Miner", "SPSS Clementine", "Cognos Scenario" und "4Thought" oder "SBS Senn". Mit ihrer Hilfe wird auch im nächsten Schritt das Erklärungsmodell erstellt, das helfen soll, bestehende oder künftige Geschäftsprozesse im Marketing oder Vertrieb zu gestalten. Grundlegend für die Prognose ist: Können Zusammenhänge in der Vergangenheit erklärt werden, lässt sich das auch auf die Zukunft übertragen.

Die anschließende Interpretationsphase evaluiert die Prognosegüte des Modells anhand vorher festgelegter Erfolgskriterien. Danach muss sich das Modell noch im praktischen Piloteinsatz bewähren, bevor die entwickelte Lösung schließlich in die betrieblichen Abläufe integriert wird. Von da an lassen sich die Prognosemodelle auf die aktuellen Datenbeständen anwenden. Die getroffenen Vorhersagen fließen als Entscheidungsgrundlage für später wiederum in Data Marts ein, zum Beispiel zur Kundenauswahl für das Kampagnen-Management oder als Absatzprognosen für den Einkauf oder die Fertigungsplanung.

Hierbei wird aber oft übersehen, dass das Umfeld, auf das sich die Prognosen stützen, einem ständigen Wandel unterliegt. So beeinflussen etwa saisonale Effekte, spezielle Angebote, Marketing-Maßnahmen oder Aktionen der Konkurrenz permanent das Kundenverhalten. Dadurch veraltet das Wissen in den Modellen; sie verlangen nach ständiger Aktualisierung. Vor allem der Einsatz von Olap und Reporting soll deshalb sowohl die Prognosequalität als auch die Einhaltung grundsätzlicher Prämissen überwachen. So kann eine Data-Mining-Lösung zur Prognose des Customer-Lifetime-Value beispielsweise auf die Qualität von Maßnahmen zur Neukundengewinnung oder des aktuellen Produktportfolios schließen lassen.

In der Regel muss deshalb das Modell in bestimmten Zeiträumen mit aktuellen Daten nachtrainiert werden. Auch neue Erkenntnisse und Verbesserungsvorschläge aus einer abgeschlossenen Analyse können eine Überarbeitung rechtfertigen. Data Mining ist also ein iteratives Verfahren.

Das gesamte Data Mining vollzieht sich auf mehreren Ebenen: Ziele und Probleme bewegen sich auf Ebene der Geschäftsprozesse. Daraus leiten sich Fragen ab, für die man auf Datenmodell-Ebene nach Antworten in den historischen Daten suchen muss. Diese Antworten der Vergangenheit sind dann die Basis für die Modellierung des zukünftigen Kundenverhaltens. Während des gesamten Prozesses wird die ursprüngliche Frage über diese Ebenen laufend transformiert. Entsprechend wichtig ist es, die Transformationen so abzuwickeln, dass dabei keine Informationen verloren gehen und das Modell-Ergebnis die ursprüngliche Frage beantwortet. Die Herausforderung für Unternehmen liegt also darin, Data Mining nicht nur reaktiv zu sehen, sondern den gesamten Ansatz proaktiv anzuwenden.

* Jürgen Herr ist Senior Consultant Data Mining bei Siemens Business Services in München.

Abb1:Praxisbeispiel

Die Grafik beschreibt den Data-Mining-Prozess anhand einer realen Anwendung. Charakteristika sind eine Analyse der Geschäftsprozesse zu Projektbeginn sowie die Implementierung eines iterativen Verfahrens. Quelle: SBS

Abb2:Prozess

Vereinfacht dargestellt sind sechs Etappen im Mining-Prozess zu absolvieren. Quelle: SBS