Bringt neue Methode den Durchbruch?

Crisp verspricht mehr Klarheit im Data-Mining

15.10.1999
MÜNCHEN (CW) - Data-Mining verspricht, automatisiert und relativ einfach wertvolle Kenntnisse und unvermutete Zusammenhänge aus bestehenden Datensammlungen auszugraben. Aber der damit verbundene Prozeß wird häufig gewaltig unterschätzt, Projekte scheitern oder bleiben hinter den Erwartungen zurück. Egbert Moen* und Michael Mayr* stellen mit Crisp-DM eine vielversprechende Methode vor, Data-Mining berherrschbarer und praktikabler zu machen.

Der Cross Industry Standard Process for Data Mining (Crisp-DM) zielt auf die Entwicklung eines Standardprozesses für das Aufdecken von Daten ab und verlegt den Fokus des Data-Mining von Technik und Statistik auf den einer Geschäftsanwendung, mit der man Geld verdienen kann. Das Arbeiten mit der Standard-Crisp-Methodik verspricht eine bessere Anpassung der Ergebnisse an die Bedürfnisse im Unternehmen, eine höhere Produktivität von Systemanalytikern durch vorab definierte Schritte und Wiederverwendung von Kenntnissen sowie einen zuverlässigen Prozeß durch bessere Vorhersehbarkeit. Ferner läßt sich der Prozeß durch das Festlegen von Schritten wiederholen und somit besser beherrschen sowie das Data-Mining mit Hilfe präziser Methoden beschleunigen.

Das Prozeßmodell

Das Crisp-DM-Modell umfaßt den ganzen Zyklus eines Data-Mining-Prozesses in sechs Phasen, die alle aus Aufgaben und Outputs bestehen. Die Aufgaben im Modell sind vollständig und generisch, daß heißt sie sind unabhängig vom spezifischen Business- und Data-Mining-Problem. Zudem werden sich die verwendeten Techniken auch in zukünftige Entwicklungen im Data-Mining, wie etwa neue Modelliertechniken, integrieren lassen.

Das Crisp-Modell unterscheidet die Phasen Business-Understanding, Data-Understanding, Data-Preparation, Modelling, Evaluation und Deployment (siehe Abbildung). Es legt dabei den Fokus weniger auf technische als auf wirtschaftliche Gesichtspunkte. Die erste Phase, das Business-Understanding, ist ein Beleg dafür. In ihr werden unter anderem Business-Ziele (zum Beispiel: Verbessere den Absatz von Produkt X um 10 Prozent), die daraus hervorgehenden Fragestellungen (zum Beispiel: Wie sieht das Profil des Kunden aus, der in den letzten sechs Monaten Produkt X gekauft hat?), Ausgangspunkte und Erfolgskriterien bestimmt. Dies alles soll dann zu einem Projektplan führen, in dem die Ausgangspunkte und die Vorgehensweise des Data-Mining-Projekts deutlich werden.

Die zweite Phase, Data-Understanding, soll ein Bild derjenigen Daten verschaffen, die in der Data-Mining-Analyse eine Rolle spielen werden. Zentral ist dabei der Datenbestand (welche Quellen sind geeignet), die Qualität der Daten (fehlende Werte, Unvollständigkeit), das erste Erforschen der Daten und eventuelle Maßnahmen, die Qualität der Daten zu erhöhen. In dieser Phase kommen oft Probleme ans Licht. Ein typisches Beispiel ist das Ausfüllen von Datenbankfeldern in primären Prozessen. Regelmäßig stellt sich heraus, daß Daten, bei denen das Informatiksystem keine richtige Eintragung erzwingt, in einer sehr mäßigen Qualität gespeichert sind. Sind sie für den primären Prozeß nicht notwendig, dann muß oft ganz auf sie verzichtet werden, weil es nicht genügend Datensätze mit sinnvollen Einträgen gibt.

Data-Preparation, die dritte Phase, enthält alle Aktivitäten, die notwendig sind, um die Daten für das automatisierte Zerlegen in brauchbare Wissensbestandteile. Dies fängt bereits mit einer Beschreibung der verfügbaren Daten an. Mittels der Schritte Auswahl, Bereinigung, Integration und Formatierung sollten die Daten die Form bekommen, die notwendig ist, um die verfügbaren Data-Mining-Techniken anwenden zu können. Dazu müssen zum Beispiel Geburtsdaten in Lebensalter umgerechnet werden.

In der Modelling-Phase finden die Aktivitäten statt, mit deren Hilfe die gesuchten Kenntnisse und Zusammenhänge tatsächlich aus den Daten zum Vorschein kommen sollen. Die Schritte sind: die Auswahl von Modelliertechniken (zum Beispiel: Entscheidungsbäume, neuronale Netzwerke, Regelinduktion und Regression), das Generieren von Test- und Trainsets der Daten, der Bau und die Echtheitsprüfung von Modellen. Mit Hilfe der erstellten und getesteten Modelle kann man dann letztendlich an die so begehrten Kenntnisse gelangen, indem man den zu erforschenden Datensatz damit konfrontiert. Von vielen werden die Aktivitäten, die hier in der Phase Modelling positioniert wurden, als das eigentliche Data-Mining angesehen, während es auch Definitionen gibt, die alle Aktivitäten für das Erlangen von Kenntnissen aus Daten umfassen.

Es wird erkennbar, daß Datenanalyse von einem Busines-Standpunkt aus nur sinnvoll ist, wenn ein korrekter und kontrollierbarer Prozeß zugrunde liegt. Die folgenden Phasen des Crisp-Prozeßmodells unterstützen dies in hohem Maße. So ist das wichtigste Ziel der Phase Evaluation, festzustellen, ob die entwickelten Modelle dem Problem und den geschäftlichen Erfolgskriterien gerecht werden. Es findet also eine deutliche Rückkopplung zu den Ausgangspunkten, die am Anfang des Prozesses gewählt wurden, statt.

Die Schritte der Evaluation sind: Bewertung der Ergebnisse, Review des Prozesses und das Definieren der nächsten Schritte. Letzteres impliziert, daß es, je nach Ergebnis, sehr gut möglich ist, daß Teile des Prozesses noch einmal durchlaufen werden müssen. Mögliche Gründe könnten sein, daß das Ergebnis zuwenig Anhaltspunkte für die Problemlösung bietet oder daß gerade dermaßen interessante Ergebnisse erzielt wurden, daß man sich zu weiterer Forschung entschließt. Im letzten Schritt Deployment wird das Data-Mining-Projekt abgeschlossen und der endgültige Report erstellt. Dies alles aber nicht, bevor die Anwendung der Ergebnisse geplant ist wie auch die Kontrolle und die Instandhaltung der erstellten Modelle. Am Ende sollte eine Bewertung des Verlaufs und der resultierenden Erfahrung stehen.

Im Rahmen des Projekts zur Entwicklung der Crisp-Methode, haben der holländische Versicherer Ohra und Daimler-Chrysler das Prozeßmodell auf Praxissituationen im Marketing angewendet. Einmal um das Anfangsmodell zu testen und einmal um eine zweite fortgeschrittene Version zu validieren. Es hat sich herausgestellt, daß Crisp auf jeden Fall einen Teil der im Modell gemachten Versprechen einlöst. Vor allem der bessere Anschluß an die Business-Problematik, die Zuverlässigkeit und Wiederholbarkeit des Prozesses und die Wiederverwendung von Kenntnissen kommen in der Praxis ausgezeichnet zur Geltung.

Eine gesteigerte Effizienz durch Crisp ist allerdings noch schwer festzustellen. Die Berichterstattung über die Anwendung von Crisp im Rahmen des Projektes hat viel Zeit gekostet und die Methode will erst einmal gelernt sein. Trotzdem überwiegt bei den Beteiligten das Gefühl, daß Crisp einen wertvollen Halt beim Einsatz von Data-Mining-Technologie in der Praxis bietet. Wichtig ist dabei aber auch die Einsicht, daß derartige Projekte immer zum größten Teil Menschenwerk bleiben werden und daß die Qualität dieser Projekte letztendlich durch diejenigen bestimmt wird, die sie ausführen. Eine gute und strukturierte Methode ist nicht mehr und nicht weniger als eine Hilfe.

Das Projekt Crisp-DM ist nahezu abgeschlossen (siehe Kasten "Projekt und Konsortium"). Die Ergebnisse wurden im Report festgehalten, der das Konzept Crisp-DM, das Prozeßmodell sowie eine Benutzergebrauchsanweisung inklusive allgemeiner Hilfe bezüglich Data-Mining-Techniken enthält. Neben den Benutzerprojekten wurden vier Special Interest Group (SIG) Meetings organisiert, die vor allem zum Ziel hatten, das Crisp-Konzept in der Data-Mining-Welt zu verbreiten wie auch Input für die Entwicklung des Prozeßmodells zu liefern. Weltweit sind über 140 Unternehmen mittlerweile Mitglied der Crisp-SIG.

Material und Kontakt

Das Crisp Konsortium hat unter: http://www. crisp-dm.org umfangreiche Information zusammengestellt, inklusive Material von und über SIG-Meetings, Informationen über die Partner im Projekt und darüber, wie man mit diesen Organisationen Kontakt aufnehmen kann. Auch der Abschlußbericht des Projekts steht auf der Website zum Herunterladen bereit.

Projekt und Konsortium

Im Juli 1997 wurde das Projekt Crisp-DM offiziell mit der Bildung eines Konsortiums aus der Taufe gehoben. Die Initiatoren waren NCR Dänemark und Daimler-Benz, die zusammen eine Lösung für das Fehlen einer gut definierten und dokumentierten Methode für Data-Mining suchten. Diese zwei Unternehmen, erweitert um die englische Integral Solutions Limited (ISL), Anbieter des Data-Mining-Pakets "Clementine", sowie "Ohra Versicherungen und Bank Gruppe", bilden zusammen das Crisp-Konsortium. Das Projekt Crisp-DM ist teilweise subventioniert von der Europäischen Kommission im Rahmen des Esprit-Programms zur Förderung von technologischen Entwicklungen in Europa.

NCR erfüllt die Rolle des Projektleiters und Lieferanten von Data-Mining-Know-how. Letzteres ist auch die Aufgabe von ISL, die außerdem die mögliche Anwendung von Crisp in Tools vornimmt. Daimler-Chrysler und Ohra sind beteiligt als Benutzerorganisationen, die beide zwei Pilotprojekte für Crisp durchgeführt haben. Das erste Projekt, um das initiale Prozeßmodell zu testen, das zweite, um das angepaßte (sogenannte Enhanced-) Prozeßmodell zu validieren.

Bei Daimler-Chrysler soll die Anwendung feststellen, welche Faktoren den Kauf eines Autos durch einen Kunden beeinflussen. Dabei wurden vornehmlich Gruppierung und Regelinduktion angewendet. Ohra hat Crisp auf zwei verschiedene Weisen eingesetzt. Die erste Forschung betraf eine Analyse des Kundenverlusts (Customer Churn), die zweite Forschung sollte klären, welche Faktoren den Ankauf von Lebensversicherungspolicen erklären. Vor allem Regelinduktion, neuronale Netzwerke und bestimmte Formen von Regression wurden hierbei angewendet.

*Egbert Moen arbeitet bei der niederländischen Versicherungsgesellschaft Ohra, Michael Mayr ist Marketing-Manager bei SPSS GmbH Software.