Data-Warehouse/Data-Mining - Wunsch und Wirklichkeit

Statistiken, Grafiken und die Grenzen der Programme

02.05.1997

Bei der Diskussion um Data-Mining geht es zunächst einmal um die folgende Kernfrage: Kann eine Data-Mining-Software selbständig die Fragen stellen, deren Antwort für uns wichtig ist? Typische Beispiele verlaufen etwa nach folgenden Mustern:

- In 71 Prozent der Fälle, bei der Aktie X um mehr als 12 Prozent stieg, kletterte auch die Aktie Y in der Folgewoche nach oben.

- Gute Kreditkartenkunden haben ein Einkommen über 50000 Mark, sind zwischen 45 und 50 Jahre alt und wohnen in Z.

- Kreditkartenkunden, die im August für mehr als 300 Mark Sportwaren kauften, haben mindestens 2000 Mark Kreditrahmen verfügbar.

Einfache Antworten auf einfache Fragen

Analyseresultate dieser Art klingen einleuchtend, und leistungsstarken Computern ist heute einiges zuzutrauen. Warum sollte also eine Software nicht auch die Fragen stellen, die zu diesen einfachen Antworten gehören? Denn wenn die Antworten einfach sind, müßten auch die Fragen einfach zu stellen und somit auch die Softwarelösung machbar sein.

Doch das ist noch Zukunftsmusik. Die für uns interessanten Fragen kann jeder Anbieter nur selber stellen. Andernfalls müßte eine Data-Mining-Software in der Lage sein, seine Interessenmuster zu analysieren und daraus die für ihn wichtigen Fragen abzuleiten. Aber von einer derartigen Big-Brother-DV sind wir weit entfernt. Data-Mining-Software wird den Unternehmen in keinem Fall das Denken abnehmen. Ohne die Intelligenz des Menschen ist sie wertlos.

Ohnehin werden alle Datenanalytiker bei obengenannten Beispielen feststellen, daß es zunächst um Grundlagen der Statistik geht: Klassifikatoren, Zusammenhänge, Abhängigkeiten. Das ist an sich nichts Neues, zumal Softwaresysteme für Reporting und Datenanalyse wie das SAS-System derartige Techniken schon seit Jahrzehnten liefern.

Worin unterscheidet sich nun aber Data-Mining von den bekannten Methoden? Der englische Begriff Mining beantwortet diese Frage zum Teil bildhaft schon selbst: So wie ein Minenarbeiter im Bergwerk nach verborgenen Schätzen sucht und immer tiefere, weitverzweigtere Stollen in die Erde hineintreibt, um fündig zu werden, so werden beim Data-Mining aus dem "Datenbergwerk" verborgene Informationen ans Tageslicht befördert - allerdings wie im modernen Bergbau mit einigen technischen Neuerungen und verbesserten Methoden.

Mit Data-Mining verbindet man neuerdings vor allem vier Verfahren der Datenanalyse und mathematischen Statistik: künstliche neuronale Netze, Assoziationsanalyse, Segmentierungsverfahren mit Entscheidungsbäumen und moderne lineare und logistische Regression. Diese Verfahren sind zwar so neu nicht, wie manche Marketing-Strategen dem Endanwender gerne glauben machen möchten. Jedoch sind sie in der heutigen globalen Wettbewerbssituation die Methoden der Wahl für eine gezielte, individualisierte Marktbearbeitung im Gegensatz zur undifferenzierten Massenansprache.

Die Verfahren führen zu besseren Prognosen, differenzierteren Segmentierungen, Klassifizierungen und Bewertungen von Kundengruppen oder Märkten. Das Aufspüren bisher verborgener Zusammenhänge zwischen den Daten ermöglicht es beispielsweise, Vertrieb und Marketing zu verbessern und gezielt an aktuelle Anforderungen anzupassen. Und gerade der europäische (Angebots-)Markt erfordert die ständige Entwicklung neuer Produkte, intelligenter Dienstleistungen und die immer differenziertere Ansprache des Kunden.

Doch das massive Interesse am Data-Mining resultiert auch aus einer Konfliktsituation vieler Unternehmen. Einerseits sind riesige Informationsmengen - zum Teil im zweistelligen Terabyte-Bereich - vorhanden, andererseits bleiben viele Wünsche nach einer effizienten Auswertung unerfüllt. Data-Mining soll diese Lücke schließen: Ultima Ratio im Kampf gegen die gewaltige Informationsflut.

Unter der Flagge des Data-Mining

Data-Mining-Lösungen enthalten natürlich die klassischen Verfahren zur Analyse von Ursache-Wirkung-Beziehungen, zu allererst die altbekannten Häufigkeitsauszählungen. Nichts anderes sind auch die eingangs unter der Flagge des Data-Mining aufgeführten Beispielergebnisse. Hinzu kommen lineare und logistische Regression, Entscheidungsregeln, Conjoint-Analyse, neuronale Netze etc.

Neben dem erweiterten Methoden- und Tool-Spektrum bietet Data-Mining inzwischen auch integrierte, leicht zu bedienende End-User-Lösungen, die über eine intelligente Kombination statistischer Verfahren, benutzerfreundlicher Windows-Oberflächen und leistungsstarker Visualisierungswerkzeuge verfügen.

Die hochkomplexen statistischen Verfahren des Data-Mining laufen in diesen Softwarelösungen weitgehend automatisch und dank enorm leistungsfähiger Rechner mit hoher Performance ab. Neu im Vergleich zu den klassischen Verfahren der mathematischen Statistik ist auch, daß keine Voraussetzungen an die statistische Verteilung der Zufallsgrößen gestellt sind. Die Qualität der Ergebnisse läßt sich praxisnah mit sogenannten Prüf- oder Validierungsdaten dokumentieren. Diese Vorgehensweise erfordert als Grundvoraussetzung allerdings große Datenmengen, wie sie in einem modernen Data-Warenhouse vorhanden sind. Nicht zu vergessen ist auch die entsprechende Rechnerleistung.

Stehen allerdings nur wenige Daten zur Verfügung, weil die einzelne Beobachtung relativ teuer ist, wird nach wie vor die klassische mathematische Statistik gefragt sein. Und hier stößt Data-Mining an seine Grenzen. Dies ist zum Beispiel in der pharmazeutischen und chemischen Industrie der Fall, unter anderem in der klinischen Forschung, wo einzelne Versuche mit ihrer Datenerhebung teilweise mehrere tausend Mark kosten. Allen Versprechungen jedoch, daß Data-Mining-Software die für den Anwender wichtigen Fragestellungen automatisch herausfindet und auch gleich beantwortet, sollte man mit größtem Mißtrauen begegnen.

Ebenso hegen viele die Illusion, daß man in die Blackbox Data-Mining nur die richtigen Daten eingeben müsse, und schon erhalte man die gewünschten Ergebnisse. Dies ist ein Irrtum. Erstens bedeuten Data-Mining-Projekte beträchtliche Investitionen in Personal, Ausbildung und Hardware. Eine weitere Voraussetzung für erfolgreiches Data-Mining ist ein Data-Warehouse, dessen Aufbau relativ aufwendige Vorarbeiten vorausgingen: Dazu gehören Prozeduren wie Analyse der Rohdatenstruktur, Datenextraktion, Datenselektion, Datenvorbereitung, Zusammenführung der Daten, Datentransformation, Datenprüfung und Korrektur.

Erfahrungswerte belegen, daß diese Vorarbeiten rund 80 Prozent des Gesamtaufwands eines Data-Mining-Projekts ausmachen. Sie bilden somit den Kern und wichtigsten Teil des Projekts. Seriös aufgesetzte Pilotprojekte kosten mehrere zehn- bis hunderttausend Mark und erfordern etwa ein bis drei Personenmonate. Data-Mining ist nur so effektiv wie die Datengrundlage und bringt umso wertvollere Ergebnisse, je mehr in die Vorarbeiten zur Datenbasis investiert wurde. Wer allerdings diese Grundregel mißachtet, für den gilt die alte Binsenweisheit: "Schrott rein - Schrott raus".

Die Stärken von Data-Mining liegen also vor allem darin, große und komplexe Datenmengen differenziert und vielschichtig zu analysieren. Damit lassen sich anhand von Kundenmerkmalen zahlreiche Details zutage fördern: Bonität, Kundentypologien und Kaufwahrscheinlichkeiten für bestimmte Produkte, Kaufverhalten bei verschiedenen Preisklassen oder Kundenzufriedenheit, aber auch Betrugserkennung bei Versicherungen.

Vor allem bei der Klassifikation von Zielgruppen bringt Data-Mining entscheidende Vorteile mit sich: Nicht von ungefähr liegen die Haupteinsatzbereiche derzeit im Marketing und Vertrieb. Zutreffende Kundenklassifizierungen - zumindest bessere als mit herkömmlichen Methoden - bedeuten unter Umständen Einsparungen oder zusätzliche Gewinne in Millionenhöhe.

Ein Beispiel aus der Praxis macht dies deutlich: Ein Versandhaus mit einer Million Kunden verschickt an diese Werbebriefe. Die Gesamtkosten für die Aktion belaufen sich dabei auf zehn Millionen Mark. Bei einer Antwortrate von einem Prozent (10000 Antworten) und einem durchschnittlichen Bestellwert von 100 Mark sind damit gerade die Spesen gedeckt. Eine geziele Selektion der besten zehn Prozent der Kunden mit Hilfe eines Data-Mining-Verfahrens reduziert die Anzahl der Werbebriefe auf 100000 und die Kosten auf eine Million Mark. Daneben steigt die Antwortrate auf zwei Prozent (200). Schon bei gleichem Bestellwert brächte dies dem Unternehmen einen Gewinn von einer Million Mark.

Hier ist jedoch anzumerken, daß die detailliertesten Ergebnisse der Segmentierung und Klassifikation wertlos sind, wenn sie nicht sinnvoll interpretiert und umgesetzt werden. Ob Absatzprognose, Portfolio-Analyse, Customer Scoring oder Customer Retention Management: Kompetente Kräfte müssen Zeitreihenmuster, Regressionen und Zusammenhänge bewerten. Data-Mining-Software kann es dem einzelnen nicht abnehmen, sinnvolle Fragen zu stellen, mehr noch, Zusammenhänge zu erkennen und richtig zu interpretieren. Keine Frage: Den Startschuß für erfolgreiche Aktionen muß auch in Zukunft der Mensch geben.

Angeklickt

In der Data-Warehouse-Diskussion macht ein Begriff besonders häufig die Runde: Data-Mining. Mit Hilfe dieses Verfahrens soll es möglich sein, aus gewaltigen Datenmengen sinnvolle Informationen herauszufiltern und Unternehmen Wettbewerbsvorteile zu verschaffen. Einige Wortführer stilisieren es auch bereits zum Allheilmittel bei Kostendruck, Kundenfluktuation, Marktsegmentierungen und Absatzflauten hoch. Doch verbirgt sich hinter dem Begriff tatsächlich Substanz für neue Erkenntnisse? Was leisten die sogenannten Data-Mining-Verfahren, wo liegen ihre Grenzen? Ist Data-Mining eine neue Technologie oder nur alter Wein in neuen Schläuchen. Kurz: ein Marketing-Schlagwort für altbekannte statistische Methoden?

*Dr. Will Janiesch ist General Manager, Dr. Hans-Peter Höschel Produkt Manager Datenanalyse imd Statistik vom SAS Institute Deutschland in Heidelberg.