Zweiter Frühling für Data Mining

29.03.2007
Von 


Sascha Alexander ist seit vielen Jahren als Redakteur, Fachautor, Pressesprecher und Experte für Content-Strategien im Markt für Business Intelligence, Big Data und Advanced Analytics tätig. Stationen waren unter anderem das Marktforschungs- und Beratungshaus BARC, die "Computerwoche" sowie das von ihm gegründete Portal und Magazin für Finanzvorstände CFOWORLD. Seine Themenschwerpunkte sind: Business Intelligence, Data Warehousing, Datenmanagement, Big Data, Advanced Analytics und BI Organisation.
Das Aufspüren strategisch wertvoller Informationen ist einfacher geworden, verlangt aber viel Fachwissen.

Data Mining ist "die nicht triviale Extraktion von Wissen aus großen Datenbeständen", besagt eine gängige Umschreibung. Entsprechende Analyseverfahren, die Unternehmen bisher unerkannte Zusammenhänge in ihren Geschäftsinformationen aufzeigen sollen, umgibt die Aura einer Geheimwissenschaft, die nur Spezialisten beherrschen. Doch die Zeiten ändern sich. Data Mining wird strategisch und tatsächlich genutzt. "An den Universitäten finden wieder Vorlesungen zu Data Mining statt, Firmen suchen händeringend nach Experten", berichtete Peter Gentsch, Chief Analyst der Business Intelligence Group, auf der Podiumsdiskussion der computerwoche. Dies erlebt auch Ulrich Reincke, Executive Expert Analytics, vom Anbieter SAS Institute. Vor zwei Jahren noch war die Nachfrage nach einschlägiger Software schleppend gewesen, was auch an der Investitionszurückhaltung der Kunden lag. "Jetzt gibt es hingegen ein großes Interesse. Allein bei den Schulungen hat sich die Teilnehmerzahl von 2005 auf 2006 verdreifacht."

Hier lesen Sie ...

  • wie Projekte aufzubauen sind;

  • ob sich Data Mining rechnet.

Anwender beschäftigen sich (wieder) mit Data Mining, weil sie sich davon Innovationen für ihr Unternehmen versprechen, beobachtet auch Roland Grund, Software Technical Sales Data Management Solutions Central Region bei IBM Deutschland. Das Interesse sei nicht auf einzelne Branchen beschränkt, sondern reiche von Versicherungen, Banken und Automobilherstellern bis hin zur Fußball-Bundesliga. Bevorzugte Einsatzgebiete für Data Mining sind Auswertungen von Kunden- und Produktdaten für Stornoanalysen oder die Neukundengewinnung, die Suche nach Cross- und Upselling-Optionen oder ein gezieltes Kampagnen-Management.

Typische Einsatzgebiete

Typisch sei auch das Beispiel des Autobauers BMW. Bei diesem fallen große Datenmengen im Zusammenhang mit der Gewährleistung an, die das Unternehmen per Data Mining auf Schadenskombinationen durchsucht. Die Ergebnisse helfen, Mängel gezielter zu beheben und so Kosten zu senken. Beim Heizungsbauer Vaillant ging es hingegen um Segmentierungsverfahren, um profitable und potenziell unprofitable Neukunden herauszufiltern, erzählte Analyst und Berater Wolfgang Martin auf der CW-Veranstaltung.

Anwender können heute anders als während des ersten Hypes um Data Mining Ende der 90er Jahre auf praktische Erfahrungen von Herstellern, Beratern oder in den eigenen Reihen zurückgreifen. Dennoch bleibt die Umsetzung von Data-Mining- Lösungen anspruchsvoll. Die Grundvoraussetzung für erfolgreiche Analysen bilden laut Wolfgang Martin "Daten, Daten, Daten". Zwar lasse sich auch aus kleinen Datenbeständen Interessantes herausholen, doch normalerweise seien große und vor allem hochwertige Volumina nötig. Hierzu müssen Unternehmen oft Marktdaten zukaufen sowie weitere nützliche Informationen bei Kunden gezielt erfassen. "Data Mining braucht nicht nur Datenqualität, sondern auch Datentiefe", stimmt Analyst Gentsch zu.

Domänen-Wissen ein Muss

Eine konsolidierte Datenbasis beispielsweise in Form eines Data Warehouse sei noch nicht genug. Kunden müssten zusätzlich lernen, Daten möglichst intelligent und kreativ anzureichern. "Etwa 80 Prozent des Data- Mining-Prozesses bestehen aus der Aufbereitung und Qualitätssicherung der Daten."

Allerdings müssen sich bei aller Kreativität und "schönen Datenmodellen" die Auswertungen später operativ nutzen lassen, warnt SAS-Manager Reincke. Anwender sollten den "Business Case" ihrer künftigen Data-Mining-Anwendung genau bestimmen, bevor sie an den Aufbau der Lösung gehen: "Wie hoch sind beispielsweise die Kosten, die durch Stornierungen anfallen? Welche Ressourcen will ich aufwenden?" Danach seien konzeptionelle Fragen zu beantworten: "Was für Daten haben wir? Müssen wir sie anreichern und säubern? Welche Data-Mining-Verfahren wollen wir einsetzen?" Im nächsten Schritt sollte der Anwender dann in einem ersten kleinen Projekt prüfen, ob die Fragen zu nutzbaren Ergebnissen führen. Erst danach beginnt der Aufbau der Data-Mining-Umgebung.

Data Mining ist nicht nur eine technische, sondern auch eine organisatorische Herausforderung, weiß Analyst Gentsch. So hätten sich in Projekten trotz vieler und brauchbarer Daten die Erwartungen oft nicht erfüllt, weil Datenbanker, Business-Case-Owner und IT nicht eng genug zusammengearbeitet hätten: "Zu oft ist Data Mining rein datengetrieben und erzeugt tolle Grafiken und Charts. Doch dann beschwert sich der Fachanwender, dass er damit nichts anfangen kann." Mitarbeiter, die die Prozesse verstehen und Domänenwissen mitbringen, seien zentral für den Erfolg eines Projekts, weil sie als "Übersetzer" zwischen den beteiligten Abteilungen fungierten. Erst wenn das betriebswirtschaftliche Modell geklärt sei, sollten sich Anwender um Tools und Methoden Gedanken machen.

Tools werden leistungsfähiger

Doch auch Data-Mining-Werkzeuge können heute mehr als noch vor einigen Jahren zum Erfolg beitragen, ergänzt IBM-Manager Grund. So ließen sich immer mehr Aufgaben automatisieren: "Es gibt durchaus respektable Knopfdruck-Lösungen für komplexe Prozesse." Wichtig sei dabei, dass die Tools nicht nur die diversen Data-Mining-Algorithmen unterstützen, sondern die gesamte Datenerhebung und -aufbereitung, fordert Analyst Martin. In der Vergangenheit brauchten die Tools technisch manchmal Wochen, um aus den Vorgaben ein Modell abzuleiten. Heute seien manche Produkte so ausgereift, dass ein Data-Mining-Spezialist 50 und mehr Modelle innerhalb eines halben Tages erzeugen kann.

Unternehmen müssten sich keine Sorgen wegen ihres fehlenden Methodenwissen machen, sagte Martin, da dies Hersteller mitbrächten, zumal sich ein kleiner Mittelständler sowieso keinen eigenen Spezialisten hierfür leisten könne. Hersteller wie SAS bieten mittlerweile auch Industriemodelle etwa für Versicherungen und Banken an, die Extraktion, Modellierung und Deployment der Daten verbinden. Dennoch: "Das Domänenwissen kann nur vom Anwender kommen. Er muss sein eigenes Business verstehen", mahnt Analyst Martin. Auch sei bei den Tools Vorsicht geboten, ergänzte Gentsch. Da sie sich einfacher und komfortabler nutzen lassen als ihre Vorgänger, verlockten sie Anwender dazu, ihnen zu sehr zu vertrauen, da immer "irgendwelche Ergebnisse herauskommen". Spezialisten seien daher auch weiterhin nötig, um Modelle aufzubauen und die richtigen Methoden zu wählen. Auch sollten sich Unternehmen alternativ einmal Open-Source-Tools oder Data-Mining-Features in Datenbanken von Microsoft, IBM oder Oracle anschauen, die durchaus leistungsfähig seien und keine zusätzliche Lizenz erforderten. Ebenfalls im Trend liege die Verlagerung von Data Mining in die Unternehmensanwendungen beispielsweise bei Siebel, Epiphany oder Intershop (Empfehlungssystem).

Prozessintegration

Data Mining bringt indes nur etwas, wenn es seinen Weg in den Arbeitsalltag und die Prozesse findet. Dies kann technisch über herkömmliche Reporting-Tools geschehen, wobei insbesondere Excel eine "Killerapplikation" ist, sagte IBM-Mann Grund. Bei der VHV Versicherung beispielsweise lassen sich Auswertungen zu den Kündigungsabsichten von Kunden direkt bei Mailings oder der Kundenansprache berücksichtigen, um so die Storno-Quote zu senken. Wichtig sei laut allen Experten, dass die Modelle "lernen" können und es nicht wie in früheren Projekten regelmäßig zu einem Medienbruch zwischen Modell und Anwendung kommt. Meldet etwa ein Call-Center-Agent, ob eine Empfehlung aus dem System sinnvoll war oder nicht, sollte sich das Modell unmittelbar anpassen und aktualisieren lassen.

Wo die Kosten stecken

Nicht immer erzielen Unternehmen mit ihrer Data-Mining-Lösung den gewünschten wirtschaftlichen und strategischen Erfolg, räumt Martin ein. Doch seien solche Fehlschläge heute die Ausnahme. Finden Anwender hingegen die "Nuggets" in ihren Daten und erschließen sich so neue Absatzmöglichkeiten, seien die Anschaffungskosten für Tools "völlig vernachlässigbar". Die wahren Kosten verbergen sich im kontinuierlichen Data-Mining-Prozess (Mitarbeiter, Externe, Aufwände für Datenbeschaffung). Dennoch rentieren sich gelungene Projekte schnell. SAS-Manager Reincke empfiehlt zudem auch aus Kostenaspekten, zunächst immer ein kleines Projekt (Szenario, kleines Modell) zu starten, wofür meist zehn Beratertage ausreichen, vorausgesetzt, die Daten sind verfügbar. Daran lasse sich schnell absehen, ob sich eine Fortsetzung lohnt und wie der dazugehörige Prozess aussehen kann. Die Produktpreise seien bei der Kostenbetrachtung weniger entscheidend, zumal Anbieter auch Mittelstandspreise oder Data Mining zusammen mit der dazugehörigen Infrastruktur anbieten.

Für die Zukunft zeichnen sich neue Anwendungsgebiete wie Customer-Lifetime-Value (Deckungsbeitrag eines Kunden während seines gesamten "Kundenlebens"), Virales Marketing und Social Network Analysis ab. Ein weiteres riesiges Anwendungsfeld sieht IBM-Manager Grund in der Auswertung unstrukturierter Daten mit Hilfe von Text Mining: "Mehr als 80 Prozent aller Informationen sind Freitexte." Es stehe aber zugleich noch "viel Basisarbeit" an, um Unternehmen die Arbeit mit den Analyseverfahren zu erleichtern.