CRM und Datenanalyse

Data-Mining-Tools auf dem Prüfstand

20.12.2011 von Peter Neckel
Im Customer Relationship Management (CRM) kommt man vielfach kaum mehr ohne Data Mining aus. Dabei lässt sich mit der richtigen Tool-Auswahl die Arbeit deutlich erleichtern, belegt eine Studie von Mayato.

Kundensegmentierungen bilden im CRM-nahen Bereich der sogenannten Customer Relationship Analytics (CRA) eine der zentralen analytischen Aufgaben, die sowohl eine hohe praktische als auch strategische Bedeutung haben. Seine Kundenbasis zu sortieren stellt sich als analytische Querschnittsaufgabe im Rahmen der Kundenbeziehungspflege dar - sie steht typischerweise in einer Reihe mit der Kundenwertanalyse und der Markt- und Kundenbearbeitung, zum Beispiel im Rahmen des Kampagnen-Managements. Gleichzeitig sind Segmentierungen eine der Paradedisziplinen des Data Mining, da hier häufig große Datenmengen stark explorativ analysiert werden müssen, um zu validen Ergebnissen zu kommen.

Ziele und analytische Querschnittsaufgaben im Customer Relationship Management (CRM)

Die Toolauswahl für diese Aufgabe ist jedoch keineswegs trivial: Im Angebots-Dickicht der Hersteller versammeln sich mittlerweile geschätzte 150 Data-Mining-Werkzeuge, die um die Gunst der Käufer konkurrieren. Die Informationen und Produktblätter der Hersteller erleichtern die Entscheidungsfindung in vielen Fällen nur begrenzt: Zum einen stellen sie verständlicherweise vorwiegend die Stärken des jeweils eigenen Tools heraus, zum anderen ähneln sich viele Angaben von Hersteller zu Hersteller. Im Ergebnis bleiben die Hauptunterschiede auch für den erfahrenen Nutzer meist wenig transparent. Zudem zeigen sich die wirklich entscheidenden, praxisrelevanten Stärken und Schwächen der Tools erst im praktischen Einsatz bei einer konkreten Fragestellung.

Der Studienaufbau

Daher wurde in der vorliegenden Studie für den Vergleichstest ein komplexes, praxisnahes Testszenario erarbeitet, das von der Datenvorverarbeitung über die eigentliche Erstellung der Kundensegmentierung und Interpretation der Ergebnisse bis hin zur praktischen Anwendung der Segmentierung zur Neukundenklassifikation alle Aspekte des Analyseprozesses abdeckt.

Um direkte Vergleichbarkeit sicherzustellen, wurde jedes Werkzeug in einer vorab definierten Testumgebung installiert und ausführlich getestet. Während dieses Praxistests fanden standardisierte Messungen statt zum Beispiel zur Ausführungsgeschwindigkeit mit zahlreichen unterschiedlichen Parametereinstellungen. Weiterhin ist für jedes der Werkzeuge eine detaillierte Funktionsübersicht zur Clusteranalyse aufgeführt. Die Bewertungskriterien umfassen unter anderem die Bedienung der Tools, den Funktionsumfang, das Systemverhalten bei großen Datenmengen und die Stabilität.

COMPUTERWOCHE Marktstudie

Social Media im Industrieumfeld (690,-€)

Diese Studie des IFOM-Instituts liefert Antworten auf aktuelle B2B-Marketing Fragen wie bspw.: »Wer macht was mit welchem Erfolg im Social-Media Umfeld?« und »Wie aufwändig ist der wirkungsvolle Einsatz von Social-Media-Services?«.

Jetzt bestellen!

Im Endergebnis zeigen sich deutliche Unterschiede vor allem im Bedienkomfort, bei der Ausführungsgeschwindigkeit sowie bei den Möglichkeiten der grafischen Ergebnisauswertung.

Mayato: Data Mining Studie 2011
Data Mining Studie 2011
Ziele und analytische Querschnittsaufgaben im Customer Relationship Management (CRM).
Data Mining Studie 2011
Die wesentlichen Kategorien mit der zugehörigen Auswahl der in der Studie besprochenen Tools.
Data Mining Studie 2011
Es gibt unterschiedliche Mustertypen von Data-Mining-Tools mit verschiedenen Aufgabenschwerpunkten im CRM-Umfeld.
Data Mining Studie 2011
Die verschiedenen Dimensionen im Customer Relationship Management (CRM).

(Teaserbild: Fotolia, Kheng Guan Toh)

Das Testfeld

Die wesentlichen Kategorien mit der zugehörigen Auswahl der in der Studie besprochenen Tools.

Da Data-Mining-Funktionen in stark unterschiedlichen Tool- und Preiskategorien angeboten werden, fiel das Testfeld entsprechend breit aus: Die klassische, funktionsmächtige Data-Mining-Suite (SAS, StatSoft) findet sich ebenso darunter wie das Business-Intelligence-Werkzeug, das Data-Mining-Verfahren eher als Zusatz zu mächtigen Datenverwaltungsfunktionen offeriert (SAP). Um die Frage zu klären, ob sich die Analyseaufgabe auch mit einer kostenlosen Data-Mining-Suite zufriedenstellend lösen lässt, wurde zusätzlich eine Open-Source-Variante in den Test aufgenommen (WEKA).

Die diesjährige mayato-Studie legt den Schwerpunkt auf die Kundensegmentierung im Rahmen des Customer Relationship Analytics. Dazu traten anhand eines umfangreichen Testdatensatzes eines Finanzdienstleisters folgende vier Data-Mining-Tools und -Suiten gegeneinander an:

Die Data-Mining-Toolkategorien

Bei näherer Betrachtung des Data-Mining-Softwaremarktes lassen sich typische Kategorien von Tools erkennen, deren Vertreter sich jeweils für unterschiedliche Anwendergruppen und Nutzungsszenarien eignen:

Zunächst sind hier die klassischen Data-Mining-Suiten (zum Beispiel von SAS, SPSS oder StatSoft) mit ihrem umfassenden Angebot an Funktionen für die Datenvorverarbeitung und Data-Mining-Verfahren zu nennen. Mit durchaus vergleichbarem Funktionsumfang werden sie inzwischen auch Open Source angeboten.

COMPUTERWOCHE-Studie Datenqualität (149,90 €)

Viele Unternehmen beschäftigen sich mit Datenqualität und sind mit den Ergebnissen ihrer einschlägigen Projekte auch ganz zufrieden. Was tun für eine bessere Datenqualität? Wir haben unsere Leser aus dem IT-Management gefragt, ob und mit welchem Erfolg sie für einen sauberen Datenbestand sorgen.

Hier bestellen!

Demgegenüber stehen die schlankeren Data-Mining-Werkzeuge mit reduzierter Funktionalität: Sie sind in der Regel auf bestimmte Anwendungsgebiete (zum Beispiel Controlling) oder Analysefälle (zum Beispiel Prognose- und Klassifizierungsaufgaben) spezialisiert. Eine Sonderstellung in dieser Kategorie nimmt die softwaretechnische Umsetzung des Self-Acting Data Mining ein. Dieser hochautomatisierte Ansatz kommt weitgehend ohne manuelle Datenvorverarbeitung und Parametrisierung aus und eignet sich daher besonders gut für schnelle, erste Analyseprojekte.

Weiterhin haben zahlreiche Datenbank- und BI-Anbieter wie SAP, Oracle oder Microsoft in manchen Fällen recht umfangreiche Data-Mining-Funktionen in ihren Suiten integriert.

Social CRM
Kundenservice-Trends
Facebook-Blitzumfrage
Social Media auf der Arbeit
Kontaktkanäle

Die Preismodelle

Es gibt unterschiedliche Mustertypen von Data-Mining-Tools mit verschiedenen Aufgabenschwerpunkten im CRM-Umfeld.

Der Anschaffungspreis für komplette Data-Mining-Suiten liegt weiterhin - abhängig von der Nutzeranzahl und der gewünschten Funktionalität - meist im sechsstelligen Euro-Bereich. Hier geht der Trend jedoch zu günstigeren Konditionen, da immer mehr Hersteller einzelne Funktionen in Pakete zusammenfassen und separat anbieten. Meist sind solche Pakete an typischen Nutzungsszenarien ausgerichtet, so dass man mit einem konkreten Analyseprojekt im Hinterkopf die jeweils passende Funktionalität erhält. Damit können Anwender beispielsweise ein individuelles Startpaket erwerben, das zudem bei Bedarf einfach zum Differenzpreis erweiterbar ist.

Aber auch komplette Suiten kosten nicht mehr zwangsläufig sechsstellige Summen: So ist die Einzelplatzlizenz des Statistica Data Miners bei vollem Funktionsumfang beispielsweise bereits ab 20.000 Euro erhältlich. Für Open-Source-Lösungen entfällt der Anschaffungspreis; bei professioneller Nutzung kommen jedoch jährliche Supportgebühren im vierstelligen Eurobereich hinzu.

Der Praxistest

Im Praxistest zeigten sich schnell die Stärken und Schwächen der jeweiligen Tools: Den höchsten Reifegrad erreichen der "SAS Enterprise Miner" und der "Statistica Data Miner". Sie sind flüssig zu bedienen und leisten sich im gesamten Test keine echte Schwäche. Ihre Stärken zeigen beide besonders bei hohen Ausführungsgeschwindigkeiten und dem sicheren Umgang mit großen Datenmengen.

SAS bettet den Enterprise Miner in eine leistungsfähige BI-Gesamtarchitektur ein, die dem erfahrenen Anwender eine breite Palette an Möglichkeiten bietet. StatSoft punktet mit der im Umfeld der Clusteranalyse größeren Funktionsvielfalt, mit den bequemer und feiner zu parametrisierenden Verfahren und der ausführlicheren Dokumentation. Statistica bietet weiterhin im Vergleich zu SAS das bessere Preis-Leistungs-Verhältnis.

Mit bereits deutlichem Abstand folgt das SAP BW mit der "Data Mining Workbench": Das liegt hauptsächlich daran, dass SAP lediglich ein Segmentierungsverfahren implementiert hat. Dieses kann zudem nur rudimentär parametrisiert werden und schränkt durch die erzwungene Variablen-Diskretisierung die praktische Anwendung unnötig ein. Dazu kommen erhöhte Ausführungszeiten und eine stark ergänzungsbedürftige Dokumentation, die die Einarbeitung erschwert. Überzeugen kann hingegen die grafische Darstellung der Ergebnisse; sie unterstützt die Interpretation durch einen guten optischen Eindruck und durch praxisgerechte Voreinstellungen.

WEKA wird von dem 270.000 Zeilen umfassenden Testdatensatz spürbar am meisten gefordert. Die gemessenen Ausführungszeiten sind wenig konkurrenzfähig, die allgemeine Systemstabilität ist für den professionellen Einsatz noch nicht ausreichend. Die nur rudimentär vorhandene Ergebnispräsentation erschwert die Interpretation der Cluster-Einteilungen zusätzlich: In WEKA lässt sich die spartanische Text-basierte Ausgabe nur mit hohem manuellen Aufwand in eine grafische Darstellung verwandeln. An dieser Stelle wäre eine Aufwertung des Tools mit vergleichsweise wenig Aufwand möglich.

Fazit: Leichter Einstieg dank einfacher Bedienkonzepte

Kundensegmentierungen gehören zu den komplexeren Analyseaufgaben - entsprechend hohe Anforderungen werden an die Bedienung der Tools gestellt. Die Kunst aus der Perspektive des Softwareherstellers besteht darin, den Anwender an den entscheidenden Stellen im Analyseprozess konkret an die Hand zu nehmen, ohne den explorativen Charakter des Data Mining zu stark einzuschränken und ihm damit seine größte Stärke gegenüber einfacheren konfirmativen Analysen zu nehmen.

Die verschiedenen Dimensionen im Customer Relationship Management (CRM).

Ein dominierendes Bedienkonzept hat sich - wie schon in den letzten Jahren - weiterhin noch nicht herauskristallisiert. Aber die Hersteller machen spürbare Fortschritte und sind zunehmend um Einsteigerfreundlichkeit bemüht: SAS bietet neuerdings mit dem "Rapid Predictive Modeler" eine Data-Mining-Umgebung mit sinnvoll begrenzten Parametrisierungsmöglichkeiten an; im "Data Miner" von StatSoft kann man bereits seit der letzten Version wahlweise in den Assistentenmodus umschalten, der vorgefertigte "Data-Mining-Rezepte" für Standardanalyseaufgaben bereitstellt. Derartige Hilfen sind besonders bei erweiterten Analyseszenarien von Nutzen, die aus mehreren separaten Analysebausteinen bestehen - in unserem Fall etwa, wenn nach der Segmentierung des Kundenstamms auch Neukunden in bestehende Segmentierungen eingeordnet werden sollen.

Als Fazit der diesjährigen Studie lässt sich festhalten, dass sich mit modernen Data-Mining-Tools inzwischen auch komplexere Analysen wie Kundensegmentierungen effizient ausführen lassen. Die Ausweitung der Data-Mining-Anwendungsbereiche insbesondere im CRA hat zu einem sehr vielfältigen Tool-Angebot geführt, so dass sich auch für Spezialeinsätze das passende Werkzeug findet. Insbesondere bei den leicht erlernbaren Bedienkonzepten und der komfortablen, vorkonfigurierten grafischen Auswertung der Ergebnisse zeigen sich spürbare Fortschritte, die die Einstiegshürden in die Datenanalyse stark verringert haben. (ba)