Tools für Data Mining im Test

03.06.2009
Der Vergleich der Produkte von SAS, KXEN, Rapid-I und der Data Mining Workbench von SAP Netweaver BI offenbart große Unterschiede.

Viele Unternehmen versuchen heute, mit Hilfe von Analyse-Verfahren mehr Informationen aus ihren Datenbeständen zu destillieren. Dabei gewinnt auch das Data Mining an Bedeutung, das ein autonomes, ergebnisoffenes Durchsuchen der Datenmengen nach Mustern, Regelmäßigkeiten und bis dato unbekannten Zusammenhängen ermöglicht.

Ein typisches Einsatzgebiet ist das Churn-Management (Kundenabwanderung), bei dem es darum geht, per Data Mining abwanderungswillige Kunden frühzeitig zu identifizieren und nachfolgend durch Vertriebsmaßnahmen umzustimmen. Ferner kommen Data-Mining-Verfahren in der Kundensegmentierung, der Warenkorbanalyse und bei der Identifikation von Cross-Selling-Potenzialen zum Einsatz, und auch Schäden durch Betrug sowie ein drohender Kredit- oder Forderungsausfall sind mit Data Mining früh erkennbar.

Weites Einsatzgebiet

Anwendungsgebiete liegen heute auch im Einkauf, in der Produktion und im Qualitäts-Management, wo Data Mining zum Beispiel zur Bedarfsplanung, zur Schwachstellenanalyse im Produktportfolio oder für Prognosen über zu erwartende Ersatzteilausfälle dient.

Die Qualität der Ergebnisse, die Ausführungsgeschwindigkeit bei großen Datenmengen und die Analyseeffizienz, die DataMining-Produkte bieten, sind indes sehr unterschiedlich. Dies zeigte die Unternehmensberatung Mayato mit der Studie "Data-Mining-Software 2009", für die unter anderem vier Produkte einen Praxistest durchliefen. Es waren dies die kommerzielle Data-Mining-Suite "SAS Enterprise Miner 5.3", die Open-Source-Suite "RapidMiner 4.2", das Werkzeug "KXEN Analytic Framework 4.04" sowie die integrierte "Data Mining Workbench" von "SAP Netweaver BI 7.0". Gleich stark gewichtet wurden die für den Analyseprozess zentralen Aspekte Verfahrensspektrum, Performance, Modellqualität, Automatisierungsgrad sowie Kriterien wie Stabilität und Bedienbarkeit der Produkte.

Der Testaufbau und die Funktionsbewertung folgten dem Ablauf des klassischen Data-Mining-Prozesses: Zu Beginn steht die Datenauswahl, die von der Software etwa durch unterschiedliche Eingabeformate oder Funktionen zur Auswahl und Darstellung von Datensätzen – auch aggregiert als statistische Kennzahlen – unterstützt werden sollte. Vor der eigentlichen Analyse liegt jedoch die umfangreichste Aufgabe in einem Data-Mining-Projekt: die Aufbereitung der Daten. Auch hierfür sollten die Tools typische Funktionen bieten, welche zum einen die Daten vereinen, anreichern und kodieren helfen, zum anderen aber auch komplexere Berechnungen für zusätzliche Kennzahlen unterstützen.

Mehr Verfahren – mehr Muster

Nicht jedes der zahlreichen heute verfügbaren Data-Mining-Verfahren eignet sich gleich gut, um bestimmte Analyseaufgaben zu erfüllen. So kommen Klassifizierungsmethoden zum Einsatz, wenn es um die Vorhersage des Abwanderungsverhaltens, um Kampagnenplanung, die Zielgruppenauswahl oder Kundenwertberechnungen geht. Assoziationsanalysen sind hingegen die Grundlage für die Ermittlung von Cross- und Up-Selling-Potenzialen, während Segmentierungsverfahren eher beim Verständnis und der Einteilung der Kundenbasis sowie bei der Erkennung von Marktveränderungen helfen. Auch Zeitreihenanalysen gewinnen zunehmend an Bedeutung, da sie Trends und Zyklen erkennen können und somit in bestimmten Bereichen wichtige Frühwarnfunktionen übernehmen.

Nicht jede Data-Mining-Software deckt jedoch alle Analyseaufgaben ab, was auch der Test belegt: So ist der Funktionsumfang bei KXEN und SAP insgesamt deutlich geringer als bei SAS und RapidMiner. Es fehlen bei SAP zum Beispiel Verfahren wie neuronale Netze oder Support Vector Machines, vor allem aber die Sequenzanalyse, die besonders im Handel relativ häufig eingesetzt wird. KXEN bietet nur die "Robust Regression" als Prognoseverfahren an. Auch wenn dieses gute Ergebnisse liefert, müssen Anwender somit auf die intuitiv verständliche grafische Darstellung eines Entscheidungsbaumes verzichten. Zudem fehlen klassische statistische Verfahren wie Faktoren- oder Hauptkomponentenanalyse bei SAP und KXEN.

Kritischer Blick auf die Performance

Um die Güte der Data-Mining-Ergebnisse (Modellqualität) umfassend zu beurteilen, wurden mit jedem Prüfkandidaten mehrere Prognosemodelle mit unterschiedlichen Verfahren erstellt: Die vier Lösungen wurden dazu zunächst mittels einer überschaubaren Testdatei mit 30.000 Datensätzen und 15 Variablen geprüft. Das Systemverhalten bei großen Datenmengen wurde anschließend durch Einlesen eines umfangreichen Datenvolumens mit 100.000 Datensätzen und 450 Variablen gemessen. Die Benchmark-Daten litten an einer Reihe typischer Datenqualitätsprobleme, mit denen Data-Mining-Tools umgehen können müssen, wie beispielsweise untereinander korrelierende Variablen, fehlende Werte oder Ausreißer. Schon im ersten Durchgang ergaben sich erhebliche Unterschiede in den Laufzeiten, die sich bei der Verarbeitung größerer Datenmengen noch verstärkten. Insbesondere der RapidMiner erwies sich in diesen Tests als instabil und zeigte drastisch verlängerte Berechnungszeiten mit höherem Datenvolumen. Die schlechte Skalierbarkeit der Lösung kann zum Ausschlusskriterium werden, wenn – wie durchaus häufig etwa im Handel, bei Banken oder Versicherungen – noch größere Datenmengen (wie Transaktionsdaten) verarbeitet werden sollen.

Die Effizienz der Analyse entscheidet

Dem SAS Enterprise Miner gelang insgesamt die beste Modellqualität. Die Bedienung der Suite geht trotz des großen Funktionsumfangs nach einer kurzen Eingewöhnungsphase relativ rasch von der Hand. Die Ergebnisqualität bei RapidMiner fiel im Vergleich ab, insbesondere die Übertragbarkeit der Modelle erwies sich als gering. Ein großer Nachteil besteht darin, dass RapidMiner keine Möglichkeit bietet, die mit unterschiedlichen Verfahren erstellten Modelle automatisch zu vergleichen. KXEN lieferte eine gute Modellqualität und zeigte sich zudem bei der Berechnung als unerreicht schnell.

Produktbewertung

SAS Enterprise Miner 5.3

RapidMiner 4.2

KXEN Analytic Framework 4.04

SAP Netweaver BI 7.0, Data Mining Workbench

Funktionsumfang

++

++

0

0

Systemverhalten bei großen Datenmengen

+

– –

++

nicht bewertet

Stabilität

+

0

++

+

Dokumentation

+

0

+

0

Gesamteffizienz des Analyseprozesses

+

++

0

Automatisierungsgrad

0

++

Ausführungsgeschwindigkeit

+

++

+

Modellqualität

++

+

0

Legende: ++ sehr gut; +gut; 0 zufriedenstellend; – unbefriedigend; – – ungenügend.; Quelle: Mayato Anmerkung: Nach Fertigstellung der Studie haben Rapid-I und SAS überarbeitete Versionen ihrer Tools vorgestellt.

Das modernste Gesamtkonzept kann laut Studie KXEN mit einem als "Self-Acting Data Mining" bezeichneten Ansatz vorweisen, bei dem die Datenvorbereitung nahezu automatisch abläuft. Gepaart mit der schnellen Ausführungsgeschwindigkeit führt dies zu einer sehr hohen Analyseeffizienz. Beim Test mit großen Datenvolumina veränderte sich zudem die Performance von KXEN Analytic Framework kaum. Bei SAP gestaltete sich hingegen bereits das Einlesen der Daten problematisch und erforderte teilweise langwierige manuelle Eingriffe. So muss hier für jede Datenspalte ein separates Infoobjekt angelegt werden – für 450 Variablen ein erheblicher manueller Aufwand. Resultate und Laufzeiten waren bei SAP zwar durchaus zufriedenstellend – wenn auch nicht ganz so gut wie die Vergleichswerte von SAS und KXEN. Die geringere Analyseeffizienz macht die SAP-Lösung allerdings in der Anwendung umständlich. (as)

Gesamtkosten im Blick

Neben den Lizenzkosten müssen Unternehmen weitere Ausgaben im Auge behalten. Nachfolgend Erfahrungen aus der Praxis:

  • Lizenzkosten: Je nach Funktionsumfang und Nutzerzahl kann eine Client-Server-Lizenz mehrere 100.000 Euro kosten sowie jährliche Wartungskosten von 100.000 Euro mit sich bringen.

  • Auch Mittelständler mit geringeren Nutzerzahlen sollten sich auf fünfstellige Summen für Lizenzen und Wartungskosten einstellen.

  • Spezialisierte und in der Regel funktional eingeschränkte Data-Mining-Werkzeuge sind hingegen für weniger als 10.000 Euro erhältlich.

  • Open-Source-Lösungen verursachen zwar keine Anschaffungskosten, ziehen jedoch jährliche Supportgebühren nach sich, die sich im vierstelligen Euro-Bereich bewegen können.

  • Erfreulicherweise machen heute flexiblere Preismodelle und insgesamt leichter zu bedienende Produkte den Einstieg in Data Mining günstiger und damit auch für mittelständische Unternehmen attraktiver. Einige Data-Mining-Werkzeuge lassen sich mittlerweile gegen eine monatliche Gebühr im vierstelligen Euro-Bereich auch mieten.

  • Zu den Lizenzkosten addiert sich der Aufwand für Schulungen und die Einarbeitungszeit. Dieser sollte vor allem bei großen Produktsuiten und quelloffenen Angeboten nicht unterschätzt werden. Doch an dieser Stelle zu sparen wäre verkehrt, denn ohne ein fundiertes Hintergrundwissen können Anwender nicht das volle Potenzial solcher Produkte nutzen.

  • Als Faustregel gilt: Je größer der Funktionsumfang, desto größer ist im Normalfall auch der Lernaufwand.

  • Ein weiterer Kostenpunkt ist das eigentliche Data-Mining-Projekt, das sich – je nach Art und Umfang der analytischen Fragestellung – über mehrere Monate hinziehen kann und entsprechendes internes und externes Personal bindet. Ein Pilotprojekt, das vorrangig einfache und gezielte Fragen wie zum Beispiel zur Ermittlung von Cross-Selling-Potenzialen beantworten soll, ist aber inklusive Software und Beratung mittlerweile für unter 20.000 Euro möglich. Diese Kosten amortisieren sich in vielen Fällen allein durch die im Pilotprojekt gewonnenen Erkenntnisse.