SAS, KXEN, RapidMiner, SAP Netweaver BI

Vier Tools für Data Mining im Test

03.06.2009 von Peter Neckel
Data-Mining-Tools unterscheiden sich nicht nur im Preis, sondern auch funktional erheblich. Dies zeigt ein Vergleich der Produkte von SAS, KXEN, Rapid-I und SAP Netweaver BI.

Obwohl Unternehmen derzeit sparen und Projekte zurückstellen müssen, stehen Vorhaben zur Datenanalyse weiterhin ganz oben auf der Liste der drängenden Aufgaben. Methoden und Werkzeuge für Data Mining können hierfür besonders nützlich sein, da sie Lücken und Schwachstellen in den eigenen Geschäftsprozessen aufdecken und zusätzliche Vertriebs- und Marketing-Potenziale erschließen helfen.

Nicht zuletzt sinkende Speicherpreise verleiten heute Unternehmen zum Horten riesiger Datenmengen im Terabyte-Umfang (und sorgen für Kopfschmerzen im Management). Um den Informationsgehalt dieser Daten noch effektiver erschließen zu können, gewinnen explorative Analyseansätze wie das Data Mining an Bedeutung. Anders als bei konfirmativen Analysen, die von konkreten Annahmen ausgehen, geht es hier um ein autonomes, ergebnisoffenes Durchsuchen der Datenmengen nach Mustern, Regelmäßigkeiten und bis dato unbekannten Zusammenhängen.

Ein typisches Einsatzgebiet ist das Churn-Management (Kundenabwanderung), bei dem es darum geht, per Data Mining abwanderungswillige Kunden frühzeitig zu identifizieren und hoffentlich rechtzeitig Maßnahmen zu ihrem Verbleib einzuleiten (mehr zur Datenanalyse im CRM finden Sie hier). Ferner kommen Data-Mining-Verfahren in der Kundensegmentierung, der Warenkorbanalyse und bei der Identifikation von Cross-Selling-Potenzialen zum Einsatz, und auch Schäden durch Betrug sowie ein drohender Kredit- oder Forderungsausfall sind mit Data Mining früh erkennbar (siehe auch den Ratgeber für den Einstieg ins Data Mining).

Anwendungsgebiete liegen heute auch im Einkauf, in der Produktion und im Qualitäts-Management, wo Data Mining zum Beispiel zur genaueren Bedarfsplanung, zur Schwachstellenanalyse im Produktportfolio oder für Prognosen über zu erwartende Ersatzteilausfälle dient (siehe auch den Trendbeitrag zu analytischem CRM).

Praxistauglichkeit von Tools für Data Mining

Die Qualität der Ergebnisse, die Ausführungsgeschwindigkeit bei großen Datenmengen und die Analyseeffizienz, die Data-Mining-Produkte bieten, sind indes sehr unterschiedlich. Dies zeigte die Studie der Unternehmensberatung Mayato "Data-Mining-Software 2009", in der unter anderem vier Produkte einen umfangreichen Praxistest durchliefen.

Verwirrender Markt

  • Rund 150 Data-Mining-Lösungen sind heute auf dem Markt erhältlich;

  • Das Spektrum reicht von großen kommerziellen Produktsuiten über Spezialwerkzeuge von Nischenanbietern bis hin zu funktional mächtigen Open-Source-Tools;

  • Oft sind Data-Mining-Funktionen auch als Teil von Software für Business Intelligence oder von Unternehmensanwendungen erhältlich, was allerdings eine unabhängige Prüfung ihrer Leistung und Qualität erschwert;

  • Unternehmen sollten einmal nachschauen, ob sie nicht Softwarelizenzen haben, die Data-Mining-Funktionen einschließen. Dies ist beispielsweise bei Enterprise-Lizenzen für Datenbanksysteme wie Oracle oder dem Microsoft SQL Server der Fall. Ebenso sollten sich Besitzer von IBM- oder SAP-Lizenzen bei ihrem Lieferanten nach zusätzlichen Data-Mining-Features erkundigen.

  • Grundsätzlich gilt jedoch: Die Auswahl von Produkten und Funktionen ist nur dann sinnvoll, wenn ein Unternehmen zuvor die Ziele und Anforderungen definiert hat, die mit Data-Mining-Analysen erreicht werden sollen.

Als Entscheidungshilfe können Anwender die Studie "Data-Mining-Software 2009" der Unternehmensberatung Mayato heranziehen. In ihr wurden zwölf Suiten und Werkzeuge einem ausführlichen Funktionsvergleich unterzogen; vier davon durchliefen zusätzlich einen Praxistest. Die Studie ist in gedruckter Form oder als PDF erhältlich und kann über sales@mayato.com bestellt werden.

Es waren dies die kommerzielle Data-Mining-Suite "SAS Enterprise Miner 5.3" (im ersten Halbjahr 2009 wurde mittlerweile der Enterprise Miner 6.1 vorgestellt), die Open-Source-Suite "RapidMiner 4.2" vom Anbieter Rapid-I (mittlerweile ist Version 4.4 draußen), das Werkzeug "KXEN Analytic Framework 4.04" sowie die integrierte "Data Mining Workbench" von "SAP Netweaver BI". Gleich stark gewichtet wurden die für den Analyseprozess zentralen Aspekte Verfahrensspektrum, Performance, Modellqualität, Automatisierungsgrad sowie Kriterien wie Stabilität und Bedienbarkeit der Produkte.

Der Testaufbau und die Funktionsbewertung folgten dem Ablauf des klassischen Data-Mining-Prozesses: Zu Beginn steht die Datenauswahl, die von der Software etwa durch unterschiedliche Eingabeformate oder Funktionen zur Auswahl und Darstellung von Datensätzen - auch aggregiert als statistische Kennzahlen - unterstützt werden sollte.

Vor der eigentlichen Analyse liegt jedoch die umfangreichste Aufgabe in einem Data-Mining-Projekt: die Aufbereitung der Daten. Auch hierfür sollten die Tools typische Funktionen bieten, welche zum einen die Daten vereinen, anreichern und kodieren helfen, zum anderen aber auch komplexere Berechnungen für zusätzliche Kennzahlen unterstützen.

Mehr Verfahren - mehr Muster

Nicht jedes der zahlreichen heute verfügbaren Data-Mining-Verfahren eignet sich gleich gut, um bestimmte Analyseaufgaben zu erfüllen (Zudem gibt es Verfahren für Text und Web Mining). So kommen Klassifizierungsmethoden zum Einsatz, wenn es um die Vorhersage des Abwanderungsverhaltens, um Kampagnenplanung, die Zielgruppenauswahl oder Kundenwertberechnungen geht.

Assoziationsanalysen sind hingegen die Grundlage für die Ermittlung von Cross- und Up-Selling-Potenzialen, während Segmentierungsverfahren eher beim Verständnis und der Einteilung der Kundenbasis sowie bei der Erkennung von Marktveränderungen helfen. Auch Zeitreihenanalysen gewinnen zunehmend an Bedeutung, da sie Trends und Zyklen erkennen können und somit in bestimmten Bereichen wichtige Frühwarnfunktionen übernehmen.

Nicht jede Data-Mining-Software deckt jedoch alle Analyseaufgaben ab, was auch der Test belegt: So ist der Funktionsumfang bei KXEN und SAP insgesamt deutlich geringer als bei SAS und RapidMiner. Es fehlen bei SAP zum Beispiel Verfahren wie neuronale Netze oder Support Vector Machines, vor allem aber die Sequenzanalyse, die besonders im Handel relativ häufig eingesetzt wird. KXEN bietet nur die "Robust Regression" als Prognoseverfahren an.

Auch wenn dieses gute Ergebnisse liefert, müssen Anwender somit auf die intuitiv verständliche grafische Darstellung eines Entscheidungsbaumes verzichten. Zudem fehlen klassische statistische Verfahren wie Faktoren- oder Hauptkomponentenanalyse bei SAP und KXEN.

Kritischer Blick auf die Performance

Um die Güte der Data-Mining-Ergebnisse (Modellqualität) umfassend zu beurteilen, wurden mit jedem Prüfkandidaten mehrere Prognosemodelle mit unterschiedlichen Verfahren erstellt: Die vier Lösungen wurden dazu zunächst mittels einer überschaubaren Testdatei mit 30.000 Datensätzen und 15 Variablen geprüft. Das Systemverhalten bei großen Datenmengen wurde anschließend durch Einlesen eines umfangreichen Datenvolumens mit 100.000 Datensätzen und 450 Variablen gemessen.

Die Benchmark-Daten enthielten eine Reihe typischer Datenqualitätsprobleme, mit denen Data-Mining-Tools umgehen können müssen, wie beispielsweise untereinander korrelierende Variablen, fehlende Werte oder Ausreißer. Schon im ersten Durchgang ergaben sich erhebliche Unterschiede in den Laufzeiten, die sich bei der Verarbeitung größerer Datenmengen noch verstärkten. Insbesondere der RapidMiner erwies sich in diesen Tests als instabil und zeigte drastisch verlängerte Berechnungszeiten mit höherem Datenvolumen. Die schlechte Skalierbarkeit der Lösung kann zum Ausschlusskriterium werden, wenn - wie durchaus häufig etwa im Handel, bei Banken oder Versicherungen - noch größere Datenmengen (wie Transaktionsdaten) verarbeitet werden sollen.

Die Effizienz der Analyse entscheidet

Dem SAS Enterprise Miner gelang insgesamt die beste Modellqualität. Die Bedienung der Suite geht trotz des großen Funktionsumfangs nach einer kurzen Eingewöhnungsphase relativ rasch von der Hand. Die Ergebnisqualität bei RapidMiner fiel im Vergleich ab, insbesondere die Übertragbarkeit der Modelle erwies sich als gering. Ein großer Nachteil besteht darin, dass RapidMiner keine Möglichkeit bietet, die mit unterschiedlichen Verfahren erstellten Modelle automatisch zu vergleichen. KXEN lieferte eine gute Modellqualität und zeigte sich zudem bei der Berechnung als unerreicht schnell.

Das modernste Gesamtkonzept kann laut Studie der Anbieter KXEN mit einem als "Self-Acting Data Mining" bezeichneten Ansatz vorweisen, bei dem die Datenvorbereitung nahezu automatisch abläuft. Gepaart mit der schnellen Ausführungsgeschwindigkeit führt dies zu einer sehr hohen Analyseeffizienz. Beim Test mit großen Datenvolumina veränderte sich zudem die Performance von KXEN Analytic Framework kaum.

Bei SAP gestaltete sich hingegen bereits das Einlesen der Daten problematisch und erforderte teilweise langwierige manuelle Eingriffe. So muss hier für jede Datenspalte ein separates Infoobjekt angelegt werden - für 450 Variablen ein erheblicher manueller Aufwand. Resultate und Laufzeiten waren bei SAP zwar durchaus zufriedenstellend - wenn auch nicht ganz so gut wie die Vergleichswerte von SAS und KXEN. Die geringere Analyseeffizienz macht die SAP-Lösung allerdings in der Anwendung umständlich.

Bei der Qualität der Ergebnisse, die Ausführungsgeschwindigkeit bei großen Datenmengen und die Analyseeffizienz wiesen die Data-Mining-Tools im Test große Unterschiede auf.

SAS Enterprise Miner 5.3

RapidMiner 4.2

KXEN Analytic Framework 4.04

SAP Netweaver BI, Data Mining Workbench

Bewertung

Funktionsumfang

++

++

0

0

Systemverhalten bei großen Datenmengen

+

- -

++

nicht bewertet

Stabilität

+

0

++

+

Dokumentation

+

0

+

0

Gesamteffizient des Analyseprozesses

+

-

++

0

Automatisierungsgrad

0

-

++

-

Ausführungsgeschwindigkeit

+

-

++

+

Modellqualität

++

-

+

0

Legende: ++ sehr gut; +gut; 0 zufriedenstellend; - unbefriedigend; -- ungenügend.

Gesamtkosten im Auge behalten

Neben Funktionen und Leistung sollten Unternehmen bei der Produktauswahl im Data Mining die Gesamtkosten genau studieren, da diese erheblich variieren. Hier einige Hinweise: