SAS, KXEN, RapidMiner, SAP Netweaver BI

Vier Tools für Data Mining im Test

03.06.2009
Von 
Peter Neckel ist Analyst beim Data-Mining-Spezialisten Mayato.

Kritischer Blick auf die Performance

Um die Güte der Data-Mining-Ergebnisse (Modellqualität) umfassend zu beurteilen, wurden mit jedem Prüfkandidaten mehrere Prognosemodelle mit unterschiedlichen Verfahren erstellt: Die vier Lösungen wurden dazu zunächst mittels einer überschaubaren Testdatei mit 30.000 Datensätzen und 15 Variablen geprüft. Das Systemverhalten bei großen Datenmengen wurde anschließend durch Einlesen eines umfangreichen Datenvolumens mit 100.000 Datensätzen und 450 Variablen gemessen.

Die Benchmark-Daten enthielten eine Reihe typischer Datenqualitätsprobleme, mit denen Data-Mining-Tools umgehen können müssen, wie beispielsweise untereinander korrelierende Variablen, fehlende Werte oder Ausreißer. Schon im ersten Durchgang ergaben sich erhebliche Unterschiede in den Laufzeiten, die sich bei der Verarbeitung größerer Datenmengen noch verstärkten. Insbesondere der RapidMiner erwies sich in diesen Tests als instabil und zeigte drastisch verlängerte Berechnungszeiten mit höherem Datenvolumen. Die schlechte Skalierbarkeit der Lösung kann zum Ausschlusskriterium werden, wenn - wie durchaus häufig etwa im Handel, bei Banken oder Versicherungen - noch größere Datenmengen (wie Transaktionsdaten) verarbeitet werden sollen.

Die Effizienz der Analyse entscheidet

Dem SAS Enterprise Miner gelang insgesamt die beste Modellqualität. Die Bedienung der Suite geht trotz des großen Funktionsumfangs nach einer kurzen Eingewöhnungsphase relativ rasch von der Hand. Die Ergebnisqualität bei RapidMiner fiel im Vergleich ab, insbesondere die Übertragbarkeit der Modelle erwies sich als gering. Ein großer Nachteil besteht darin, dass RapidMiner keine Möglichkeit bietet, die mit unterschiedlichen Verfahren erstellten Modelle automatisch zu vergleichen. KXEN lieferte eine gute Modellqualität und zeigte sich zudem bei der Berechnung als unerreicht schnell.

Das modernste Gesamtkonzept kann laut Studie der Anbieter KXEN mit einem als "Self-Acting Data Mining" bezeichneten Ansatz vorweisen, bei dem die Datenvorbereitung nahezu automatisch abläuft. Gepaart mit der schnellen Ausführungsgeschwindigkeit führt dies zu einer sehr hohen Analyseeffizienz. Beim Test mit großen Datenvolumina veränderte sich zudem die Performance von KXEN Analytic Framework kaum.

Bei SAP gestaltete sich hingegen bereits das Einlesen der Daten problematisch und erforderte teilweise langwierige manuelle Eingriffe. So muss hier für jede Datenspalte ein separates Infoobjekt angelegt werden - für 450 Variablen ein erheblicher manueller Aufwand. Resultate und Laufzeiten waren bei SAP zwar durchaus zufriedenstellend - wenn auch nicht ganz so gut wie die Vergleichswerte von SAS und KXEN. Die geringere Analyseeffizienz macht die SAP-Lösung allerdings in der Anwendung umständlich.

Bei der Qualität der Ergebnisse, die Ausführungsgeschwindigkeit bei großen Datenmengen und die Analyseeffizienz wiesen die Data-Mining-Tools im Test große Unterschiede auf.

SAS Enterprise Miner 5.3

RapidMiner 4.2

KXEN Analytic Framework 4.04

SAP Netweaver BI, Data Mining Workbench

Bewertung

Funktionsumfang

++

++

0

0

Systemverhalten bei großen Datenmengen

+

- -

++

nicht bewertet

Stabilität

+

0

++

+

Dokumentation

+

0

+

0

Gesamteffizient des Analyseprozesses

+

-

++

0

Automatisierungsgrad

0

-

++

-

Ausführungsgeschwindigkeit

+

-

++

+

Modellqualität

++

-

+

0

Legende: ++ sehr gut; +gut; 0 zufriedenstellend; - unbefriedigend; -- ungenügend.