Data Mining Studie 2010

So finden Sie das richtige Analyse-Tool

15.12.2009
Einen Überblick über den Markt der Data-Mining-Produkte und eine Bewertung von fünf einschlägigen Angeboten bietet die neue "Data Mining Studie 2010".

Von Peter Neckel*

Data Mining ist inzwischen in die meisten Branchen und Unternehmensbereiche vorgedrungen - in vielen Unternehmen wäre das Tagesgeschäft ohne regelmäßige Analyse nur sehr schwer vorstellbar. Vor allem in der klassischen Data-Mining-Domäne "Marketing & Vertrieb" haben analytische Fragestellungen nach wie vor höchste Priorität.

Im Speziellen gilt das Cross- und Upselling aktuell als der wichtigste Anwendungsbereich für Data-Mining: Kaum ein (Web-)Versandhändler kommt ohne Empfehlungen der Art "Kunden, die dieses Produkt gekauft haben, kauften auch…" oder "Was kaufen Kunden, nachdem Sie diesen Artikel angesehen haben?" aus. Die Erfolgsquote dieser zusätzlichen Produktangebote lässt sich durch Data-Mining-Analysen des Verbundkaufverhaltens (Assoziations- und Sequenzanalyse) deutlich verbessern. Diese Erkenntnisse nutzen derzeit auch andere Branchen wie zum Beispiel Finanzdienstleister und Versicherungen verstärkt, um Direktmarketingaktionen zielgenauer planen und umsetzen zu können.

Anforderungen an Data Mining steigen

Die Anwenderunternehmen stellen angesichts wachsender Herausforderungen inzwischen hohe Ansprüche an moderne Data-Mining-Tools. Durch den Zugriff auf zusätzliche Datenquellen vervielfachen sich die zu analysierenden Datenmengen in immer kürzeren Abständen: Bei großen Versandhändlern gehen nicht selten 100.000 Bestellungen und mehr pro Tag ein.

Die Aberdeen Group und Rexer Analytics haben im Mai beziehungsweise September 2008 unabhängig voneinander untersucht, welche Auswahlkriterien Unternehmen für Data-Mining-Software zugrunde legen. Das Ergebnis: Hohe Stabilität, der unkomplizierte Umgang mit großen Datenmengen, die Automatisierung von Standardaufgaben sowie die Qualität und Interpretierbarkeit der Ergebnisse stehen ganz oben auf der Wunschliste.

Allerdings ist der Softwaremarkt für Data-Mining-Werkzeuge durch eine große "Artenvielfalt" an Lösungen gekennzeichnet, was zu einer gewissen Unübersichtlichkeit führt und den Anwendern die Auswahl erschwert. Die klassischen Data-Mining-Suiten zum Beispiel von SAS, SPSS oder Statsoft bieten Anwendern ein umfassendes Angebot an Vorverarbeitungsfunktionen für die Daten sowie vielfältige Data-Mining-Verfahren. Mittlerweile gibt es in dieser Kategorie auch einige Open-Source-Angebote. Neben den Suiten gibt es auf dem Markt schlankere Data-Mining-Werkzeuge mit reduzierter Funktionalität: Sie sind in der Regel auf bestimmte Anwendungsgebiete, zum Beispiel auf das Controlling, oder Analysefälle wie Prognose- und Klassifizierungsaufgaben spezialisiert. Eine Sonderstellung in dieser Kategorie nimmt die softwaretechnische Umsetzung des Self-Acting Data Mining ein - dieser hochautomatisierte Ansatz kommt weitgehend ohne manuelle Datenvorverarbeitung und Parametrisierung aus. Darüber hinaus haben zahlreiche Datenbank- und Business-Intelligence-Anbieter wie SAP, Oracle und Microsoft teilweise recht umfangreiche Data-Mining-Funktionen in ihre Softwarepakete integriert.

Die Produktentscheidung in Sachen Data Mining will also gut überlegt sein: Je nach Funktionsumfang und Nutzerzahl kann eine Client-Server-Lizenz durchaus mehrere Hunderttausend Euro in der Anschaffung sowie jährliche Wartungskosten im ebenfalls sechsstelligen Euro-Bereich verursachen. Es geht aber auch günstiger: Spezialisierte Data-Mining-Werkzeuge sind bereits für unter 10.000 Euro zu haben. Für Open-Source-Lösungen entfällt der Anschaffungspreis; hier sind jedoch jährliche Supportgebühren etwa im vierstelligen Euro-Bereich zu zahlen.

Eine Orientierung bei der Produktauswahl soll die Data-Mining-Studie 2010 von Mayato verschaffen. Der Schwerpunkt der diesjährigen Ausgabe liegt in der Analyse von Cross- und Upselling-Potenzialen mittels Assoziations- und Sequenzanalysen: Dazu mussten folgende fünf Data-Mining-Tools und -suiten ein umfangreiches Testszenario absolvieren, in dessen Verlauf die Softwarewerkzeuge anhand eines 1,8 Millionen Zeilen großen Testdatensatzes auf ihre Praxistauglichkeit geprüft wurden:

  • SAS Enterprise Miner 6.1

  • Statsoft Statistica Data Miner 9

  • Knime 2.0.3

  • Kxen Analytic Framework 5.1.1

  • SAP Netweaver 7.0 Data Mining Workbench.

Anhand einer Fallstudie mussten die Teilnehmer des Testlaufs den gesamten Data-Mining-Prozess durchlaufen - von der Datenvorverarbeitung über die Datenexploration bis hin zur (grafischen) Darstellung und Interpretation der Ergebnisse. Bewertet wurden dabei unter anderem Bedienung, Stabilität, Systemverhalten bei großen Datenmengen, Dokumentation und die Gesamteffizienz des Analyseprozesses. Ausschlaggebend für die Wertung waren Kriterien wie Geschwindigkeit, Automatisierungsgrad und Ergebnisqualität. Zusätzlich zum Praxistest wurde für jedes getestete Werkzeug eine detaillierte Funktionsübersicht rund um die Assoziations- und Sequenzanalyse erstellt.

Im Praxistest zeigte sich, dass die Bedienung der Data-Mining-Tools dank grafischer Benutzeroberflächen zwar grundsätzlich leicht von der Hand geht. Ein dominierendes Bedienkonzept, an dem sich die meisten Anbieter orientieren, lässt sich jedoch nach wie vor nicht erkennen. Manche Hersteller gehen sogar dazu über, mehrere Modi für unterschiedliche Anwendertypen anzubieten.

Dennoch erfordern insbesondere die mächtigen Data-Mining-Suiten im Vergleich zu spezialisierten Werkzeugen nicht nur einen erhöhten Einarbeitungsaufwand, sondern auch fundiertes Hintergrundwissen. Statsoft und Kxen versuchen dem Gelegenheitsanwender entgegen zu kommen, indem sie beispielsweise Assistenten anbieten, die eine feste Abfolge an Analyseschritten vorgeben und die erforderlichen Eingaben dazu systematisch abfragen.

Deutliche Unterschiede lassen sich auch beim Funktionsumfang feststellen. SAP und Knime zeigen hier deutliche Lücken - beide Tools bieten zum Beispiel keine Sequenzanalyse an, so dass die zeitlichen Abstände zwischen Kauftransaktionen nicht berücksichtigt werden können. Das bedeutet in der Praxis eine deutliche Einschränkung, da so nicht nur zahlreiche analytische Anwendungsszenarien im Umfeld des Cross- und Upselling, sondern auch im Risiko-Management oder in der Betrugserkennung bei Banken und Versicherungen ausgeklammert werden.

Beide Werkzeuge bieten zudem nur eine rudimentäre Unterstützung bei der Ergebnisauswertung: Bei großen Datenmengen ist der Anwender mit der Interpretation nicht sortierbarer Standardlisten, die mehrere hundert Assoziationsregeln enthalten, deutlich überfordert. Knime fällt zusätzlich bei der Laufzeit ab, im Wesentlichen verursacht durch die zeitraubende Datenvorverarbeitung, die für die Erstellung der zur internen Berechnung verwendeten Datenstruktur notwendig ist.

Dass es auch komfortabler geht, zeigen der SAS Enterprise Miner und der Statistica Data Miner. Sie punkten beide mit umfangreichen Funktionen, einer hohen Ausführungsgeschwindigkeit und dem sicheren Umgang mit großen Datenmengen. Insbesondere die von beiden Tools gebotenen, vielfältigen Optionen zur grafischen Aufbereitung und Exploration der Assoziationsregeln sind im Testfeld eine Klasse für sich.

Vor allem bei der grafischen Ergebnisauswertung zeigt hingegen das Analytic Framework von Kxen Schwächen: Hier kann der Anwender nur über eine - allerdings komfortabel konfigurierbare - textbasierende Ausgabe verfügen. Kxen überzeugt vor allem mit der einsteigerfreundlichen Bedienung und seinem schnellen, selbstentwickelten Assoziationsverfahren. Es eignet sich somit insgesamt gut für die routinemäßige Analyse großer Datenmengen. (ba)

*Peter Neckel ist Analyst beim Beratungshaus Mayato in Berlin.

Testergebnis

- Im Gesamtergebnis landeten der SAS Enterprise Miner und der Statistica Data Miner gemeinsam auf dem ersten Platz. Sie punkten beide mit beeindruckendem Funktionsumfang, einer hohen Ausführungsgeschwindigkeit und dem sicheren Umgang mit großen Datenmengen.

- Knapp dahinter reiht sich Kxen ein: Das Analytic Framework reicht vor allem beim Funktionsumfang und der grafischen Ergebnisauswertung nicht an die Spitzengruppe heran, kann jedoch die Kategorien Bedienung, Systemstabilität und Automatisierungsgrad für sich entscheiden.

- Mit deutlichem Abstand folgen die SAP Netweaver Data Mining Workbench und Knime. Beide Werkzeuge zeigen vor allem durch das Fehlen der Sequenzanalyse deutliche Lücken beim Funktionsumfang und bieten nur eine sehr rudimentäre Unterstützung bei der Ergebnisinterpretation. Zudem ist die Dokumentation stark ergänzungsbedürftig, was die Einarbeitung erschwert.

- Knime landet bei der Ausführungsgeschwindigkeit auf dem letzten Platz - verursacht durch die zeitraubende Datenvorverarbeitung für das ungewöhnliche Bitvector-Format.

Reifegrad von Data-Mining-Tools wächst

Dennoch ist unübersehbar, dass sich der Reifegrad von Data-Mining-Lösungen insgesamt deutlich erhöht hat. Dank eines immer vielfältigeren Produktangebotes und neuen Ansätzen wie Self-Acting Data Mining gibt es mittlerweile für nahezu jede (unternehmens-)spezifische Analyseaufgabe das passende Data-Mining-Werkzeug. Gerade die Assoziations- und Sequenzanalyse eignet sich aufgrund ihrer eingängigen Warenkorbmetapher, der geringen Datenanforderungen und der vielfältigen Anwendungsmöglichkeiten besonders gut als Einstieg in die explorative Datenanalyse.