Data Mining Studie

So finden Sie das richtige Analyse-Werkzeug

24.08.2009 von Peter Neckel

Die Hersteller verpacken Data-Mining-Funktionen in immer vielfältigere Toolkonzepte. Welche Stärken und Schwächen die Werkzeuge im Praxistest zeigen, verrät diese Data Mining Studie von Mayato.

Data Mining ist inzwischen in die meisten Branchen und Unternehmensbereiche vorgedrungen - in vielen Unternehmen wäre das Tagesgeschäft ohne regelmäßige Analyseergebnisse nur mehr schwer vorstellbar. Vor allem in der klassischen Data-Mining-Domäne "Marketing & Vertrieb" haben analytische Fragestellungen nach wie vor höchste Priorität.

Aberdeen 3
Von den Klassenbesten haben 56 Prozent ihre BI-Anwendungen mit den eingesetzten Geschäftsapplikationen verknüpft, bei den Nachzüglern sind es nur 24 Prozent.

Aberdeen 2
Mehr als die Hälfte der von Aberdeen befragten Manager klagt darüber, dass die für Auswertungen benötigten Daten aus den Geschäftsanwendungen nicht im BI-System verfügbar sind. 40 Prozent gaben an, dass BI-Reports falsche Daten liefern. 27 Prozent hadern mit den BI-Tools. Diese seien zu wenig benutzerfreundlich.

Aberdeen 1
Oberste Priorität für Geschäftsverantwortliche hat die Beschleunigung des Zugriffs auf geschäftskritische Daten.

Im Speziellen gilt das Cross- und Upselling aktuell als der wichtigste Anwendungsbereich für das Data-Mining: Kaum noch ein (Web-)Versandhändler kommt ohne Empfehlungen der Art "Kunden, die dieses Produkt gekauft haben, kauften auch:…" oder "Was kaufen Kunden, nachdem Sie diesen Artikel angesehen haben?" aus. Die Erfolgsquote dieser zusätzlichen Produktangebote lässt sich durch Data-Mining-Analysen des Verbundkaufverhaltens (Assoziations- und Sequenzanalyse) deutlich verbessern. Diese Erkenntnisse nutzen derzeit auch andere Branchen wie zum Beispiel Finanzdienstleister und Versicherungen verstärkt, um Direktmarketingaktionen zielgenauer planen und umsetzen zu können.

Lesen Sie mehr zum Thema Data Mining und Business Intelligence:

Anforderungen an Data Mining steigen

Anwenderunternehmen stellen angesichts wachsender Herausforderungen hohe Ansprüche an moderne Data-Mining-Tools. Durch den Zugriff auf zusätzliche Datenquellen vervielfachen sich die zu analysierenden Datenmengen in immer kürzeren Abständen: Bei großen Versandhändlern gehen nicht selten 100.000 Bestellungen und mehr pro Tag ein.

Abgrenzung des Data Mining zu klassischen Analyseansätzen.

Die Aberdeen Group und Rexer Analytics haben im Mai beziehungsweise September 2008 unabhängig voneinander untersucht, welche Auswahlkriterien Unternehmen für Data-Mining-Software zugrunde legen. Das Ergebnis: Hohe Stabilität, der unkomplizierte Umgang mit großen Datenmengen, die Automatisierung von Standardaufgaben sowie die Qualität und Interpretierbarkeit der Ergebnisse stehen ganz oben auf der Wunschliste der Anwender.

Unübersichtliches Data-Mining-Angebot

Der Softwaremarkt für Data-Mining-Werkzeuge ist durch eine große "Artenvielfalt" an Lösungen gekennzeichnet, was zu einer gewissen Unübersichtlichkeit führt und den Anwenderunternehmen die Auswahl erschwert. Das Analysten- und Beratungshaus Mayato gibt in der "Data-Mining-Studie 2010" Tipps, die die Entscheidungsfindung erleichtern sollen.

Taxonomie der getesteten Data-Mining-Produkte.

Der Schwerpunkt liegt in der Analyse von Cross- und Upselling-Potenzialen mittels Assoziations- und Sequenzanalysen: Dazu mussten folgende fünf Data-Mining-Tools und -suiten ein umfangreiches Testszenario absolvieren, in dessen Verlauf die Softwarewerkzeuge anhand eines 1,8 Millionen Zeilen großen Testdatensatzes auf ihre Praxistauglichkeit geprüft wurden:

SAS Enterprise Miner 6.1
StatSoft Statistica Data Miner 9
KNIME 2.0.3
KXEN Analytic Framework 5.1.1
SAP NetWeaver 7.0 Data Mining Workbench.

Anhand einer Fallstudie mussten die Teilnehmer des Testfelds den gesamten Data-Mining-Prozess durchlaufen - von der Datenvorverarbeitung über die Datenexploration bis hin zur (grafischen) Darstellung und Interpretation der Ergebnisse. Bewertet wurden dabei unter anderem Bedienung, Stabilität, Systemverhalten bei großen Datenmengen, Dokumentation und die Gesamteffizienz des Analyseprozesses. Ausschlaggebend für die Wertung waren Kriterien wie Geschwindigkeit, Automatisierungsgrad und Ergebnisqualität. Die Ausführungsgeschwindigkeit haben die Prüfer mit einer Vielzahl unterschiedlicher Parametereinstellungen gemessen und dokumentiert. Zusätzlich zum umfangreichen Praxistest wurde für jedes getestete Werkzeug eine detaillierte Funktionsübersicht rund um die Assoziations- und Sequenzanalyse erstellt.

Grundtypen von Data-Mining-Produkten

Das klassische Analyseprozess im Überblick.

Die klassischen Data-Mining-Suiten zum Beispiel von SAS, SPSS oder StatSoft bieten Anwendern ein umfassendes Angebot an Vorverarbeitungsfunktionen für die Daten sowie vielfältige Data-Mining-Verfahren. Mittlerweile gibt es in dieser Kategorie auch einige Open-Source-Angebote. Neben den Suiten gibt es auf dem Markt schlankere Data-Mining-Werkzeuge mit reduzierter Funktionalität: Sie sind in der Regel auf bestimmte Anwendungsgebiete zum Beispiel das Controlling, oder Analysefälle beispielsweise Prognose- und Klassifizierungsaufgaben spezialisiert. Eine Sonderstellung in dieser Kategorie nimmt die softwaretechnische Umsetzung des Self-Acting Data Mining ein - dieser hochautomatisierte Ansatz kommt weitgehend ohne manuelle Datenvorverarbeitung und Parametrisierung aus. Darüber hinaus haben zahlreiche Datenbank- und Business-Intelligence-Anbieter wie SAP, Oracle und Microsoft teilweise recht umfangreiche Data-Mining-Funktionen in ihre Softwarepakete integriert.

Die Produktentscheidung in Sachen Data Mining will gut überlegt sein: Je nach Funktionsumfang und Nutzerzahl kann eine Client/Server-Lizenz durchaus mehrere Hunderttausend Euro in der Anschaffung sowie jährliche Wartungskosten ebenfalls im sechsstelligen Eurobereich verursachen. Es geht aber auch günstiger: Spezialisierte Data-Mining-Werkzeuge sind bereits für unter 10.000 Euro zu haben. Für Open-Source-Lösungen entfällt der Anschaffungspreis; hier sind jedoch jährliche Supportgebühren etwa im vierstelligen Eurobereich zu zahlen.

Test: Unterschiede im Funktionsumfang

Im Praxistest zeigte sich, dass die Bedienung der Data-Mining-Tools dank grafischer Benutzeroberflächen zwar grundsätzlich leicht von der Hand geht. Ein dominierendes Bedienkonzept, an dem sich die die meisten Anbieter orientieren, lässt sich jedoch nach wie vor nicht erkennen. Manche Hersteller gehen sogar dazu über, mehrere Modi für unterschiedliche Anwendertypen anzubieten.

Dennoch erfordern insbesondere die mächtigen Data-Mining-Suiten im Vergleich zu spezialisierten Werkzeugen nicht nur einen erhöhten Einarbeitungsaufwand, sondern auch fundiertes Hintergrundwissen. StatSoft und KXEN versuchen dem Gelegenheitsanwender entgegen zu kommen, indem sie beispielsweise Assistenten anbieten, die eine feste Abfolge an Analyseschritten vorgeben und die erforderlichen Eingaben dazu systematisch abfragen.

Mustertypen im Data Mining.

Deutliche Unterschiede lassen sich auch beim Funktionsumfang feststellen. Bei SAP und KNIME zeigen sich hier spürbare Lücken: Beide Tools bieten zum Beispiel keine Sequenzanalyse an, so dass die zeitlichen Abstände zwischen den Kauftransaktionen nicht berücksichtigt werden können. Das bedeutet in der Praxis eine deutliche Einschränkung, da so nicht nur zahlreiche analytische Anwendungsszenarien im Umfeld des Cross- und Upselling, sondern auch im Risiko-Management oder in der Betrugserkennung bei Banken und Versicherungen ausgeklammert werden.

Beide Werkzeuge bieten zudem nur eine rudimentäre Unterstützung bei der Ergebnisauswertung - bei großen Datenmengen ist der Anwender mit der Interpretation nicht sortierbarer Standardlisten, die mehrere Hundert Assoziationsregeln enthalten, deutlich überfordert. KNIME fällt zusätzlich bei der Laufzeit ab - im Wesentlichen verursacht durch die zeitraubende Datenvorverarbeitung, die für die Erstellung der zur internen Berechnung verwendeten Datenstruktur notwendig ist.

Dass es auch komfortabler geht, zeigen der SAS Enterprise Miner und der Statistica Data Miner. Sie punkten beide mit umfangreichen Funktionen, einer hohen Ausführungsgeschwindigkeit und sicherem Umgang mit großen Datenmengen. Insbesondere die von beiden Tools gebotenen, vielfältigen Optionen zur grafischen Aufbereitung und Exploration der Assoziationsregeln sind im Testfeld eine Klasse für sich.

Vor allem bei der grafischen Ergebnisauswertung zeigt hingegen das Analytic Framework von KXEN Schwächen: Hier kann der Anwender nur über eine - allerdings komfortabel konfigurierbare - Text-basierende Ausgabe verfügen. KXEN überzeugt vor allem mit der einsteigerfreundlichen Bedienung und seinem schnellen, selbstentwickelten Assoziationsverfahren. Es eignet sich somit insgesamt gut für das routinemäßige Analysieren großer Datenmengen.

Gesamtergebnis

Im Gesamtergebnis von Mayato landeten der SAS Enterprise Miner und der Statistica Data Miner gemeinsam auf dem ersten Platz. Sie punkten beide mit beeindruckendem Funktionsumfang, einer hohen Ausführungsgeschwindigkeit und sicherem Umgang mit großen Datenmengen. Knapp dahinter reiht sich KXEN ein: Das Analytic Framework reicht vor allem beim Funktionsumfang und der grafischen Ergebnisauswertung nicht an die Spitzengruppe heran, kann jedoch die Kategorien Bedienung, Systemstabilität und Automatisierungsgrad für sich entscheiden.

Reifegrad des Corporate Performance Management
Hohe Erwartungen: Auf einer Skala von 0 bis 5 bewerten die befragten Unternehmen den Reifegrad ihres Corporate Performance Managements. Für die Zukunft rechnen sie mit signifikanten Sprüngen auf der fachlichen, technischen und organisatorischen Ebene. Allerdings lehrt der Blick zurück, dass es in den vergangenen Jahren nicht so schnell voran ging wie gedacht – eine Ausnahme macht der Bereich Organisation.

Trends der kommenden Jahre
Die wichtigsten Trends im Überblick: Steria Mummert erwartet, dass es im technischen Bereich Fortschritte sowohl bei der Integration als auch bei der Flexibilität geben wird. Ansonsten gilt es das Problem zu lösen, dass die Anwender wegen der Fülle an verfügbaren Informationen immer mehr den Überblick verlieren. Dem wirkt die Individualisierung des Informationszugriffs ebenso entgegen wie ein Information Lifecycle Management, das für eine intelligente Entrümpelung im Data Warehouse sorgt. Auch die prognostizierten organisatorischen Neuerungen dienen in erster Linie den Bedürfnissen der Anwender aus den Fachabteilungen.

Agile Architekturen
Die Arbeitspraxis der User soll durch agile Architekturen unterstützt werden. Die Schlüsselrolle der Metadaten dabei macht diese Grafik von Steria Mummert deutlich. Die Anwender beziehen ihre Informationen nicht alleine aus dem zentralen Data Warehouse, sondern auch aus den unterschiedlichsten anderen Quellen – beispielsweise aus dem Internet. Um eine hohe Qualität der erstellten Berichte und Analysen zu gewährleisten, muss über Herkunft und Art auch dieser Daten Klarheit herrschen. Die dazu angelegten Metadaten bilden neben dem Data Warehouse den „Single Point of Truth“, an dem die verwendeten Informationen auf ihre Qualität hin überprüft werden können.

Mit deutlichem Abstand folgen die SAP NetWeaver Data Mining Workbench und KNIME. Beide Werkzeuge zeigen vor allem durch das Fehlen der Sequenzanalyse deutliche Lücken beim Funktionsumfang und bieten nur eine sehr rudimentäre Unterstützung bei der Ergebnisinterpretation. Zudem ist die Dokumentation stark ergänzungsbedürftig, was die Einarbeitung erschwert. KNIME landet bei der Ausführungsgeschwindigkeit auf dem letzten Platz - verursacht durch die zeitraubende Datenvorverarbeitung für das ungewöhnliche BitVector-Format.

Reifegrad von Data-Mining-Tools wächst

Dennoch ist unübersehbar, dass sich der Reifegrad von Data-Mining-Lösungen insgesamt deutlich erhöht hat. Dank eines immer vielfältigeren Produktangebotes und neuen Ansätzen wie Self-Acting Data Mining gibt es mittlerweile für nahezu jede (unternehmens-)spezifische Analyseaufgabe das passende Data-Mining-Werkzeug. Gerade die Assoziations- und Sequenzanalyse eignet sich aufgrund ihrer eingängigen Warenkorbmetapher, der geringen Datenanforderungen und der vielfältigen Anwendungsmöglichkeiten besonders gut als Einstieg in die explorative Datenanalyse.