Data Mining ist inzwischen in die meisten Branchen und Unternehmensbereiche vorgedrungen - in vielen Unternehmen wäre das Tagesgeschäft ohne regelmäßige Analyseergebnisse nur mehr schwer vorstellbar. Vor allem in der klassischen Data-Mining-Domäne "Marketing & Vertrieb" haben analytische Fragestellungen nach wie vor höchste Priorität.
Im Speziellen gilt das Cross- und Upselling aktuell als der wichtigste Anwendungsbereich für das Data-Mining: Kaum noch ein (Web-)Versandhändler kommt ohne Empfehlungen der Art "Kunden, die dieses Produkt gekauft haben, kauften auch:…" oder "Was kaufen Kunden, nachdem Sie diesen Artikel angesehen haben?" aus. Die Erfolgsquote dieser zusätzlichen Produktangebote lässt sich durch Data-Mining-Analysen des Verbundkaufverhaltens (Assoziations- und Sequenzanalyse) deutlich verbessern. Diese Erkenntnisse nutzen derzeit auch andere Branchen wie zum Beispiel Finanzdienstleister und Versicherungen verstärkt, um Direktmarketingaktionen zielgenauer planen und umsetzen zu können.
Lesen Sie mehr zum Thema Data Mining und Business Intelligence:
-
Benutzerverhalten analysieren: Wie Web-Mining Internet-Daten ausschlachtet
-
Hintergrund Data-Mining-Konzept: Sechs Stufen für eine effiziente Analyse
Anforderungen an Data Mining steigen
Anwenderunternehmen stellen angesichts wachsender Herausforderungen hohe Ansprüche an moderne Data-Mining-Tools. Durch den Zugriff auf zusätzliche Datenquellen vervielfachen sich die zu analysierenden Datenmengen in immer kürzeren Abständen: Bei großen Versandhändlern gehen nicht selten 100.000 Bestellungen und mehr pro Tag ein.
Die Aberdeen Group und Rexer Analytics haben im Mai beziehungsweise September 2008 unabhängig voneinander untersucht, welche Auswahlkriterien Unternehmen für Data-Mining-Software zugrunde legen. Das Ergebnis: Hohe Stabilität, der unkomplizierte Umgang mit großen Datenmengen, die Automatisierung von Standardaufgaben sowie die Qualität und Interpretierbarkeit der Ergebnisse stehen ganz oben auf der Wunschliste der Anwender.
Unübersichtliches Data-Mining-Angebot
Der Softwaremarkt für Data-Mining-Werkzeuge ist durch eine große "Artenvielfalt" an Lösungen gekennzeichnet, was zu einer gewissen Unübersichtlichkeit führt und den Anwenderunternehmen die Auswahl erschwert. Das Analysten- und Beratungshaus Mayato gibt in der "Data-Mining-Studie 2010" Tipps, die die Entscheidungsfindung erleichtern sollen.
Der Schwerpunkt liegt in der Analyse von Cross- und Upselling-Potenzialen mittels Assoziations- und Sequenzanalysen: Dazu mussten folgende fünf Data-Mining-Tools und -suiten ein umfangreiches Testszenario absolvieren, in dessen Verlauf die Softwarewerkzeuge anhand eines 1,8 Millionen Zeilen großen Testdatensatzes auf ihre Praxistauglichkeit geprüft wurden:
-
SAS Enterprise Miner 6.1
-
StatSoft Statistica Data Miner 9
-
KNIME 2.0.3
-
KXEN Analytic Framework 5.1.1
-
SAP NetWeaver 7.0 Data Mining Workbench.
Anhand einer Fallstudie mussten die Teilnehmer des Testfelds den gesamten Data-Mining-Prozess durchlaufen - von der Datenvorverarbeitung über die Datenexploration bis hin zur (grafischen) Darstellung und Interpretation der Ergebnisse. Bewertet wurden dabei unter anderem Bedienung, Stabilität, Systemverhalten bei großen Datenmengen, Dokumentation und die Gesamteffizienz des Analyseprozesses. Ausschlaggebend für die Wertung waren Kriterien wie Geschwindigkeit, Automatisierungsgrad und Ergebnisqualität. Die Ausführungsgeschwindigkeit haben die Prüfer mit einer Vielzahl unterschiedlicher Parametereinstellungen gemessen und dokumentiert. Zusätzlich zum umfangreichen Praxistest wurde für jedes getestete Werkzeug eine detaillierte Funktionsübersicht rund um die Assoziations- und Sequenzanalyse erstellt.
Grundtypen von Data-Mining-Produkten
Die klassischen Data-Mining-Suiten zum Beispiel von SAS, SPSS oder StatSoft bieten Anwendern ein umfassendes Angebot an Vorverarbeitungsfunktionen für die Daten sowie vielfältige Data-Mining-Verfahren. Mittlerweile gibt es in dieser Kategorie auch einige Open-Source-Angebote. Neben den Suiten gibt es auf dem Markt schlankere Data-Mining-Werkzeuge mit reduzierter Funktionalität: Sie sind in der Regel auf bestimmte Anwendungsgebiete zum Beispiel das Controlling, oder Analysefälle beispielsweise Prognose- und Klassifizierungsaufgaben spezialisiert. Eine Sonderstellung in dieser Kategorie nimmt die softwaretechnische Umsetzung des Self-Acting Data Mining ein - dieser hochautomatisierte Ansatz kommt weitgehend ohne manuelle Datenvorverarbeitung und Parametrisierung aus. Darüber hinaus haben zahlreiche Datenbank- und Business-Intelligence-Anbieter wie SAP, Oracle und Microsoft teilweise recht umfangreiche Data-Mining-Funktionen in ihre Softwarepakete integriert.
Die Produktentscheidung in Sachen Data Mining will gut überlegt sein: Je nach Funktionsumfang und Nutzerzahl kann eine Client/Server-Lizenz durchaus mehrere Hunderttausend Euro in der Anschaffung sowie jährliche Wartungskosten ebenfalls im sechsstelligen Eurobereich verursachen. Es geht aber auch günstiger: Spezialisierte Data-Mining-Werkzeuge sind bereits für unter 10.000 Euro zu haben. Für Open-Source-Lösungen entfällt der Anschaffungspreis; hier sind jedoch jährliche Supportgebühren etwa im vierstelligen Eurobereich zu zahlen.
Test: Unterschiede im Funktionsumfang
Im Praxistest zeigte sich, dass die Bedienung der Data-Mining-Tools dank grafischer Benutzeroberflächen zwar grundsätzlich leicht von der Hand geht. Ein dominierendes Bedienkonzept, an dem sich die die meisten Anbieter orientieren, lässt sich jedoch nach wie vor nicht erkennen. Manche Hersteller gehen sogar dazu über, mehrere Modi für unterschiedliche Anwendertypen anzubieten.
Dennoch erfordern insbesondere die mächtigen Data-Mining-Suiten im Vergleich zu spezialisierten Werkzeugen nicht nur einen erhöhten Einarbeitungsaufwand, sondern auch fundiertes Hintergrundwissen. StatSoft und KXEN versuchen dem Gelegenheitsanwender entgegen zu kommen, indem sie beispielsweise Assistenten anbieten, die eine feste Abfolge an Analyseschritten vorgeben und die erforderlichen Eingaben dazu systematisch abfragen.
Deutliche Unterschiede lassen sich auch beim Funktionsumfang feststellen. Bei SAP und KNIME zeigen sich hier spürbare Lücken: Beide Tools bieten zum Beispiel keine Sequenzanalyse an, so dass die zeitlichen Abstände zwischen den Kauftransaktionen nicht berücksichtigt werden können. Das bedeutet in der Praxis eine deutliche Einschränkung, da so nicht nur zahlreiche analytische Anwendungsszenarien im Umfeld des Cross- und Upselling, sondern auch im Risiko-Management oder in der Betrugserkennung bei Banken und Versicherungen ausgeklammert werden.
Beide Werkzeuge bieten zudem nur eine rudimentäre Unterstützung bei der Ergebnisauswertung - bei großen Datenmengen ist der Anwender mit der Interpretation nicht sortierbarer Standardlisten, die mehrere Hundert Assoziationsregeln enthalten, deutlich überfordert. KNIME fällt zusätzlich bei der Laufzeit ab - im Wesentlichen verursacht durch die zeitraubende Datenvorverarbeitung, die für die Erstellung der zur internen Berechnung verwendeten Datenstruktur notwendig ist.
Dass es auch komfortabler geht, zeigen der SAS Enterprise Miner und der Statistica Data Miner. Sie punkten beide mit umfangreichen Funktionen, einer hohen Ausführungsgeschwindigkeit und sicherem Umgang mit großen Datenmengen. Insbesondere die von beiden Tools gebotenen, vielfältigen Optionen zur grafischen Aufbereitung und Exploration der Assoziationsregeln sind im Testfeld eine Klasse für sich.
Vor allem bei der grafischen Ergebnisauswertung zeigt hingegen das Analytic Framework von KXEN Schwächen: Hier kann der Anwender nur über eine - allerdings komfortabel konfigurierbare - Text-basierende Ausgabe verfügen. KXEN überzeugt vor allem mit der einsteigerfreundlichen Bedienung und seinem schnellen, selbstentwickelten Assoziationsverfahren. Es eignet sich somit insgesamt gut für das routinemäßige Analysieren großer Datenmengen.
Gesamtergebnis
Im Gesamtergebnis von Mayato landeten der SAS Enterprise Miner und der Statistica Data Miner gemeinsam auf dem ersten Platz. Sie punkten beide mit beeindruckendem Funktionsumfang, einer hohen Ausführungsgeschwindigkeit und sicherem Umgang mit großen Datenmengen. Knapp dahinter reiht sich KXEN ein: Das Analytic Framework reicht vor allem beim Funktionsumfang und der grafischen Ergebnisauswertung nicht an die Spitzengruppe heran, kann jedoch die Kategorien Bedienung, Systemstabilität und Automatisierungsgrad für sich entscheiden.
Mit deutlichem Abstand folgen die SAP NetWeaver Data Mining Workbench und KNIME. Beide Werkzeuge zeigen vor allem durch das Fehlen der Sequenzanalyse deutliche Lücken beim Funktionsumfang und bieten nur eine sehr rudimentäre Unterstützung bei der Ergebnisinterpretation. Zudem ist die Dokumentation stark ergänzungsbedürftig, was die Einarbeitung erschwert. KNIME landet bei der Ausführungsgeschwindigkeit auf dem letzten Platz - verursacht durch die zeitraubende Datenvorverarbeitung für das ungewöhnliche BitVector-Format.
Reifegrad von Data-Mining-Tools wächst
Dennoch ist unübersehbar, dass sich der Reifegrad von Data-Mining-Lösungen insgesamt deutlich erhöht hat. Dank eines immer vielfältigeren Produktangebotes und neuen Ansätzen wie Self-Acting Data Mining gibt es mittlerweile für nahezu jede (unternehmens-)spezifische Analyseaufgabe das passende Data-Mining-Werkzeug. Gerade die Assoziations- und Sequenzanalyse eignet sich aufgrund ihrer eingängigen Warenkorbmetapher, der geringen Datenanforderungen und der vielfältigen Anwendungsmöglichkeiten besonders gut als Einstieg in die explorative Datenanalyse.