Crossmediale Analysen, wie Werbung wirkt und beim Kunden ankommt, werden für viele Unternehmen immer wichtiger. Schließlich gilt es, die Marketing-Budgets möglichst effizient einzusetzen. Welche Tools sich am besten eignen, um Offline- mit Online-Werbedaten zu verknüpfen und Prognosen zur Reichweite, Akzeptanz und Werbewirkung zu erstellen, zeigt im Folgenden die aktuelle DataMining-Studie 2013 des BI-Analysten- und Beraterhauses Mayato.
Mit Hochdruck am Wissen arbeiten
Viele Unternehmen arbeiten mit Hochdruck daran, den zentralen Produktionsfaktor Wissen durch die Analyse von Daten jedweder Couleur weiter auszubauen - nicht erst, seit Schlagworte wie Big Data durch die Branche geistern. Die Einsatzgebiete besonders von explorativen Analyseansätzen wie Data Mining werden dabei branchenübergreifend in großen Schritten erweitert. Das gilt beispielsweise für Betrugserkennung bei Banken und Versicherungen, Kundenwertmodellierung, Kundensegmentierung und Kampagnen-Management-Steuerung im Handel oder Sensordatenanalyse und Fertigungsoptimierung im Automobilsektor.
Auch im Marketing, dem klassischen Anwendungsbereich für Data-Mining-Analysen, lassen sich immer neue Nutzungsmöglichkeiten erschließen. Viele Unternehmen stellen sich zum Beispiel angesichts der wachsenden Bedeutung von Online-Werbekanälen die Frage: Welchen Einfluss haben welche Werbemaßnahmen auf welchen Kanälen auf typische Zielgrößen wie Umsatz, Deckungsbeitrag oder Gewinn? Wie sollte dabei das Gesamt-Werbebudget auf die zahlreichen möglichen Werbemedien verteilt werden?
Wer die richtigen Antworten auf diese Fragen findet, ist im Vorteil. Die Optimierung dieser Aufteilung bietet den Unternehmen Potenzial, die eigenen Werbebudgets effizient einzusetzen: Allein in Deutschland werden jährlich vier Milliarden Euro nur für TV-Werbung ausgegeben.
Über 150 Analyse-Tools sind auf dem Markt
Die Tool-Hersteller reagieren auf die steigenden Anforderungen ihrer Kunden mit einer zunehmenden Spezialisierung: Gegenwärtig sind über 150 Datenanalysewerkzeuge auf dem Markt verfügbar. Darüber hinaus erfordern die deutlich komplexer werdenden analytischen Fragestellungen eine höhere Funktionalität, besonders bei der Datenvorverarbeitung und der Interpretation der Ergebnisse.
Die klassischen Data-Mining-Suiten zum Beispiel von SAS, IBM SPSS, Statsoft oder Angoss zeichnen sich vor allem durch eine umfassende Funktionalität aus, so dass sie den gesamten Analyseprozess abdecken können. Solche Suiten werden - mit einem vergleichbar mächtigen Funktionsumfang - seit einigen Jahren auch von Open-Source-Anbietern wie Rapid-I (RapidMiner), der KNIME.com AG (KNIME) oder den Universitäten Waikato (WEKA) oder Ljubljana (Orange) bereitgestellt.
Neben diesen "Komplettprodukten" gibt es die schlankeren Data-Mining-Werkzeuge mit reduzierter Funktionalität, wie sie etwa Viscovery (SOMine), Prudsys (RDE), 11Ants Analytics oder Bissantz (DeltaMaster) anbieten. Diese Tools setzen jedoch bereits weitgehend bereinigte Daten voraus, da etwa wichtige statistische Verfahren und Möglichkeiten zur Datenvorverarbeitung oft nicht implementiert sind.
Auch die Anbieter von Business-Intelligence-(BI-)Umgebungen haben mittlerweile erkannt, dass viele Nutzer ihre bereits konsolidiert in einer Datenbank vorliegenden Daten gerne direkt dort mit DataMining-Verfahren analysieren möchten - ohne den sonst üblichen, aber umständlichen Umweg über den Ex- und Import der Daten per .csv-Datei an ein separates Tool gehen zu müssen: So bieten zum Beispiel SAP (Data Mining Workbench), Oracle (Data Miner), Microsoft (SQL Server Analysis Services) oder Microstrategy (Data Mining Services) auch Data-Mining-Funktionen an.
Das Testfeld: Marktführende Analyse-Tools im Vergleich
In der diesjährigen Ausgabe der "Data Mining Studie" von Mayato treten zum ersten Mal die eher an die Belange von Statistikanwendern ausgerichteten Analysewerkzeuge gegeneinander an. Dem Marktführer "IBM SPSS Statistics Professional" wurde unter anderem das Statistikprodukt "Statistica Professionell" von Statsoft entgegengestellt. Von SAS Institute wurde bewusst nicht die Data-Mining-Suite "Enterprise Miner", sondern der "Enterprise Guide" ins Rennen geschickt. Zur Beurteilung der Leistungsfähigkeit von Open-Source-Software haben die Experten "RapidMiner" von Rapid-I und die darin integrierbare Programmiersprache für Statistik "R" ins Testfeld aufgenommen. Dieses besteht somit aus folgenden vier Tools:
- IBM SPSS Statistics Professional 21,
- Statsoft: Statistica Professionell 12,
- Rapid-I: RapidMiner 5.3 / R.
Das Testszenario: Media Analytics
Wie eingangs skizziert, bildet der Bereich Media Analytics ein aktuelles und zudem für Analyse-Tools anspruchsvolles Anwendungsfeld. Das konkrete Testszenario stellt sich folgendermaßen dar:
Ein App-Anbieter möchte sein Marketing-Budget effizient auf unterschiedliche Online- und Offline-Kanäle verteilen. Dazu müssen eine Reihe von Detailentscheidungen getroffen werden - zum Beispiel, in welchen Medien, auf welchen Kanälen, zu welchen Zeiten, in welcher Intensität für die App des Unternehmens geworben werden soll. Eine Offline-Kampagne des App-Anbieters im TV umfasste unter anderem mehrere hundert Ausstrahlungen auf dem Nachrichtensender N24, zu verschiedenen Zeiten, mit unterschiedlichen Zuschauerreichweiten und variierenden Spotlängen. Gleichzeitig wurde intensiv auf den Mobile-Marketing-Kanälen für die App geworben. Zudem hat auch das Ranking der App in einem Online-Portal wie dem App Store von Apple Einfluss auf die Nachfrage der Nutzer.
Um die damit verbundenen Entscheidungen durch Datenanalysen auf eine fundierte Grundlage zu stellen, wurden im Rahmen von Mayatos Media-Analytics-Ansatz Offline- und Online-Daten verknüpft, um den Einfluss der unterschiedlichen Werbemaßnahmen auf Online-Zielgrößen - im vorliegenden Fall die Anzahl der iOS-Installationen - sichtbar zu machen.
Zur Modellierung der beschriebenen Ursache-Wirkung-Zusammenhänge wurden unter anderem mehrere Prognosemodelle auf Basis von linearen Regressionsverfahren erstellt. Ziel war zum einen die Identifizierung der wesentlichen Einflussfaktoren der Online- und Offline-Werbung auf die Zielgröße. Zum anderen sollte die Zahl der App-Installationen unter gegebenen Werbebedingungen vorhergesagt werden. Der Praxistest erfolgte anhand einer Stichprobe aus den realen Datenbeständen des App-Anbieters.
Bewertungskriterien decken den Data-Mining-Prozess ab
Anhand des beschriebenen Szenarios wird der gesamte Analyseprozess im Test durchlaufen. Ein derart aufwendiges Testkonzept liefert wertvolle praxisrelevante Erkenntnisse im direkten Vergleich, die sich nicht aus den Produktbeschreibungen der Tool-Anbieter ableiten lassen.
Die Bewertung der Tools stützt sich dabei auf eine breite Zahl von Einzelkriterien. Dazu zählen sowohl Funktionalitätsaspekte wie der Funktionsumfang in den Kategorien:
- Datenvorverarbeitung,
- Analyseverfahren,
- Parametrisierung,
- Ergebnisvisualisierung,
- Gesamteffizienz,
und Faktoren, was die Benutzerfreundlichkeit betrifft:
- Stabilität,
- Ausführungsgeschwindigkeit,
- Dokumentation,
- Bedienung.
Ergebnisse des Praxistests: Tools liegen eng zusammen
Die diesjährige Gesamtbewertung zeigt, dass alle vier Testkandidaten vergleichsweise eng beieinanderliegen. Dies liegt zum einen daran, dass die getesteten Analyseprodukte im Vergleich zu den "klassischen" Data-Mining-Suiten (mit Ausnahme von RapidMiner) viele Jahre länger auf dem Softwaremarkt vertreten sind - zum Teil seit mittlerweile 30 Jahren. In dieser Zeit konnten die Anbieter ihre Tools stetig verfeinern und weiterentwickeln. Zum anderen gehört auch die getestete Regression seit vielen Jahren zu der in der Praxis am weitesten verbreiteten Verfahrensklasse - entsprechend ausgereift sind die Implementierungen.
In einigen Bereichen gibt es dennoch zum Teil gravierende Unterschiede zwischen den Testkandidaten - etwa bei der Benutzerfreundlichkeit. Generell führen die durchweg hohe Funktionsmächtigkeit der Werkzeuge und die vielfältigen Parametrisierungsmöglichkeiten zu vergleichsweise langen Einarbeitungszeiten.
Statsoft: Statistica Professional
Das gilt auch für Statistica Professionell von Statsoft, obwohl das Tool vor allem dank seiner modernen, über alle Analyseaufgaben und -produkte einheitlichen Oberfläche in Sachen Benutzerfreundlichkeit das Testfeld anführt. Die Funktionsvielfalt von Statistica ist hoch, besonders bei der Zahl wählbarer Regressionsverfahren, der Datenvorverarbeitung sowie der Parametrisierung der Verfahren.
SAS: Enterprise Guide
Bei der Funktionalität muss sich Statistica insgesamt jedoch dem Enterprise Guide von SAS knapp geschlagen geben. Dieser bietet dem Statistikexperten den großen Funktionsumfang von SAS/STAT. Trotz kleiner Schwächen steht den Nutzern über den gesamten Analyseprozess hinweg eine vielfältige Unterstützung selbst bei feingranularen Einstellungen zur Verfügung. Die Benutzerfreundlichkeit des Enterprise Guide ist hoch - allerdings weicht dieses Bedienkonzept stark von dem verwandter SAS-Produkte ab: Nutzer, die also zum Beispiel zusätzlich den Enterprise Miner oder das Data Integration Studio verwenden, müssen sich für jedes Tool auf eine andere Oberfläche einstellen.
IBM SPSS: Statistics Professional
Die besondere Stärke von Statistics Professional von IBM SPSS liegt in der sehr guten Visualisierung der Ergebnisse. Sie überzeugt durch hohe Flexibilität bei der Erstellung von Grafiken und bei ungewöhnlichen, aber übersichtlichen Ergebnisausgaben, etwa wenn es um die Darstellung der Regressionskoeffizienten geht. Allerdings fällt die Funktionalität von SPSS insgesamt etwas geringer aus als die der anderen Testkandidaten.
Rapid-I: RapidMiner
Wie schneidet im Vergleich zu den drei kommerziellen Produkten das einzige Open-Source-Tool im Test ab? RapidMiner hat über die letzten Jahre spürbar an Reife gewonnen, was zu einem Großteil auf das Konto der vollständig neu konzipierten, wesentlich übersichtlicheren Bedienoberfläche geht.
Im Testverlauf fielen allerdings auch Schwachstellen auf, die zeigen, dass RapidMiner nach wie vor Verbesserungspotenzial hat: Der csv-Importknoten erfordert zeitaufwendige manuelle Korrekturen, die "Forward Selection" im Zusammenspiel mit der linearen Regression gestaltet sich umständlich, und die neue, stark beworbene Bereitstellung von Metadaten ("Einzige Lösung mit Metadaten-Transformation: Vergessen Sie Trial-and-Error") erwies sich im Test als noch nicht ausgereift. Die fehlende automatische Erzeugung von Grafiken zur Ergebnisvisualisierung kann man zum Teil durch Verwendung von R kompensieren - die Integration in RapidMiner kann insgesamt als durchaus gelungen angesehen werden.
Fazit
Durch immer komplexere analytische Fragestellungen entsteht der Bedarf, neben unterschiedlichen Verfahren auch mehrere Analyseansätze (konfirmative und explorative) gleichzeitig zu nutzen. Dies bedeutet zum Beispiel, zumindest Teile eines Analyseszenarios "Hand in Hand" durch Auswertung von Reports, mit klassischen statistischen Methoden sowie durch Einsatz von Data-Mining-Techniken zu beantworten. Softwareprodukte, die derartige Funktionalität integriert unter einer einfach zu bedienenden Oberfläche anbieten, sind derzeit allerdings noch rare Ausnahmen.
Welchen positiven Effekt allein eine durchdachte Bedienung und eine kaum erklärungsbedürftige, ansprechende Oberfläche haben können, lässt sich beispielsweise bei einigen Herstellern innovativer OLAP- oder Reporting-Tools beobachten: Es gibt Tools, mit denen die Datenanalyse einer Entdeckungsreise gleicht - man navigiert leichtfüßig durch die Daten, lässt sich von interessanten Auffälligkeiten links und rechts des "Analyse-Wegesrands" leiten und hat mit wenigen Mausklicks einen umfassenden Eindruck von dem so erforschten Datenraums gewonnen.
Die Tool-Anbieter haben in nächster Zeit zahlreiche weitere - auch größere - Entwicklungsschritte vor sich. Dazu gehört zum Beispiel neben der höheren Automatisierung von analytischen Routineaufgaben die Bereitstellung leistungsstarker konfirmativer Verfahren, mit denen man die durch Data Mining erzeugten Hypothesen überprüfen kann - ohne die Ergebnisse in ein separates Tool überführen und gegebenenfalls dort neu aufbereiten zu müssen.