Data Mining

Analyse-Tools für Media Analytics im Test

25.04.2013 von Peter Neckel

Komplexere Fragestellungen erfordern ausgefeilte Analysetechniken. Mayato hat daher in einer Data-Mining-Studie verschiedene Media-Analytics-Tools untersucht.

Crossmediale Analysen, wie Werbung wirkt und beim Kunden ankommt, werden für viele Unternehmen immer wichtiger. Schließlich gilt es, die Marketing-Budgets möglichst effizient einzusetzen. Welche Tools sich am besten eignen, um Offline- mit Online-Werbedaten zu verknüpfen und Prognosen zur Reichweite, Akzeptanz und Werbewirkung zu erstellen, zeigt im Folgenden die aktuelle DataMining-Studie 2013 des BI-Analysten- und Beraterhauses Mayato.

Mit Hochdruck am Wissen arbeiten

Data-Mining bietet eine umfangreiche Datenanalyse etwa für Marketing- und Werbemaßnahmen.
Foto: Paul Fleet/Fotolia.com

Viele Unternehmen arbeiten mit Hochdruck daran, den zentralen Produktionsfaktor Wissen durch die Analyse von Daten jedweder Couleur weiter auszubauen - nicht erst, seit Schlagworte wie Big Data durch die Branche geistern. Die Einsatzgebiete besonders von explorativen Analyseansätzen wie Data Mining werden dabei branchenübergreifend in großen Schritten erweitert. Das gilt beispielsweise für Betrugserkennung bei Banken und Versicherungen, Kundenwertmodellierung, Kundensegmentierung und Kampagnen-Management-Steuerung im Handel oder Sensordatenanalyse und Fertigungsoptimierung im Automobilsektor.

Auch im Marketing, dem klassischen Anwendungsbereich für Data-Mining-Analysen, lassen sich immer neue Nutzungsmöglichkeiten erschließen. Viele Unternehmen stellen sich zum Beispiel angesichts der wachsenden Bedeutung von Online-Werbekanälen die Frage: Welchen Einfluss haben welche Werbemaßnahmen auf welchen Kanälen auf typische Zielgrößen wie Umsatz, Deckungsbeitrag oder Gewinn? Wie sollte dabei das Gesamt-Werbebudget auf die zahlreichen möglichen Werbemedien verteilt werden?

Wer die richtigen Antworten auf diese Fragen findet, ist im Vorteil. Die Optimierung dieser Aufteilung bietet den Unternehmen Potenzial, die eigenen Werbebudgets effizient einzusetzen: Allein in Deutschland werden jährlich vier Milliarden Euro nur für TV-Werbung ausgegeben.

Erfahrungen beim Einsatz von Big Data

Erfahrungen beim Einsatz von Big-Data-Techniken
Es ist nicht so, dass noch niemand Big-Data-Projekte angegangen wäre. Es gibt sogar einige Beispiele von Unternehmen, die solche Projekte mit Erfolg absolviert haben.

Deutsche Welle
„Essenziell auch für Big-Data-Projekte sind eine klare Aufgabenstellung, Fokus auf die Lösung und die Nutzer dieser Lösung (weniger auf neueste Informationstechnik) und nicht zuletzt auch ein Gespür für Usability und Funktionsumfang eines Reporting-/Analyse-Dashboards. Weniger ist hier meistens mehr.“

DeutschlandCard GmbH
„Nur ein minutiöser Migrationsplan mit mindestens einer kompletten Generalprobe inklusive Fallback-Test sichert die Betriebssicherheit einer solch komplexen Applikation mit ihren zahlreichen Schnittstellen zu externen Partnern.“

Schukat Electronic
„Big Data Analytics ist nicht nur eine Herausforderung für Großunternehmen. Auch der Mittelstand muss sich immer mehr mit diesem Thema beschäftigen, um im internationalen Wettbewerb erfolgreich zu sein. Das Anwendungsbeispiel verdeutlicht den Nutzen im Vertrieb. Aber beispielsweise auch in der Produktion mit Sensordaten etc. gibt es vielfältige Szenarien in den Fachabteilungen.“

Otto Versand
„Wir haben erkannt, dass für unsere Anforderungen ein selbstlernendes System notwendig ist, das sich stetig ändernde Einflussfaktoren wie Ansprache und Artikel- Ranking oder im Printbereich Seitenanteil und Katalogausstoßmenge berücksichtigt. Damit steigt unsere Prognosequalität kontinuierlich, und die prognostizierten Absatzmengen werden immer präziser. Außerdem können wir uns frühzeitig auf künftige Entwicklungen einstellen.“

Macy‘s
„Der Business-Nutzen zeigt sich erst, wenn Prozesse, die aufgrund fehlender Möglichkeiten bewusst eingeschränkt waren, verbessert werden. In diesem Fall ist es die früher gar nicht mögliche, sehr viel häufigere Preisoptimierung im Gesamtsortiment. Auch können nun sehr viel aktuellere Abverkaufszahlen mit in die Analyse einbezogen werden.“

Telecom Italia
„Bestehende Segmentierungsmodelle können um rollenbasierte Modelle erweitert werden, indem der Einfluss auf das soziale Umfeld durch Leader, Follower etc. verdeutlicht wird. Leader gelten als Kommunikations-Hubs und haben einen starken Entscheidungseinfluss auf ihr Umfeld. Marketing- Strategien und Ansätze zur Kundenakquise können durch SNA optimiert werden. Eigenschaften der Communities, Wechsel zwischen den Communities und die Identifikation von Teilnehmern in Schnittstellenbereichen ermöglichen Rückschlüsse auf neue Kundensegmente und Zielgruppen.“

Netapp
„Das auf Apache Hadoop basierende System arbeitet sicher, zuverlässig und höchst performant. Die Java-basierende Plattform verwendet offene Technologien und ist somit flexibel erweiterbar. Kunden vermeiden so bei niedrigen Betriebskosten (TCO) ein Vendor-Lock-in.“

Semikron GmbH
„Big-Data-Projekte sind komplex. Oft sind Unternehmen nicht in der Lage, ihre tatsächlichen Datenbestände für die geplanten Projektvorhaben hinsichtlich ihrer Volumenentwicklung abzuschätzen. Bei Semikron hat sich beispielsweise gezeigt, dass sie von einem viel größeren Datenvolumen ausgegangen sind, als es tatsächlich der Fall war. Bei dem durchgeführten Proof of Concept stellte sich heraus, dass zwar die Vielzahl an Daten, die in den typischen Produktionsprozessen anfallen, sehr hoch ist, nicht aber das Datenvolumen.“

Vaillant Group
„Allein die Umstellung der Systemlandschaft auf innovative Big-Data-Architekturen aus technischer IT-Perspektive ergibt belastbare Business Cases zur Reduzierung des TCO. Noch deutlich übertroffen werden für Fachabteilungen die Resultate aus dem Mehrwert der neuen Lösungen und Möglichkeiten in Verbindung mit der drastischen Reduzierung der Bearbeitungszeiten durch die Anwender.“

TomTom
„Um die kompletten Anforderungen des Kunden in Big- Data-Projekten erfüllen zu können, ist übergreifendes Know-how erforderlich, das die Konfiguration von Hard- und Software, das Tuning und technisches Consulting umfasst.“

United Overseas Bank (Singapur)
„Entscheidend ist das Denken in Geschäftsprozessen. Wird nur ein Teil beschleunigt, der Gesamtprozess bleibt aber unangetastet, so lässt sich der Vorteil nicht realisieren. Sowohl das Daten-Management im Vorfeld als auch die Echtzeit-Nutzung der Echtzeit-Ergebnisse sind bestimmende Faktoren für den erfolgreichen Einsatz dieser neuen Lösung.“

Xing
„In kürzester Zeit stellten sich positive Effekte bei Xing ein, vor allem eine deutliche Verbesserung bei den Analysen. Prozesse können durch die neue Lösung schneller entwickelt und Ad-hoc Anfragen zügiger beantwortet werden. Es sind keine langen Workarounds mehr notwendig, alle BI-Mitarbeiter nutzen das neue System effektiv. Die Komplexität und die Wartung des Systems wurden merklich verringert. Bei der Arbeit mit der neuen Lösung konnte eine steile Lernkurve seitens der Anwender verzeichnet werden, auch wird spürbar produktiver gearbeitet.“

In eigener Sache:
Mit diesen Anwenderzitaten wollen wir Ihnen Lust machen auf das nächste Heft in unserer vierteiligen Quadriga-Reihe. Titelthema ist Big Data. Anwenderbeispiele, visionäre Konzepte und Meinungen runden das Thema ab. Auch auf die Megatrends Mobility, Cloud Computing und Social Media werden wir wieder eingehen. Erscheinungstermin: 10. Juni 2013.

Über 150 Analyse-Tools sind auf dem Markt

Die Tool-Hersteller reagieren auf die steigenden Anforderungen ihrer Kunden mit einer zunehmenden Spezialisierung: Gegenwärtig sind über 150 Datenanalysewerkzeuge auf dem Markt verfügbar. Darüber hinaus erfordern die deutlich komplexer werdenden analytischen Fragestellungen eine höhere Funktionalität, besonders bei der Datenvorverarbeitung und der Interpretation der Ergebnisse.

Die klassischen Data-Mining-Suiten zum Beispiel von SAS, IBM SPSS, Statsoft oder Angoss zeichnen sich vor allem durch eine umfassende Funktionalität aus, so dass sie den gesamten Analyseprozess abdecken können. Solche Suiten werden - mit einem vergleichbar mächtigen Funktionsumfang - seit einigen Jahren auch von Open-Source-Anbietern wie Rapid-I (RapidMiner), der KNIME.com AG (KNIME) oder den Universitäten Waikato (WEKA) oder Ljubljana (Orange) bereitgestellt.

Neben diesen "Komplettprodukten" gibt es die schlankeren Data-Mining-Werkzeuge mit reduzierter Funktionalität, wie sie etwa Viscovery (SOMine), Prudsys (RDE), 11Ants Analytics oder Bissantz (DeltaMaster) anbieten. Diese Tools setzen jedoch bereits weitgehend bereinigte Daten voraus, da etwa wichtige statistische Verfahren und Möglichkeiten zur Datenvorverarbeitung oft nicht implementiert sind.

Auch die Anbieter von Business-Intelligence-(BI-)Umgebungen haben mittlerweile erkannt, dass viele Nutzer ihre bereits konsolidiert in einer Datenbank vorliegenden Daten gerne direkt dort mit DataMining-Verfahren analysieren möchten - ohne den sonst üblichen, aber umständlichen Umweg über den Ex- und Import der Daten per .csv-Datei an ein separates Tool gehen zu müssen: So bieten zum Beispiel SAP (Data Mining Workbench), Oracle (Data Miner), Microsoft (SQL Server Analysis Services) oder Microstrategy (Data Mining Services) auch Data-Mining-Funktionen an.

Das Testfeld: Marktführende Analyse-Tools im Vergleich

Abgrenzung des Data Mining von klassischen Analyseansätzen: Explorative Analysen zielen darauf ab, bestimmte Muster in Daten zu erkennen. Darauf aufbauend lassen sich dann mit Hilfe von Data-Mining-Verfahren Antworten finden.
Foto: Mayato

In der diesjährigen Ausgabe der "Data Mining Studie" von Mayato treten zum ersten Mal die eher an die Belange von Statistikanwendern ausgerichteten Analysewerkzeuge gegeneinander an. Dem Marktführer "IBM SPSS Statistics Professional" wurde unter anderem das Statistikprodukt "Statistica Professionell" von Statsoft entgegengestellt. Von SAS Institute wurde bewusst nicht die Data-Mining-Suite "Enterprise Miner", sondern der "Enterprise Guide" ins Rennen geschickt. Zur Beurteilung der Leistungsfähigkeit von Open-Source-Software haben die Experten "RapidMiner" von Rapid-I und die darin integrierbare Programmiersprache für Statistik "R" ins Testfeld aufgenommen. Dieses besteht somit aus folgenden vier Tools:

- IBM SPSS Statistics Professional 21,

- Statsoft: Statistica Professionell 12,

- SAS Enterprise Guide 5.1,

- Rapid-I: RapidMiner 5.3 / R.

Das Testszenario: Media Analytics

Wie eingangs skizziert, bildet der Bereich Media Analytics ein aktuelles und zudem für Analyse-Tools anspruchsvolles Anwendungsfeld. Das konkrete Testszenario stellt sich folgendermaßen dar:

Ein App-Anbieter möchte sein Marketing-Budget effizient auf unterschiedliche Online- und Offline-Kanäle verteilen. Dazu müssen eine Reihe von Detailentscheidungen getroffen werden - zum Beispiel, in welchen Medien, auf welchen Kanälen, zu welchen Zeiten, in welcher Intensität für die App des Unternehmens geworben werden soll. Eine Offline-Kampagne des App-Anbieters im TV umfasste unter anderem mehrere hundert Ausstrahlungen auf dem Nachrichtensender N24, zu verschiedenen Zeiten, mit unterschiedlichen Zuschauerreichweiten und variierenden Spotlängen. Gleichzeitig wurde intensiv auf den Mobile-Marketing-Kanälen für die App geworben. Zudem hat auch das Ranking der App in einem Online-Portal wie dem App Store von Apple Einfluss auf die Nachfrage der Nutzer.

Um die damit verbundenen Entscheidungen durch Datenanalysen auf eine fundierte Grundlage zu stellen, wurden im Rahmen von Mayatos Media-Analytics-Ansatz Offline- und Online-Daten verknüpft, um den Einfluss der unterschiedlichen Werbemaßnahmen auf Online-Zielgrößen - im vorliegenden Fall die Anzahl der iOS-Installationen - sichtbar zu machen.

Zur Modellierung der beschriebenen Ursache-Wirkung-Zusammenhänge wurden unter anderem mehrere Prognosemodelle auf Basis von linearen Regressionsverfahren erstellt. Ziel war zum einen die Identifizierung der wesentlichen Einflussfaktoren der Online- und Offline-Werbung auf die Zielgröße. Zum anderen sollte die Zahl der App-Installationen unter gegebenen Werbebedingungen vorhergesagt werden. Der Praxistest erfolgte anhand einer Stichprobe aus den realen Datenbeständen des App-Anbieters.

Bewertungskriterien decken den Data-Mining-Prozess ab

Anhand des beschriebenen Szenarios wird der gesamte Analyseprozess im Test durchlaufen. Ein derart aufwendiges Testkonzept liefert wertvolle praxisrelevante Erkenntnisse im direkten Vergleich, die sich nicht aus den Produktbeschreibungen der Tool-Anbieter ableiten lassen.

Die Bewertung der Tools stützt sich dabei auf eine breite Zahl von Einzelkriterien. Dazu zählen sowohl Funktionalitätsaspekte wie der Funktionsumfang in den Kategorien:

- Datenvorverarbeitung,

- Analyseverfahren,

- Parametrisierung,

- Ergebnisvisualisierung,

- Gesamteffizienz,

und Faktoren, was die Benutzerfreundlichkeit betrifft:

- Stabilität,

- Ausführungsgeschwindigkeit,

- Dokumentation,

- Bedienung.

Ergebnisse des Praxistests: Tools liegen eng zusammen

Der Markt bietet den Anwendern eine Reihe unterschiedlicher Data-Mining-Produkte: Die Palette reicht von mächtigen Suiten bis hin zu Spezialwerkzeugen.
Foto: Mayato

Die diesjährige Gesamtbewertung zeigt, dass alle vier Testkandidaten vergleichsweise eng beieinanderliegen. Dies liegt zum einen daran, dass die getesteten Analyseprodukte im Vergleich zu den "klassischen" Data-Mining-Suiten (mit Ausnahme von RapidMiner) viele Jahre länger auf dem Softwaremarkt vertreten sind - zum Teil seit mittlerweile 30 Jahren. In dieser Zeit konnten die Anbieter ihre Tools stetig verfeinern und weiterentwickeln. Zum anderen gehört auch die getestete Regression seit vielen Jahren zu der in der Praxis am weitesten verbreiteten Verfahrensklasse - entsprechend ausgereift sind die Implementierungen.

In einigen Bereichen gibt es dennoch zum Teil gravierende Unterschiede zwischen den Testkandidaten - etwa bei der Benutzerfreundlichkeit. Generell führen die durchweg hohe Funktionsmächtigkeit der Werkzeuge und die vielfältigen Parametrisierungsmöglichkeiten zu vergleichsweise langen Einarbeitungszeiten.

Statsoft: Statistica Professional

Das gilt auch für Statistica Professionell von Statsoft, obwohl das Tool vor allem dank seiner modernen, über alle Analyseaufgaben und -produkte einheitlichen Oberfläche in Sachen Benutzerfreundlichkeit das Testfeld anführt. Die Funktionsvielfalt von Statistica ist hoch, besonders bei der Zahl wählbarer Regressionsverfahren, der Datenvorverarbeitung sowie der Parametrisierung der Verfahren.

SAS: Enterprise Guide

Bei der Funktionalität muss sich Statistica insgesamt jedoch dem Enterprise Guide von SAS knapp geschlagen geben. Dieser bietet dem Statistikexperten den großen Funktionsumfang von SAS/STAT. Trotz kleiner Schwächen steht den Nutzern über den gesamten Analyseprozess hinweg eine vielfältige Unterstützung selbst bei feingranularen Einstellungen zur Verfügung. Die Benutzerfreundlichkeit des Enterprise Guide ist hoch - allerdings weicht dieses Bedienkonzept stark von dem verwandter SAS-Produkte ab: Nutzer, die also zum Beispiel zusätzlich den Enterprise Miner oder das Data Integration Studio verwenden, müssen sich für jedes Tool auf eine andere Oberfläche einstellen.

IBM SPSS: Statistics Professional

Die besondere Stärke von Statistics Professional von IBM SPSS liegt in der sehr guten Visualisierung der Ergebnisse. Sie überzeugt durch hohe Flexibilität bei der Erstellung von Grafiken und bei ungewöhnlichen, aber übersichtlichen Ergebnisausgaben, etwa wenn es um die Darstellung der Regressionskoeffizienten geht. Allerdings fällt die Funktionalität von SPSS insgesamt etwas geringer aus als die der anderen Testkandidaten.

Rapid-I: RapidMiner

Wie schneidet im Vergleich zu den drei kommerziellen Produkten das einzige Open-Source-Tool im Test ab? RapidMiner hat über die letzten Jahre spürbar an Reife gewonnen, was zu einem Großteil auf das Konto der vollständig neu konzipierten, wesentlich übersichtlicheren Bedienoberfläche geht.

Im Testverlauf fielen allerdings auch Schwachstellen auf, die zeigen, dass RapidMiner nach wie vor Verbesserungspotenzial hat: Der csv-Importknoten erfordert zeitaufwendige manuelle Korrekturen, die "Forward Selection" im Zusammenspiel mit der linearen Regression gestaltet sich umständlich, und die neue, stark beworbene Bereitstellung von Metadaten ("Einzige Lösung mit Metadaten-Transformation: Vergessen Sie Trial-and-Error") erwies sich im Test als noch nicht ausgereift. Die fehlende automatische Erzeugung von Grafiken zur Ergebnisvisualisierung kann man zum Teil durch Verwendung von R kompensieren - die Integration in RapidMiner kann insgesamt als durchaus gelungen angesehen werden.

Fazit

Durch immer komplexere analytische Fragestellungen entsteht der Bedarf, neben unterschiedlichen Verfahren auch mehrere Analyseansätze (konfirmative und explorative) gleichzeitig zu nutzen. Dies bedeutet zum Beispiel, zumindest Teile eines Analyseszenarios "Hand in Hand" durch Auswertung von Reports, mit klassischen statistischen Methoden sowie durch Einsatz von Data-Mining-Techniken zu beantworten. Softwareprodukte, die derartige Funktionalität integriert unter einer einfach zu bedienenden Oberfläche anbieten, sind derzeit allerdings noch rare Ausnahmen.

Welchen positiven Effekt allein eine durchdachte Bedienung und eine kaum erklärungsbedürftige, ansprechende Oberfläche haben können, lässt sich beispielsweise bei einigen Herstellern innovativer OLAP- oder Reporting-Tools beobachten: Es gibt Tools, mit denen die Datenanalyse einer Entdeckungsreise gleicht - man navigiert leichtfüßig durch die Daten, lässt sich von interessanten Auffälligkeiten links und rechts des "Analyse-Wegesrands" leiten und hat mit wenigen Mausklicks einen umfassenden Eindruck von dem so erforschten Datenraums gewonnen.

Die Tool-Anbieter haben in nächster Zeit zahlreiche weitere - auch größere - Entwicklungsschritte vor sich. Dazu gehört zum Beispiel neben der höheren Automatisierung von analytischen Routineaufgaben die Bereitstellung leistungsstarker konfirmativer Verfahren, mit denen man die durch Data Mining erzeugten Hypothesen überprüfen kann - ohne die Ergebnisse in ein separates Tool überführen und gegebenenfalls dort neu aufbereiten zu müssen.

Tipps für den Umgang mit Big Data

In sieben Schritten zum Big-Data-Erfolg
Teil- oder unstrukturierte Daten in großer Menge erfolgreich analysieren können - das ist das Ziel von Big-Data-Projekten. Aber welcher Weg führt dorhin?

1. Die jeweiligen Ziele definieren
Die Anzahl der möglichen Big-Data-Analysen ist Legion. Im ersten Schritt muss also geklärt werden: Was möchten Sie erreichen? Was bringt Ihnen die Auswertung? Möchten Sie mehr Kunden ansprechen, Ihren Umsatz steigern oder neue Geschäftsfelder erschließen? Und welche Ziele sind überhaupt erreichbar?

2. Die Datenquellen identifizieren
Dann müssen die verfügbaren Datenquellen analysiert werden: Welche sind wichtig? Wie und in welcher Form lässt sich auf die benötigten Daten zugreifen? Meist ist es sinnvoll, sich zunächst auf ausgewählte Quellen zu konzentrieren. Hier schon sind Datenschutzaspekte zu berücksichtigen. Manche Daten dürfen gar nicht oder nur unter bestimmten Voraussetzungen gespeichert und analysiert werden.

3. Mit IT- und anderen Bereichen vernetzen
Die IT sollte frühzeitig eingebunden werden. Um maximalen Nutzen aus den Auswertungen zu ziehen, sind auch andere Fachbereiche zu involvieren. Und spätestens in dieser Phase sollte das Management einbezogen werden, das breite Unterstützung garantiert.

4. Performance und Verfügbarkeit klären
Die Erwartungen bezüglich Performance und Verfügbarkeit müssen so früh wie möglich dingfest gemacht werden. Dabei spielen Themen wie Analyse-Latenzzeit, Auswertungen in Echtzeit und In-Memory-Technik eine wichtige Rolle.

5. Die Ergebnisse in Prozesse einbinden
Erfolgreiche Big-Data-Analytics-Projekte binden die Analysen und deren Ergebnisse in die Geschäftsprozesse ein. Nur so führen die gewonnenen Erkenntnisse zu einer Verbesserung.

6. Big Data in Analysestrukturen einfügen
Big-Data-Analytics ersetzen nicht zwingend vorhandene Analysen, beispielsweise Data Warehouses. Oft sind sie vielmehr eine Ergänzung. Folglich sollten sie in vorhandene BI-Architekturen oder -Landschaften integriert werden.

7. Komplexität und Dynamik abschätzen
Welche Daten mit welchem Volumen kurz- und mittelfristig verfügbar sein werden, ist im Vorfeld schwer abschätzbar. Deshalb gilt es, die Einbindung neuer Datenquellen oder zusätzlicher Analysen einzukalkulieren, um einen nachhaltigen Erfolg des Projekts zu gewährleisten.