Datenauswertung in Echtzeit

Vorausschauend agieren mit Streaming Analytics

17.03.2015

Dr. Ilias Ortega arbeitet als Analytics und Reporting Manager bei den Magazinen zum Globus AG in Spreitenbach. Er ist promovierter Betriebswirtschafter der Universität St. Gallen und diplomierter Ingenieur der ETH Zürich. Er verfügt über mehr als 25 Jahre Berufserfahrung in Analytics und Business Intelligence.

Um sich in der schnelllebigen, datenorientierten Wirtschaftswelt behaupten zu können, sind Organisationen auf möglichst aktuelle, granulare Daten angewiesen. Sie benötigen Systeme, die Daten in Echtzeit auswerten, um Entwicklungen vorauszusagen und dem Management genügend Handlungsspielraum zu bieten.

Mit Business-Intelligence-Systemen gewinnen heute viele Unternehmen aus Daten entscheidungsrelevante Informationen. Doch die zugrunde liegenden Daten sind vergangenheitsorientiert. Sie werden meist einem zentralen Data Warehouse entnommen und sind nicht aktuell, denn sie haben vergleichsweise lange Latenzzeiten von wenigen Tagen bis zu einem Monat. Feingranulare Analysen sind damit nicht möglich, da die Daten aggregiert bereitstehen.

Vorausschauend agieren mit Streaming Analytics
Vorausschauend agieren mit Streaming Analytics
Foto: Rob - Fotolia.com

Alle Gesellschaftsbereiche betroffen

Da herkömmliche Verfahren große Datenmengen kaum effizient verwalten und analysieren können, kam das mittlerweile etablierte Paradigma Big Data auf. Zur schieren Datenmenge ist nun die Herausforderung der kontinuierlichen Datenströme gekommen: Sensoren, Geldautomaten oder Online-Shops sammeln hochfrequente Datenströme dezentral und rund um die Uhr. Alle Bereiche unserer Gesellschaft sind davon betroffen: Finanzsektor, Überwachung und Strafverfolgung, industrielle Produktion sowie das Verkehrswesen. In diesen Bereichen geht es darum, die Daten in Echtzeit zu sammeln, zu bearbeiten und zu analysieren, um daraus Prognosen zu erstellen sowie Muster und Ausreißer zu identifizieren.

Streaming Analytics

Streaming Analytics hat das Ziel, Datenströme in Echtzeit zu bearbeiten und auszuwerten. Doch große Datenvolumina und hochfrequente Datenströme schließen den Einsatz von Data Warehouses aus, da Letztere Daten in zeitaufwendigen Verfahren zentral sammeln, speichern, bearbeiten und auswerten. Datenströme werden heutzutage dezentral erfasst, daher ist eine Bearbeitung und Analyse in Echtzeit nur auf dezentraler, verteilter Basis per Distributed und Parallel Computing denkbar. Zu den bekanntesten Streaming-Analytics-Anwendungen gehören:

  • Mikrosegmentierung in Echtzeit, um maßgeschneiderte Angebote zu erstellen,

  • Empfehlungssysteme, um potenzielle Kunden auf weitere Produkte aufmerksam zu machen,

  • Churn-Management, um die "Kundenabwanderung" zu reduzieren,

  • Mustererkennung, um Kreditkartenbetrug oder Steuerhinterziehung aufzudecken,

  • Durchsuchen von Daten, um Abhängigkeiten zwischen Parametern zu entdecken,

  • Monitoring von komplexen Produkten wie Transportmitteln und Anlagen, um bei Problemen rechtzeitig zu intervenieren - beispielsweise durch die vorbeugende Bereitstellung von Ersatzteilen.

Streaming-Analytics-Systeme müssen Datenströme mit hohen Durchlaufgeschwindigkeiten schnell und zuverlässig bearbeiten. Anwendungen mit mehreren Millionen Transaktionen pro Sekunde sind beispielsweise im Finanzhandel gang und gäbe. Die gesammelten Daten sind nicht nur hochfrequent, sondern manchmal zudem heterogen und unstrukturiert, zum Beispiel die von Sensoren gesammelten Audio- und Videosignale. Mit Verfahren der Signalverarbeitung wie Filtern und Glätten werden die Daten bereinigt und angeglichen, um störende Faktoren wie Rauschen und Übertragungsfehler zu eliminieren.

Abschließend folgt die analytische Auswertung mit Hilfe von Statistik oder Data Mining. Die analytischen Verfahren sollen minimale Anforderungen an Geschwindigkeit (etwa mit verteilter paralleler Bearbeitung) und Genauigkeit erfüllen. Dazu ist ein Kompromiss zwischen Geschwindigkeit und Genauigkeit notwendig. Um ihre Genauigkeit einzuhalten, sollten sie sich automatisiert an veränderte Rahmenbedingungen anpassen. Das Paradigma des

Streaming Analytics lässt sich ohne Einschränkungen auch bei Big Data anwenden und integriert folgende Disziplinen:

  • verteilte Datenhaltung und -verarbeitung,

  • Signalverarbeitung sowie

  • Statistik und Data Mining.

Multiple Modelle

Die mit Streaming Analytics zu lösenden Probleme sind oft komplex und lassen sich nicht immer durch ein einzelnes analytisches Modell lösen. Daher wählt man in der Praxis ein kombiniertes Vorgehen: Anstelle eines einzigen Modells werden mehrere parallel eingesetzt. Ein solches hybrides Modell löst Abweichungen und Widersprüche zwischen den Einzelergebnissen. Dabei kommen Methoden wie die folgenden zum Einsatz: Stimmenmehrheit bei einer Abstimmung und gewichtete Mittelwerte.

Hybrides Modell
Hybrides Modell
Foto: Ilias Ortega

Unter hohem Zeitdruck ist es jedoch nicht immer praktikabel, mehrere Modelle parallel zu berechnen und zu konsolidieren. In solchen Fällen helfen Regeln, nach denen automatisch ein geeignetes Modell ausgewählt und ein einziges Ergebnis berechnet wird.

Regelbasiertes Modell
Regelbasiertes Modell
Foto: Ilias Ortega

Kundensegmentierung

Die Kundensegmentierung gehört zu den zentralen Aufgaben des Marketings. Dort geht es darum, (potenzielle) Kunden in Gruppen ähnlicher Eigenschaften zu klassifizieren. Die Klassifizierung ist jedoch oft ungenau, da sie manuell und unregelmäßig vorgenommen wird. Mit Hilfe von Streaming Analytics lassen sich nun in Echtzeit sowohl Kundensegmente bilden als auch Kunden vorhandenen Segmenten zuordnen. Damit können maßgeschneiderte Produktangebote in Echtzeit generiert werden.

Empfehlungssysteme

Empfehlungssysteme basieren auf der Be-obachtung, dass Individuen in der Regel wohlwollend auf Empfehlungen reagieren. Sie bauen auf der Erkenntnis auf, dass es teurer ist, einen neuen Kunden zu finden, als einem bestehenden etwas Zusätzliches zu verkaufen. Die zwei wichtigsten Kategorien von Empfehlungssystemen sind:

Inhaltsbasierte Empfehlungssysteme, die auf der Ähnlichkeit der Attribute von Artikeln wie Büchern oder Musikstücke beruhen. Ein bekanntes Beispiel ist der Internet-Radiodienst Pandora.com. Er klassifiziert Musikstücke aufgrund von rund 400 Attributen, die pro Musikstück erfasst werden. Zur Erarbeitung von Empfehlungen benutzt Pandora die erfassten Attributwerte. Für die Erfassung eines Musikstücks benötigen Spezialisten rund 20 Minuten. Im Moment umfasst die Pandora-Datenbank, die in der Literatur unter dem Begriff "Music Genome Project" bekannt ist, rund 900.000 Musikstücke von etwa 90.000 Musikern.

Kollaborativ filternde Empfehlungssysteme sammeln und analysieren Daten anhand von Verhalten und Präferenzen der Benutzer, um auf der Basis von Ähnlichkeitsvergleichen Empfehlungen abzugeben. Soziale Netzwerke empfehlen "Freunde" auf diese Weise.

Churn-Management

Churn ist der Anteil an Kunden, die ein Unternehmen innerhalb einer bestimmten Periode verlassen. Die Verringerung des Churn ist eine große Herausforderung, zum Beispiel für Unternehmen aus dem Mobilfunkbereich. Dort verlassen Kunden die Unternehmen nach Ablauf einer minimalen Vertragsdauer. Doch auch andere Bereiche sind vom Churn stark betroffen: Bei Banken und Versicherungen schätzt man Raten zwischen zehn und 30 Prozent jährlich.

Churn-Management ist komplex, denn Kunden beenden Geschäftsbeziehungen aus vielfältigen Gründen. Diese reichen von Unzufriedenheit mit dem Produktangebot über das Ende eines Sonderangebots bis hin zu allgemein ungünstiger Wirtschaftslage oder einem Umzug ins Ausland.

Deshalb lässt sich Kundenabwanderung nie völlig verhindern. Es gibt eine Art "natürlichen" Churn, der sich nicht vermeiden lässt. Zur rechtzeitigen Erkennung empfiehlt sich das Verfolgen von Frühwarnindikatoren. Mit Data-Mining-Algorithmen lassen sich die typischen Muster der schrittweisen Kundenabwanderung frühzeitig erkennen und die Wechselwahrscheinlichkeit pro Kunde ermitteln. "Abwanderungsgefährdete" Kunden überschreiten einen im voraus bestimmten Schwellwert der Wechselwahrscheinlichkeit und können durch gezielte Maßnahmen umgestimmt werden.

Anomalienerkennung

Anomalienerkennung ist in der Lage, Abweichungen in Zeitreihen, die auf Fehler oder Betrug hinweisen, zu erkennen. Bekannte Anwendungsfälle sind die Vermeidung von Kreditkartenbetrug sowie die Untersuchung von Steuererklärungen auf Steuerhinterziehung. Bei Streaming-Analytics-Systemen zur Erkennung von Kreditkartenbetrug geht es darum, potenziell betrügerische Finanztransaktionen in Echtzeit zu erkennen. Solche Systeme müssen in der Lage sein, Tausende von Transaktionen pro Sekunde auf Betrug zu überprüfen und einen Kompromiss zwischen Falschalarmen, das heißt berechtigten Transaktionen, die irrtümlicherweise als Betrug klassifiziert werden, und unerkanntem Missbrauch finden. Falschalarme verärgern nämlich Kunden und führen zu aufwendigen Abklärungen.

Umsetzung

Das entscheidende Kriterium für den Einsatz von Streaming Analytics ist der realisierte Nutzen. Umfragen zeigen, dass mehr als die Hälfte der Analytics-Projekte den erwarteten Erfolg verfehlt. Deshalb sollte ein systematisches Nutzen-Management sicherstellen, dass sämtliche Vorhaben einen nennenswerten Nutzen erzielen. Für die ersten Projekte ist es empfehlenswert, kleine und klar abgegrenzte Probleme für einen raschen, "Quick Win" auszuwählen.

Kundensegmentierung und Empfehlungssysteme sind dazu gut geeignet. Das Churn-Management ist komplexer und daher in einer frühen Phase weniger sinnvoll. Prototypen helfen, das gewählte Vorgehen rasch zu überprüfen. Dar-über hinaus ist es ratsam, größere Projekte in mehrere kleine zu unterteilen. Um das Risiko eines Scheiterns zu beschränken, sollten Streaming-Analytics-Vorhaben schrittweise und iterativ im Unternehmen eingeführt und die Verbreitung von Streaming Analytics durch Schulungen gefördert werden. Die Koordination aller verwandten Aktivitäten kann einem Kompetenzzentrum für Streaming Analytics anvertraut werden.

Fazit

Streaming Analytics umfasst die kombinierte Anwendung von Know-how aus folgenden Bereichen: verteilte Datenhaltung und -verwaltung, Signalverarbeitung sowie Statistik und Data Mining. Für Organisationen ohne diesbezügliche Erfahrung ist die Einführung von Streaming Analytics mit Risiken verbunden.

Es empfiehlt sich daher, ein relevantes, überschaubares Problem zu identifizieren, das sich mit Streaming Analytics gut lösen lässt. Am besten schrittweise und mit Hilfe kleiner Prototypen. Ein Kompetenzzentrum für Streaming Analytics kann helfen, Strea­ming Analytics im Unternehmen zu verbreiten.