Data Analytics und Cloud Computing

Per Crowdsourcing zum Data Lake in der Cloud

13.09.2018
Uwe Küll ist freier Journalist in München.
Das Aachener Startup P3 insight sammelt Daten zu Mobilfunknetzen per Crowdsourcing und nutzt die Amazon Public Cloud für die Analyse.

Um die Qualität eines Mobilfunknetzes zu beurteilen, sind in der Regel teure Messwagen notwendig, die vollgepackt mit Technik durch Stadt und Land fahren. Dass sich die Daten auch über Smartphones ausgewählter Teilnehmer gewinnen lassen, zeigt die P3 insight GmbH. Das Unternehmen aus Aachen misst und analysiert per Crowdsourcing die Qualität der Netze. Dabei spielen Infrastrukturdienste aus der Public Cloud eine wichtige Rolle.

Der Analytics-Spezialist P3 insight verlagerte sämtliche Workloads und 100 Terabyte Daten aus dem eigenen Data Center in die Public Cloud.
Der Analytics-Spezialist P3 insight verlagerte sämtliche Workloads und 100 Terabyte Daten aus dem eigenen Data Center in die Public Cloud.
Foto: Syda Productions - shutterstock.com

Die Kunden von P3 insight erwarten genaue Daten über die mobile Netzabdeckung in Ländern auf der ganzen Welt. Deshalb hat das Startup eine App entwickelt und weltweit millionenfach verteilt. Sie erfasst die Feldstärke, abgebrochene Verbindungen und den Datendurchsatz eines Mobilfunknetzes. Für den Betrieb der Crowdsourcing-Lösung benötigt P3 insight eine skalierbare IT-Infrastruktur, mit der sich jeden Tag Millionen von Datenpunkten der mobilen Geräte speichern und verarbeiten lassen.

Ursprünglich betrieb das Unternehmen seinen Service im eigenen Rechenzentrum. Die Verantwortlichen stellten jedoch bald fest, dass die stark wachsenden Datenmengen dessen Grenzen sprengten. "Die Einführung der Services in einem Markt wie Großbritannien liefert auf einen Schlag Millionen zusätzlicher Datenverbindungen pro Tag. Unsere eigenen Systeme sind in der Vergangenheit gelegentlich in die Knie gegangen", sagt Hakan Ekmen, CEO von P3 insight. Big-Data-Spezialisten verbrachten deshalb immer mehr Zeit mit Wartungsarbeiten und dem Management von Notfallszenarien im eigenen Rechenzentrum.

Das Team suchte daher nach einer Lösung mit mehr Kapazität, die es ermöglichen würde, agiler zu werden. Dabei bestand die Anforderung darin, sämtliche Workloads und rund 100 Terabyte Daten aus dem eigenen Rechenzentrum in die Cloud zu migrieren, ohne den laufenden Betrieb zu unterbrechen.

Schnellere Analysen aus der Cloud

Vor allem aus Gründen der Skalierbarkeit entschied sich P3 insight für Amazon Web Services (AWS). Mithilfe von Serverless-Technologien wie Amazon Kinesis und AWS Lambda lassen sich Plattformen für Big Data Analysen schnell und preiswert einrichten. Das gibt den Datenanalysten mehr Zeit, sich auf wertschöpfende Tätigkeiten zu konzentrieren. "Wir wollten unsere Mitarbeiter dazu befähigen, diese Aufgabe selbst in die Hand zu nehmen und nicht, dass externe Experten die Arbeit für uns erledigen", sagt P3-Geschäftsführer Michael Wennesheimer.

Große Datenmengen lassen sich in der Cloud auswerten, um die Qualität von Mobilfunknetzen zu ermitteln.
Große Datenmengen lassen sich in der Cloud auswerten, um die Qualität von Mobilfunknetzen zu ermitteln.
Foto: AWS

CIO E-Magazin

Innerhalb von zehn Wochen entwickelte das Team von P3 gemeinsam mit Beratern von AWS Professional Services vor Ort eine Data Lake-Architektur und implementierte sie auf der AWS-Cloud-Plattform. Ein Data Lake ist ein zentraler Speicher für große Mengen strukturierter und unstrukturierter Daten. Dabei bleiben die Rohdaten erhalten und stehen künftig für weitere Analysen in anderen Zusammenhängen zur Verfügung.

Im Zentrum des Projekts steht die so genannte Data Ingestion, also die Aufnahme großer Mengen von Rohdaten unterschiedlicher Art aus verschiedenen Quellen. Dafür stellte das Team mit Amazon Kinesis Data Firehose einen Landing Point bereit, an dem sämtliche von den Smartphones erfassten Daten zur Netzqualität verschlüsselt auflaufen. Ein AWS Lambda-Service stößt die Ablage im Cloud-Speicher Amazon S3 an.

Die Daten werden anschließend aus dem Cloud-Speicher geladen und entschlüsselt, bevor sie mithilfe von Amazon Athena und Amazon Elastic MapReduce (EMR) analysiert und verteilt werden. Die Auswertungen liegen am Ende im Data Warehouse Amazon Redshift bereit. Von dort werden sie in Echtzeit mit BI-Tools wie Tableau in die Dashboards für die Kunden von P3 insight integriert. Diese erhalten dadurch Informationen für den Ausbau ihrer Netze und zur effizienteren Nutzung der Kapazitäten. "Das Tempo und die hohe Qualität unserer Analysen führen bei unseren Kunden teilweise zu ungläubigem Staunen", sagt Ekmen.

Die Cloud ersetzt das Messfahrzeug

P3 insight sind die Services aus der AWS-Cloud ein wichtiger Baustein eines erfolgreichen neuen Geschäftsmodells. Auf Basis der Daten hunderttausender oder gar Millionen von Smartphones informiert P3 insight seine Kunden viel detaillierter über die Performance ihrer mobilen Netze, als das zuvor mit den Daten der Messfahrzeuge allein möglich war. Kosten für die Infrastruktur fallen für P3 erst an, wenn ein Kunde die Services nutzt.

Allein in den USA liefern rund 700.000 Smartphones pro Tag etwa 300 Millionen Datenpunkte, die Aussagen über die Qualität verschiedener Netze an bestimmten Stellen erlauben. "Das war mit unserer alten Infrastruktur einfach nicht möglich", sagt Hakan Ekmen. "Dass wir diese Engpässe mithilfe von AWS innerhalb von zehn Wochen dauerhaft beheben konnten, ohne dabei vorab in teure Hardware investieren zu müssen, trug dazu bei, dass P3 insight in kürzester Zeit zu einem der Marktführer in den USA werden konnte." Weitere Märkte, beispielsweise in Südostasien, hat Ekmen bereits im Blick. Bei seiner globalen Expansion profitiert P3 insight auch von der Kostentransparenz der AWS-Cloud-Infrastruktur. "Wir wissen genau, welche Ausgaben wir pro Datensatz haben und können sehr schnell Angebote erstellen", sagt Ekmen.

Ein wichtiger Aspekt war für den P3-Geschäftsführer auch das Thema Compliance-Management. "Amerikanische Kunden wollen, dass die Daten in den USA liegen. Deutsche Kunden wollen, dass sie in Europa liegen", berichtet Ekmen. "Und für uns ist es ein Klick, die Data-Lake-Architektur in der jeweiligen Region zu replizieren und damit die Compliance- Anforderungen zu erfüllen."

Darüber hinaus hat das Data Lake-Konzept noch einen weiteren Vorteil für P3 insight: Da die Rohdaten als solche erhalten bleiben, sind sie für zusätzliche Auswertungen mit anderen Zielen einsatzbereit. So können Analysen der Bewegungsdaten beispielsweise die Verkehrsplanung in "Smart Cities" unterstützen.