Big Data trifft Edge Computing

Edge-Computing-Lösung mit Apache Open Source

12.03.2019
Von 

Daniel Metzger ist Regional Vice President Central & Eastern Europe bei Cloudera.

Smart Cities, intelligente Fabriken etc. – die anfallenden Datenmengen steigen ständig und drohen die Cloud-Lösungen zu überlasten. Abhilfe verspricht hier Edge Computing. Wer sich nicht an einen Hersteller binden will, sollte einmal die Open-Source-Lösung von Apache betrachten.
Beim Edge Computing werden die Daten zunächst lokal bearbeitet und dann die Ergebnisse zur Analyse weitergeschickt.
Beim Edge Computing werden die Daten zunächst lokal bearbeitet und dann die Ergebnisse zur Analyse weitergeschickt.
Foto: Funtap - shutterstock.com

Bei komplexen Infrastrukturen, beispielsweise in der Produktion oder bei einer Smart City, kommen unzählige Punkte zur Erfassung aller potenziell bedeutsamen Daten zusammen. Wird nun jedes einzelne Gerät, jeder einzelne Sensor direkt an ein zentrales Rechenzentrum angebunden, bedeutet dies, dass jeweils eine entsprechend direkte Anbindung an dieses Rechenzentrum erforderlich ist. Bei einer hohen Anzahl an externen Datenquellen ergeben sich einige Probleme.

Zunächst müssen die erhobenen Daten gruppiert und vorverarbeitet werden. Für die Steuerung zentraler Aufgaben beispielsweise einer Smart City sind jedoch die einzelnen Messergebnisse nicht relevant, die Verarbeitung sämtlicher Daten an einem Standort nicht nötig. Eine direkte sternförmige Architektur ohne vorheriger Konsolidierung könnte sowohl das Netzwerk als auch das Rechenzentrum über Gebühr belasten.

Vorverarbeitung am Rand des Netzwerks

Hier kommt Edge Computing ins Spiel. Bei diesem Konzept werden die erfassten Daten an den nächsten Edge-Server geschickt, der sich nicht in der Cloud, sondern sozusagen am Rand - daher Edge Computing - des Netzwerks befindet. Die Daten werden dann - soweit es sinnvoll und machbar erscheint - lokal verarbeitet und die Ergebnisse zur Analyse an die nächste Ebene weitergeschickt.

Dieses Vorgehen hat den Vorteil, dass im zentralen Rechenzentrum nur die Daten vorliegen, die unbedingt zur Steuerung oder Analyse erforderlich sind. Somit kommt diese dezentrale Verarbeitung sowohl dem Datenschutz als auch dem sparsamen Einsatz von IT-Ressourcen entgegen. Beispielsweise können durch die lokale Verarbeitung von Sensordaten in einem IoT-Umfeld schnellere Übertragungsgeschwindigkeiten mit einer niedrigeren Latenz erzielt werden, da kürzere Strecken zu bewältigen sind. Das begünstigt Echtzeit-Anwendungen. Die Fähigkeit zur Virtualisierung von Edge-Servern führt zu einer beliebigen Skalierbarkeit dieser Architektur, was bei einer Verarbeitung über zentrale Knoten schwieriger zu bewerkstelligen ist.

Technische Umsetzung

Big-Data-Anwendungen, die mit einer Edge-Architektur arbeiten, benötigen selbstverständlich entsprechende Werkzeuge, um die von den Endgeräten gelieferten Datenströme zu verwalten. Technisch umgesetzt wird die Extraktion von Daten aus verschiedensten Quellen und Systemen, beispielsweise mit Hilfe der Datenlogistikplattform Apache MiNiFi. Hierzu lesen sogenannte Agenten, das sind kompakte Apps, die in der Datenlogistikplattform enthalten sind, die dezentral vorhandenen Informationen aus und leiten sie an den Bestimmungsort weiter.

Dabei ist MiNiFi unabhängig vom Typ der Datenquellen und unterstützt verteilte Quellen, die mit unterschiedlichen Formaten, Schemata, Protokollen und Geschwindigkeiten operieren. Beispiele für Datenquellen sind Maschinen, Ortungssysteme, Click-Streams, Social Feeds, Log-Dateien, Videos oder Messinstrumente. Zudem unterstützt die Datenlogistikplattform das Tracking der Daten in Echtzeit.

Apache NiFi (kurz für "NiagaraFiles") und das Unterprojekt MiNiFi basieren ursprünglich auf einer Entwicklung der US-amerikanischen Bundesbehörde NSA, die sie der Apache Software Foundation innerhalb des NSA Technology Transfer Program zur Verfügung gestellt hat. Somit sind NiFi wie auch das darauf basierende MiNiFi transparente und klar nachvollziehbare Open-Source-Projekte geworden, die mittlerweile Einzug in verschiedene Anwendungsfelder gefunden haben.

Diese Datenlogistikplattformen sind ihrerseits an andere Module der Big-Data-Lösung angebunden, die dann für die Weiterverteilung und -verarbeitung zuständig ist. Durch den teilweise autarken Betrieb der Edge-Rechner kann ein derart ausgestaltetes Modell auch gut mit schwankenden Netzwerkkapazitäten umgehen.

Neben der Produktion oder großen Infrastrukturen wie Smart Cities eignet sich diese Technologie auch für den Einsatz im normalen Alltag. So können Router, Überwachungskameras, Bankautomaten, Wetterstationen oder die intelligente Preisauszeichnung nebst der kontinuierlichen Inventarisierung von Waren bei Handelsketten ebenfalls in einer Edge-Computing-Architektur verbaut werden. Zu beachten ist dabei die Wahl einer offenen Plattform, damit die Prozesse möglichst transparent abgebildet werden können. Die Wahl von Open Source verhindert außerdem die einseitige Fixierung auf einen Anbieter. Dadurch bleiben alle Projektbeteiligte so flexibel wie möglich.