Mess- und Felddaten effizient analysieren

Big Data in der Auto-Entwicklung

30.04.2019 von Valerio Zanetti-Überwasser

Prototypen neuer Autos produzieren bei ihren Testfahrten riesige Datenmengen. Klassische Übertragungsverfahren sind jedoch mit dieser Form von Big Data überfordert. Wir zeigen, wie eine entsprechende Infrastruktur und Algorithmen aussehen.

Big Data: Ein einziger Erlkönig liefert pro Stunde bis zu drei Terabyte an Daten.
Foto: Art Konovalov - shutterstock.com

Smart Factories, Smart Cities, Digital Healthcare, künstliche Intelligenz (KI) und Machine Learning (ML) - die Zahl der Daten, die wir täglich generieren explodiert förmlich. Und damit stehen zahlreiche Branchen vor einer Herausforderung, mit der sich die Automobilindustrie schon länger konfrontiert sieht: Wie lassen sich solche Datenmengen noch effizient und zuverlässig weiterverarbeiten?

Die Herausforderung in der Autoindustrie beginnt bei der Entwicklung und Erprobung neuer Fahrzeuge. So liefert ein einziger Erlkönig heute pro Stunde bis zu drei Terabyte an Daten. Wer mehrere Fahrzeuge parallel einsetzt, muss demnach täglich Daten im mehrstelligen Petabyte-Bereich verarbeiten. Zukünftig werden auch vernetzte sowie autonom fahrende Autos das Datenvolumen enorm ansteigen lassen.

Was Mess- und Kontrolleinheiten in Testfahrzeugen oder Sensoren, Steuergeräte und Aktoren an Big Data erzeugen, müssen Autohersteller möglichst zeitnah auswerten, Denn die Analyseergebnisse fließen in die Weiterentwicklung der Fahrzeuge ein. Zudem werden Millionen von Testkilometern nicht nur physisch, sondern vermehrt auch virtuell gefahren. Auch dazu bieten Daten eine wichtige Grundlage.

Die Automobilindustrie steht also vor der Herausforderung, große Datenmengen während des Product Lifecycles zusammenführen und in möglichst kürzester Zeit analysieren zu müssen. Während der Fahrt erfasst ein "Logger" auf Festspeichern (Solid State Disks) die Daten. Am Ende des Arbeitstags werden sie ausgelesen und in die Auswertungssoftware eingespeist. Die Analyseergebnisse sollen bereits nach wenigen Stunden vorliegen, um vor der nächsten Testfahrt kritische Fehler zu beheben und nächste Tests vorzubereiten.

Auf diese Weise lassen sich Entwicklungsprozesse verkürzen und Kosten senken. Jedoch sind klassische Datenverbindungen nicht darauf ausgelegt, die riesigen Datenmengen aus global verstreuten Testgebieten schnell zusammenzufügen. Klassische Analysearchitekturen und Übertragungstechniken kommen aufgrund des Datenvolumens an ihre Belastungsgrenze.

Daten clever analysieren

Die Testfahrten für das autonome Fahren generieren ebenfalls viele Daten und bringen klassische Datenverbindungen an ihre Grenzen.
Foto: Rene Schmöl

Die heute üblichen Bandbreiten, die insbesondere bei Fahrzeugtests global zur Verfügung stehen, reichen für den schnellen Datendurchsatz nicht aus - egal ob 4G-Mobilfunknetzte, WLAN, VPN oder Ethernet. Stattdessen sollten Automobilhersteller Daten möglichst nah am Entstehungsort vorverarbeiten und nur die Ergebnisse zentral zusammenführen und auszuwerten.

Es wird also immer wichtiger, große Datenmengen in der Nähe eines Testbeds oder direkt auf dem Fahrzeug sofort analysieren zu können. Aufgrund der schieren Menge an Testdaten und des zunehmenden Bedarfs an virtuellen und physischen Tests, wird das Co-Design von Workloads und der zugrunde liegenden Plattform sowie die Wahl einer geeigneten Topologie zu einem Muss.

Nur durch geschickte Wahl und Platzierung von Infrastruktur und Algorithmen lässt sich der Aufwand für die Analyse von Big Data erheblich reduzieren. Dafür bieten sich drei ergänzende Ansätze an: die Datenlokalität (code to data), die hochskalierbare und parallele Verarbeitung der Daten (parallel code) und die Abstimmung der Hardware auf die Software (co-design).

Durch das Code-to-Data-Prinzip müssen keine Daten zu den Algorithmen gebracht werden. Stattdessen gilt es, Analyse-Code, der ein weitaus geringeres Volumen hat, zu den Daten zu senden und direkt an ihrem Entstehungsort auszuführen. Dadurch wird eine Parallelisierung der Datenauswertung in den einzelnen Fahrzeugen ermöglicht und der Haupt-Thread für die weitere Verarbeitung freigegeben. Nur die Ergebnisse der lokalen Auswertung werden über die üblichen Verbindungen zur zentralen Analyse geschickt. Dies beschleunigt den gesamten Analysevorgang um ein Vielfaches und senkt die Kosten.

Kommunikation ist immer teuer und zeitintensiv, da sie sich nicht verdichten lässt. Wird aber die Datenübertragung reduziert, senkt sich auch der Energieverbrauch, was weniger Kosten bedeutet. Das ist ein entscheidender Vorteil.

Integrierte Entwicklungs- und Simulationsplattform

Gilt es, Simulationen effizient durchzuführen, ohne Daten und Orchestrierungscode zu duplizieren, ist nicht nur die Überbrückung von Distanzen, sondern auch von Systemgrenzen entscheidend. Die Re-Simulation muss nahtlos von numerischen zu physikalischen Simulationen auf Hardware-in-the-Loop-Verfahren (HILs) und Testbeds erfolgen. Übergreifende Orchestrierung und durchgängige semantische Modelle bilden die Grundlagen für eine solche integrierte Entwicklungs- und Simulationsplattform. Die nahtlose Einbettung von Entwicklungs- und Testpipelines durch die Optimierung von Datenflüssen reduziert Zeit und Kosten, um Ergebnisse zu erzielen.

Technisch gesehen ist auch das Auslesen von Daten eine Herausforderung. Signaldaten lassen sich bis dato nur schlecht komprimieren und effizient interpretieren, da sie sich nicht in handlichere Ausschnitte teilen lassen. Wäre das möglich, könnten viele Rechner parallel die Einzelteile auswerten und am Ende könnte ein Rechner die Ergebnisse einfach zusammenfügen. Mit einem ganzen Rechnerstapel (Cluster) und parallel arbeitender Software läge das Ergebnis nach wenigen Sekunden vor.

Ein solches Verfahren konnte aber in der Automobilentwicklung bislang nicht angewandt werden, da maschinelle Signale variable, situationsabhängige Codierungen verwenden. Klassische Dekodierungsverfahren haben damit Schwierigkeiten und skalieren nicht im benötigten Ausmaß.

Mit dem parallel arbeitenden softwarebasiertenSignalverarbeitungsverfahren (Big Data Signal Processing) können dagegen Logger- und Tracefiles aus den Fahrzeugen normalisiert und dekodiert werden. Die Signalkanäle (etwa Traces, Videos oder Logs) werden dabei rekombiniert, gefiltert und rekodiert - wiederum horizontal skalierbar.

Ein interessanter Nebeneffekt ist die verlustfreie Kompression für Kanäle mit geringer Änderungsrate, beispielsweise Flags. Testdaten können schnell und komprimiert abgespeichert und verarbeitet werden, auch in der Cloud. Das Big Data Signal Processing kann ohne Informationsverlust Daten dekodieren, komprimieren, rekombinieren, verschneiden, filtern, mathematische Operatoren anwenden. Dies ist gleichzeitig auf allen Rechnerkernen eines bereitgestellten Clusters möglich.

Die in der Praxis erzielte Geschwindigkeit ist 40-mal höher als bei bisherigen Verfahren. Die gespeicherte Datenmenge schrumpft dabei je nach gemessenen Kanälen auf bis zu zehn Prozent des ursprünglichen Volumens.

Einfache Datenanalyse, Machine Learning oder KI

Neben der Geschwindigkeit stellt sich im Zusammenhang mit der Analyse von großen Datenmengen auch die Frage nach der Qualität der Auswertung. So bekommen heute selbst einfache Analysealgorithmen gern den KI-Stempel aufgedrückt. Dabei handelt es sich beim maschinellen Lernen, der aktuell am meisten genutzten Form der Datenanalyse, meist ausschließlich um eine Korrelation von Daten. Ein Algorithmus erkennt dabei Muster und Gesetzmäßigkeiten in den Lerndaten. Das sogenannte "Lernen" basiert auf der Errechnung bedingter Wahrscheinlichkeiten. Auch wenn die erzielten Resultate beeindruckend sind, hat das mit "Intelligenz" nichts zu tun.

Für eine wirklich maschinelle Intelligenz sollten Werkzeuge genutzt werden, die kausales Denken ermöglichen. Damit sind Modelle gemeint, die Entscheidungen nachvollziehbar machen. Die Qualität der Analyse lässt sich in drei Schritten verbessern.

Der einfachste Level ruft rein statistische Beziehungen auf. Ein einfaches Beispiel: Die Tatsache, dass ein Kunde ein schwarzes Auto kauft, erhöht die Wahrscheinlichkeit, dass er auch schwarze Ledersitze haben will. Bedingte Wahrscheinlichkeiten lassen sich durch Auswertung großer Datenmengen errechnen und stellen eine Assoziation zwischen zwei Beobachtungen her.

Auf der zweiten Stufe der Intervention geht es darum, nicht nur zu sehen, was ist, sondern auch die Frage nach dem Warum zu beantworten: "Hat der Kunde schwarze Ledersitze gekauft, weil er ein schwarzes Auto gekauft hat?"

die dritte und oberste Ebene ist die kontrafaktische Ebene: "Was passiert, wenn der Preis verdoppelt worden wäre?" Solche Fragen können nicht allein aus den Korrelationen der Verkaufsdaten beantwortet werden, da sie eine Änderung des Kundenverhaltens als Reaktion auf die neue Preisgestaltung mit sich bringen.

Durch Kenntnisse datengenerierender Prozesse oder durch kausale Modelle ließe sich so etwas wie Maschinenintelligenz konstruieren und funktionsfähige Objekte erzeugen, die nachvollziehbare Aktionen auslösen. Sogenannte "Black Box"-Algorithmen, die rein auf Korrelation basieren, entziehen sich einer Kommunikation über deren inneren Entscheidungsvorgang. Erst die Verwendung kausaler Inferenz mit entsprechenden kausalen Modellen ermöglicht Transparenz bei automatisierter Analyse.

Simulation und Absicherung

Ständig wachsende Datenmengen zu analysieren, erfordert einen hohen Automatisierungsgrad. Automatisierung bedeutet hier ohne ständigen Eingriff eines Operators. Aktuelle Standards helfen zudem, manuelle Übersetzungsschritte einzusparen, um den Entwicklungsprozess zu beschleunigen. Ausführbare Modellbeschreibungen lösen dabei die deskriptive Modellierung ab. Auf diese Weise kodierte Modelle erfüllen einen doppelten Zweck: Sie dienen als Dokumentation und gleichzeitig als Grundlage für die Simulation.

Um eine funktionszentrierte Entwicklung von Fahrzeugen und Komponenten zu ermöglichen, bedarf es einer nahtlosen Koppelung digitaler Modelle und physikalischer Simulationen ("HIL", "SIL", "MIL", "Prüfstand") um zeitnah neue oder geänderte Fahrzeugfunktionen zu testen und zu simulieren. Die nahtlose Verbindung digitaler und physikalischer Ressourcen (Co-Simulation) wird durch standardisierte Protokolle und Simulationsframeworks, einer systemübergreifenden Orchestrierung sowie einem parallel skalierbaren Persistenz-Layer ermöglicht.

Um den Entwicklungsprozess nicht durch den Datentransport zu verzögern, werden Simulationen an verteilten Standorten ausgeführt. Parallel dazu erfolgt asynchron die Datenzentralisierung um retrospektive Simulationen auf Basis eines konsolidierten Datenbestandes ausführen zu können.