Sprachassistenten im Auto

Hinter den Kulissen von Knight Rider

05.01.2018 von Nils Lenke

Sprachassistenten im Auto werden immer mehr zur Selbstverständlichkeit. Aber die einfache Bedienung darf über die technische Komplexität, mit der sich Sprachbefehle steuern lassen, nicht hinwegtäuschen.

Wenn wir mit dem Bordcomputer in Dialog treten, also E-Mails ins Mikrofon diktieren, per Sprachbefehl die Klimaanlage steuern, Internet-Suchen veranlassen oder den Radiosender wechseln, stoßen wir einen komplexen Prozess an. Grob lässt dieser sich in drei Phase gliedern: Zuhören, Verstehen und Handeln. In jeder der drei Phasen stellen sich spezifische Herausforderungen.

Einen per Sprache gesteuerten Bordcomputer gab es bereits in den 1980er-Jahren - allerdings nur in dem fiktiven Wunderauto K.I.T.T. aus der TV-Serie Knight Rider
Foto: Daniel Dionne CC BY-SA 2.0

Phase 1: Zuhören

Wann hört mir der virtuelle Assistent im Auto überhaupt zu? In der Regel ist in Fahrzeugen ein Push-to-Talk-Button verbaut. Drückt ihn der Fahrer, schaltet der Bordcomputer die Mikrofone an. Ebenfalls möglich ist der Einsatz eines Aktivierungsworts ("Hallo Dragon"), mit dem ein Fahrzeuginsasse die Aufmerksamkeit des Assistenten auf sich lenken kann. Schaut man sich an, wie Alexa und Co. in unseren Wohnzimmern funktionieren, dann dürfte die Zukunft der letzteren Variante gehören. Diese Form der Bedienung ist schlicht komfortabler, weil ein Bedienungsschritt wegfällt und der Nutzer einfach anfangen kann zu sprechen.

Ehe es an die Auswertung des Gesagten geht, ist eine Vorbehandlung der Audio-Aufnahme nötig, das sogenannte Speech Signal Enhancement (SSE). Statische Hintergrundgeräusche, etwa das Motorengeräusch und Fahrtwinde, lassen sich gut vorhersagen und deshalb besonders einfach herausrechnen. Schwieriger ist es zum Beispiel, die parallel stattfindenden Gespräche von Beifahrern aus der Aufnahme herauszufiltern. Sofern mehrere Mikrofone im Auto verbaut sind, kommt hier ein Verfahren namens Beamforming zum Einsatz, bei dem das System möglichst genau auf den Sprecher fokussiert.

Bei der Identifikation und akustischen Unterscheidung einzelner Sprecher hilft überdies die Stimmbiometrie. Mit ihr lässt sich etwa sicherstellen, dass nur der Fahrer bestimmte Kommandos geben kann, nicht der Beifahrer oder ein Kind auf dem Rücksitz.

Phase 2: Verstehen

Ist die Vorbehandlung abgeschlossen, wird das Gesagte an eines der beiden Erkennungssysteme übergeben - eines sitzt im Fahrzeug, das andere in der Cloud. Da die Hardware im Auto weniger leistungsfähig ist als die Cloud, kommt hier ein kompakteres Erkennungsmodell zum Einsatz. Das natürliche Sprachverstehen ist dementsprechend zehn bis zwanzig Prozent ungenauer, dafür aber auch ohne Internetzugang verfügbar. Einfache Befehle, etwa zur Steuerung der Klimaanlage, werden deshalb direkt im Auto verarbeitet.

Will der Fahrer hingegen eine E-Mail diktieren, findet die Spracherkennung in der Cloud statt. Nicht unüblich sind auch hybride Szenarien, bei denen beide Erkennungssysteme gleichzeitig zum Einsatz kommen und jeweils ihre eigene Vermutung darüber zurückliefern, was der Nutzer gerade gesagt hat. Zusätzlich geben sie einen Konfidenzwert an, also eine Einschätzung, wie sicher sie sich mit ihrem Ergebnis sind. Das System im Auto entscheidet dann, welches Ergebnis es weiterverwenden will.

Im Detail muss der Sprachassistent im Auto das Gesagte in gleich doppelter Hinsicht verstehen. Erstens geht es um akustisches Verstehen - welche Wörter wurden gerade gesagt? Hier helfen zwei neuronale Netze. Eines weiß, wie einzelne Phoneme oder Laute der Sprache ausgesprochen werden (akustisches Modell). Das andere weiß, welche Wörter häufiger sind, welche Wörter in der Domäne vorkommen und in welcher Kombination sie üblicherweise gesagt werden (Language-Modell).

Zweitens geht es um inhaltliches Verstehen, also um die Übersetzung des Gesagten in eine konkrete Bedeutung. Um welche Domäne geht es - Musik, Navigation, das Diktieren einer E-Mail oder die Steuerung der Klimaanlage? Und was genau beabsichtigt der Nutzer zu veranlassen, was ist sein sogenannter Intent? Früher waren Nutzer gezwungen, die jeweilige Domäne vorher der dem virtuellen Assistenten mitzuteilen, etwa durch Auswahl eines entsprechenden Menüpunkts. Moderne Systeme sind hingegen in der Lage, sich den Kontext selbst zu erschließen.

Ist die Domäne bekannt, müssen alle weiteren Details analysiert werden. Beispiel Musik: Hier lautet die nächste Frage, von wo die Musik abgespielt werden soll, also ob es etwa um Radio, Streaming oder um MP3-Dateien auf einem angeschlossenen Datenträger geht. Anschließend gilt es die "Named Entities" zu verstehen, also Interpret, Albumname oder Songtitel. Dass es dabei oft um fremdsprachige Musik geht, erschwert diesen Schritt zusätzlich.

Der fließende Wechsel zwischen Sprachen und die Erkennung von Named Entities sind nicht nur in der Musik-Domäne zentrale Herausforderungen, sondern zum Beispiel auch bei der Navigation. Wer etwa von Aachen aus die Stadt belgische Lüttich anfahren will, der nennt seinem Navigationsgerät nicht zwangsläufig "Lüttich" als Zielort, sondern vielleicht auch die französische Bezeichnung "Liège" oder die niederländische Bezeichnung "Luik". All das muss die Spracherkennung in der Lage sein zu verstehen - und dabei überdies berücksichtigen, dass ein deutscher Nutzer bei der Aussprache eines französischen Stadtnamens oder eines englischen Songtitels möglicherweise Fehler macht.

Phase 3: Handeln

Ist der Intent des Nutzers vollständig verstanden, muss das System eine entsprechende Aktion auslösen, also zum Beispiel den Radiosender wechseln, eine E-Mail verschicken oder die Klimaanlage anschalten. All dies erfordert die Interaktion mit den unterschiedlichsten Komponenten und Services im Fahrzeug oder in der Cloud.

Wenn ein Nutzer etwa Informationen über einen Point of Interest (POI) sucht, wie die Öffnungszeiten eines Restaurants, dann holt sich das System diese Informationen aus einer Cloud-Datenbank. Nur grundlegende Informationen sind direkt im Fahrzeug gespeichert, zum Beispiel statische Karten, auf denen die geografische Lage von POIs wie Tankstellen und Supermärkten verzeichnet ist.

In Zukunft werden die Systeme dabei durch Einsatz von KI-Methoden ständig dazulernen, sich etwa merken, was die bevorzugte Tankstellenmarke des Fahrers ist, oder welche Restaurants er häufig frequentiert. Schon heute passen sich die Systeme an die einzelnen Sprecher an, indem sie die akustischen Modelle auf die Sprechweise und Stimmcharakteristiken des Sprechers durch Nachtraining der neuronale Netze adaptieren.

Die direkte Integration mit Klimaanlage, Radio und anderen Komponenten im Fahrzeug ist ein entscheidender Vorteil der Bordcomputer-Software gegenüber den Smartphones der Reisenden, die ebenfalls virtuelle Assistenten anbieten. Um gleichzeitig eine möglichst breite Funktionalität sicherzustellen, kann das natürliche Sprachverstehen im Fahrzeug zusätzlich mit digitalen Assistenten wie Alexa, Cortana oder Nina verbunden werden. Der Assistent empfängt dann die Befehle und sendet sie je nach Domäne an das zuständige Drittsystem.

Sprache stärkt Vertrauen in Fahrzeug-KI

Immer neue Modelle und Algorithmen sorgen dafür, dass die hier geschilderten Herausforderungen - etwa die Vorbehandlung von Audio-Aufnahmen oder das Erkennen von Named Entities - besser und besser gelöst werden. Was aus der Distanz betrachtet nach einem Nebenkriegsschauplatz auf dem Weg in den digitalen Straßenverkehr aussieht, ist für Fahrzeughersteller in Wirklichkeit in gleich doppelter Hinsicht von existenzieller Bedeutung.

Erstens müssen sie verhindern, dass Fahrer immer mehr Dinge im Auto - zum Beispiel Musik und Navigation - über ihr Smartphone erledigen anstatt über den Bordcomputer. Denn wer den direkten Kontakt zum Kunden verliert, der wird austauschbar.

Zweitens unterscheiden die wenigsten Nutzer zwischen den verschiedenen KI-Systemen im Auto. Künstliche Intelligenz ist für sie künstliche Intelligenz, egal ob es um virtuelle Assistenten im Auto oder autonomes Fahren geht. Einem Bordcomputer, mit dem sie einen intelligenten Dialog führen können, trauen sie deshalb eher zu, sie auch sicher durch den Stadtverkehr zu lenken. Hersteller können diesen Umstand nutzen und sich auf dem Weg zum selbstfahrenden Auto einen Vertrauensvorschuss erarbeiten, indem sie Sprachassistenten in ihren Fahrzeugen perfektionieren. (mb)