Sprachassistenten im Auto

Hinter den Kulissen von Knight Rider

05.01.2018
Von 


Nils Lenke leitet ein Team, das sich auf disruptive Innovationen in der Automobilindustrie konzentriert, insbesondere an der Multimodalität des HMI im Auto, der Fahrer- und Fahrzeuginnenraum­überwachung und der Gewinnung von Antworten aus unstrukturierten Daten. Er hat einen Doktortitel in Computerlinguistik, zwei Masterabschlüsse, ein Diplom und 13 Patente. Lenke vertritt Cerence auch im Aufsichtsrat des DFKI, Deutschlands führendem Forschungsinstitut für Künstliche Intelligenz.
Sprachassistenten im Auto werden immer mehr zur Selbstverständlichkeit. Aber die einfache Bedienung darf über die technische Komplexität, mit der sich Sprachbefehle steuern lassen, nicht hinwegtäuschen.

Wenn wir mit dem Bordcomputer in Dialog treten, also E-Mails ins Mikrofon diktieren, per Sprachbefehl die Klimaanlage steuern, Internet-Suchen veranlassen oder den Radiosender wechseln, stoßen wir einen komplexen Prozess an. Grob lässt dieser sich in drei Phase gliedern: Zuhören, Verstehen und Handeln. In jeder der drei Phasen stellen sich spezifische Herausforderungen.

Einen per Sprache gesteuerten Bordcomputer gab es bereits in den 1980er-Jahren - allerdings nur in dem fiktiven Wunderauto K.I.T.T. aus der TV-Serie Knight Rider
Einen per Sprache gesteuerten Bordcomputer gab es bereits in den 1980er-Jahren - allerdings nur in dem fiktiven Wunderauto K.I.T.T. aus der TV-Serie Knight Rider
Foto: Daniel Dionne CC BY-SA 2.0

Phase 1: Zuhören

Wann hört mir der virtuelle Assistent im Auto überhaupt zu? In der Regel ist in Fahrzeugen ein Push-to-Talk-Button verbaut. Drückt ihn der Fahrer, schaltet der Bordcomputer die Mikrofone an. Ebenfalls möglich ist der Einsatz eines Aktivierungsworts ("Hallo Dragon"), mit dem ein Fahrzeuginsasse die Aufmerksamkeit des Assistenten auf sich lenken kann. Schaut man sich an, wie Alexa und Co. in unseren Wohnzimmern funktionieren, dann dürfte die Zukunft der letzteren Variante gehören. Diese Form der Bedienung ist schlicht komfortabler, weil ein Bedienungsschritt wegfällt und der Nutzer einfach anfangen kann zu sprechen.

Ehe es an die Auswertung des Gesagten geht, ist eine Vorbehandlung der Audio-Aufnahme nötig, das sogenannte Speech Signal Enhancement (SSE). Statische Hintergrundgeräusche, etwa das Motorengeräusch und Fahrtwinde, lassen sich gut vorhersagen und deshalb besonders einfach herausrechnen. Schwieriger ist es zum Beispiel, die parallel stattfindenden Gespräche von Beifahrern aus der Aufnahme herauszufiltern. Sofern mehrere Mikrofone im Auto verbaut sind, kommt hier ein Verfahren namens Beamforming zum Einsatz, bei dem das System möglichst genau auf den Sprecher fokussiert.

Bei der Identifikation und akustischen Unterscheidung einzelner Sprecher hilft überdies die Stimmbiometrie. Mit ihr lässt sich etwa sicherstellen, dass nur der Fahrer bestimmte Kommandos geben kann, nicht der Beifahrer oder ein Kind auf dem Rücksitz.

Phase 2: Verstehen

Ist die Vorbehandlung abgeschlossen, wird das Gesagte an eines der beiden Erkennungssysteme übergeben - eines sitzt im Fahrzeug, das andere in der Cloud. Da die Hardware im Auto weniger leistungsfähig ist als die Cloud, kommt hier ein kompakteres Erkennungsmodell zum Einsatz. Das natürliche Sprachverstehen ist dementsprechend zehn bis zwanzig Prozent ungenauer, dafür aber auch ohne Internetzugang verfügbar. Einfache Befehle, etwa zur Steuerung der Klimaanlage, werden deshalb direkt im Auto verarbeitet.

Will der Fahrer hingegen eine E-Mail diktieren, findet die Spracherkennung in der Cloud statt. Nicht unüblich sind auch hybride Szenarien, bei denen beide Erkennungssysteme gleichzeitig zum Einsatz kommen und jeweils ihre eigene Vermutung darüber zurückliefern, was der Nutzer gerade gesagt hat. Zusätzlich geben sie einen Konfidenzwert an, also eine Einschätzung, wie sicher sie sich mit ihrem Ergebnis sind. Das System im Auto entscheidet dann, welches Ergebnis es weiterverwenden will.

Im Detail muss der Sprachassistent im Auto das Gesagte in gleich doppelter Hinsicht verstehen. Erstens geht es um akustisches Verstehen - welche Wörter wurden gerade gesagt? Hier helfen zwei neuronale Netze. Eines weiß, wie einzelne Phoneme oder Laute der Sprache ausgesprochen werden (akustisches Modell). Das andere weiß, welche Wörter häufiger sind, welche Wörter in der Domäne vorkommen und in welcher Kombination sie üblicherweise gesagt werden (Language-Modell).

Zweitens geht es um inhaltliches Verstehen, also um die Übersetzung des Gesagten in eine konkrete Bedeutung. Um welche Domäne geht es - Musik, Navigation, das Diktieren einer E-Mail oder die Steuerung der Klimaanlage? Und was genau beabsichtigt der Nutzer zu veranlassen, was ist sein sogenannter Intent? Früher waren Nutzer gezwungen, die jeweilige Domäne vorher der dem virtuellen Assistenten mitzuteilen, etwa durch Auswahl eines entsprechenden Menüpunkts. Moderne Systeme sind hingegen in der Lage, sich den Kontext selbst zu erschließen.

Ist die Domäne bekannt, müssen alle weiteren Details analysiert werden. Beispiel Musik: Hier lautet die nächste Frage, von wo die Musik abgespielt werden soll, also ob es etwa um Radio, Streaming oder um MP3-Dateien auf einem angeschlossenen Datenträger geht. Anschließend gilt es die "Named Entities" zu verstehen, also Interpret, Albumname oder Songtitel. Dass es dabei oft um fremdsprachige Musik geht, erschwert diesen Schritt zusätzlich.

Der fließende Wechsel zwischen Sprachen und die Erkennung von Named Entities sind nicht nur in der Musik-Domäne zentrale Herausforderungen, sondern zum Beispiel auch bei der Navigation. Wer etwa von Aachen aus die Stadt belgische Lüttich anfahren will, der nennt seinem Navigationsgerät nicht zwangsläufig "Lüttich" als Zielort, sondern vielleicht auch die französische Bezeichnung "Liège" oder die niederländische Bezeichnung "Luik". All das muss die Spracherkennung in der Lage sein zu verstehen - und dabei überdies berücksichtigen, dass ein deutscher Nutzer bei der Aussprache eines französischen Stadtnamens oder eines englischen Songtitels möglicherweise Fehler macht.