Spracherkennung im Auto

Fahrer an Navi - bitte melden

Tobias Wendehost beschäftigt sich als Volontär aktuell mit verschiedenen Hardwarethemen und stellt täglich ein Gadget des Tages vor. Ansonsten arbeitet er sich thematisch durch die Ressorts Job und Karriere, Software, Netzwerke und Mobile sowie IT-Strategie. Wer möchte, kann Tobias bei Twitter (@tubezweinull) folgen oder bei Xing eine Nachricht schreiben.
Etliche Autobauer integrieren Spracherkennung in ihre Fahrzeugsysteme. Wir haben verschiedene Ansätze verglichen und uns Geräte angesehen.
Was vor einigen Jahren noch als Zukunftsthema galt, ist heute wahr geworden: Sprachsteuerung im Auto.
Was vor einigen Jahren noch als Zukunftsthema galt, ist heute wahr geworden: Sprachsteuerung im Auto.
Foto: Mikhail Bakunovich/Shutterstock

Neben Mobilgeräten erobern Sprachfunktionen zunehmend das Auto. Das liebste Spielzeug der Deutschen gilt als perfektes Experimentierfeld für neue Technologien. Wie stark Automobiltechnik und IT verschmelzen, ließ sich gut im Januar dieses Jahres auf der Consumer Electronics Show (CES) in Las Vegas beobachten. Neben den üblichen Computeranbietern waren fast alle größeren Autohersteller mit neuen IT-Systemen vor Ort. Ein Bestandteil der Präsentationen waren Sprachfunktionen.

Sicherheitsrisko Sprachsteuerung

"Mit der Integration von vernetzten Systemen in Autos und dem Einsatz neuer Dienste wird die Ablenkungsgefahr von Fahrern für Automobilhersteller zu einem zentralen Thema", begründet Jack Bergquist, Automotive Analyst bei IMS Research, den wachsenden Bedarf an Spracherkennungssystemen. Die Analysten von IMS Research sind sich sicher, dass 2019 mehr als die Hälfte aller Neuwagen mit einem Spracherkennungssystem verkauft werden. Lag der Umsatz in diesem Marktsegment 2011 noch bei 80 Millionen Dollar, soll er in sechs Jahren bereits mehr als doppelt so groß sein (170 Millionen Dollar).

Gesetzliche Rahmenbedingungen dürften die Entwicklungen, die Analysten wie Bergquist vorhersagen, forcieren. Zum Beispiel ist in Kalifornien seit dem 1. Januar 2013 gesetzlich verankert, dass Autofahrer in dem US-Bundesstaat Textnachrichten schreiben und versenden dürfen, wenn sie über ein System mit Spracherkennung diktiert werden. Das Gesetz wurde allerdings nach seiner Einführung kritisiert. Der Grund: Eine Studie der University of Utah sieht im Einsatz von technischen Geräten und der damit verbundenen Ablenkung etwa beim Diktieren von SMS eine Beeinträchtigung der Fahrtauglichkeit.

Die Autoren der Studie zogen ein drastisches Fazit: "Die Beeinträchtigung etwa durch Telefonate beim Fahren können mit denen eines betrunkenen Fahrers verglichen werden." Dass Sprachsteuerung mehr Sicherheit für den Autofahrer bedeutet, sei nicht nachgewiesen. Die unabhängige Organisation National Safety Council fordert daher, das Gesetz wieder zurückzunehmen. "Sicheres Fahren braucht die volle Aufmerksamkeit des Fahrers", lautet die Begründung von Janet Froetscher, Präsidentin des National Safety Council.

In Deutschland fällt der Einsatz sprachbasierter Systeme unter Paragraf 23 Straßenverkehrsordnung (StVO), der für das Telefonieren im Auto Freisprecheinrichtungen vorschreibt. Derweil tüfteln Softwareanbieter wie Microsoft, Nuance und Apple an der Weiterentwicklung von sprachbasierten Plattformen für Autos.

Dragon Drive

Nuance ist einer der Marktführer für Spracherkennungssoftware. Selbstbewusst bewarb der Anbieter im September 2012 neue Produkte unter dem Motto "Sprachtechnologie ganz alltäglich". Gemeint waren Anwendungen, die Nuance anhand von Alltagsszenen vorstellte. Mit "Dragon Drive" hat der Spezialist etwa eine Plattform im Portfolio, über die sich Musik und Navigationssystem im Auto steuern lassen.

Grundsätzlich muss das Fahrzeug hierfür mit dem Internet verbunden sein, da die Plattform verschiedene Sprachfunktionen vereint und auf zentralen Servern von Nuance verarbeitet. Ein Beispiel ist "Dragon Drive Messaging". Der Dienst basiert auf der Diktiersoftware "Dragon Naturally Speaking" und ermöglicht dem Autofahrer etwa, Textnachrichten per Spracheingabe zu diktieren. Darüber hinaus kann der Fahrer nach Geschäften und einer Route suchen. Das System basiert auf einer Hybridplattform: Kartendaten sind im On-Board-System integriert, zusätzliche Informationen und Sprachfunktionen benötigen jedoch eine Internet-Verbindung, da sie auf den Nuance-Servern verarbeitet werden.

Sprache zwischen Mensch und Gerät

Grundsätzlich gibt es zwei Möglichkeiten, eine Plattform mit Funktionen für Spracherkennung und -steuerung zu entwickeln: Als installierte Software auf dem Endgerät mit vordefiniertem Wortschatz oder über die Verarbeitung der Sprachinformationen im Rechenzentrum (Open Domain Platform) mit dynamischem Wortschatz. Bei der Verwendung einer eingebetteten Software funktioniert die Spracherkennung in der Regel grammatikbasiert. Das Programm hat eine vordefinierte Bibliothek zur Verfügung, die es nach dem gesuchten Begriff scannt. Diese Möglichkeit funktioniert auch auf Smartphones, Tablet-PCs, Navigationsgeräten oder Computern mit wenig Ressourcen. Die Verarbeitung der Sprache ist zuverlässig, und die Trefferquote liegt durchschnittlich bei über 90 Prozent. Nachteil dieser Variante: Werden unbekannte oder spezielle Begriffe verwendet, werden sie von der Plattform nur unzureichend erkannt.
Häufiger verbreitet sind mittlerweile Anwendungen, die mit einer Open Domain Platform (ODP) zusammenarbeiten. Die Verarbeitung gliedert sich bei diesem Modell in mehrere Schritte. Das Endgerät zerlegt die Wörter in einzelne Laute sowie Silben und sendet diese über eine Internet-Verbindung an einen Server. Im Rechenzentrum fügt die Plattform die Laute und Silben wieder zu einer wahrscheinlichen Wortkombination zusammen. In den meisten Fällen scannt das Programm die Wörter nach Schlüsselbegriffen, die beispielweise ein Kommando sein könnten. Erkennt die Plattform etwa das Wort "Nachricht", signalisiert sie dem Smartphone diese Information. Das Mobiltelefon öffnet eine entsprechende E-Mail-Anwendung. Eine Spracherkennungssoftware kann hier auf einen dynamischen Wortschatz zurückgreifen. Die Menge an Wortkombinationen ist theoretisch unbegrenzt. Allerdings hängt die Verarbeitung von einer stabilen Internet-Verbindung ab. Die Zuverlässigkeit der einzelnen Plattformen variiert aufgrund der Verarbeitung der Schlüsselwörter erheblich.
Einige Hersteller versuchen daher die Vorteile beider Modelle innerhalb einer hybriden Technologie zu verbinden. Einerseits möchten sie eine möglichst hohe Wort-Trefferquote erreichen. Zum anderen bietet die zusätzliche dynamische Verarbeitung auf einem Server den Vorteil, auf individuelle Kontextfaktoren (beispielsweise Ort, Zeit und Anwender) zu reagieren.

7er-BMW mit Diktierfunktionen

E-Mails diktieren und per Sprache navigieren – im 7er-BMW mit der integrierten Plattform Dragon Drive soll das kein Problem sein.
E-Mails diktieren und per Sprache navigieren – im 7er-BMW mit der integrierten Plattform Dragon Drive soll das kein Problem sein.
Foto: BMW

Als erster Automobilhersteller hat BMW die Plattform in seine aktuelle 7er-Reihe integriert. Über "iDrive" lässt sich das Smartphone mit dem System koppeln, so dass E-Mail-Konten und SMS-Nachrichten im Fahrzeug verfügbar sind. Der Nachrichteninhalt wird dabei von einer elektronischen Stimme vorgelesen. Die Software bietet die Möglichkeit, per Sprachkommando eine Pause anzuordnen oder das Vorlesen zu beenden. Zudem gibt es eine Filterfunktion, mit der sich nur ungelesene Nachrichten anzeigen und vorlesen lassen. "Connected Drive", wie das Navigationssystem bei BMW heißt, muss nicht für das entsprechende E-Mail-Konto eingerichtet werden. Die Nachrichten werden direkt über die Smartphone-Verbindung abgerufen.

Über die Kombination mit Dragon Drive lässt sich Gesprochenes auch in geschriebenen Text verwandeln. So können nicht nur Navigationsgerät oder Musikauswahl per Sprachkommando gesteuert, sondern auch auch Nachrichten verschickt werden. Die Technik arbeitet über eine Open Domain Plattform: Die Wörter werden auf Nuance-Servern in den USA verarbeitet und an das System im Auto zurückgesendet. Dies hat den Nachteil, dass die Verarbeitung komplexer Wortkombinationen möglicherweise ein paar Sekunden dauern kann, wenn die Datenverbindung schlapp macht. Wer dagegen kurz mitteilen möchte, dass er später zum Essen kommt, dürfte sich über die Kopplung mit Dragon Drive Messaging freuen.

Leider erlaubt das System bisher nur 30-Sekunden-Diktate. Erkennt die Software ein Wort nicht richtig, muss der Fahrer den Controller von Connected Drive verwenden und einen Vorschlag aus einer Liste auswählen. Ferner lassen sich Adressaten im Telefonbuch nicht per Spracheingabe suchen. Zudem bleiben iPhone-Besitzer vorerst außen vor, da Mobiltelefone nur über das Bluetooth-Profil MAP eingebunden werden können. Apple unterstützt diese Übertragung bisher nicht.