Spracherkennung im Auto

Fahrer an Navi - bitte melden

29.05.2013 von Tobias Wendehost
Etliche Autobauer integrieren Spracherkennung in ihre Fahrzeugsysteme. Wir haben verschiedene Ansätze verglichen und uns Geräte angesehen.
Was vor einigen Jahren noch als Zukunftsthema galt, ist heute wahr geworden: Sprachsteuerung im Auto.
Foto: Mikhail Bakunovich/Shutterstock

Neben Mobilgeräten erobern Sprachfunktionen zunehmend das Auto. Das liebste Spielzeug der Deutschen gilt als perfektes Experimentierfeld für neue Technologien. Wie stark Automobiltechnik und IT verschmelzen, ließ sich gut im Januar dieses Jahres auf der Consumer Electronics Show (CES) in Las Vegas beobachten. Neben den üblichen Computeranbietern waren fast alle größeren Autohersteller mit neuen IT-Systemen vor Ort. Ein Bestandteil der Präsentationen waren Sprachfunktionen.

Sicherheitsrisko Sprachsteuerung

"Mit der Integration von vernetzten Systemen in Autos und dem Einsatz neuer Dienste wird die Ablenkungsgefahr von Fahrern für Automobilhersteller zu einem zentralen Thema", begründet Jack Bergquist, Automotive Analyst bei IMS Research, den wachsenden Bedarf an Spracherkennungssystemen. Die Analysten von IMS Research sind sich sicher, dass 2019 mehr als die Hälfte aller Neuwagen mit einem Spracherkennungssystem verkauft werden. Lag der Umsatz in diesem Marktsegment 2011 noch bei 80 Millionen Dollar, soll er in sechs Jahren bereits mehr als doppelt so groß sein (170 Millionen Dollar).

Gesetzliche Rahmenbedingungen dürften die Entwicklungen, die Analysten wie Bergquist vorhersagen, forcieren. Zum Beispiel ist in Kalifornien seit dem 1. Januar 2013 gesetzlich verankert, dass Autofahrer in dem US-Bundesstaat Textnachrichten schreiben und versenden dürfen, wenn sie über ein System mit Spracherkennung diktiert werden. Das Gesetz wurde allerdings nach seiner Einführung kritisiert. Der Grund: Eine Studie der University of Utah sieht im Einsatz von technischen Geräten und der damit verbundenen Ablenkung etwa beim Diktieren von SMS eine Beeinträchtigung der Fahrtauglichkeit.

Die Autoren der Studie zogen ein drastisches Fazit: "Die Beeinträchtigung etwa durch Telefonate beim Fahren können mit denen eines betrunkenen Fahrers verglichen werden." Dass Sprachsteuerung mehr Sicherheit für den Autofahrer bedeutet, sei nicht nachgewiesen. Die unabhängige Organisation National Safety Council fordert daher, das Gesetz wieder zurückzunehmen. "Sicheres Fahren braucht die volle Aufmerksamkeit des Fahrers", lautet die Begründung von Janet Froetscher, Präsidentin des National Safety Council.

In Deutschland fällt der Einsatz sprachbasierter Systeme unter Paragraf 23 Straßenverkehrsordnung (StVO), der für das Telefonieren im Auto Freisprecheinrichtungen vorschreibt. Derweil tüfteln Softwareanbieter wie Microsoft, Nuance und Apple an der Weiterentwicklung von sprachbasierten Plattformen für Autos.

Sprachsteuerung im Auto
Sprachsteuerung im Auto
Neben Mobilgeräten erobern Sprachfunktionen zunehmend das Auto. Wie stark Automobiltechnik und IT verschmelzen, ließ sich gut im Januar dieses Jahres auf der Consumer Electronics Show (CES) in Las Vegas beobachten. Neben den üblichen Computeranbietern waren fast alle größeren Autohersteller mit neuen IT-Systemen vor Ort. Ein Bestandteil der Präsentationen waren Sprachfunktionen.
BMW mit Connected Drive und iDrive
Als erster Automobilhersteller hat BMW Dragon Drive in seine aktuelle 7er-Reihe integriert. Über "iDrive" lässt sich das Smartphone mit dem System koppeln, so dass E-Mail-Konten und SMS-Nachrichten im Fahrzeug verfügbar sind. Der Nachrichteninhalt wird dabei von einer elektronischen Stimme vorgelesen.
Mercedes-Benz mit Drive Kit Plus
Mercedes-Benz geht einen etwas anderen Weg: Der Stuttgarter Autokonzern bietet seit Anfang 2013 die Integration des iPhones zusammen mit dem Sprachassistenten Siri in seiner E- und A-Klasse an. Bevor Mercedes-Fahrer Siri nutzen können, benötigen sie allerdings das Navigationsgerät "Drive Kit Plus" und die "Digital-Drive-Style"-App.
Ford Sync
Seit Oktober vergangenen Jahres ist Sync in Europa erhältlich. Dahinter verbirgt sich ein Spracherkennungssystem, das in Kombination mit einem Smartphone arbeitet. Die Architektur für die Plattform wurde in Kooperation mit dem Softwarekonzern Microsoft entwickelt, der unter anderem die Sprachfunktionen beisteuerte.
Tomtom Via 135
Tomtom hat beispielsweise die Navigationsgeräte Via 130 und Via 135 im Repertoire. Die Spracherkennung der Geräte reagiert auf komplette Sätze, so dass beispielsweise ein Ziel mit Hilfe der integrierten Freisprecheinrichtung und dem Kommando des Fahrers angesteuert wird.
Garmin nüvi 3597 LMT
Ein zentrales Feature des Garmin nüvi 3597 LMT ist die sprachgesteuerte Navigation. Garmin wirbt wie Tomtom für einen ständigen Abgleich von Verkehrsdaten, so dass die Geräte per gesprochene Ansage auch auf Verkehrsstörungen hinweisen können.

Dragon Drive

Nuance ist einer der Marktführer für Spracherkennungssoftware. Selbstbewusst bewarb der Anbieter im September 2012 neue Produkte unter dem Motto "Sprachtechnologie ganz alltäglich". Gemeint waren Anwendungen, die Nuance anhand von Alltagsszenen vorstellte. Mit "Dragon Drive" hat der Spezialist etwa eine Plattform im Portfolio, über die sich Musik und Navigationssystem im Auto steuern lassen.

Grundsätzlich muss das Fahrzeug hierfür mit dem Internet verbunden sein, da die Plattform verschiedene Sprachfunktionen vereint und auf zentralen Servern von Nuance verarbeitet. Ein Beispiel ist "Dragon Drive Messaging". Der Dienst basiert auf der Diktiersoftware "Dragon Naturally Speaking" und ermöglicht dem Autofahrer etwa, Textnachrichten per Spracheingabe zu diktieren. Darüber hinaus kann der Fahrer nach Geschäften und einer Route suchen. Das System basiert auf einer Hybridplattform: Kartendaten sind im On-Board-System integriert, zusätzliche Informationen und Sprachfunktionen benötigen jedoch eine Internet-Verbindung, da sie auf den Nuance-Servern verarbeitet werden.

Zum Video: Fahrer an Navi - bitte melden

Sprache zwischen Mensch und Gerät

Grundsätzlich gibt es zwei Möglichkeiten, eine Plattform mit Funktionen für Spracherkennung und -steuerung zu entwickeln: Als installierte Software auf dem Endgerät mit vordefiniertem Wortschatz oder über die Verarbeitung der Sprachinformationen im Rechenzentrum (Open Domain Platform) mit dynamischem Wortschatz. Bei der Verwendung einer eingebetteten Software funktioniert die Spracherkennung in der Regel grammatikbasiert. Das Programm hat eine vordefinierte Bibliothek zur Verfügung, die es nach dem gesuchten Begriff scannt. Diese Möglichkeit funktioniert auch auf Smartphones, Tablet-PCs, Navigationsgeräten oder Computern mit wenig Ressourcen. Die Verarbeitung der Sprache ist zuverlässig, und die Trefferquote liegt durchschnittlich bei über 90 Prozent. Nachteil dieser Variante: Werden unbekannte oder spezielle Begriffe verwendet, werden sie von der Plattform nur unzureichend erkannt.
Häufiger verbreitet sind mittlerweile Anwendungen, die mit einer Open Domain Platform (ODP) zusammenarbeiten. Die Verarbeitung gliedert sich bei diesem Modell in mehrere Schritte. Das Endgerät zerlegt die Wörter in einzelne Laute sowie Silben und sendet diese über eine Internet-Verbindung an einen Server. Im Rechenzentrum fügt die Plattform die Laute und Silben wieder zu einer wahrscheinlichen Wortkombination zusammen. In den meisten Fällen scannt das Programm die Wörter nach Schlüsselbegriffen, die beispielweise ein Kommando sein könnten. Erkennt die Plattform etwa das Wort "Nachricht", signalisiert sie dem Smartphone diese Information. Das Mobiltelefon öffnet eine entsprechende E-Mail-Anwendung. Eine Spracherkennungssoftware kann hier auf einen dynamischen Wortschatz zurückgreifen. Die Menge an Wortkombinationen ist theoretisch unbegrenzt. Allerdings hängt die Verarbeitung von einer stabilen Internet-Verbindung ab. Die Zuverlässigkeit der einzelnen Plattformen variiert aufgrund der Verarbeitung der Schlüsselwörter erheblich.
Einige Hersteller versuchen daher die Vorteile beider Modelle innerhalb einer hybriden Technologie zu verbinden. Einerseits möchten sie eine möglichst hohe Wort-Trefferquote erreichen. Zum anderen bietet die zusätzliche dynamische Verarbeitung auf einem Server den Vorteil, auf individuelle Kontextfaktoren (beispielsweise Ort, Zeit und Anwender) zu reagieren.

7er-BMW mit Diktierfunktionen

E-Mails diktieren und per Sprache navigieren – im 7er-BMW mit der integrierten Plattform Dragon Drive soll das kein Problem sein.
Foto: BMW

Als erster Automobilhersteller hat BMW die Plattform in seine aktuelle 7er-Reihe integriert. Über "iDrive" lässt sich das Smartphone mit dem System koppeln, so dass E-Mail-Konten und SMS-Nachrichten im Fahrzeug verfügbar sind. Der Nachrichteninhalt wird dabei von einer elektronischen Stimme vorgelesen. Die Software bietet die Möglichkeit, per Sprachkommando eine Pause anzuordnen oder das Vorlesen zu beenden. Zudem gibt es eine Filterfunktion, mit der sich nur ungelesene Nachrichten anzeigen und vorlesen lassen. "Connected Drive", wie das Navigationssystem bei BMW heißt, muss nicht für das entsprechende E-Mail-Konto eingerichtet werden. Die Nachrichten werden direkt über die Smartphone-Verbindung abgerufen.

Über die Kombination mit Dragon Drive lässt sich Gesprochenes auch in geschriebenen Text verwandeln. So können nicht nur Navigationsgerät oder Musikauswahl per Sprachkommando gesteuert, sondern auch auch Nachrichten verschickt werden. Die Technik arbeitet über eine Open Domain Plattform: Die Wörter werden auf Nuance-Servern in den USA verarbeitet und an das System im Auto zurückgesendet. Dies hat den Nachteil, dass die Verarbeitung komplexer Wortkombinationen möglicherweise ein paar Sekunden dauern kann, wenn die Datenverbindung schlapp macht. Wer dagegen kurz mitteilen möchte, dass er später zum Essen kommt, dürfte sich über die Kopplung mit Dragon Drive Messaging freuen.

Leider erlaubt das System bisher nur 30-Sekunden-Diktate. Erkennt die Software ein Wort nicht richtig, muss der Fahrer den Controller von Connected Drive verwenden und einen Vorschlag aus einer Liste auswählen. Ferner lassen sich Adressaten im Telefonbuch nicht per Spracheingabe suchen. Zudem bleiben iPhone-Besitzer vorerst außen vor, da Mobiltelefone nur über das Bluetooth-Profil MAP eingebunden werden können. Apple unterstützt diese Übertragung bisher nicht.

Mercedes-Benz integriert iPhones

Seit Anfang dieses Jahres bietet Mercedes- Benz die Möglichkeit, das iPhone samt Siri mit der A- und E-Klasse zu koppeln. Voraussetzung ist Drive Kit Plus.
Foto: Mercedes-Benz

Einen anderen Weg verfolgt Mercedes-Benz. Der Stuttgarter Autokonzern bietet seit Anfang 2013 die Integration des iPhones zusammen mit dem Sprachassistenten Siri in seiner E- und A-Klasse an. Nachdem BMW und Audi ursprünglich ähnliche Pläne verfolgten, ist Mercedes-Benz der erste deutsche Autohersteller, der diese Möglichkeit wahrnimmt. Bislang war das nur bei Automodellen von General Motors und Hyundai möglich. Bevor Mercedes-Fahrer Siri nutzen können, benötigen sie allerdings das Navigationsgerät "Drive Kit Plus" und die "Digital-Drive-Style"-App. Über die Oberfläche des Zusatzgeräts erhält der Fahrer Zugriff auf die Siri-Funktionen.

Auf diese Weise sind Funktionen wie E-Mail-Diktate, SMS verschicken, News abrufen oder Musik auswählen per Spracheingabe verfügbar. Da Siri über einen Open-Domain-Erkenner arbeitet und die Sprachinformationen via Apple-Server verarbeitet werden, versteht das System allerdings manche Sprachbefehle erst nach einer Wiederholung. Bei der Weiterentwicklung des Sprachassistenten ist Mercedes-Benz von Apple abhängig. Siri bietet außerdem keinen Zugriff auf das Navigationsgerät an. Wer sich also per Sprachbefehl navigieren lassen möchte, muss nach alternativen Navigationssystemen Ausschau halten. Der Autobauer bekundet zwar, nachbessern zu wollen, und möchte das nächste Release der Digital-Drive-Style-App auch mit entsprechenden Funktionen ausstatten. Ob dies über das iPhone oder ein separates Navigationssystem möglich sein wird, bleibt indes offen.

Ford Sync nun auch in Deutschland

Ford präsentierte bereits 2008 auf der Detroit International Auto Show das integrierte Kommunikationssystem "Sync". Seit Oktober vergangenen Jahres ist das System auch in Europa erhältlich. Hinter Sync verbirgt sich ein Spracherkennungssystem, das in Kombination mit einem Smartphone arbeitet. Die Architektur für die Plattform wurde in Kooperation mit dem Softwarekonzern Microsoft entwickelt, der unter anderem die Sprachfunktionen beisteuerte.

Ford hat Sync seit fünf Jahren auf dem Markt – allerdings nur in den USA. Deutsche Fahrer können es seit letztem Jahr nutzen.
Foto: Ford

Der US-Autobauer wirbt etwa mit Funktionen für die Musikwahl oder das Vorlesen von Textnachrichten. Zudem können Ford-Fahrer per Spracheingabe im Telefonbuch suchen, Verkehrsnachrichten abrufen und sogar Apps auf Blackberry-, und Android-Geräten sowie iPhones installieren. Ford hat das System derart erweitert, dass sich rund um Sync praktisch ein eigenes Ökosystem mit zahlreichen Zusatzanwendungen entwickelt hat. Momentan ist das System für verschiedene Modelle in Deutschland verfügbar, unter anderem B-Max, Fiesta und Focus ST.

Etwas unpraktisch gestaltet sich allerdings die Auswahl nicht erkannter Sprachbefehle - was in der Praxis häufig vorkommen kann - über das integrierte Display. Auch bei Sync hat der Fahrer keinen Sprachzugriff auf ein Navigationsgerät. Dafür bietet das System einen Notruf-Assistenten, sobald der Fahrer das Handy per Bluetooth einbindet. Wird etwa der Airbag bei einem Unfall ausgelöst, verbindet sich dieser automatisch mit der Notrufzentrale.

Das Smartphone lässt sich neben Bluetooth auch über ein USB-Kabel anschließen. In diesem Modus lässt sich auch erst der gesamte Funktionsumfang von Sync nutzen. So kann etwa nur per USB-Kabel die komplette Musikbibliothek des Mobiltelefons mit Sync synchronisiert werden. Ein weiterer Nachteil ist die umständliche Synchronisation. Telefongespräche und Nachrichten werden über das Mobilfunknetz abgearbeitet. Gleichzeitig synchronisiert Sync etwa das Telefonbuch, damit der Fahrer per Sprachbefehl darauf zugreifen kann.

Alternative: Navigationsgerät

Preiswerte Navigation mit Sprachsteuerung: Das Tomtom Via 135 bringt die Speak & Go-Funktion mit.
Foto: Tomtom

Da die meisten integrierten Anwendungen bisher keine Spracherkennung für die Navigation unterstützen, müssen Autofahrer alternativ auf entsprechend ausgestattete Navigationsgeräte zurückgreifen. Hersteller wie Tomtom und Garmin bieten eine ganze Palette von Modellen an. So hat Tomtom beispielsweise "Via 130" und "Via 135" im Repertoire. Das niederländische Unternehmen bewirbt die Geräte mit der "Speak & Go"-Funktion. Die Spracherkennung reagiert auf komplette Sätze, so dass beispielsweise ein Ziel mit Hilfe der integrierten Freisprecheinrichtung und dem Kommando des Fahrers angesteuert wird. "Es genügt, eine Adresse, ein Sonderziel oder ‚Bring mich nach Hause` zu sagen und Tomtom plant die Route ans Ziel", verspricht Corinne Vigreux, Managing Director bei Tomtom.

Insgesamt sind 1000 vordefinierte Befehle im Navigationsgerät gespeichert. Die Bedienoberfläche des Via 135 Traffic Europe hat der Hersteller beispielweise so eingerichtet, dass es fertige Wortgruppen vorgibt, die der Fahrer ansagen kann. Zudem gibt es ein Menü für vorhandene Kommandos. Der Vorteil bei dem grammatikbasierten System ist, dass die bekannten Sprachbefehle zuverlässig verarbeitet werden. Die Sprachbausteine müssen nicht extra per Internet-Verbindung an einen Server gesendet werden. Der Nachteil: Möchte ein Fahrer bei 120 km/h ein Ziel per Spracherkennung eingeben, dürfte das Gerät Probleme bekommen. Sagt er Wörter, die nicht im System vordefiniert sind, dann setzt das Gerät aus. Hier muss sich der Fahrer mit der Touch-Steuerung zufriedengeben.

Auf der CES 2013 vorgestellt: das Nüvi 3597 LMT, eines von Garmins Sprach- Navigationsgeräten.
Foto: Garmin

Ähnlich wie die Automobilhersteller präsentierte Garmin sein aktuelles Navigationsgerät "nüvi 3597 LMT" Anfang des Jahres auf der CES. Ein zentrales Feature des Geräts ist die sprachgesteuerte Navigation. Garmin wirbt wie Tomtom für einen ständigen Abgleich von Verkehrsdaten, so dass die Geräte per gesprochene Ansage auch auf Verkehrsstörungen hinweisen können. Das nüvi 3597 LMT ist wie alle anderen Modelle von Garmin nicht mit einem Internet-basierten Live-Service ausgestattet. Vordefinierte Sprachbefehle speichert der Hersteller somit ebenfalls direkt auf dem Gerät. Diese lassen sich auf die häufigsten Menüpunkte anwenden. Das Navigationsgerät bietet somit nicht nur die sprachbasierte Eingabe von Navigationszielen, sondern auch die Steuerung des Geräts.

Fazit

Der Dialog zwischen Fahrer und Auto ist kein Zukunftsszenario mehr. Plattformen wie Sync oder Dragon Drive sind Beleg dafür, dass sich Systeme mit Sprachfunktionen zunehmend in den Fahrzeugen breitmachen. Leider bieten nicht alle Systeme einen Zugriff auf Navigationsfunktionen. Als Ersatz können Autofahrer Navigationsgeräte mit Sprach-Features nutzen. Diese zeichnen sich zwar durch relativ zuverlässige Spracherkennung aus, häufig aber nur für vordefinierte Wörter. Ohne Internet-Verbindung können die Geräte nicht dynamisch auf die Sätze des Fahrers reagieren. Schließlich sind die Umgebungsgeräusche im Auto durch den Motor oft so laut, dass die Systeme die Wörter schwer erkennen können. Ein Trend bei Navigationsgeräten werden daher in Zukunft Hybridgeräte sein, die das Kartenmaterial lokal abgespeichert haben, gleichzeitig aber zur Verarbeitung der Sprache mit Open-Domain-Server verbunden sind.

Beispiele für Spracherkennung
Sprachsteuerung
Computer und Maschinen per Spracheingabe zu steuern gehörte für die meisten Experten bisher noch ins Reich der Science-Fiction. Doch mit stärkerer Hardware und neuen Techniken könnten die Visionen bald wahr werden.
Siri von Apple
Der von Apple und Nuance entwickelte Sprachassistent Siri (Speech Interpretation and Recognition Interface) ist seit dem iPhone 4S ein ständiger Begleiter der Apple-Gemeinde. Als vorinstallierte Anwendung erlangte Siri eine enorme Reichweite.
Dragon TV von Nuance
Bei der Anwendung Dragon TV von Nuance hört das Fernsehgerät den umliegenden Raum kontinuierlich nach Befehlen ab. Wer seinen Fernseher per Sprache steuern möchte, kann die Plattform des Spezialisten beispielsweise mit der Frage "Läuft gerade die Tagesschau" konfrontieren und bekommt auch eine Antwort.
Talking Terminal von Semvox
Das Talking Terminal von Semvox tritt in die direkte Interaktion mit dem Anwender. Möchte eine Person etwa im Supermarkt erklärt bekommen, wo die Getränkeabteilung ist, dann beschreibt das Talking Terminal den Weg per Sprachausgabe.
Interaktives Handbuch von Semvox
Auf Basis des Talking Terminal hat Semvox zudem ein interaktives Handbuch entwickelt, das derzeit im Rahmen des Projekts "Cyber-Physische Produktionssysteme" (Cypros) getestet wird. Das System ist eine Kombination aus Sprachsteuerung und RFID-basierter Interaktion