Trendthema Sprachsteuerung

Warum Siri und Co. die Zukunft gehört

Tobias Wendehost beschäftigt sich als Volontär aktuell mit verschiedenen Hardwarethemen und stellt täglich ein Gadget des Tages vor. Ansonsten arbeitet er sich thematisch durch die Ressorts Job und Karriere, Software, Netzwerke und Mobile sowie IT-Strategie. Wer möchte, kann Tobias bei Twitter (@tubezweinull) folgen oder bei Xing eine Nachricht schreiben.
Computer per Sprache zu steuern gehörte für die meisten Experten bisher ins Reich der Science-Fiction. Doch mit stärkerer Hardware und neuen Techniken könnten die Visionen bald wahr werden.

Locker trabt der Jogger über den Strand. Zwischendurch greift er zur Fernbedienung seiner Kopfhörer und spricht scheinbar zu sich selbst: "Lies mir die Nachricht vor." Eine Stimme antwortet: "Nachricht von Sebastian" und liest den Inhalt vor. Die Szene stammt aus einem Apple-Werbespot vom Oktober 2011. Der Konzern präsentierte damals der Öffentlichkeit seinen neuen Sprachassistenten Siri (Speech Interpretation and Recognition Interface). Die Software wird seit dem Modell 4S mit dem iPhone ausgeliefert und startet Anwendungen auf Sprachkommando.

Mobile Spracherkennung

Viele IT-Konzerne setzen mittlerweile auf Sprachfunktionen.
Viele IT-Konzerne setzen mittlerweile auf Sprachfunktionen.
Foto: Sergey Nivens/Shutterstock

Auch wenn die Sprachsteuerung von elektronischen Geräten grundsätzlich nicht neu ist, verschafften Siri und vor allem das Marketing von Apple dem Thema einen neuen Schub. Dafür sorgte aber nicht nur die verwendete Technologie - Apple hatte seit 2007 zusammen mit Nuance Communications an der Software gewerkelt -, sondern in erster Linie die Verbreitung des iPhones. Als vorinstallierte Anwendung erlangte Siri eine enorme Reichweite. Allein im ersten Halbjahr 2012 wurden über 72 Millionen Smartphones dieser Baureihe verkauft. Das iPhone 5 sorgte nach seinem Marktstart für eine weitere Ausbreitung des integrierten Sprachassistenten: Im ersten Quartal 2013 wurden laut Apple rund 37 Millionen Geräte verkauft.

Auch wenn der Verkauf des iPhones zunächst wenig über die tatsächliche Nutzung der Spracherkennungstechnik aussagt, lässt sich in anderen Marktsegmenten ebenfalls ein Trend zum Einsatz von Sprachanwendungen beobachten. Neben Siri sind zusätzliche Apps in den einzelnen Stores erhältlich. Anwender können unter anderem Texte diktieren, Begriffe suchen oder sich per Spracheingabe zum nächsten Restaurant navigieren lassen. Außerdem vermarkten verschiedene TV-Hersteller Geräte, die auf Sprache reagieren. Im industriellen Umfeld werden Sprachanwendungen für die Produktion erprobt und in Krankenhaus-Operationssälen die Anzeige von Patientendaten per Sprachbefehl erforscht.

Apple vs. Google vs. Microsoft

Welche Bedeutung die Sprachsteuerung von mobilen Gadgets mittlerweile hat, zeigt "Google Now". Ähnlich wie Siri bietet die App die Möglichkeit, einen Dialog mit dem Gerät zu führen. Der Smartphone-Assistent reagiert auf einfache Fragen und antwortet seit April per Textausgabe auch in deutscher Sprache. So kann der Anwender nicht nur Suchanfragen starten, sondern auch mit Stichworten eine Notiz speichern oder sich an einen Termin erinnern lassen. Wer wissen möchte, wie das Wetter in München ist, bekommt ebenso eine Antwort wie auf die Frage nach einem Fußballergebnis oder der Verkehrslage. Da die App auch für Apples Betriebssystem iOS verfügbar ist, greift Google seinen Hauptkonkurrenten weiter an.

Neben Apple und Google hat auch Microsoft integrierte Sprachfunktionen im Angebot. So ermöglichen die Betriebssysteme nicht erst seit "Windows Phone" Zugriffe auf Mails oder Kontakte via Sprachbefehl. Bereits seit Windows Vista ist das Betriebssystem - genau wie der Konkurrent Mac OS X - mit Funktionen für Spracherkennung ausgestattet. Ein Blick in den Systemordner "Erleichterte Bedienung - Spracherkennung" in der Windows-Systemsteuerung dürfte viele Nutzer überraschen. So lassen sich Programme innerhalb von Windows 7 per Sprachbefehl starten und schließen. Mit Sprach-Makros sind zudem auch komplexere Aufgaben möglich.

Die Vorstellung der "Xbox One" letzte Woche war zudem ein Beleg dafür, welchen Stellenwert Sprachsteuerung für Microsoft hat. Die neue Spielkonsole ist auch ein Home-Entertainment-Gerät - inklusive Sprachkommandos (siehe Seite 50). Nach Angaben von Microsoft lassen sich zum Beispiel das TV-Programm ("Xbox play TV"), Apps und Spiele ("Xbox play Game") per Sprachsteuerung öffnen.

Läuft gerade die Tagesschau?

Die Sprachsteuerung von TV-Geräten wird von verschiedenen Anbietern weiterentwickelt. Dragon TV von Nuance sucht auf Nachfrage das gewünschte Programm.
Die Sprachsteuerung von TV-Geräten wird von verschiedenen Anbietern weiterentwickelt. Dragon TV von Nuance sucht auf Nachfrage das gewünschte Programm.
Foto: Nuance Communications

Doch nicht nur Mobilgeräte und Notebooks werden mit Sprachfunktionen ausgestattet. Telematiksysteme und Navigationsgeräte treten genauso in den Mensch-Maschine-Dialog wie Lichtsysteme oder Rasensprenger. Das Bedienverhalten der Nutzer nachhaltig verändern könnten Home-Entertainment und Hausautomation. Nuance Communications entwickelt bereits seit einigen Jahren Software für die Spracherkennung. Das Unternehmen wurde vor allem durch die Software "Dragon Naturally Speaking" bekannt. Die Weiterentwicklung dieser Plattform mit "Dragon TV" steht exemplarisch dafür, wie sich der Sprachdialog zwischen Mensch und Geräten in verschiedene Lebensbereiche ausdehnen kann.

Bei Dragon TV "hört" das Fernsehgerät den umliegenden Raum kontinuierlich nach Befehlen ab. Der Anwender muss nicht kompliziert in ein spezielles Mikrofon sprechen. Hintergrundgeräusche soll die Technik laut Hersteller ausblenden können. Der Sprachbefehl "Dragon TV" weckt die Anwendung aus dem Dornröschenschlaf. Die Bedienung funktioniert mit natürlicher Sprache, das heißt, abgehackte Kommandos sind grundsätzlich kein Problem.

Die Liste an Sprachbefehlen ist lang: So wird nicht nur das Kommando "Dragon TV, schalte um auf ARD" ausgeführt. Es lassen sich auch verknüpfte Fragen stellen: "Läuft gerade die Tagesschau?" oder "Gibt es heute Abend einen Film mit Bruce Willis?" Die Plattform reagiert darauf, indem sie das aktuelle Programm scannt und auf die Frage antwortet. Ist es gerade 20 Uhr, dann erhält der Zuschauer, der nach der Tagesschau gefragt hat, eine positive Antwort und kann per Sprachbefehl zur ARD zappen. Daneben arbeit Nuance seit März mit der Deutschen Telekom zusammen. Die Entertainment-Remote-Control-App für das TV-Angebot des Telekommunikationsanbieters hat seit kurzer Zeit die Sprachsteuerung von Nuance integriert.