Siri, Google Now und Co.

Google versus Apple - Wettbewerb um Sprachanwendungen

Tobias Wendehost beschäftigt sich als Volontär aktuell mit verschiedenen Hardwarethemen und stellt täglich ein Gadget des Tages vor. Ansonsten arbeitet er sich thematisch durch die Ressorts Job und Karriere, Software, Netzwerke und Mobile sowie IT-Strategie. Wer möchte, kann Tobias bei Twitter (@tubezweinull) folgen oder bei Xing eine Nachricht schreiben.
Google und Apple kämpfen nicht nur bei Betriebssystemen und Mobilgeräten um Marktanteile. Auch Sprachanwendungen sind Schauplatz der Auseinandersetzung.

Längere E-Mails auf dem Smartphone schreiben sich wenig komfortabel. Um diese Unbequemlichkeit zu beheben, setzen Apple und Google stärker auf Spracherkennung in Mobilgeräten.

Sprache auf Mobilgeräten

Google und Apple beharken sich in verschiedenen Anwendungsbereichen - mittlerweile auch bei Sprachsteuerung.
Google und Apple beharken sich in verschiedenen Anwendungsbereichen - mittlerweile auch bei Sprachsteuerung.
Foto: Lightspring/Shutterstock

Die Wörter werden bei diesen Sprachanwendungen auf den Mobilgeräten in einzelne Laute zerlegt, über Mobilfunknetze oder WLAN an einen Server gesendet, der wieder passende Ergebnisse zurückschickt. Über den Erfolg der Anwendung entscheiden häufig Schlüsselwörter. Sie signalisieren dem Gerät, in welchem Kontext ein Wort stehen könnte. Allerdings hängt die Trefferquote von der Aussprache, vordefinierten Befehlen und der Geschwindigkeit ab.

Sprache zwischen Mensch und Gerät

Grundsätzlich gibt es zwei Möglichkeiten, eine Plattform mit Funktionen für Spracherkennung und -steuerung zu entwickeln: Als installierte Software auf dem Endgerät mit vordefiniertem Wortschatz oder über die Verarbeitung der Sprachinformationen im Rechenzentrum (Open Domain Platform) mit dynamischem Wortschatz. Bei der Verwendung einer eingebetteten Software funktioniert die Spracherkennung in der Regel grammatikbasiert. Das Programm hat eine vordefinierte Bibliothek zur Verfügung, die es nach dem gesuchten Begriff scannt. Diese Möglichkeit funktioniert auch auf Smartphones, Tablet-PCs, Navigationsgeräten oder Computern mit wenig Ressourcen. Die Verarbeitung der Sprache ist zuverlässig, und die Trefferquote liegt durchschnittlich bei über 90 Prozent. Nachteil dieser Variante: Werden unbekannte oder spezielle Begriffe verwendet, werden sie von der Plattform nur unzureichend erkannt.
Häufiger verbreitet sind mittlerweile Anwendungen, die mit einer Open Domain Platform (ODP) zusammenarbeiten. Die Verarbeitung gliedert sich bei diesem Modell in mehrere Schritte. Das Endgerät zerlegt die Wörter in einzelne Laute sowie Silben und sendet diese über eine Internet-Verbindung an einen Server. Im Rechenzentrum fügt die Plattform die Laute und Silben wieder zu einer wahrscheinlichen Wortkombination zusammen. In den meisten Fällen scannt das Programm die Wörter nach Schlüsselbegriffen, die beispielweise ein Kommando sein könnten. Erkennt die Plattform etwa das Wort "Nachricht", signalisiert sie dem Smartphone diese Information. Das Mobiltelefon öffnet eine entsprechende E-Mail-Anwendung. Eine Spracherkennungssoftware kann hier auf einen dynamischen Wortschatz zurückgreifen. Die Menge an Wortkombinationen ist theoretisch unbegrenzt. Allerdings hängt die Verarbeitung von einer stabilen Internet-Verbindung ab. Die Zuverlässigkeit der einzelnen Plattformen variiert aufgrund der Verarbeitung der Schlüsselwörter erheblich.
Einige Hersteller versuchen daher die Vorteile beider Modelle innerhalb einer hybriden Technologie zu verbinden. Einerseits möchten sie eine möglichst hohe Wort-Trefferquote erreichen. Zum anderen bietet die zusätzliche dynamische Verarbeitung auf einem Server den Vorteil, auf individuelle Kontextfaktoren (beispielsweise Ort, Zeit und Anwender) zu reagieren.

Google bietet eine semantische Suchfunktion an, die das Unternehmen "Knowledge Graph" getauft hat. Spricht der Smartphone-Nutzer beispielsweise "Empire State Building" in sein Telefon, erhält er als Ergebnis ein Foto und grundsätzliche Informationen über das Gebäude. Der Suchmaschinenkonzern setzt dabei auf Schlüsselwörter, die etwa mit Einträgen bei Wikipedia oder dem CIA World Factbook verglichen werden. Die Voice-Search-Funktion, wie die Sprachsuche bei Google heißt, ist mit dem Knowledge Graph verbunden.

Vorteil dieser Verknüpfung: Anwender erhalten bei der Suche nach dem Kinoprogramm oder einem Restaurant Ergebnisse aus der Umgebung. Voice Search antwortet zudem in kompletten Sätzen auf dem Display und ist bei einigen Ergebnissen sogar schneller als Siri (Speech Interpretation and Recognition Interface) von Apple. Die Funktionen sind mittlerweile in der Google-App integriert.

Gesprochene Antworten

Auf der Entwicklerkonferenz I/O Mitte Mai in San Francisco kündigte Google "gesprochene Antworten" für Computer an. Voraussetzung ist allerdings die Verwendung des Google-eigenen Browsers Chrome.

Google Now erinnert Anwender an Termine und liefert die benötigte Route gleich mit.
Google Now erinnert Anwender an Termine und liefert die benötigte Route gleich mit.
Foto: Google

Neben Suchfunktionen per Spracheingabe bietet Google seinen Dienst "Google Now" als integrierte Anwendung in der Google App an. Diese lässt sich mittlerweile auch in Deutsch steuern, hat bis dato allerdings einen eher begrenzten Umfang an Befehlen im Repertoire. So funktionieren Befehle wie "Navigieren zu..." oder "Öffne..." bereits flüssig. Es verwirrt die Anwendung jedoch, wenn der Smartphone-Nutzer statt "Anruf Tobias" "Rufe Tobias an" sagt.

In San Francisco warb Google für die neuen Funktionen. Der digitale Assistent soll Anwender abhängig von Zeit, Ort und Personen ("Reminders") an Termine erinnern können. Mit dieser Erweiterung ist Google der Konkurrenz ein Stück voraus. Setzt Google seine Ankündigungen um, dann lassen sich in Zukunft Erinnerungen abhängig vom situativen Kontext abrufen. Da die App den Kartendienst von Google samt Verkehrsdaten integriert hat, kann sich der Nutzer an einen Termin erinnern und die Fahrdauer berechnen lassen.

"Google Empire State Building"

Noch weiter soll die Spracherkennung bei der Datenbrille Google Glass gehen. Mit der Anweisung "OK Glass" sollen sich alle weiteren Befehle starten lassen. So könnten Kommandos wie "Mache ein Bild" oder "Google Empire State Building" folgen, ohne dass ein zusätzlicher Griff zur Brille erfolgen muss. Zu den weiteren möglichen Anweisungen zählen Videoaufnahmen, Übersetzungen oder Navigationshinweise per Spracheingabe.

Eine Google-Website gibt über die Standardbefehle Auskunft. Wie vieles bei Google, dürfte aber auch das ab 2014 erhältliche Gadget noch Verbesserungspotenzial bieten. Ersten Tests zufolge offenbarte Google Glass Schwächen. Stimmen aus der Tech-Community kritisierten die Spracherkennung. Zur Verbindung mit dem Internet, die für die Sprachverarbeitung obligatorisch ist, benötigt die Brille die Hilfe eines Smartphones.