Siri, Google Now und Co.

Google versus Apple - Wettbewerb um Sprachanwendungen

31.05.2013 von Tobias Wendehost

Google und Apple kämpfen nicht nur bei Betriebssystemen und Mobilgeräten um Marktanteile. Auch Sprachanwendungen sind Schauplatz der Auseinandersetzung.

Längere E-Mails auf dem Smartphone schreiben sich wenig komfortabel. Um diese Unbequemlichkeit zu beheben, setzen Apple und Google stärker auf Spracherkennung in Mobilgeräten.

Sprache auf Mobilgeräten

Google und Apple beharken sich in verschiedenen Anwendungsbereichen - mittlerweile auch bei Sprachsteuerung.
Foto: Lightspring/Shutterstock

Die Wörter werden bei diesen Sprachanwendungen auf den Mobilgeräten in einzelne Laute zerlegt, über Mobilfunknetze oder WLAN an einen Server gesendet, der wieder passende Ergebnisse zurückschickt. Über den Erfolg der Anwendung entscheiden häufig Schlüsselwörter. Sie signalisieren dem Gerät, in welchem Kontext ein Wort stehen könnte. Allerdings hängt die Trefferquote von der Aussprache, vordefinierten Befehlen und der Geschwindigkeit ab.

Sprache zwischen Mensch und Gerät

Grammatikbasierte Sprachverarbeitung

Grundsätzlich gibt es zwei Möglichkeiten, eine Plattform mit Funktionen für Spracherkennung und -steuerung zu entwickeln: Als installierte Software auf dem Endgerät mit vordefiniertem Wortschatz oder über die Verarbeitung der Sprachinformationen im Rechenzentrum (Open Domain Platform) mit dynamischem Wortschatz. Bei der Verwendung einer eingebetteten Software funktioniert die Spracherkennung in der Regel grammatikbasiert. Das Programm hat eine vordefinierte Bibliothek zur Verfügung, die es nach dem gesuchten Begriff scannt. Diese Möglichkeit funktioniert auch auf Smartphones, Tablet-PCs, Navigationsgeräten oder Computern mit wenig Ressourcen. Die Verarbeitung der Sprache ist zuverlässig, und die Trefferquote liegt durchschnittlich bei über 90 Prozent. Nachteil dieser Variante: Werden unbekannte oder spezielle Begriffe verwendet, werden sie von der Plattform nur unzureichend erkannt.

Serverbasierte Sprachverarbeitung

Häufiger verbreitet sind mittlerweile Anwendungen, die mit einer Open Domain Platform (ODP) zusammenarbeiten. Die Verarbeitung gliedert sich bei diesem Modell in mehrere Schritte. Das Endgerät zerlegt die Wörter in einzelne Laute sowie Silben und sendet diese über eine Internet-Verbindung an einen Server. Im Rechenzentrum fügt die Plattform die Laute und Silben wieder zu einer wahrscheinlichen Wortkombination zusammen. In den meisten Fällen scannt das Programm die Wörter nach Schlüsselbegriffen, die beispielweise ein Kommando sein könnten. Erkennt die Plattform etwa das Wort "Nachricht", signalisiert sie dem Smartphone diese Information. Das Mobiltelefon öffnet eine entsprechende E-Mail-Anwendung. Eine Spracherkennungssoftware kann hier auf einen dynamischen Wortschatz zurückgreifen. Die Menge an Wortkombinationen ist theoretisch unbegrenzt. Allerdings hängt die Verarbeitung von einer stabilen Internet-Verbindung ab. Die Zuverlässigkeit der einzelnen Plattformen variiert aufgrund der Verarbeitung der Schlüsselwörter erheblich.

Hybride Sprachverarbeitung

Einige Hersteller versuchen daher die Vorteile beider Modelle innerhalb einer hybriden Technologie zu verbinden. Einerseits möchten sie eine möglichst hohe Wort-Trefferquote erreichen. Zum anderen bietet die zusätzliche dynamische Verarbeitung auf einem Server den Vorteil, auf individuelle Kontextfaktoren (beispielsweise Ort, Zeit und Anwender) zu reagieren.

Google bietet eine semantische Suchfunktion an, die das Unternehmen "Knowledge Graph" getauft hat. Spricht der Smartphone-Nutzer beispielsweise "Empire State Building" in sein Telefon, erhält er als Ergebnis ein Foto und grundsätzliche Informationen über das Gebäude. Der Suchmaschinenkonzern setzt dabei auf Schlüsselwörter, die etwa mit Einträgen bei Wikipedia oder dem CIA World Factbook verglichen werden. Die Voice-Search-Funktion, wie die Sprachsuche bei Google heißt, ist mit dem Knowledge Graph verbunden.

Vorteil dieser Verknüpfung: Anwender erhalten bei der Suche nach dem Kinoprogramm oder einem Restaurant Ergebnisse aus der Umgebung. Voice Search antwortet zudem in kompletten Sätzen auf dem Display und ist bei einigen Ergebnissen sogar schneller als Siri (Speech Interpretation and Recognition Interface) von Apple. Die Funktionen sind mittlerweile in der Google-App integriert.

Gesprochene Antworten

Auf der Entwicklerkonferenz I/O Mitte Mai in San Francisco kündigte Google "gesprochene Antworten" für Computer an. Voraussetzung ist allerdings die Verwendung des Google-eigenen Browsers Chrome.

Neben Suchfunktionen per Spracheingabe bietet Google seinen Dienst "Google Now" als integrierte Anwendung in der Google App an. Diese lässt sich mittlerweile auch in Deutsch steuern, hat bis dato allerdings einen eher begrenzten Umfang an Befehlen im Repertoire. So funktionieren Befehle wie "Navigieren zu..." oder "Öffne..." bereits flüssig. Es verwirrt die Anwendung jedoch, wenn der Smartphone-Nutzer statt "Anruf Tobias" "Rufe Tobias an" sagt.

In San Francisco warb Google für die neuen Funktionen. Der digitale Assistent soll Anwender abhängig von Zeit, Ort und Personen ("Reminders") an Termine erinnern können. Mit dieser Erweiterung ist Google der Konkurrenz ein Stück voraus. Setzt Google seine Ankündigungen um, dann lassen sich in Zukunft Erinnerungen abhängig vom situativen Kontext abrufen. Da die App den Kartendienst von Google samt Verkehrsdaten integriert hat, kann sich der Nutzer an einen Termin erinnern und die Fahrdauer berechnen lassen.

"Google Empire State Building"

Noch weiter soll die Spracherkennung bei der Datenbrille Google Glass gehen. Mit der Anweisung "OK Glass" sollen sich alle weiteren Befehle starten lassen. So könnten Kommandos wie "Mache ein Bild" oder "Google Empire State Building" folgen, ohne dass ein zusätzlicher Griff zur Brille erfolgen muss. Zu den weiteren möglichen Anweisungen zählen Videoaufnahmen, Übersetzungen oder Navigationshinweise per Spracheingabe.

Eine Google-Website gibt über die Standardbefehle Auskunft. Wie vieles bei Google, dürfte aber auch das ab 2014 erhältliche Gadget noch Verbesserungspotenzial bieten. Ersten Tests zufolge offenbarte Google Glass Schwächen. Stimmen aus der Tech-Community kritisierten die Spracherkennung. Zur Verbindung mit dem Internet, die für die Sprachverarbeitung obligatorisch ist, benötigt die Brille die Hilfe eines Smartphones.

Apple bessert nach

Apple spürt den Konkurrenzdruck durch Google und hat Siri seit iOS 6 verbessert. Der Sprachassistent ist mittlerweile auch auf dem iPad verfügbar. Die Überarbeitung war dringend nötig, hatte sich Siri am Anfang doch im Vergleich zu Google mehrfach blamiert. So versteht Apples digitaler Assistent neben Schlüsselwörtern auch Umschreibungen. Fragt der Nutzer Siri, ob er sich heute sonnen kann, öffnet sich der Wetterbericht. Kommt das Kommando: "Ruf meine Freundin an", dann fragt Siri nach dem gewünschten Telefonbucheintrag.

Etwas verspielter reagiert Siri seit Kurzem auf lange Fragen und scheinbar sinnfreies Geplapper. Formuliert der Anwender eine lange Frage, dann kontert der Sprachassistent seit dem letzten Update beispielsweise mit "Lange Rede, kurzer Sinn". Danach fordert er den Nutzer zur erneuten Formulierung auf.

Kritik am Datenschutz

Wer Anwendungen per Sprachsteuerung beginnen möchte, findet bei Siri Gehör.

Die Sprachanwendung versteht anders als Googles Voice Search auch Umschreibungen und ähnliche Begriffe. Allerdings ist das Anlegen von Terminen verbesserungswürdig. Anwender sollten einen gewünschten Vermerk doppelt überprüfen. Leider lassen sich Fehler in Notizen nicht einfach korrigieren, da Siri ein entsprechender Befehl fehlt. Das gleiche Bild ergibt sich bei sozialen Netzwerken. So lassen sich zwar Nachrichten auf Facebook problemlos diktieren. Sucht der Nutzer aber eine bestimmte Meldung, dann ist er mit der Sprachsteuerung nicht gut bedient.

Auch Datenschützern ist Siri ein Dorn im Auge. Im April wurde bekannt, dass Apple alle Spracheingaben bis zu zwei Jahre auf seinen Servern speichert. Die Datensammlung begründet der Konzern damit, seine Sprachtechnik verbessern zu wollen. Dafür würden die Daten anonymisiert erfasst. Jede Spracheingabe werde mit einer zufälligen Nummer versehen, die nicht an die Apple-ID oder E-Mail-Adresse gekoppelt sei. Sechs Monate später würde die Nummer von der Aufzeichnung getrennt und diese für weitere 18 Monate gespeichert. Anwender werden allerdings nicht eindeutig auf dieses Vorgehen hingewiesen.

Vorlesen nicht möglich

Siri wie auch die Sprachanwendungen von Google haben ein Manko. Zwar funktioniert das Diktieren von Nachrichten gut, allerdings lassen sich zum Beispiel E-Mails nicht vorlesen. Beide Lösungen stellen ein umfangreiches Portfolio an Funktionen zur Verfügung, sind aber letztlich nur ein Werkzeug, um das lästige Tippen auf ein Minimum zu reduzieren.

In Zukunft wird es bei Apple wie bei Google darauf ankommen, die Sprachausgabe zu verbessern beziehungsweise zu erweitern. Zusätzlich sollte der situative Kontext, also Ort und Zeit, aber auch der Gesprächskontext bei der Weiterentwicklung eine größere Rolle spielen. Wie Google mit der Erweiterung von Google Now um die situative Erinnerungsfunktion zeigt, kommt es bei den Sprachanwendungen nicht mehr nur auf die technisch saubere Sprachverarbeitung an. In Zukunft müssen die Applikationen "intelligent" auf Anweisungen reagieren können, um keine genervten Reaktionen bei Anwendern auszulösen.

Google sammelt auch Daten

Schließlich spielt der Datenschutz eine wichtige Rolle. Wie beschrieben, speichert Apple die Spracheingaben für bis zu zwei Jahre. Ähnlich sieht es bei Google aus. Auf seiner FAQ-Website weist das Unternehmen Anwender darauf hin, dass alle Daten mit dem eigenen Konto verknüpft und gespeichert werden. An dieser Stelle geht Google sogar noch weiter als Apple.

Beide Anbieter begründen diesen Schritt mit dem Hinweis, dass nur so die Verbesserung der Sprachsteuerung zu gewährleisten sei. Dennoch ist die Praxis undurchsichtig, da der Nutzer bei der Installation sowie beim Kauf des Mobilgeräts nicht explizit darauf hingewiesen wird. Das Problem lässt sich leider nur umgehen, indem die Sprachassistenten deaktiviert werden.