Trendthema Sprachsteuerung

Warum Siri und Co. die Zukunft gehört

28.05.2013
Von Tobias Wendehost

Sprachsteuerung in der Industrie

Was im Consumer-Segment anscheinend immer stärker zum Alltag wird, könnte sich auch in der Industrie durchsetzen. Stimmen die Prognosen von Gartner, dann haben beispielsweise in drei Jahren 70 Prozent der Anbieter von Business-Intelligence-Software dort Funktionen zur Spracherkennung integriert. Persönliche Analyseassistenten könnten laut Douglas Laney, Research Vice President bei Gartner, Zusammenhänge verstehen und mit dem Anwender in Dialog treten. "Viele dieser Technologien können und werden dazu fähig sein, per Sprachsteuerung analytische Aufgaben zu übernehmen", prognostiziert der Analyst.

Das Talking Terminal von Semvox weist beispielsweise in Gebäuden den Weg.
Das Talking Terminal von Semvox weist beispielsweise in Gebäuden den Weg.
Foto: Semvox

Einige IT-Anbieter haben sich bereits auf die Entwicklung von interaktiven Sprachlösungen für Industriekunden spezialisiert. Ein Beispiel ist Semvox. Das Saarbrücker Unternehmen hat mit dem "Talking Terminal" ein System entwickelt, das direkte Interaktion mit dem Anwender ermöglicht. "Die Person stellt sich vor das Talking Terminal und stellt eine Frage", erklärt Norbert Pfleger, Geschäftsführer von Semvox, die Station. "Das System antwortet in Echtzeit und hilft dem Anwender bei seinem Anliegen." Die Einsatzszenarien für die festinstallierte Station sind vielfältig. Möchte eine Person etwa im Supermarkt erklärt bekommen, wo die Getränkeabteilung ist, dann beschreibt das Talking Terminal den Weg per Sprachausgabe.

Talking Terminal für Fragen im Job

Auf Basis des Talking Terminal hat Semvox zudem ein interaktives Handbuch entwickelt, das derzeit im Rahmen des Projekts "Cyber-Physische Produktionssysteme" (Cypros) getestet wird. Zu den Kooperationspartnern gehören Unternehmen aus der Wirtschaft wie Wittenstein (Maschinenbau), BMW und DHL. Außerdem beteiligen sich Forschungseinrichtungen wie das Fraunhofer-Institut für Werkzeugmaschinen und Umformtechnik (IWU) und das Institut für Werkzeugmaschinen und Betriebswissenschaften (iwb) der Technischen Universität München daran.

Die Fertigungsindustrie könnte von sprachbasierten Systemen profitieren. Im Rahmen des Projekts Cypros entwickelt Semvox ein interaktives Handbuch mit Sprachsteuerung.
Die Fertigungsindustrie könnte von sprachbasierten Systemen profitieren. Im Rahmen des Projekts Cypros entwickelt Semvox ein interaktives Handbuch mit Sprachsteuerung.
Foto: Semvox

Das interaktive Handbuch wurde erstmals auf der Hannover Messe 2013 im Live-Betrieb vorgestellt und soll Fertigungsunternehmen wie Wittenstein bei der zum Teil kleinteiligen Produktion helfen. "Das System ist eine Kombination aus Sprachsteuerung und RFID-basierter Interaktion", so Pfleger. Damit unterstützt es Mitarbeiter bei der Montage, indem es via Sprachausgabe Arbeitsschritte erklärt. "Möchte ein Mitarbeiter wissen, mit welchem Drehmoment eine Schraube angezogen oder welcher Schraubenzieher benötigt wird, kann er das System fragen", beschreibt der Semvox-Geschäftsführer mögliche Fragen an das Handbuch. Doch nicht nur bei der Produktion soll das System helfen. Es lasse sich außerdem für die Qualitätssicherung einsetzen, wirbt der Hersteller: "Gab es Abweichungen bei Arbeitsschritten, hilft das System bei der Ursachenforschung."

Zwei Arten für die Realisierung

Aus IT-Sicht gibt es grundsätzlich zwei Möglichkeiten, ein System mit Spracherkennung zu realisieren. Im ersten Modell sind die Anwendungen auf einem Endgerät installiert und benötigen keinen Internet-Zugriff. Ein Beispiel ist "Voice Remote Control". Dahinter verbirgt sich eine Fernbedienung, die Semvox in Kooperation mit dem luxemburgischen Unternehmen Homesystem entwickelt hat. Die Fernbedienung lässt sich etwa zur Steuerung eines Lichtsystems oder von kabellos verbundenen Rasensprengern verwenden. Möchte der Anwender das Licht anschalten, muss er der Fernbedienung "Licht an" diktieren.

Homesystem bestand bei der Entwicklung auf zwei Bedingungen: Das System sollte keinen Zugriff auf externe Server haben und auf einem Android-Gerät funktionieren. Der Anwendungsbereich ist in diesem Fall überschaubar: Die Daten werden dediziert auf einem Smartphone verarbeitet und lediglich lokal auf dem Gerät genutzt. Zudem ist in diesem Beispiel der verwendete Wortschatz begrenzt, da die Sprachbedienung nur für bestimmte Bereiche dient, etwa für die Beleuchtung des Hauses oder ein Bewässerungssystem.

Ähnlich wie bei den meisten Navigationssystemen mit Spracherkennung, funktioniert die Verarbeitung grammatikbasiert. Der Nutzer sagt dem System in Wortgruppen, was es tun soll, und dieses reagiert - zum Beispiel "Navigieren nach München, Allianz Arena" oder "System XY, Licht anschalten". Die Verarbeitung des Sprachbefehls ist in diesem Fall relativ zuverlässig und erreicht hohe Trefferquoten von über 90 Prozent. Allerdings versagt die Software, wo eine Unsicherheit beim Anwender auftaucht oder nichtstandardisierte Formulierungen verwendet werden.

Sprache zwischen Mensch und Gerät

Grundsätzlich gibt es zwei Möglichkeiten, eine Plattform mit Funktionen für Spracherkennung und -steuerung zu entwickeln: Als installierte Software auf dem Endgerät mit vordefiniertem Wortschatz oder über die Verarbeitung der Sprachinformationen im Rechenzentrum (Open Domain Platform) mit dynamischem Wortschatz. Bei der Verwendung einer eingebetteten Software funktioniert die Spracherkennung in der Regel grammatikbasiert. Das Programm hat eine vordefinierte Bibliothek zur Verfügung, die es nach dem gesuchten Begriff scannt. Diese Möglichkeit funktioniert auch auf Smartphones, Tablet-PCs, Navigationsgeräten oder Computern mit wenig Ressourcen. Die Verarbeitung der Sprache ist zuverlässig, und die Trefferquote liegt durchschnittlich bei über 90 Prozent. Nachteil dieser Variante: Werden unbekannte oder spezielle Begriffe verwendet, werden sie von der Plattform nur unzureichend erkannt.
Häufiger verbreitet sind mittlerweile Anwendungen, die mit einer Open Domain Platform (ODP) zusammenarbeiten. Die Verarbeitung gliedert sich bei diesem Modell in mehrere Schritte. Das Endgerät zerlegt die Wörter in einzelne Laute sowie Silben und sendet diese über eine Internet-Verbindung an einen Server. Im Rechenzentrum fügt die Plattform die Laute und Silben wieder zu einer wahrscheinlichen Wortkombination zusammen. In den meisten Fällen scannt das Programm die Wörter nach Schlüsselbegriffen, die beispielweise ein Kommando sein könnten. Erkennt die Plattform etwa das Wort "Nachricht", signalisiert sie dem Smartphone diese Information. Das Mobiltelefon öffnet eine entsprechende E-Mail-Anwendung. Eine Spracherkennungssoftware kann hier auf einen dynamischen Wortschatz zurückgreifen. Die Menge an Wortkombinationen ist theoretisch unbegrenzt. Allerdings hängt die Verarbeitung von einer stabilen Internet-Verbindung ab. Die Zuverlässigkeit der einzelnen Plattformen variiert aufgrund der Verarbeitung der Schlüsselwörter erheblich.
Einige Hersteller versuchen daher die Vorteile beider Modelle innerhalb einer hybriden Technologie zu verbinden. Einerseits möchten sie eine möglichst hohe Wort-Trefferquote erreichen. Zum anderen bietet die zusätzliche dynamische Verarbeitung auf einem Server den Vorteil, auf individuelle Kontextfaktoren (beispielsweise Ort, Zeit und Anwender) zu reagieren.

Cloud-basierte Systeme

Im Gegensatz dazu funktioniert im zweiten Modell ein Programm wie Siri oder Google Now auf Basis einer Open Domain Platform, die auf einem Server installiert ist. Bei dieser Variante werden die Spracheingaben unabhängig von Formulierungen und dem Sprachkontext verarbeitet. Auf dem Server befindet sich eine Plattform für die Sprachverarbeitung. Spricht zum Beispiel ein Siri-Nutzer einen Satz in sein Smartphone, werden die Wörter in einzelne Textbausteine zerlegt und an die Plattform verschickt.

Die Software scannt die gespeicherte Bibliothek nach Schlüsselwörtern und sendet die wahrscheinlichste Lösung zurück. So gibt der Anwender zum Beispiel einen Sprachbefehl, den das System dann in eine Handlung umsetzt: "Erstelle eine E-Mail an Person XY: Ich komme eine Stunde später." Der ODP-Server erkennt das Wort "E-Mail" und signalisiert dem Smartphone, dass der Nutzer eine Nachricht schreiben möchte. Anschließend öffnet sich das E-Mail-Programm, und der Text kann diktiert werden. Bei dieser Lösung sind zwar unendlich viele Wortkombinationen möglich, die Verarbeitung ist aber weniger zuverlässig als bei einer grammatikbasierten Software. Allerdings kann ein ODP-Server auch viele Benutzer gleichzeitig bedienen, und die Datenbank mit den gespeicherten Wörtern ist erweiterbar.

Als zusätzliche Variante bietet beispielsweise Semvox eine Server-basierte Sprachverarbeitung in einer eigenen Infrastruktur an. Die Server hostet der Kunde. Die Plattform (ODP Server) stammt von Semvox. Die Installation kann mehrere Anwender bedienen und lässt sich laut Firmenchef Pfleger skalieren sowie in eine bestehende Infrastruktur integrieren.