Sprachsteuerung in der Industrie
Was im Consumer-Segment anscheinend immer stärker zum Alltag wird, könnte sich auch in der Industrie durchsetzen. Stimmen die Prognosen von Gartner, dann haben beispielsweise in drei Jahren 70 Prozent der Anbieter von Business-Intelligence-Software dort Funktionen zur Spracherkennung integriert. Persönliche Analyseassistenten könnten laut Douglas Laney, Research Vice President bei Gartner, Zusammenhänge verstehen und mit dem Anwender in Dialog treten. "Viele dieser Technologien können und werden dazu fähig sein, per Sprachsteuerung analytische Aufgaben zu übernehmen", prognostiziert der Analyst.
Einige IT-Anbieter haben sich bereits auf die Entwicklung von interaktiven Sprachlösungen für Industriekunden spezialisiert. Ein Beispiel ist Semvox. Das Saarbrücker Unternehmen hat mit dem "Talking Terminal" ein System entwickelt, das direkte Interaktion mit dem Anwender ermöglicht. "Die Person stellt sich vor das Talking Terminal und stellt eine Frage", erklärt Norbert Pfleger, Geschäftsführer von Semvox, die Station. "Das System antwortet in Echtzeit und hilft dem Anwender bei seinem Anliegen." Die Einsatzszenarien für die festinstallierte Station sind vielfältig. Möchte eine Person etwa im Supermarkt erklärt bekommen, wo die Getränkeabteilung ist, dann beschreibt das Talking Terminal den Weg per Sprachausgabe.
Talking Terminal für Fragen im Job
Auf Basis des Talking Terminal hat Semvox zudem ein interaktives Handbuch entwickelt, das derzeit im Rahmen des Projekts "Cyber-Physische Produktionssysteme" (Cypros) getestet wird. Zu den Kooperationspartnern gehören Unternehmen aus der Wirtschaft wie Wittenstein (Maschinenbau), BMW und DHL. Außerdem beteiligen sich Forschungseinrichtungen wie das Fraunhofer-Institut für Werkzeugmaschinen und Umformtechnik (IWU) und das Institut für Werkzeugmaschinen und Betriebswissenschaften (iwb) der Technischen Universität München daran.
Das interaktive Handbuch wurde erstmals auf der Hannover Messe 2013 im Live-Betrieb vorgestellt und soll Fertigungsunternehmen wie Wittenstein bei der zum Teil kleinteiligen Produktion helfen. "Das System ist eine Kombination aus Sprachsteuerung und RFID-basierter Interaktion", so Pfleger. Damit unterstützt es Mitarbeiter bei der Montage, indem es via Sprachausgabe Arbeitsschritte erklärt. "Möchte ein Mitarbeiter wissen, mit welchem Drehmoment eine Schraube angezogen oder welcher Schraubenzieher benötigt wird, kann er das System fragen", beschreibt der Semvox-Geschäftsführer mögliche Fragen an das Handbuch. Doch nicht nur bei der Produktion soll das System helfen. Es lasse sich außerdem für die Qualitätssicherung einsetzen, wirbt der Hersteller: "Gab es Abweichungen bei Arbeitsschritten, hilft das System bei der Ursachenforschung."
Zwei Arten für die Realisierung
Aus IT-Sicht gibt es grundsätzlich zwei Möglichkeiten, ein System mit Spracherkennung zu realisieren. Im ersten Modell sind die Anwendungen auf einem Endgerät installiert und benötigen keinen Internet-Zugriff. Ein Beispiel ist "Voice Remote Control". Dahinter verbirgt sich eine Fernbedienung, die Semvox in Kooperation mit dem luxemburgischen Unternehmen Homesystem entwickelt hat. Die Fernbedienung lässt sich etwa zur Steuerung eines Lichtsystems oder von kabellos verbundenen Rasensprengern verwenden. Möchte der Anwender das Licht anschalten, muss er der Fernbedienung "Licht an" diktieren.
Homesystem bestand bei der Entwicklung auf zwei Bedingungen: Das System sollte keinen Zugriff auf externe Server haben und auf einem Android-Gerät funktionieren. Der Anwendungsbereich ist in diesem Fall überschaubar: Die Daten werden dediziert auf einem Smartphone verarbeitet und lediglich lokal auf dem Gerät genutzt. Zudem ist in diesem Beispiel der verwendete Wortschatz begrenzt, da die Sprachbedienung nur für bestimmte Bereiche dient, etwa für die Beleuchtung des Hauses oder ein Bewässerungssystem.
Ähnlich wie bei den meisten Navigationssystemen mit Spracherkennung, funktioniert die Verarbeitung grammatikbasiert. Der Nutzer sagt dem System in Wortgruppen, was es tun soll, und dieses reagiert - zum Beispiel "Navigieren nach München, Allianz Arena" oder "System XY, Licht anschalten". Die Verarbeitung des Sprachbefehls ist in diesem Fall relativ zuverlässig und erreicht hohe Trefferquoten von über 90 Prozent. Allerdings versagt die Software, wo eine Unsicherheit beim Anwender auftaucht oder nichtstandardisierte Formulierungen verwendet werden.
Sprache zwischen Mensch und Gerät
Cloud-basierte Systeme
Im Gegensatz dazu funktioniert im zweiten Modell ein Programm wie Siri oder Google Now auf Basis einer Open Domain Platform, die auf einem Server installiert ist. Bei dieser Variante werden die Spracheingaben unabhängig von Formulierungen und dem Sprachkontext verarbeitet. Auf dem Server befindet sich eine Plattform für die Sprachverarbeitung. Spricht zum Beispiel ein Siri-Nutzer einen Satz in sein Smartphone, werden die Wörter in einzelne Textbausteine zerlegt und an die Plattform verschickt.
Die Software scannt die gespeicherte Bibliothek nach Schlüsselwörtern und sendet die wahrscheinlichste Lösung zurück. So gibt der Anwender zum Beispiel einen Sprachbefehl, den das System dann in eine Handlung umsetzt: "Erstelle eine E-Mail an Person XY: Ich komme eine Stunde später." Der ODP-Server erkennt das Wort "E-Mail" und signalisiert dem Smartphone, dass der Nutzer eine Nachricht schreiben möchte. Anschließend öffnet sich das E-Mail-Programm, und der Text kann diktiert werden. Bei dieser Lösung sind zwar unendlich viele Wortkombinationen möglich, die Verarbeitung ist aber weniger zuverlässig als bei einer grammatikbasierten Software. Allerdings kann ein ODP-Server auch viele Benutzer gleichzeitig bedienen, und die Datenbank mit den gespeicherten Wörtern ist erweiterbar.
Als zusätzliche Variante bietet beispielsweise Semvox eine Server-basierte Sprachverarbeitung in einer eigenen Infrastruktur an. Die Server hostet der Kunde. Die Plattform (ODP Server) stammt von Semvox. Die Installation kann mehrere Anwender bedienen und lässt sich laut Firmenchef Pfleger skalieren sowie in eine bestehende Infrastruktur integrieren.