Trendthema Sprachsteuerung

Warum Siri und Co. die Zukunft gehört

28.05.2013
Von Tobias Wendehost

Dritter Weg: Hybride Technik

„Hybride Systeme für Sprachverarbeitung sind im Kommen“, so Norbert Pfleger, Geschäftsführer bei Semvox.
„Hybride Systeme für Sprachverarbeitung sind im Kommen“, so Norbert Pfleger, Geschäftsführer bei Semvox.
Foto: Semvox

Bei der Entwicklung neuer Programme setzen einige Anbieter auf die Kombination beider Lösungen: hybride Spracherkennung. "Wir sehen einen Hybrid-Ansatz derzeit als Idealweg", erläutert Pfleger. "Bei diesem Ansatz arbeitet die Software auf einem lokalen, grammatikbasierten System. Gleichzeitig läuft ein Open-Domain-Erkenner im Hintergrund."

Die Verknüpfung der Technologie wird da interessant, wo Anwender in einem individuellen Kontext handeln. Ein Beispiel sind Navigationssysteme in Autos. Befindet sich der Fahrer gerade in einer fremden Umgebung und sucht zu einer bestimmten Tageszeit ein Restaurant, dann sollte das System diesen Kontext berücksichtigen. Ist er um 9 Uhr morgens unterwegs und will etwas essen, dann fahndet die Software im Idealfall nach einem Lokal mit Frühstück.

Beim sogenannten situativen Kontext werden Faktoren wie Ort, Uhrzeit, aber auch Wetterdaten berücksichtigt. Daneben spielen Interaktionshistorie und Diskurskontext eine Rolle. Unterhält sich der Fahrer mit dem Beifahrer über einen Ort oder ein Ereignis, dann sollte das System die im Gespräch behandelten Objekte tracken und später abrufen. Schließlich ist auch der Applikationskontext von Bedeutung. So erkennt eine Anwendung wie Voice Remote Control, dass ein Gerät bereits eingeschaltet ist. Sagt der Anwender: "Schalte das Licht an", antwortet das System: "Das Licht ist angeschaltet."

Anwender Stephen Hawkin

Hybride Modelle sind eine Möglichkeit, um komplexe Interaktionen zu verarbeiten. Standardbefehle für die Navigation sind in der Bibliothek des Navigationsgeräts oder Smartphones gespeichert. Die Verarbeitung funktioniert schneller, und der Nutzer erhält ein zuverlässiges Ergebnis. Gleichzeitig benötigt das System für den Kontext, also etwa bei der Restaurantsuche für das Abendessen, Daten vom Server.

Im Gesundheitswesen hat sich Sprachsteuerung zu einem wertvollen Werkzeug entwickelt. Ein prominentes Beispiel ist "Dectalk", eine in den 1980er Jahren entwickelte Text-to-Speech-Anwendung, die unter anderem der Physik-Nobelpreisträger Stephen Hawking nutzt. In Folge einer Luftröhrenoperation konnte der britische Physiker nicht mehr sprechen. Ein speziell entwickelter Sprachcomputer ermöglicht ihm, durch Augenbewegungen Begriffe auf einem Bildschirm auszuwählen, die dann vom integrierten Sprachgenerator wiedergegeben werden.

Spracherkennung in der Medizin

Neben diesem individuellen Einsatzszenario, werden im Gesundheitswesen auch allgemeinere sprachbasierte Lösungen erforscht. Die Entwicklung befindet sich aber noch am Anfang. Beispielsweise erprobt Semvox in Kooperation mit dem Universitätsklinikum Schleswig-Holstein die Sprachsteuerung im Operationssaal. "Ärzte sollen einen Zugriff auf digitale Bilddatenbanken bekommen, ohne die Hände benutzen zu müssen", erklärt Pfleger.

Da das gesamte Umfeld in diesen Räumen steril sein muss, benötigt man einen "Springer", wenn das Ärzteteam Informationen von der PC-Workstation im OP braucht. Bei der Erprobung geht es derzeit um die Sprachsteuerung von KI-(Krankenhausinformations-) und PAC-(Picture-Archiving-and-Communication-) Systemen. Benötigt ein Krankenhausangesteller die Daten eines Patienten, muss er bisher am Rechner des Krankenhauses nach den Informationen suchen. Allerdings gibt es nicht nur im Operationssaal Situationen, in denen das Personal mit beiden Händen beschäftigt ist. Eine Alternative wäre dann die sprachliche Interaktion mit dem KI-System.

Kooperation mit Nuance

Die Projekte befinden sich noch in der Testphase. Da sie unter das Medizinproduktegesetz fallen, ist die Zulassung langwierig und kompliziert. "Erste Untersuchungen mit Ärzten zeigen aber, dass sich die Lösungen produktiv einsetzen lassen", so Semvox-Geschäftsführer Pfleger. Neben speziellen Lösungen für den Operationssaal existieren Komplettlösungen, die Pflege- und Medizinfunktionen sowie Kommunikations- und Unterhaltungsgeräte mit einer einheitlichen Infrastruktur bieten.

Gleichzeitig gibt es ausgereifte Anwendungen, die sich in erster Linie auf das Diktieren von Patientendaten konzentrieren. Seit April kooperiert etwa der Softwareanbieter IFMS (Institut für medizinische Software) mit Nuance. IFMS hat sich mit der Anwendung "Pathopro" auf die medizinische Pathologie spezialisiert. Nun hat das Saarbrücker Unternehmen das Programm "360 SpeechMagic SDK" von Nuance in seine Software integriert, so dass Pathologen ihre Berichte direkt im Programm diktieren können. Nuance arbeitet darüber hinaus mit dem Hersteller Xonion zusammen, der "patients2go", eine App für Apple-Devices, anbietet. Auch hier geht es um die Erfassung von Patientenakten mit Hilfe von Sprache.