Lupo Pape, Geschäftsführer von SemanticEdge http://www.semanticedge.com, erklärte im Interview mit dem Deutschlandfunk, was moderne Spracherkennung leistet: "Die Akzente werden sehr gut abgefangen. Das Programm kann ungefähr 50.000 bis 100.000 Worte verstehen." Natürlich sei eine eindeutige Formulierung nötig, denn wenn man anstelle von Kontostand sagt 'Was ist drauf?', so stellt das für eine Applikation ein Verständnisproblem dar. Dem erkennenden Programm und der dahinterliegenden Grammatik müsse klar sein, dass die Frage 'Was ist drauf?' ein Synonym für Kontostand ist, erläutert Pape
Nach Erfahrungen von Elmar Nöth vom Lehrstuhl für Mustererkennung der Universität Erlangen-Nürnberg http://www5.informatik.uni-erlangen.de/de habe sich die Sprachdialogtechnik über die pure Spracherkennung hinaus weiter entwickelt und punkte sogar mit Emotionserkennung, die auch viele Unternehmen für den automatisierten Kundenkontakt für sich entdeckt hätten. Dabei gebe es mehrere Stufen. "Von Benutzereingaben per Tastatur über die Erkennung von Ziffern und Einzelwörtern zu der dritten Stufe, dem natürlich-sprachlichen Dialog ohne feste Menüstruktur, wobei das Dialogsystem ganze Sätze versteht. Es geht sogar soweit, dass das Dialogsystem den emotionalen Benutzerzustand erkennt und darauf reagieren kann, um den Dialog natürlicher zu gestalten", so Nöth. Emotionserkennung mache den Dialog mit der Maschine menschlicher, so sein Resümee. Weit fortgeschritten ist beispielsweise der multilinguale Kundenservice von T-Mobile. Er erkennt das Alter, das Geschlecht, die Sprache und die aktuelle Stimmung. Ziel dieses Projektes ist es, den Kunden mittels adaptiver Sprachdialoge individuell anzusprechen und ihn mit kundenspezifischen Angeboten zu begeistern.
"Natürlich-sprachliche Interfaces werden immer intelligenter, nutzerfreundlicher und bald um eine grafisches Ebene ergänzt", meint Pape. Er sieht die Sprachtechnologie nicht nur in Sachen telefonischer Kundenkontakt weiter im Aufwind. Das Stichwort heißt Multimodalität bei der Steuerung von Geräten. "Das heißt, das Voice-Interface wird ergänzt durch ein grafisches Interface. Das Internet und die Sprachschnittstelle wachsen zusammen zu einem multimodalen Dialog." Diese Fähigkeiten werden künftig in mobilen Endgeräten zu finden sein und völlig neue Arten von Mensch-Maschine-Interaktion darstellen. "Man nutzt die Stärken des grafischen Interfaces kombiniert mit den Stärken der Sprache. Wenn ich im Auto unterwegs bin, spreche ich. Wenn ich in der U-Bahn meine Ruhe haben will, dann nutze ich das grafische Interface", so Pape. Am besten sei es jedoch, man benutzt beide Modalitäten gleichzeitig. (pte)