Telefondialogsysteme, Voice Search

Speech-Experten im Kommen

25.10.2011
Von 
Hans Königes war bis Dezember 2023 Ressortleiter Jobs & Karriere und damit zuständig für alle Themen rund um Arbeitsmarkt, Jobs, Berufe, Gehälter, Personalmanagement, Recruiting sowie Social Media im Berufsleben.
Immer mehr Firmen brauchen Spezialisten für die Entwicklung von Sprachapplikationen, etwa für das iPhone und für Web-Dienste.
Marc Schröder, Senior Researcher am DFKI: "In Zukunft werden viele Firmen Speech-Interfaces für ihre Web-Dienste anbieten."
Marc Schröder, Senior Researcher am DFKI: "In Zukunft werden viele Firmen Speech-Interfaces für ihre Web-Dienste anbieten."
Foto: DFKI

Wer die Wahl hat, entscheidet sich für eine Frauenstimme. Zu diesem Ergebnis kam der Branchenverband Bitkom in einer Umfrage zum Nutzerverhalten bei Navigationssystemen. Die meisten Navis lassen nicht nur zwischen Frau und Mann die Wahl, auch Dialekt ist möglich oder die Stimme eines Prominenten. Es gibt zwei gängige Varianten, um die Sprache zu erzeugen: "Entweder die Ansagen werden aufgenommen und dann als Audio-Schnipsel aus den Konserven für die Sprachausgabe zusammengesetzt. Oder sie sind synthetisiert, das heißt, aus sehr kleinen Schnipseln zusammengesetzt", schildert Marc Schröder, Senior Researcher am Deutschen Forschungszentrum für Künstliche Intelligenz in Saarbrücken und dort Projektleiter im Bereich Sprachsynthese und emotionale interaktive Systeme. Andere Einsatzmöglichkeiten automatischer Ansagen kennen wir aus Zügen oder von Flughäfen.

PC statt Call-Center-Mitarbeiter

Experten nennen es Sprachsynthese, wenn der Computer spricht. Telefondialogsysteme sind eine weitere etablierte Anwendung dafür. Sie sind der Versuch, über das Telefon Sprache zu erkennen, was häufig anhand von Schlüsselwörtern geschieht. "Die Benutzer mögen diese unnatürliche Interaktion nicht besonders, doch die Firmen sparen dadurch Geld, weil Call-Center-Mitarbeiter durch den Computer ersetzt werden können", so Schröder. Der dritte Einsatzbereich von Sprachsystemen ist ziemlich neu und nach Meinung des Wissenschaftlers besonders interessant: die Internet-basierende, Browser-unabhängige Sprachein- und -ausgabe. Wenn der Computer aus der Spracheingabe einen Text erzeugt - sei das verbal oder in Schriftform -, ist das Spracherkennung. Google ist mit Voice-Search dort vorgeprescht: In Handys mit dem Google-Betriebssystem Android können Suchanfragen diktiert werden, anstatt sie mühevoll im Miniformat auf dem Touchscreen der Smartphones einzugeben. Weil die Erkennung nicht auf dem Handy, sondern in der Cloud stattfindet, ist die Anwendung sehr mächtig.