Wer die Wahl hat, entscheidet sich für eine Frauenstimme. Zu diesem Ergebnis kam der Branchenverband Bitkom in einer Umfrage zum Nutzerverhalten bei Navigationssystemen. Die meisten Navis lassen nicht nur zwischen Frau und Mann die Wahl, auch Dialekt ist möglich oder die Stimme eines Prominenten. Es gibt zwei gängige Varianten, um die Sprache zu erzeugen: "Entweder die Ansagen werden aufgenommen und dann als Audio-Schnipsel aus den Konserven für die Sprachausgabe zusammengesetzt. Oder sie sind synthetisiert, das heißt, aus sehr kleinen Schnipseln zusammengesetzt", schildert Marc Schröder, Senior Researcher am Deutschen Forschungszentrum für Künstliche Intelligenz in Saarbrücken und dort Projektleiter im Bereich Sprachsynthese und emotionale interaktive Systeme. Andere Einsatzmöglichkeiten automatischer Ansagen kennen wir aus Zügen oder von Flughäfen.
PC statt Call-Center-Mitarbeiter
Experten nennen es Sprachsynthese, wenn der Computer spricht. Telefondialogsysteme sind eine weitere etablierte Anwendung dafür. Sie sind der Versuch, über das Telefon Sprache zu erkennen, was häufig anhand von Schlüsselwörtern geschieht. "Die Benutzer mögen diese unnatürliche Interaktion nicht besonders, doch die Firmen sparen dadurch Geld, weil Call-Center-Mitarbeiter durch den Computer ersetzt werden können", so Schröder. Der dritte Einsatzbereich von Sprachsystemen ist ziemlich neu und nach Meinung des Wissenschaftlers besonders interessant: die Internet-basierende, Browser-unabhängige Sprachein- und -ausgabe. Wenn der Computer aus der Spracheingabe einen Text erzeugt - sei das verbal oder in Schriftform -, ist das Spracherkennung. Google ist mit Voice-Search dort vorgeprescht: In Handys mit dem Google-Betriebssystem Android können Suchanfragen diktiert werden, anstatt sie mühevoll im Miniformat auf dem Touchscreen der Smartphones einzugeben. Weil die Erkennung nicht auf dem Handy, sondern in der Cloud stattfindet, ist die Anwendung sehr mächtig.