Telefondialogsysteme, Voice Search

Speech-Experten im Kommen

25.10.2011 von Hans Königes

Immer mehr Firmen brauchen Spezialisten für die Entwicklung von Sprachapplikationen, etwa für das iPhone und für Web-Dienste.

Marc Schröder, Senior Researcher am DFKI: "In Zukunft werden viele Firmen Speech-Interfaces für ihre Web-Dienste anbieten."
Foto: DFKI

Wer die Wahl hat, entscheidet sich für eine Frauenstimme. Zu diesem Ergebnis kam der Branchenverband Bitkom in einer Umfrage zum Nutzerverhalten bei Navigationssystemen. Die meisten Navis lassen nicht nur zwischen Frau und Mann die Wahl, auch Dialekt ist möglich oder die Stimme eines Prominenten. Es gibt zwei gängige Varianten, um die Sprache zu erzeugen: "Entweder die Ansagen werden aufgenommen und dann als Audio-Schnipsel aus den Konserven für die Sprachausgabe zusammengesetzt. Oder sie sind synthetisiert, das heißt, aus sehr kleinen Schnipseln zusammengesetzt", schildert Marc Schröder, Senior Researcher am Deutschen Forschungszentrum für Künstliche Intelligenz in Saarbrücken und dort Projektleiter im Bereich Sprachsynthese und emotionale interaktive Systeme. Andere Einsatzmöglichkeiten automatischer Ansagen kennen wir aus Zügen oder von Flughäfen.

PC statt Call-Center-Mitarbeiter

Experten nennen es Sprachsynthese, wenn der Computer spricht. Telefondialogsysteme sind eine weitere etablierte Anwendung dafür. Sie sind der Versuch, über das Telefon Sprache zu erkennen, was häufig anhand von Schlüsselwörtern geschieht. "Die Benutzer mögen diese unnatürliche Interaktion nicht besonders, doch die Firmen sparen dadurch Geld, weil Call-Center-Mitarbeiter durch den Computer ersetzt werden können", so Schröder. Der dritte Einsatzbereich von Sprachsystemen ist ziemlich neu und nach Meinung des Wissenschaftlers besonders interessant: die Internet-basierende, Browser-unabhängige Sprachein- und -ausgabe. Wenn der Computer aus der Spracheingabe einen Text erzeugt - sei das verbal oder in Schriftform -, ist das Spracherkennung. Google ist mit Voice-Search dort vorgeprescht: In Handys mit dem Google-Betriebssystem Android können Suchanfragen diktiert werden, anstatt sie mühevoll im Miniformat auf dem Touchscreen der Smartphones einzugeben. Weil die Erkennung nicht auf dem Handy, sondern in der Cloud stattfindet, ist die Anwendung sehr mächtig.

Noch keine Ausbildung möglich

Schröder ist ein Speech-Scientist, ein Sprachtechnologe. Eine förmliche Ausbildung oder ein Studium dafür existiert nicht. Um Sprachtechnologien für Computer zu entwickeln, gibt es zwei Möglichkeiten: entweder einem Phonetiker wird Informatik beigebracht, oder der Computerspezialist lernt, wie menschliche Sprache funktioniert. Das hat mit Akustik, Stimmgebung und Zungenposition beim Sprechen zu tun. Phonetik eben. "Es ist ein schwieriges Überlappungsfeld an Kompetenzen. Daher gibt es kaum Leute, die beides können."

Doch Sprachapplikationen werden zunehmen, prognostiziert Schröder, das sei vor allem in der mobilen Internet-Welt und damit in dem von ihm genannten dritten Einsatzbereich der Fall, etwa in Smartphones. "Ich meine, dass ganz viele Firmen in Zukunft Speech-Interfaces für ihre Web-Dienste anbieten werden, und dafür werden Fachleute gebraucht." Daher sei es wichtig, dass Interessenten Technologien und Sprachwissen zusammen in ein und demselben Studium erwerben könnten.

Joachim Stegmann, Leiter Future-Communications, Telekom Laboratories: "Wir entwickeln keine Spracherkennungssoftware, sondern nur Apps."
Foto: Telekom

Joachim Stegmann leitet die Abteilung Future-Communications bei den Telekom-Laboratories (T-Labs) in Berlin. Die T-Labs gehören zur Deutschen Telekom und betreiben Forschung und Innovationsentwicklung auf allen für das Unternehmen relevanten Gebieten: "Wir entwickeln keine Spracherkennungssoftware. Wir nehmen sie von spezialisierten Technologiepartnern in Lizenz und entwickeln darauf basierend Applikationen". Stegmann hat etwa 20 Mitarbeiter, die sich um Sprachdienste kümmern. Darunter befinden sich Informatiker, Linguisten, Phonetiker, Psychologen und Ingenieure. "Die Zusammensetzung der Gruppe ist, wie die Aufgabe selbst, eine interdisziplinäre", betont Stegmann. Und ob Informatikstudenten im Studium etwas über Sprachtechnologien lernen, hänge von der Hochschule ab. Weil zum Beispiel an der RWTH Aachen, der Universität Karlsruhe, der TU Berlin und an der Universität Saarbrücken absolute Experten auf diesem Gebiet lehrten, werde dort das Thema im Studium vermittelt.

Neben Kenntnissen der Web-Programmierung brauchen Sprachtechnologen ähnliche Fähigkeiten und Kenntnisse wie Softwareentwickler. Dazu gehören Methodenwissen, Projekt-Management- und Softwarekenntnisse in den Smartphone-Sprachen Android und iOS. "Und weil diese Themen schnell voranschreiten, muss man durch ständiges Lernen am Ball bleiben, besser noch eine Nasenspitze voraus sein."

Auch Stegmann ist überzeugt, dass in Zukunft mehr Sprachspezialisten in der Informatik unterkommen, weil Sprache in Interfaces integriert wird.

Master-Studiengänge

• Informationswissenschaft und Sprachtechnologie (Master of Arts) an der Heinrich-Heine-Universität Düsseldorf;

• Sprachtechnologie und Fremdsprachendidaktik (Master of Arts) an der Justus-Liebig-Universität Gießen;

• Terminologie und Sprachtechnologie (Master of Arts) an der Fachhochschule Köln.

Quelle Teaserfoto Homepage: Gunnar 3000 / Fotolia.com