Von Spracherkennung in Echtzeit noch keine Spur:

"Whaddayuwant" überfordert Computergehör

19.06.1981

MÜNCHEN - Einen Computer zum Sprechen zu bringen, ist nicht das Problem. Entweder über synthetisch erzeugte Sprache oder über Tonkonserven, besprochen von Menschen aus Fleisch und Blut und von der Maschine kombiniert, läßt sich Gespeichertes hörbar machen. Mit der Spracherkennung tun sich die Elektronengehirne allerdings noch schwer.

Um die Computer-Sprachausgabe als Konkurrenz beispielsweise zur Bildschirm-Darstellung einzusetzen, ist die Menge der Daten und damit die Wirtschaftlichkeit entscheidend. Bei einer täglichen Abfrage des aktuellen Lagerbestands von 20 Teilen etwa lohnt sich eine DFÜ-Organisation mit Bildschirm kaum.

Für diesen Fall zapft Racal-Milgo mit einem Tast-Ton-Terminal ("Touch-Tone") und einem normalen Telefonapparat den Zentralrechner an. Durch Eingabe einer Teilnehmernummer sowie der gewünschten Artikelnummern gibt der Rechner die benötigten Informationen aus.

Um dem Rechner für das menschliche Gehör verständliche Laute zu entlocken, legt der potentielle Sprachausgabe-Anwender zunächst fest, welche Sätze und Zahlen er gesprochen haben möchte. Ein trainierter Sprecher (oder Sprecherin) spricht in einem Tonstudio unter Berücksichtigung eines möglicherweise gewünschten Landesdialekts die Wörter auf Band. Die Sprachinformation des Bandes wird digitalisiert und in PROMs gespeichert (pro Wort 2 KB).

Bei der Wiedergabe ruft der Computer die zu sprechenden Wörter auf und wandelt die digitalen in analoge Signale und damit wieder in die ursprüngliche Sprache um. Bis zu 32 Telefonanschlüsse kann Racel-Milgo damit nach eigenen Angaben simultan bedienen.

Ähnlich geht´s bei Philips zu. Ebenfalls mit einem hier "Touch-Tone-Tastatur" genannten Eingabeterminal, einem Telefon sowie der Arema-Software (Audio-Response-Master) ermittelt ein Mineralölkonzern in Norddeutschland Dispositionsdaten. Mit Hilfe der Sprache als Ausgabemedium sind die dezentralen Verkaufsstellen des Ölmultis nach Philips-Angaben in der Lage, ihre Umsatzwerte täglich über das Telefon in den Zentralcomputer einzugeben.

Höchstens 480 Phrasen

Neben der Datenerfassung steht hinter der Sprachausgabe ein Identifikationsprogramm, das das System gegen nichtautorisierte Benutzer schützt, sowie ein kurzfristige Disposition, die die Eingabe fehlerhafter Umsatzwerte verhindern soll. Bei der Sprachausgabe nach Philips-Art verwaltet Arema maximal 99 Telefonanschlüsse. Der benötigte Sprachschatz wird aus mindestens 32 und höchstens 480 einzelnen Wortphrasen zusammengesetzt.

Mehr Unabhängigkeit soll blinden Schreibkräften IBMs jetzt ein Jahr alte Audio-Einheit bringen. Diese Maschine wandelt Schreibmaschinenanschläge, Funktionen und Maschineneinstellungen in synthetische Sprache um. Anders als bei Braille-Hilfen, bei denen der Blinde auf das Fühlen angewiesen ist, kann er sich so auf das Hören konzentrieren. Die synthetische IBM-Sprache entsteht, wenn Phoneme (die kleinsten Sprachlaute) unter Beachtung diverser Ausspracheregeln miteinander verbunden werden. Diese Art der Spracherzeugung ermöglicht IBM zufolge einen unbegrenzten Wortschatz.

Zwei Erkennungsklassen

Den Markt für Spracherkennungssysteme fassen die Analysten der US-Gesellschaft SRI International, Menlo Park/Kalifornien, so in Zahlen: Verkäufe 1978: 1,5 bis 3 Millionen Dollar; 1983: 151 bis 192 Millionen Dollar und 1988: knapp 1,5 Milliarden Dollar. Heute, haben die US-Beobachter entdeckt, bauen und verkaufen rund sechs Unternehmen Systeme für die Spracherkennung in zwei unterschiedlichen Klassen:

* Maschinen, die fließende Sprache erkennen sollen und

* Anlagen, die nur einen begrenzten Wortschatz begreifen.

Bei kontinuierlicher Sprache müssen die Systeme in der Lage sein, rund 200 Worte in der Minute sicher zu erkennen. Soweit es solche Anlagen gibt, sind sie sehr teuer. Einfacher lassen sich einzelne Worte oder kurze Phrasen aus einem beschränkten Sprachschatz analysieren. Derartige Rechner kann man sich schon mal erlauben.

Rechner hat´s schwer

Weder ein Problem der Verarbeitungsleistung noch der Speicherkapazität verhindern das Verständnis einer Rechenmaschine für fließende Rede. Immer höher integrierte und schnellere Halbleiterbausteine machen es in der Zukunft durchaus möglich. Schier unmöglich ist es jedoch, einer Maschine beizubringen, verschieden ausgesprochene Worte von unterschiedlichen Sprechern in allen möglichen Zusammenhängen zu verstehen. Das soll obendrein mit einer Genauigkeit von mehr als 90 Prozent geschehen. So muß ein Rechner beispielsweise zwischen "die Wahl" und "der Wal" unterscheiden lernen. Im Genitiv wird die Abstimmung zu "der Wahl" und damit zum Nominativ des Riesensäugetieres. Der (Sinn-)Unterschied ist nur noch aus dem Zusammenhang zu entnehmen. Für den Assoziativspeicher "Gehirn" des Menschen stellt das kein Problem dar. Der Rechner hat´s da schwerer, zumal er auch über die Rechtschreibung keine Hilfe bekommt.

Noch schlimmer geht es der Rechenanlage, wenn Worte zusammengezogen werden und aus einem Satz plötzlich ein Superwort entsteht: aus "Whaddayuhwant?" soll immerhin das astreine "What do you want?" herausgefiltert werden. Jeder Auslandsreisende kennt Situationen, in denen er ebenfalls vor solchen Problemen stand, die durch eine Nachfrage bei dem Sprecher (im Zweifelsfall möchte man ja eine Auskunft) meistens gelöst werden können.

Obgleich also die Entwickler bei IBM oder den Bell Labs sehr intensiv an der Lösung dieses Problems "connected speech" arbeiten, glauben Experten, daß vor der kommerziellen Verwertbarkeit derartiger Systeme noch allerhand Hindernisse auszuräumen sind.

Komplexe Bedingungen

IBM meldet da bereits erste Erfolge. Wissenschaftler des Unternehmens brachten ihren Rechner, eine 370/168, dazu, Sätze zu erkennen und auszudrucken. Diese Sätze bildeten die Tüftler des Thomas Watson Research Centers in Yorktown Heights aus einem 1000 Worte umfassenden Vokabular. Mit normaler Sprechgeschwindigkeit vorgelesen, erkannte der Rechner immerhin 91 Prozent. "Dies" so Forschungsgruppen-Leiter Frederick Jelinek, "ist die bisher höchste Genauigkeit, die unter komplexen Versuchsbedingungen bekannt geworden ist."

Fortschrittliches Diktiergerät

Die Bedingungen sind nicht nur komplex, sondern echte Laborbedingungen. Die Versuche finden nämlich im schalltoten Raum statt, um den Rechner nicht durch Nebengeräusche zu irritieren. Piccadilly Circus würde die 168 mit Sicherheit ziemlich nervös machen. Außerdem verwenden die Forscher High-Fidelity-Geräte. Ein normales Telefon ist (noch) undenkbar.

Und schließlich steht die Phase der Sprachanalyse einer "Real-Condition"-Nutzung entgegen. Sie kann nämlich, gibt IBM zu, "ziemlich lang" dauern. Rund 100 Minuten vergehen noch, bis eine 30 Sekunden lange Eingabe ausgedruckt, sprich erkannt, wurde. Die Verarbeitung in Echtzeit hoffen die IBMer noch in den 80ern zu erreichen.

Die ideale Spracherkennungsmaschine hat Jelinek bereits im Kopf. Beim Sprechen einer Person in ein Mikrofon soll die Sprache sofort umgesetzt werden, wobei eine Einrichtung zur Sprachbereinigung sofort Fehler berichtigt und eine laufende Überarbeitung vornimmt.