IBM-System "Tangora" wird in Italien bereits eingesetzt

Spracherkennung zeigt dem Computer seine Grenzen auf

28.02.1992

*Felix Weber lebt als freier Autor in Zürich.

So leistungsfähig Computer auch sind, etwas können sie nicht: sich mit dem Menschen "unterhalten". Dazu fehlt ihnen das nötige Sprachverständnis. Immerhin gibt es mittlerweile Maschinen, die gesprochene Sprache rechtzügig in geschriebenen Text umsetzen können. IBM-Forscher haben kürzlich ein solches System vorgestellt.

Könnte, würde, wäre: Forscher, die sich bemühen, dem Computer unsere Umgangssprache beizubringen, reden viel im Konjunktiv. Kein Wunder: Sie haben sich eines der schwierigsten Gebiete überhaupt ausgesucht. Aber auch eines der zukunftsträchtigsten, denn Sprache ist das wichtigste menschliche Kommunikationsmittel: Könnten Computer natürlich gesprochene Sprache verstehen, würde dies den Dialog zwischen Mensch und Maschine sehr erleichtern und zudem dem Computer ganz neue Einsatzgebiete erschließen.

Sprache verstehen, also Gesprochenes erkennen und in einen sinnvollen Zusammenhang einordnen, ist ein sehr anspruchsvolles Unterfangen. Der einfachere Teil davon ist das Entschlüsseln der akustischen Signale; wirklich schwierig wird es erst bei der Interpretation. Ob Computer diesen zweiten Teil je schaffen werden, ist zweifelhaft. Aber auch hier wird eifrig geforscht: bei IBM zum Beispiel im Rahmen des Lilog-Projekts.

"Tangora" erkennt bis zu 20 000 Begriffe

Doch bleiben wir bei der automatischen Spracherkennung. Langsam beginnen hier die jahrelangen Bemühungen der Wissenschaft Früchte zu tragen: Die neusten Systeme erkennen bereits Tausende von Wörtern, wenn man sie ihnen nur einzeln und deutlich genug ins Mikrophon spricht. Wohl am weitesten fortgeschritten ist "Tangora" aus dem IBM-Forschungslabor in Yorktown Heights. Das nach dem Weltrekordhalter im Schreibmaschinenschreiben, Alberto Tangora, benannte System hat je nach Sprachversion (Prototypen gibt es für Englisch, Italienisch, Französisch, Deutsch und Spanisch) ein Vokabular von bis zu 20 000 Wörtern, die es in Echtzeit und mit hoher Trefferquote erkennen kann.

So einfach ist die maschinelle Spracherkennung indes nicht, daß es in Kürze zum Beispiel ein vollautomatisches Diktiergerät geben könnte. Während Menschen gesprochene Wörter häufig aus dem Zusammenhang erkennen, müssen die meisten bisherigen Spracherkennungs-Systeme vorwiegend mit der Akustik allein auskommen - eine Aufgabe, die nur bei deutlichen Sprachsignalen lösbar ist. Sobald der Störpegel zu groß wird

oder wenn zwischen aufeinanderfolgenden Wörtern die Wortgrenzen verwischt sind, gerät ein automatisches System in größte Schwierigkeiten.

Entsprechend bescheiden sind denn auch die bisherigen Erfolge bei der Erkennung fließend gesprochener Texte: Selbst die besten Systeme können nicht mehr als 1000 Wörter auseinanderhalten. Das ist für Anwendungen in der Praxis noch viel zu wenig. Bei Tangora umgeht man diese Schwierigkeit, indem man vom Sprecher verlangt, das er zwischen den Wörtern kleine Pausen einlegt. Dank dieser Hilfe vergrößert sich das Vokabular des Systems auf 20 000 Wörter. Tangora läuft auf IBM-Arbeitsplatzrechnern PS/2 oder RS/6000 unter AIX oder OS/2. Das System benötigt 16 MB Arbeitsspeicher und eine Harddisk von 620 MB.

Um die Spracherkennung in Echtzeit zu ermöglichen, sind zwei Elektronikkarten mit schnellen Signalprozessoren nötig. Die akustische Signalverarbeitung geschieht mit einem 12-Bit-/A/D-Wandler, einer Digitalisierungsrate von 20 Kilohertz und einem Frequenzband von 200 - 8000 Hertz.

Weil jeder Mensch anders artikuliert, muß man Tangora in einem Training an einen bestimmten Sprecher gewöhnen. Der Sinn des Sprachtrainings ist es, dem Computer Muster einzuspeisen, mit denen er die zu erkennenden Wörter vergleichen kann. Tangora erfordert ein rund 15minütiges Training, bei dem der neue Benutzer rund 100 vorgegebene Sätze ins Mikrophon spricht. Anschließend erkennt das System auch andere Sätze wie "Heute ist schönes Frühlingswetter" auf Anhieb richtig. Ist der Sprecher erkältet oder unter emotionalem Streß, stimmen die Muster nicht mehr genau, und es schleichen sich erste Fehler ein. Spricht gar jemand anderes ins Mikrophon, so gerät Tangora völlig aus dem Konzept: Statt "Heute ist schönes Frühlingswetter" steht dann ganz wirrer Text auf dem Bildschirm, zum Beispiel "Von der nicht schuldig fühlen schlägt".

"Ja" ist nicht gleich "Jahr"

Doch selbst ein gut trainiertes und mit deutlich artikulierten Einzelwörtern gefüttertes System kann leicht ins Schleudern kommen: Nämlich bei der Umsetzung von Wörtern, die zwar gleich tönen, aber eine Unterschiedliche Bedeutung haben. Die hochdeutsch gesprochenen Wörter "Jahr" und "Ja", zum Beispiel lassen sich akustisch kaum auseinanderhalten. Raffinierte Spracherkennungs-Systeme wie Tangora versuchen daher, die akustische Erkennung durch statistische Informationen über die Häufigkeit tatsächlicher Wortfolgen zu ergänzen. Das System ist umso zuverlässiger, je mehr solcher Wortfolgen es kennt.

Die deutsche Version von Tangora hat zu diesem Zweck Wortstatistiken aus einem Textkorpus von über 50 Millionen Wörtern gespeichert. Die Vorlagen wurden den IBM-Forschern von verschiedenen Verlagen und Institutionen in maschinenlesbarer Form zur Verfügung gestellt. Trotzdem ist das System nicht immer in der Lage, Zweideutigkeiten aufzulösen. Spricht man beispielsweise den Satz "Gestern fiel viel Schnee" ins Mikrophon, so schreibt Tangora "Gestern fiel fiel Schnee" auf den Bildschirm.

Korrekturen sind allerdings einfach: Der Benutzer braucht nur auf ein Wort zu klicken, und das Programm präsentiert ihm alle Möglichkeiten, die es für wahrscheinlich hält - in diesem Falle neben "fiel", "füll" und "fühl" auch das korrekte Wort "viel".

Hinter dem Tangora-Projekt steckt ein riesiger Entwicklungsaufwand. Allein in die deutsche Version wurden bisher über 20 Mannjahre investiert - und die Forscher sind noch immer nicht zufrieden. Vor allem möchten sie das, verglichen mit andern Sprachversionen, bescheidene Vokabular von 12 000 Wörtern erweitern, denn Flexionsformen wie "Haus" und "Häuser" zählen als separate Wörter.

"Eigentlich bräuchten wir 400 000 Wörter", erklärt Eric Keppel, der im Wissenschaftlichen Zentrum Heidelberg an Tangora arbeitet. "Aber leider ist die Arbeit sehr aufwendig. Manuell könnten wir pro Monat höchstens 1000 neue Wörter phonetisieren. Wir sind deshalb dabei, diesen Prozeß zu automatisieren." Auch eine schweizerische Version von Tangora wäre übrigens ohne weiteres machbar. Dazu müßte man das deutsche Vokabular um etwa 4000 Wörter wie "Merci", "Perron", "Trottoir" etc. ergänzen.

Am weitesten ist man bisher mit der italienischen Version gekommen. Sie funktioniert nicht nur in der wohlbehüteten Laborumgebung, sondern bewährt sich auch in der Praxis, wie verschiedene Versuche gezeigt haben. So verwenden zum Beispiel Röntgenärzte in mehreren italienischen Spitälern das System seit über einem Jahr, um radiologische Rapporte direkt in den Computer zu diktieren. Damit ersparen sie ihren Sekretärinnen das mühselige Übertragen der mit Fachausdrücken gespickten Rapporte vom Tonband auf Papier.

Rasante Entwicklung nach mühsamem Start

Die ersten Anstrengungen, dem Computer das Hören beizubringen, gehen auf die sechziger Jahre zurück. So sehr sich die Forscher auch abmühten - die Ergebnisse waren alles andere als ermutigend. Vor wenigen Jahren noch glaubten erst wenige Techno-Freaks und Optimisten, daß die maschinelle Spracherkennung in nützlicher Frist zu einer praxistauglichen Anwendung reifen würde. Zwar präsentierten IBM-Forscher 1984 ein System, das 5000 Einzelwörter erkennen konnte. Aber sie brauchten dafür einen Großrechner, und der benötigte für die Umwandlung gesprochener in geschriebene Texte eine Rechenzeit von mehreren Minuten.

1986 wurde in Yorktown Heights dann ein erster Tangora-Prototyp vorgestellt, der auf einem PC/AT-Rechner 5000 Wörter erkennen konnte - in Echtzeit. Ein Jahr darauf hatte Tangora bereits ein Vokabular von 20 000 Wörtern. Der Durchbruch kam 1990 mit einer erweiterten Version, die in verschiedenen Sprachen je rund 20 000 Wörter erkennen kann, und zwar mit einer Erkennungsquote von über 95 Prozent. Trotzdem ist Tangora noch kein IBM-Produkt, sondern ein Prototyp, der laufend verbessert wird.