Der Mensch diktiert, der Computer schreibt

Die IBM zeigt mit Speech Server ein verfügbares Spracherkennungssystem

04.12.1992

Spracherkennung bot sich bislang allenfalls zur Steuerung von Geräten und Computern jedoch, das mehr kann, als nur einzelne gesprochene Kommandos zu verarbeiten, glaubt IBM mit dem Spracherkennungssystem "Speech Server" anbieten zu können. Die deutschsprachige Premiere des Diktiercomputers fand jetzt in Zürich statt.

Das Prinzip scheint einfach: Dem Computer wird ein Text in deutscher Sprache diktiert, und dieser setzt ihn in Echtzeit in geschriebenen Text um. Die niedergeschriebene Fassung kann dann in beliebigen Anwendungen weiterverwendet werden. Die Trefferquote sei mit rund 95 Prozent oder nur drei Fehlern pro DIN-A4-Seite recht hoch, hieß es anläßlich der IBM-Präsentation. Um diesen Wert zu erreichen, muß das System allerdings auf den jeweiligen Sprecher eingestellt werden. Das dauert etwa 30 Minuten. Zudem erwartet das System kurze Abstände zwischen den Worten.

Der Direktor des Bereichs Wissenschaft von IBM Deutschland gab sich auf der Pressekonferenz sichtlich zufrieden: Es sei ein "historisches Ereignis", sagte Wolfgang Glatthaar. "Es geht nicht darum, einzelne Wörter zu erkennen, sondern einen umfassenden Sprachschatz zu verstehe." Dafür habe man - was die deutsche Sprache betrifft - fünf Jahre lang in Heidelberg geforscht.

Die eigentliche Basistechnologie stammt allerdings aus dem Labor in Yorktown Heights bei New York. Das "Speech Server Series"-System bekannt auch als "Tangora" arbeitet mit einem festen, Grundwortschatz von 20 000 Wortformen, was im Deutschen ungefähr 8000 Wortstämmen entspricht. 2000 weitere Wörter lassen sich zwar nachträglich hinzufügen, doch auch dies reicht freilich nicht, um an die eine Million Wortformen heranzureichen, die ein Mensch benutzen kann.

"Wir werden nie den gesamten Wortschatz eines Menschen beherrschen", räumte denn auch der für die deutschen Entwicklungsarbeiten zuständige Eric Keppel ein. Die IBM sieht Einsatzmöglichkeiten für das System deshalb vorerst nur in Berufszweigen, in denen viele Texte in einer ganz bestimmten Fachsprache diktiert werden , müssen, auf die sich das System einstellen läßt.

Das Rechts- und Behördenwesen ist einer dieser Berufszweige. Am Zürcher Obergericht, so IBM, habe man bereits seit zwei Jahren ein Projekt mit Tangora realisieren können.

Dort werden Urteile und Vorbereitungsnotizen in den Computer diktiert - mit Erfolg und guter Akzeptanz unter den Benutzern, wie der zuständige Projektleiter Bruno Baeriswyl versicherte. "Es gefiel ihnen vor allem, daß sie beide Hände zum Blättern in den Akten frei hatten."

Gewonnen wurden die charakteristischen Wortschätze für die verschiedenen juristischen Fachbereiche durch eine statistische Analyse von über fünf Millionen Wörtern, die aus früheren Urteilstexten entnommen wurden. Dabei mußten auch Abkürzungen ("StGB") und Sonderzeichen ("Paragraph") berücksichtigt werden.

Eine andere konkrete Anwendung fand der Diktiercomputer im Bereich der Radiologie, wo am laufenden Band Röntgenbilder beurteilt werden müssen. Eine Pilotinstallation konnte im Klinikum Aachen realisiert werden. Zwar dauere das Diktieren mit dem neuen System etwas länger als vorher, räumte Projektleiter Gerald Möse ein. Dafür entfalle jedoch das zeitraubende Abtippen der bislang auf Kassette diktierten Berichte. Bei täglich über 100 Befunden waren damit immerhin dauernd fünf bis sechs Damen beschäftigt.

Zudem sei mit dein neuen System die Qualität der Niederschrift gestiegen, und obendrein könne der Arzt jetzt auch nachträglich Änderungen einfügen.

Der Speech Server arbeitet nach einem statistischen Modell, benutzt also weder künstliche Intelligenz noch linguistische Methoden. Diktiert wird in ein Mikrofon.

Anhand der Sprechlaute - es gibt im phonetischen Alphabet rund 65 davon - sucht sich der Computer aus seiner Datenbank zunächst jene Wörter heraus, die in Frage kommen.

Aufgrund der anderen, bereits gesprochenen Wörter werden davon die für diesen Kontext wahrscheinlichsten Wörter herausgefiltert und nochmals eingehend mit den Lauten des Sprechers verglichen. Damit sei eine Trefferquote von 95 Prozent zu erreichen. Dies steht im Gegensatz zu den 60 bis 70 Prozent jener Produkte, die bloß mit den Lauten des Sprechers arbeiten. Solche Systeme werden heute vorwiegend für einfache Steuerfunktionen etwa bei Werkzeugmaschinen, Telefonzentralen oder Computern eingesetzt.

Probleme hatten die Heidelberger Forscher bei der Umsetzung von Tangora ins Deutsche vor allem bei den vielen Wortkombinationen. Was im Deutschen in einem Wort geschrieben wird, läßt sich im Englischen häufig aus mehreren einzelnen Wörtern zusammensetzen. So habe man herausgefunden, daß es im Deutschen 400 000 Wortformen brauchte, um 98 Prozent der Wirtschaftsberichte in Zeitungen abzudecken. Im Englischen genügen dagegen bereits 20 000. Keine Probleme würden dagegen regionale Akzente bereiten. "Bayern als Sprecher werden genauso gut verstanden wie Norddeutsche", sagte Keppel.

Dabei ist das System, so Keppel, im Prinzip nicht bloß auf Fremdsprachen beschränkt: "Umgangssprache ginge auch. Aber dann brauchte es je nach Situation einen eigenen Wortschatz - etwa einen für den abendlichen Ausgang oder einen für Liebesbriefe."

Flüssig gesprochen werden darf noch nicht. Dann nämlich könnte der Computer die Wörter nicht mehr voneinander trennen. "Das Problem liegt nicht bei den Algorithmen, sondern in der Rechenleistung der Geräte", erklärt Keppel. Bei einem Wortschatz von lediglich 1000 Wortformen sei das flüssige Sprechen nämlich bereits heute möglich. Dasselbe glaubt der IBM-Mann in vier bis fünf Jahren mit 20 000 Wortformen realisiert zu haben.

In Sachen Sprachfluß arbeitet Big Blue übrigens mit der Carnegie Mellon University zusammen an der "Continuous Speech"-Software. Diese soll Software-Entwickler in den Stand versetzen, Spracherkennungs-Algorithmen in bereits existierende oder auch neue Applikationen zu inkorporieren. Continuous Speech akzeptiert angeblich jeden Sprecher sind jede Sprecherin, ist allerdings offensichtlich auf ein reduziertes Vokabular von etwa 1000 Wörtern beschränkt.

Marktpotential von rund 1,5 Milliarden Mark

Daß Spracherkennung nicht bloß aus wissenschaftlicher Neugier, sondern des Geschäftes wegen erforscht wird, machen die Erwartungen deutlich: Laut IBM biete sieh für solche Produkte allein in Europa ein Marktpotential von rund 1,5 Milliarden Mark.

In den USA erhofft man sich ebenso große Absatzchancen, was sich auch mit den Prognosen der Marktforscher deckt. So wird zwar für die nächsten zwei Jahre von einer Ablaufphase gesprochen, danach aber sei durchaus ans große Geschäft gedacht - ein Geschäft, in dem IBM die "Marktführung" behalten wolle, wie es in Zürich hieß. Die Konkurrenz beschränke sich heute meist auf Sprachsteuerungen, biete aber keine Umwandlung von Sprache in geschriebenen Text an.

*David Rosenthal ist frei Journalist in Zürich

Die Voraussetzungen

Ein Spracherkennungs-Arbeitsplatz kostet zusammen mit der benötigten RISC-Workstation rund 30 000 bis 40 000 Mark. Rund 8000 Mark davon werden für die Software (unter AIX) und die benötigten Spracherkennungs- und Audiokarten ausgegeben, der Rest ist für eine RS/6000-Workstation veranschlagt.

Das System kann auch in Netzwerkumgebungen als Client-Server-Lösung eingesetzt werden: Die eigentliche Spracherkennung läuft auf einem RS/6000-Server ab; als Client kommt beim Benutzer entweder ein weiterer RS/6000-Rechner oder ein herkömmlicher PC unter OS/2 in Frage. Das System ist in deutscher, französischer, italienischer und englischer Sprache schrittweise zwischen Dezember 1992 und Mai 1993 verfügbar.