Auch Bill Gates wittert ein großes Geschäft

Spracherkennung für ein Massenpublikum

17.10.1997

Microsoft werde sich künftig voll und ganz auf die Arbeit mit "Natural Interface Technologies" konzentrieren, verblüffte Bill Gates die rund 10000 Besucher der diesjährigen "Itxpo", einer Veranstaltung des Marktforschungsinstituts Gartner Group in Orlando. Mit der Bezeichnung "natürliche Schnittstellen-Technologie" meint der Microsoft-Chef neben neuen Tools für das Scannen der Gesichts- und Fingerabdruck-Konturen vor allem eines - die Spracherkennung.

Nicht weniger als 45 Millionen Dollar steckte Gates zugunsten der neuen Ausrichtung Microsofts in eine Minderheitsbeteiligung bei der belgischen Firma Lernout & Hauspie (L&H) aus Ieper, um flugs darauf seinen Europa-Chef Bernard Vergnes in den Vorstand der Belgier zu hieven. Die Wahl von L&H verwundert nicht: Die Belgier konnten sich in der Vergangenheit mit der Entwicklung des Grammatik-Prüfmoduls für "Wordperfect" einen Namen als Anbieter von Spracherkennungs-Werkzeugen machen und sollen nach den Plänen des Microsoft-Moguls ab sofort die Weiterentwicklung einer Spracherkennungs-Komponente für künftige Windows-Betriebssysteme vorantreiben. Als Antwort auf die Order aus Redmond hat L&H einen Teil des Gatesschen Investments bereits nutzbringend angelegt: Wenige Tage nach Erhalt der Microsoft-Millionen übernahm L&H den spanischen Sprachspezialisten C&L Servicios Liguisticos S.A. für zwei Millionen Dollar sowie die EMTI Ltda., einen portugiesischen Lokalisierungs- und Übersetzungsprofi inklusive Tochter EMTI do Brazil Ltda., Sao Paolo, für 3,9 Millionen Dollar.

Die urplötzliche Aufruhr im jahrelang statischen Markt der Spracherkennungs-Werkzeuge kommt nicht von ungefähr: Erstmals warten die zwei renommiertesten Spracherkennungs-Anbieter für den Massenmarkt, IBM und Dragon Systems, mit Applika- tionen auf, die vom Redner nicht mehr verlangen, Pausen nach jedem gesprochenen Wort einzulegen. Solche Diktatspausen erforderten nämlich die bisher erhältlichen Tools zur Spracherkennung. Vielmehr sollen die neuen Werkzeuge kontinuierlich gesprochene Sätze mitschreiben können - Fähigkeiten, die noch bis im letzten Jahr nach Science Fiction klangen.

"Die kontinuierliche Eingabe von Sätzen macht die Spracherkennung für den Massenmarkt jetzt erst richtig interessant", hegt Anke Conzelmann, zuständig für Marketing und Vertrieb der Münchner Dependance von Dragon Systems, keine Zweifel an einer goldenen Zukunft. Ähnlich wie die IBM mit "Viavoice" bietet auch Dragon seit wenigen Wochen mit "Naturally Speaking" ein Tool inklusive allgemeinsprachlichem Vokabular, das laut Hersteller kontinuierlich gesprochene Sätze vom Mikrofon auf den Monitor überträgt.

Die Erkennungsrate bei Naturally Speaking soll dabei eine Genauigkeit von 95 bis 97 Prozent erreichen. Rund 30000 Wörter umfaßt das Vokabular der bereits erhältlichen englischen Variante von Dragon. Zirka 50000 Wörter soll das für Ende des Jahres geplante deutsche Release verkraften. Big Blues Viavoice wiederum geht mit einem Wortschatz von rund 64000 Wörtern ins Duell. Einigkeit herrscht bei Dragon und IBM über neue Preisstrukturen für einen erfolgreichen Einstieg ins Massengeschäft: Während Pakete in der Vergangenheit nicht selten mehr als 1000 Mark kosteten, wird Dragons Release für rund 400 Mark, IBMs Pendant für knapp 500 Mark an den Sprecher gebracht.

Nach wie vor bleibt jedoch auch für die auf kontinuierlicher Spracheingabe basierenden Pakete eine Anlernphase Voraussetzung: "Wir verlangen ein Training von 20 bis 30 Minuten", erklärt Conzelmann. Der Anwender müsse dem System einen vorgegebenen Text vorlesen, so daß die Dateien an die individuelle Stimmführung angepaßt werden könnten. Der Vorteil dieser Methode liege darin, daß so selbst dialektal ausgesprochene Wörter vom System richtig erkannt werden sollen. Auch Big Blues Viavoice braucht ein mehrminütiges Sprachtraining, um eine Erkennungsgenauigkeit von mindestens 90 Prozent garantieren zu können.

Trotz dieses Wermutstropfens sind die Erfahrungen der Anwender mit den neuen Spracherkennungs-Tools überwiegend positiv: "Ich arbeite regelmäßig damit", schwört Stefan Jülich, Rechtsanwalt aus Böblingen, auf die neuen Fähigkeiten der Dragon-Lösung. "Mir ist keine Sekretärin bekannt, die so schnell schreiben kann wie das System." Enttäuscht zeigt sich Jülich, der sowohl Erfahrung mit IBMs als auch mit Dragons Angebot machen konnte, über die fehlende Unterstützung für kommerzielle Textverarbeitungssysteme. So müsse man zunächst den Text in das mitgelieferte Erfassungsformular eingeben, um anschließend in Word und Co. arbeiten zu können "Schreibfehler gibt es praktisch nicht", so Jülich weiter. "Das einzige, was passieren kann, ist, daß das System ein Wort nicht versteht."

Pragmatisch sieht Jürgen Gabor, Leiter Bürokommunikation bei der Münchner Allianz-Versicherung, die Zukunft mit Spracherkennungspaketen. Zwar sei er von der rasanten Entwicklung der Lösungen beeindruckt, dennoch "rentiert es sich in betriebswirtschaftlicher Hinsicht noch nicht an allen Stellen", konstatiert der IT-Experte, dessen Brötchengeber bereits ältere diskrete Produkte wie "Dragon Dictate Classic 1.4" einsetzt. Seit einem Jahr beschäftigten sich einige Fachabteilungen der Generaldirektion mit Dragon Dictate. Der technologische Fortschritt sei unverkennbar: "Bis dato war an ein fließendes Diktieren und an die Sprecherunabhängigkeit nicht zu denken", so Gabor. Die Allianz wolle sich in naher Zukunft deshalb wieder mit den aktuellen Produkten von Dragon und IBM beschäftigen. Zuvor müsse jedoch noch die technische Aufrüstung der einzelnen Diktierarbeitsplätze individuell vorgenommen werden.

Geschichte

Die ersten bescheidenen Erfolge reichen in die 70er Jahre zurück. Vor rund 20 Jahren begann Big Blue mit der Entwicklung eines sprachgesteuerten Systems, das einer Schreibmaschine ähnelte. Erst in den 80er Jahren stellten sich Erfolge für die Armonker ein. Mit einem Großrechner erzielte die IBM Erkennungsraten von mehr als 90 Prozent bei einem jedoch eher dürftigen Vokabular von 5000 Wörtern. 1986 folgte der erste Echtzeitprototyp mit dem Namen "Tangora". Mit diesem System war es durch spezielle Mikroprozessoren möglich, die gesprochene Sprache auf einem Arbeitsplatzrechner in Echtzeit zu verarbeiten. Seit 1992 ist die Tangora-Technologie in dem Produkt "IBM Speech Server Series" (ISSS) verfügbar. Besonders in medizinischen Institutionen kommt dieses System seitdem zum Einsatz. Ende 1993 wurde mit "IBM Personal Dictation System", das kurze Zeit später in den Viavoice-Vorgänger "Voicetype" umbenannt wurde, ein Produkt für den Massenmarkt angeboten.

Die grössten Probleme

Das größte Problem der Spracherkennung besteht bis heute darin, daß ein und dasselbe Wort nie ein zweites Mal absolut identisch ausgesprochen werden kann. Ferner können Hintergrundgeräusche den Frequenzverlauf eines geprochenen Wortes oft stark verändern. Darüber hinaus ergeben sich Intonationsunterschiede je nach Alter und Geschlecht der Sprecher, aber auch unabhängig davon. Zusätzlich können artikulatorische Eigenheiten bis hin zu Sprachfehlern den Frequenzverlauf der Stimme beeinflussen. Neben der reinen Akustik, also etwa der Betonung und der Stimmlage, kann ein Mensch auch aus der Gestik und Mimik seines Gesprächspartners Informationen ziehen, zum Beispiel über seine Gemütslage. Diese Kanäle bleiben einer Maschine unzugänglich.