Der PC als Diktiergerät

Spracherkennung ist meist auf Spezialanwendungen beschränkt

06.06.1997

Der Markt für Spracherkennung floriert: IBM beispielsweise meldet für die "Voicetype"-Reihe über 30000 verkaufte Lizenzen in den ersten vier Monaten dieses Jahres. Nach einer Studie der internationalen Unternehmensberatung Frost & Sullivan soll sich der europäische Markt für sprachverarbeitende Systeme in den nächsten Jahren nahezu verdreifachen und bis zum Jahr 2002 einen Wert von knapp drei Milliarden Dollar erreichen.

Die Erkennungsgenauigkeit der besten Programme liegt nach Angaben der Hersteller bei 95 bis 97 Prozent. Allerdings wird sie erst "nach einer Trainingsphase erreicht, in der die Software die individuelle Sprechweise erlernt," betont Anne-Marie Derouault, international zuständig für Marketing und Vertrieb der IBM- Spracherkennungsprodukte. Das Training steigere die Erkennungsleistung deutlich. Hierzu sei es allerdings unerläßlich, fehlerhaft erkannte Begriffe über die Spracherkennung zu korrigieren. Unterbleibe die Korrektur oder werde sie beispielsweise direkt über die Tastatur ausgeführt, könnten die Systeme aus ihren eigenen Fehlern nicht lernen und daher auch die Erkennungsrate nicht verbessern.

Nach Erfahrungen von Hans-Erhard Jacobs, Technologieberater bei der R+V-Versicherung in Wiesbaden, beträgt die Produktivitätssteigerung durch das Diktieren von Texten gut 50 Prozent. Auch das Versandhaus Quelle konnte Geschwindigkeit und Qualität bei der schriftlichen Bearbeitung von Fragen und Reklamationen durch Spracherkennung erheblich steigern.

Wichtig für die meisten Anwender: Ihr Programm soll "sprecherunabhängig" sein. Dies behaupten zwar die meisten Hersteller von ihren Produkten, um jedoch eine akzeptable Erkennungsgenauigkeit zu erreichen, müssen viele Systeme anfangs auf einen Sprecher trainiert werden. Ein weiterer Punkt auf der Wunschliste ist die Möglichkeit, den Text ohne lange Pausen zwischen den einzelnen Worten diktieren und das Ergebnis sofort auf dem Bildschirm sehen zu können. Dank gewachsener PC-Rechenleistung und der Kombination verschiedener mathematisch-statistischer Modelle sollen sich diese Forderungen nach jahrelanger Forschung nun endlich erfüllen - leider noch nicht alle gleichzeitig in einem System.

Begnügt man sich mit einem speziellen, klar abgegrenzten und nicht sehr umfangreichen Vokabular, beispielsweise dem der Radiologie, so reicht die PC-Rechenkapazität inzwischen für die kontinuierliche Echtzeitspracherkennung aus. In allen anderen Fällen bleibt einem das Sprechen mit zumindest einer kleinen Pause zwischen den Worten noch nicht erspart (diskreter Spracherkennung in Echtzeit). Kann man jedoch auf die Echtzeitverarbeitung des Sprachsignals (das sofortige Erscheinen des Wortes auf dem Bildschirm) verzichten, dann erlauben Programme, die im Batchmodus arbeiten, das "natürliche" Sprechen mit dem PC. Auf keinen Fall sollte bei einer Automatic Speech Recognition (ASR) an den Hardware-Ressourcen gespart werden. Erst ein größeres System, beispielsweise ein 166-Megahertz-Pentium-Rechner mit 32 MB RAM aufwärts, führt nach Erfahrungen des Stuttgarter Diplom-Informatikers Martin Hiller dazu, daß die Programme auch Spaß machen.

Programme im Überblick

Die Zukunftsträchtigkeit der Technologie steht bei Firmen wie Apple, Articulate Systems, Dragon Systems, IBM, Kurzweil, Philips und Siemens-Nixdorf nicht in Frage. Sie alle haben ASR-Produkte auf dem Markt.

Die Mac-Company brachte 1993 "Plaintalk" heraus, ein Betriebssystem mit Funktionen zur Spracherkennung und Sprachsynthese. Allerdings nur in Englisch, später auch in Spanisch. In den USA liefert Apple einige Modelle des Power-Mac mit Spracherkennungsfunktionen aus, und es existieren auch Diktierlösungen auf Plaintalk-Basis. Für die deutsche Sprache sieht das Unternehmen laut Produkt-Manager Michael Dickschat bisher noch keine lohnenden Marktchancen.

Der amerikanische Anbieter Articulate Systems bietet seine Add-on-Produkte zur Sprachverarbeitung via Internet an. Das System "Powersecretary" für den Mac - ursprünglich auf der Basis von Dragon-Sprachtreibern entwickelt und inzwischen auch von Dragon vertrieben - verfügt ausschließlich über ein englisches Vokabular von 60000 Wörtern.

"Dragon Dictate" für Windows 3.x, Windows 95 und Windows NT (ab Sommer 1997) ist in einer Classic-Version mit 30000 Wörtern und einer Power-Version mit 60000 Wörtern erhältlich. Spezielle Wörterbücher, sogenannte Dragon-Pro-Module, gibt es für Medizin, Recht, Geschäft und Finanzen, Computertechnik und Presse. Allerdings ist nur der Wortschatz für Juristen auf Deutsch erhältlich.

IBM sieht sich selbst als Pionier bei Spracherkennungsprodukten. Die Applikationen basieren auf dem IBM Personal Dictation System (IPDS) für OS/2 aus dem Jahr 1993 und sind für unterschiedliche Anwendergruppen konzipiert: "Voicetype 3.0" für den professionellen Einsatz, "Voicetype Developers Toolkit" für Entwickler und "Voicetype Simply Speaking" für Home-Office-Anwender.

Die Programme für OS/2, Windows 3.x und Windows 95 arbeiten nach dem Prinzip der Einzelworterkennung. Während des Diktats muß man daher jedes Wort durch eine kurze Sprechpause kennzeichnen. Im Navigationsmodus erkennt die Software jedoch auch kontinuierlich gesprochene Befehle, zum Beispiel "Drucke Seite eins bis acht". Dies ist möglich, weil zur Navigation nur ein begrenzter, zuvor definierter Wortschatz verwendet wird.

Der Basiswortschatz von Voicetype umfaßt 30000 Wörter, darüber hinaus läßt sich Fachvokabular mit einem Wortschatz zwischen 27500 und 40000 Wörtern erwerben - derzeit in deutscher Sprache für Medizin (allgemeine Medizin, Gynäkologie, HNO, innere Medizin, Orthopädie, Pathologie, Radiologie, Unfallchirurgie), Recht und Wirtschaft sowie technische Gutachten.

Kontinuierliches Sprechen auch im Diktatmodus gibt es von IBM in den USA für Radiologen unter der Bezeichnung "Medspeak/Radiology". Ende des Jahres sollen auch die deutschen und französischen Kollegen in den Genuß dieser kontinuierlichen Echtzeitspracherkennung kommen.

Der amerikanische Hersteller Kurzweil bietet seine Spracherkennungsprodukte nur für US-Englisch an und hat auch keine Vertretung in Deutschland. Das Low-cost-Produkt "Voice Pad Pro" kann Diktate lediglich mit einem mitgelieferten Textprogramm aufnehmen. Das Wörterbuch umfaßt 17000 Wörter und kann um weitere 3000 oder eigene Makros ergänzt werden. "Kurzweil Voice" für Windows eignet sich in der Version mit 30000 Wörtern für jedes Textprogramm, die Pro-Variante mit 60000 Wörtern kann für medizinische Zwecke angepaßt werden.

Philips Spracherkennung "Speech Magic" arbeitet im Unterschied zu den bisher genannten Produkten nicht im Echtzeit-, sondern im Batchmodus. Den Text kann man also nicht sofort auf dem Bildschirm sehen, sondern erst nach Abschluß des Diktats. Mit PCs der oberen Leistungsklasse bleibt die Zeitverzögerung nach Unternehmensangaben inzwischen unter der Länge des Diktats.

Batchmodus erlaubt kontinuierliches Sprechen

Ein anderer, für den Einsatz des Philips-Produkts vorteilhafter Unterschied: Das System basiert nicht auf dem Prinzip der diskreten, sondern auf dem der kontinuierlichen Spracherkennung, so daß sich ohne künstliche Pausen in die Maschine sprechen läßt. Erkennungsfehler können nach der Aufzeichnung in einem speziellen Editor korrigiert werden, der das gleichzeitige Bearbeiten und Abhören von Diktaten erlaubt.

Der niederländische Konzern, der nach eigenen Angaben 42 Prozent des europäischen und 27 Prozent des internationalen Markts an Diktiersystemen hält, hat mittlerweile eine Serie modularer Spracherkennungsprodukte für Windows vorgestellt. Sie lassen sich in andere Anwendungen integrieren und sind unabhängig von der Hardware. Auf Maus und Tastatur kann der Anwender zwar beim Diktieren verzichten, die Systemnavigation ist jedoch nicht sprachgesteuert. Mit einem Kombigerät aus Mikrofon, Lautsprecher und Trackball sind aber beide Arbeiten mit einem Eingabemedium möglich.

Speech Magic wird von mehreren Zusatzprodukten wie Workflow- und Entwicklungs-Tools begleitet und steht auch als Komplettlösung, der sogenannten "Speech Magic Suite", zur Verfügung. Spezialwortschätze gibt es in Deutsch derzeit nur für Radiologie und Wirtschaftsrecht (mit verschiedenen juristischen Fachgebieten). Medizinische Wörterbücher werden von unabhängigen Softwarehäusern entwickelt und sollen im Laufe des Jahres auf den Markt kommen.

Auch Siemens-Nixdorf hat für die Radiologen ein System mit der Bezeichnung "Speech Base" entwickelt. Nach Herstellerangaben verfügt das System über ein radiologisches Vokabular von 11000 Wörtern, arbeitet sprecherunabhängig in Echtzeit und erlaubt natürliches Sprechen ohne Pausen. Auch ein Training ist laut SNI nicht notwendig. Texte, die über den Sprachgebrauch der Radiologie hinausgehen, müssen allerdings über die Tastatur eingegeben werden.

Ärzte und Juristen sind aufgrund ihres eingrenzbaren, akkuraten und stark formalisierten Wortschatzes für die Spracherkennung besonders geeignet. Schriftsteller dagegen werden besser noch einige Zeit besser mit einer Tastatur arbeiten. Damit kontinuierliche Echtzeitspracherkennung im täglichen Leben Einsatz finden kann, werden nach Überzeugung von Karl Sahora, Präsident von Philips Speech Processing USA, Programme mit einem Vokabular von rund 200000 Wörtern benötigt. Deren Verarbeitung erfordere eine Prozessorleistung, die die heute verfügbare bei weitem übersteigt.

*Sonja Hübner ist freie Journalistin in Stuttgart.