Marktstudien erwarten ab 1990 Rechner mit einem Vokabular von 10000 Begriffen:

Spracherkennung hat die größten Zukunftschancen im Büro

21.11.1986

MÜNCHEN - Der entscheidende Durchbruch zur sprecherunabhängigen und "fließenden" Worterkennung steht weiterhin aus. Unterdessen steigt aber die Anzahl der hörenden Computer erheblich, wobei bereits Rechner mit einem Vokabular von bis zu 5000 Wörtern angeboten werden. Als ein auf lange Sicht sehr zukunftsträchtiges Einsatzfeld wird die Bürokommunikation eingestuft. Derzeit die meisten Anwendungen findet man in der Industrie vor.

"Das weltweit größte und vielfältigste Anwendungspotential bietet der Telefon- und Bürobereich. Allerdings wird er sich erst dann von erschließen lassen, wenn sehr hohe Anforderungen an die Erkennungsqualität, die bis zur Interpretierung fließender Sprache reicht, technisch und wirtschaftlich beherrscht sind", meint der Siemens-Sprachverarbeitungsexperte Manfred Lang und charakterisiert damit sehr prägnant die allseits auf diesen Zweig gesetzten Hoffnungen.

Markt von 600 Millionen Dollar

Nach Prognosen des Londoner Marktauguren Frost & Sullivan beispielsweise zeichnet sich auf dem Office-Automation-Sektor bis 1994 ein Absatzmarkt von 55 Millionen Dollar ab. Bereits jetzt gebe es eine ganze Reihe von Hard- und Softwareprodukten zur Unterstützung der Textverarbeitung. Im vergangenen Jahr seien einschlägige Systeme in Höhe von rund 500000 Mark umgesetzt worden. Für die Applikationen in der Industrie sagt das britische Unternehmen bis 1994 Einkünfte von 50 Millionen Dollar voraus. Der gesamte Bereich "computerunterstütztes Sprachgerät" soll im gleichen Zeitraum einen Markt von insgesamt 600 Millionen Dollar umfassen, wobei Frost & Sullivan mit allen Angaben sowohl auf die Sprachein- als auch -ausgabe in Westeuropa abzielt. Der entsprechende Wert für 1985 liege bei 25 Millionen Dollar. Davon entfielen fünf Millionen auf die Bundesrepublik Deutschland, die nach weiteren Studienergebnissen in der europäischen Rangliste auf Platz 3 nach Großbritannien und Frankreich steht.

Mangel an deutschen Studienergebnissen

Auch die International Data Corporation geht bei den spracherkennenden Systemen von großen Wachstumsraten aus. Auf den US-Markt bezogen soll sich die Zahl der Auslieferungen von derzeit rund 25000 auf gut 500000 und der Dollarwert von rund 25000 auf über 50000 im Jahre 1989 erhöhen. Kommerziell vermarktet werden - so die IDC-Expertise - bislang praktisch nur Systeme mit einem Wortschatz von 40 bis maximal 100 Worten, die auf einen bestimmten Sprecher eingestellt werden müssen und ausschließlich diskrete Ausdrücke verstehen. Diese Systeme eigneten sich für Fertigungsumgebungen und die Qualitätskontrolle. Für den Bürobereich kämen eigentlich erst Geräte ab 10000 und mehr Wörtern in Frage; entsprechende Produkte dürften aber erst zwischen 1990 und 1992 auf breiter Basis verfügbar sein. Sprachverstehende Systeme mit einem Vokabular zwischen 1000 und 5000 Begriffen ließen sich für die Bürokommunikation lediglich begrenzt einsetzen.

Als Marktführer unter den rund 20 amerikanischen Unternehmen nennt IDC Votan und Interstate Voice Products. Zu den weiteren Anbietern zählten unter anderem Dragon Systems, General Instruments, Key Tronic, Kurzweil AI, Nec America, Verbex, Scott Instruments und Texas Instruments sowie die IBM.

Auf den deutschen Markt bezogen liegen offenbar nur wenige Studienergebnisse vor. Entsprechende Anfragen der COMPUTERWOCHE blieben zumindest ergebnislos. Dazu nochmals Manfred Lang, Fachabteilungsleiter Sprache und Bild, Signalverarbeitung bei Siemens: "Es gibt eine ganze Reihe von Firmenstudien, die der Öffentlichkeit aber nicht vorliegen." Lang ist neben seiner Tätigkeit bei dem Münchner Elektro- und Elektronikkonzern auch Sprecher des mit Mitteln des Bundesministeriums für Forschung und Technologie geförderten Forschungsvorhabens, das sich mit der Sprach- beziehungsweise Worterkennung befaßt und von 1984 bis 1989 läuft. Eine Mitteilung aus dem Riesenhuber-Ressort geht unter Bezugnahme auf nicht näher beschriebene Untersuchungen davon aus, daß die Anwender bei hinreichend zuverlässiger Erkennung unter den Eingabemöglichkeiten die Sprache gegenüber der Tastatur und dem Lichtgriffel bevorzugen. Als prädestiniert für die Spracherkennung sei das bereits als ergonomisch akzeptierte Kommunikationsmittel Telefon. Gerade bei der Benutzung neuer Dienste wie Bildschirmtext und Teletext oder Datenbankabfragen werde die Bedienung durch die verbale Auswahl aus einem Suchwort-Menü erleichtert.

Außer Siemens sind an dem Projekt die Hamburger Philips, das Forschungslabor der AEG Ulm, die Universität Erlangen-Nürnberg und die Technische Universität Berlin beteiligt. Bei den derzeit käuflichen Geräten basiert die Spracherkennung laut BMFT auf der Rezeption von ein paar hundert, meist kommandohaft gesprochenen Worten. Schrittmacher seien hier in erster Linie die kleinen Firmen, denn "die großen Unternehmen zieren sich etwas, auf den Markt zu gehen".

Gegenüber dem Stand der Wissenschaft konnten im Rahmen des Sprachverarbeitungs-Projektes folgende Fortschritte erzielt werden:

- Für das bei Wortketten-Erkennung auftretende kombinatorische Problem wurde ein effizientes Suchverfahren entwickelt und eingesetzt, das gegenüber den meisten sonst üblichen Verfahren um eine Größenordnung geringere Komplexität besitzt.

- Durch die Einführung einer geeigneten Bewertung der bei der nicht-linearen Zeitanpassung auftretenden Zeitverzerrung und deren statistischen Interpretation ließ sich die Erkennungsgenauigkeit erheblich verbessern.

- Für die Referenzerstellung wurde ein iteratives Verfahren verwendet, das in der Erkennungsphase genauso gut arbeitet wie andere wesentlich zeitaufwendigere Verfahren wie zum Beispiel die sogenannte Nearest-Neighbour-Methode.

- Als Alternative zu Ganzwortmustern kommen phonetische Wortuntereinheiten für die sprecherunabhängige Erkennung zum Zuge.

Diese Wortuntereinheiten werden dabei vollautomatisch von einem Algorithmus bestimmt, der zusätzlich zu den Trainingsstichproben nur die phonetische Beschreibung des Vokabulars als Eingangsparameter erfordert.

- Es entstand ein Mikroprozessor-System, das Wortketten in Echtzeit erkennen kann. Für den Mustervergleich wird dabei nur ein 16-Bit-Mikroprozessor MC68000 ohne zusätzliche spezielle Hardware eingesetzt.

Weiteren Aussagen des Bundesforschungsministeriums zufolge wird das Mikroprozessor-System zur Zeit von verschiedenen Unternehmensbereichen als Grundlage für mögliche Produkte diskutiert. Neben der Erkennung von kontinuierlich gesprochenen Wortketten hat sich das Forschungsprojekt auf lange Sicht auch die weitgehend sprecherunabhängige Kommunikation auf seine Fahnen geschrieben.

Hoher Wortschatz überfordert Benutzer

Die Begrenzung auf rund 250 Wörter bei den gegenwärtig angebotenen Systemen läßt sich nach Angaben des AEG-Fachmanns für Sprachverarbeitung, Harald Katterfeldt, nicht auf technische Schwierigkeiten zurückführen, sondern scheitert an der mit einem großen Vokabular verbundenen Lernphase des Sprechers. Es sei nicht zumutbar, so viele Begriffe in der Lernphase mehrmals vorzusprechen. "Damit ist man endlos beschäftigt und darum dürfte sich das in der Praxis nicht durchsetzen." Katterfeldt räumt gleichzeitig jedoch ein, daß natürlich auch die technische Realisierung schwieriger sei, da der Algorithmus länger brauche, um die vielen Muster zu vergleichen. Branchenkenner Lang kommt ebenfalls zu dem Ergebnis, daß der Benutzer bei einem großen Wortschatz überfordert sei und man sich darum andere Verfahren einfallen lassen müsse: "Die Fachleute nennen in diesem Zusammenhang die Sprecheradaption, wobei sich das System im Laufe der Zeit an den Sprecher anpaßt."

Hemmschwellen und Schwierigkeiten tauchen aus Expertensicht auch noch auf anderen Gebieten auf.

- Erste Erfahrungen haben gezeigt, daß die in der Fertigung beschäftigten Mitarbeiter lieber eine Taste bedienen, als Sprachkommandos einzugeben.

- Die Benutzer müssen in der Spracherkennung einen wirklichen Gewinn sehen, da sie ansonsten nicht gewillt seien, diszipliniert zu sprechen.

- Dort, wo die Tasten ohne weiteres bedient werden könnten, müsse man den Einsatz von "hörenden Geräten" ohnehin in Frage stellen.

- Es ist zweifelhaft, ob der Benutzer eines Textverarbeitungssystems, der dieses gut bedienen kann, überhaupt daran interessiert ist, zusätzlich bestimmte Befehle per Sprache einzugeben.

- Ein Kopfmikrophon kann bei der Spracheingabe als störend empfunden werden.

Sprachausgabesysteme liegen besser im Rennen

Für die Spracherkennung kommen nach Ansicht des Applikationsingenieurs Hans-Jürgen Scheele von der Firma Speech Design zunächst Anwendungen in Frage, bei denen keine Angaben per Hand notwendig beziehungsweise die Augen beschäftigt sind oder aber in Fällen, wo das Blickfeld nicht ständig zwischen einer Tastatur und einem Bildschirm hin- und herwandern soll. Ein Beispiel dafür sei das Arbeiten mit dem Mikroskop, wo man nebenbei zwecks Registratur bestimmte Daten an einen Computer weitergeben müßte. Unter Berufung auf eine in dem New Yorker Fachblatt "Specch Technology" erscheinende Expertise bemerkt er im übrigen, daß man der Spracherkennung bis vor kurzem einen riesigen Marktanteil innerhalb der digitalen Sprachverarbeitung eingeräumt habe, diese Werte aber jetzt ganz kräftig zugunsten der Sprachausgabe korrigiert worden seien. Auf eine Anwendung mit Spracherkennung kämen in der Datenverarbeitung zur Zeit rund 20 mit der Sprachausgabe.

Die Zahl der sprachverstehenden Systeme hat in der letzten Zeit sowohl in Deutschland als auch im Ausland deutlich zugenommen. Ein System auf der Basis des PC AT präsentierte kürzlich die IBM. Diese neue Anlage nutzt ein 5000 Wörter umfassendes Vokabular und erreicht eine Zuverlässigkeit von über 95 Prozent. Mit dem PC AT und den dafür in Yorktown Hights entworfenen Hochgeschwindigkeitssubsystemen mit insgesamt drei Einschubkarten schrumpfte - bei gleicher Leistung - die bisher erforderliche raumfüllende Hardware mit einem Zentralrechner und drei Mikroprozessoren auf die Größe eines Tischrechners. Bei dem von IBM-Wissenschaftlern eingesetzten Mikroprozessor-Chip handelt es sich um einen "Digital Signal Processor" (DPS). Er kann 30 Millionen Operationen in der Sekunde durchführen und enthält zirka 6000 logische Elemente, sogenannte "gates" - rund 130 pro Quadratmillimeter. Der PC AT lernt die Sprachcharakteristik eines Sprechers, indem dieser dem System ein "kurzes Dokument" vorspricht.

Analyse von 25 Millionen Wörtern

Die Funktionsweise des IBM-Spracherkennungssystems ist das Resultat eines neuartigen statistischen Ansatzes, der ebenfalls im Research Center in Yorktown Hights entwickelt wurde. Dieser Methode liegt eine begrenzte Zahl von elementaren Bausteinen zugrunde, aus denen Wörter - phonetische Symbole - zusammengesetzt werden. Dieser Weg erwies sich erfolgreicher als der Versuch, Tausende von individuellen Wörtern - unabhängig voneinander einzugeben oder das System anhand eines statistischen Modells, das aus der Analyse von 25 Millionen Wörtern der Bürokorrespondenz abgeleitet worden ist, sogenannte "Wort-Kandidaten" aus. Beim Weitersprechen wählt das System neue "Wort-Kandidaten" aus, während die ursprünglichen "Anwärter" im Licht dieses neuen Bestandes ausgewertet werden. Innerhalb von ein bis zwei Sekunden ist dieser Prozeß beendet, das wahrscheinlich richtige Wort gefunden und am Bildschirm angezeigt.

Diese kontextorientierte Fähigkeit erlaubt es dem neuen IBM-System, zwischen Wörtern zu unterscheiden die zwar ähnlich klingen, in ihrer Bedeutung jedoch differenzieren. Satzzeichen lassen sich ebenfalls verbal eingeben, indem der Sprecher beispielsweise einfach "Punkt" oder "Komma" sagt. Die noch anstehenden Entwicklungsarbeiten werden sich darauf konzentrieren, das Wörterbuch zu erweitern, die Unempfindlichkeit gegenüber störenden Nebengeräuschen zu verbessern und auf die jetzt noch notwendigen Pausen zwischen den einzelnen Wörtern verzichten zu können.

Mit dem Sprachverarbeitungssystem SVS 2000 - entwickelt von der Computer Gesellschaft Konstanz und der Didas Digital Data Systems GmbH - soll jetzt auch der Siemens-Mikro vom Typ PC-D aufs Wort hören. Nach Anbieterangaben liegt hier die Erkennungssicherheit selbst bei hohem Umfeldgeräusch bei über 99 Prozent. Das Grundvokabular des neuen Systems umfaßt 50 Wörter; dieser Wortschatz kann in Stufen von 150 bis maximal 500 Begriffe aufgestockt werden. Ebenfalls noch nicht sehr lange auf dem Markt ist der CSE 1200 von der Computer Gesellschaft Konstanz.

Spracherkennung bei Autotelefonen

Dieser Rechner kann insgesamt 500 Wörter verarbeiten und ist sprecherunabhängig. Die Erkennungsqualität liegt auch hier bei ungefähr 99 Prozent. Zu den sprachverstehenden Produktinnovationen gehört des weiteren die Sprachaufnahme- beziehungsweise Sprachwiedergabekarte Audiocard 300. Sie ist als intelligente Tonspur für den IBM PC gedacht und verfügt über einen Grundwortschatz von 40 Begriffen. Zu guter Letzt soll noch eine Neuheit aus dem Bereich der sprachbetätigten Telefone vorgestellt werden, die sich allerdings erst im Entwicklungsstadium befindet. AEG Ulm konzipiert für die von Daimler-Benz verwendeten Autotelefone einen Spracherkenner, um die Bedienung der Kurzwahltasten durch Sprache zu ersetzen. Dazu Harald Katterfeldt: "Der Manager braucht nur den Telefonhörer hochzuheben und spricht den Namen rein, den er haben will. Das Gerät antwortet mit den Namen, er sagt daraufhin wählen, und dann wird durchgestellt."