In der Spracheingabe liegt die Erfassungs-Zukunft:

Der Computer nimmt selbst Schnupfen nicht krumm

06.06.1980

MÜNCHEN - CW-Bericht, Roland Schubert. "Der Stand der Technik ist nicht so gesichert, daß es nicht wert wäre, etwas daran zu tun", erklärte Hartmut Lupcke, Entwicklungsleitung Nachrichtentechnik der Nixdorf AG, Paderborn. Immerhin sei die Spracherkennung so weit gediehen, daß eine sprecherunabhängige Eingabe zumindest Grenzen möglich scheine, Traum der Entwickler indes ist das Diktat direkt in den Rechner.

Bei der Spracherkennung wird das Frequenzspektrum des gesprochenen Wortes zerlegt und ein digitales Muster gebildet. Pro Wort sind 1000 Bit vorgesehen. Am weitesten verbreitet beim Dialog mit dem Rechner ist die sprecherabhängige Eingabe. Der "Kandidat" sagt das Wort mehrmals, bis ein möglichst eindeutiges Muster entstanden ist. Je öfter ein Wort gesprochen wurde, um so sicherer werden Ausreißer in einer bestimmten Sprechweise korrigiert. Allerdings verwischen auf diese Weise auch die Feinheiten im Laufe der Zeit. Untersuchungen des Bundeskriminalamtes zufolge besteht die Möglichkeit, jeder Person ein eindeutiges Sprachspektrum zuzuordnen. Dies kann, ähnlich den Fingerabdrücken, zur Identifikation verwendet werden. Damit wird das Problem deutlich: bei der DV-Spracheingabe soll es ja gerade egal sein, wer spricht.

Um ein gesprochenes mit einem gespeicherten Wort zu identifizieren, wird zunächst ein Majoritätsvergleich angestellt. Dabei wird untersucht, mit welchem gespeicherten Muster das neue am besten übereinstimmt. Darüber hinaus müssen 70 Prozent der Bits gleich sein. Wenn ferner gewährleistet ist, daß das nächste Muster um etwa zehn Prozent schlechter ist, gilt das Wort als erkannt. Der heute mögliche Wortschatz umfaßt etwa 500 Worte, in einer IBM-Entwicklung bis zu 1000. Einschränkungen des Wortschatzes entstehen weniger durch das Problem der sicheren Erkennbarkeit als vielmehr durch Begrenzung der Speicherkapazität und der Verarbeitungszeit des Mikroprozessors. "Die Organisationsstruktur", erläutert Norbert Katschinski, Produktleiter im Geschäftsbereich Mikrocomputer der Kontron Elektronik GmbH, Eching, "ist wesentlich wichtiger als die Geschwindigkeit der CPU."

Floskeln werden als Einheit interpretiert

Der Traum der Entwickler, die "connected speech", wird in absehbarer Zeit sicher Wirklichkeit werden. Noch allerdings darf die Folge der Worte nicht zu schnell sein. Zwischen einzelnen gesprochenen Worten muß der "Kandidat" eine Pause von rund 200 Millisekunden machen, um dem Rechner eine sichere Erkennung des Wortendes zu ermöglichen. Ein Wort darf dabei zwischen 200 Millisekunden und zwei Sekunden lang sein. Insbesondere können Floskeln wie "Guten Tag" als Einheit interpretiert werden. Der Rechner muß auch zwischen "der Leiter" und "die Leiter" unterscheiden. Eine wesentliche Einschränkung bei der sprecherabhängigen Eingabe macht Lupcke allerdings: Es funktioniere nur sicher mit besonders komfortablen Mikrofonen. Über Telefon ist einerseits wegen der Kohlemikrofone, andererseits wegen der zu geringen Bandbreite nichts zu machen. Mitunter sei mehr als die Telefonbandbreite von 3,4 Kilohertz notwendig.

Bei den sprecherunabhängigen Systemen sind derzeit nur etwa 16 Zeichen möglich. Dazu gehören die Ziffern von Null bis Neun. Diese Art der Eingabe kann über das Telefon geschehen. Ein solches System legt nicht nur ein Muster für beispielsweise die Zahl "1", sondern wegen der Unterschiedlichkeit der Sprechenden auch verschiedene Formen der "1" ab. Insbesondere Mundartunterschiede wie "oans" für die "1" können so berücksichtigt werden.

In absehbarer Zeit keine Sensationen

Das Nicht- oder Falscherkennen - stellt offenbar kein unüberwindliches Problem dar. Eher wird ein Wort überhaupt nicht erkannt, bevor es falsch interpretiert wird. Die Rate des Nichterkennens schätzen Fachleute auf rund sieben Prozent. Ist der Sprecher verschnupft, wird er eventuell nicht erkannt. Er muß dann, bleibt die Erkältung länger, den Rechner auf seine veränderte Stimme neu programmieren. Selbstlernende Systeme verlangen zu dem "Gehörten", aber nicht Verstandenen, eine Eingabe des Wortes über den Bildschirm. Das Muster wird dann abgespeichert. Andernfalls schaltet ein gutes System, wenn es eine Eingabe beispielsweise dreimal nicht erkannt hat, zu einem Arbeitsplatz um, an dem ein richtiger Mensch sitzt. Dieser kann dann, dank seines immensen Assoziativspeichers, die Schwierigkeiten häufig lösen.

Bei den Neuentwicklungen sind in absehbarer Zeit keine Sensationen zu erwarten.

In den nächsten zwei bis drei Jahren wird es, abgesehen von Prototypen, kein kommerzielles System geben, das über das beschriebene Leistungsspektrum hinausgeht. Bis man mit seinem Computer wie am Stammtisch plaudern kann, wird noch ein Jahrzehnt ins Land gehen.