Spracheingabe durch den Menschen - Spracherkennung durch den Computer:

Für die Materialverwaltung reichen 50 Kommandowörter

12.10.1979

Während Computer schon seit längerem keine besonderen Schwierigkeiten mehr mit der Sprachausgabe haben, steckt die Spracheingabe vom Menschen zum Computer noch in den Kinderschuhen. Leider hat nicht nur jede natürliche Sprache eigene Sprachmerkmale, sondern auch die Sprache jedes einzelnen Menschen zeichnet sich trotz gleicher Muttersprache durch ihren eigenen Signalcharakter aus. Aber die ersten Erfahrungen der Spracherkennung durch den Computer, die beispielsweise die Nixdorf Computer AG mit Pilotinstallationen in den USA sammelt, sind ermutigend und erfolgversprechend.

Die mündliche Eingabe von Daten in den Computer löst eine Reihe von Problemen aus. So ist es beispielsweise heute noch nicht möglich, normal gesprochene Textabschnitte kontinuierlich in ein Mikrofon einzugeben, das als Spracheingabegerät an den Computer angeschlossen ist. Statt dessen müssen wir uns zur Zeit noch mit bestimmten Begriffen, einzelnen Wörtern (diskreten Wörtern), kurzen Sätzen oder Redewendungen begnügen.

Die maximale Eingabephase liegt zwischen einer Zehntelsekunde und einer Sekunde. Nixdorf hat das "gesprochene Wort" beispielsweise als reinen physikalischen Tatbestand folgendermaßen definiert: Das gesprochene Wort ist eine Geräuschfolge zwischen 0,1 und einer Sekunde Dauer. Der Computer interpretiert eine Pause, die länger als 0.1 Sekunde dauert, als Wortende. Der Sprecher kann also innerhalb einer Sekunde ein langes technisches Fachwort eingeben. Der Wortbegriff ergibt sich in diesem Fall demnach allein aus der zusammenhängenden Sprechfolge. Die Testbeispiele von Nixdorf haben beispielsweise "inklusive Mehrwertsteuer" als ein Wort deklariert. Der Computer schreibt daraus automatisch die Abkürzung "inkl. MwSt." Die Erkennungsdauer für den Computer, das heißt die Zeit, die der Computer benötigt, um ein ganz bestimmtes Wort zu erkennen, liegt für Nixdorf-Systeme zur Zeit bei maximal 0,5 Sekunden. Der Mensch darf demnach während einer zehntel bis maximal einer Sekunde sprechen. Der Computer hat dann in weniger als einer halben Sekunde erkannt, was im einzelnen eingegeben wurde.

Die Grenzen des Wortschatzes schwanken ganz allgemein zwischen einigen Dutzend und einigen hundert Wörtern. Nixdorf erprobt zur Zeit mit Konfigurationen von 64 und 128 Wörtern die Einsatzmöglichkeiten der neuen Technologie. Vorgesehen sind aber auch schon Anlagen, die bis 256 Wörter verstehen können.

Außerdem muß derjenige, der später mündliche Informationen in den Computer eingeben soll, sich zunächst einmal mit seinem individuellen Tonfall zu erkennen geben. Das geschieht einfach dadurch, daß der Betreffende vereinbarte Schlüsselwörter in den Computer hineinspricht, das heißt, daß er sie bis zu zehnmal wiederholt, damit sich die Maschine die persönlichen Besonderheiten des menschlichen Gesprächspartners merken kann.

Auch hierbei fallen eine Reihe wichtiger Erkenntnisse an. Wer beispielsweise innerhalb der Zahlenreihe nur die "Zwei" angibt, darf sich später nicht wundern, wenn der Computer das Wort "zwo" nicht versteht. In der Regel ist unsere Sprechweise nämlich nie einheitlich.

Keine Probleme lösen dabei mögliche Nebengeräusche, wie etwa die Maschinengeräusche in Produktionsstätten, aus, weil die Mikrofone verhältnismäßig unempfindlich gegen Nebengeräusche sind. In der Praxis erfolgt die Spracheingabe meist über Mikrofone, aber in Sonderfällen auch per Telefon, beispielsweise zum Aufruf von Namen. Die Telefoneingabe kämpft allerdings noch mit dem erschwerenden Umstand, daß die Übertragungseigenschaften der Leitungen nicht einheitlich sind.

In Verbindung mit der Verständigung von Mensch und Maschine ist es erstaunlich, wie wenige Wörter in den einzelnen Arbeitsbereichen ausreichen, um sich der Maschine verständlich zu machen. Die nachfolgende Aufstellung mag einige Anhaltspunkte geben:

- Materialverwaltung unter 50 Wörter

- Transportüberwachung unter 50 Wörter

- Klassifikationen in der Qualitätskontrolle unter 60 Wörter

- Fluglotsendienst unter 50 Wörter

- Leitinformationen und Steuerkommandos jeweils unter 20 Wörter

- Hilfe für Behinderte zwischen 20 und 200 Wörter

- Abfrage von Datenbanken 100 bis 200 Wörter

- POS-Terminals 100 bis 200 Wörter

- Transport- oder Fahrplanauskunft 100 bis 200 Wörter

- Diktiergerät 5000 Wörter

- Computerunterstützte Ausbildung zwischen 4000 und 20 000 Wörter

- Sichtgeräte für Taube bis zu 1000 Wörter.

Nixdorf hat auf der Hannover-Messe eine Fakturierung gezeigt, die bei mündlicher Eingabe der Daten mit 15 Wörtern ausgekommen ist. Das waren zunächst einmal die zehn Ziffern null bis neun für Kunden- und Artikelnummern. Dann brauchte man noch das Komma, je ein Start- und Abschlußkommando, je ein Rückweisungskommando für das gesamte Programm und für einzelne Wörter, die der Computer falsch verstanden hatte.

Ursprünglich haben die Entwickler der Spracheingabe nur an die Eingabe von Kommandos gedacht. Aber es ist interessant, wie schnell sich die Eingabemöglichkeiten erweitert haben.

Im kommerziellen Bereich haben Spracherkennungssysteme zunächst einmal im Bereich der Lagerüberwachung, der Aufnahme von Lagerbeständen und der Inventur Fuß gefaßt. Außerdem kommt der Spracheingabe auch zur automatischen Steuerung von Transporten eine besondere Bedeutung zu. Bei der Programmierung von NC-Maschinen hat sich bereits die Spracheingabe in der Produktion bewährt. Es ist natürlich zu früh, heute schon die gesamte Einsatzbreite der Spracherkennung ausloten zu wollen. Als weitere Anwendung kommt in Verbindung mit einer exakten Sprecheridentifikation sicher aber der bargeldlose Zahlungsverkehr mit einer Kontonummerüberprüfung und einem direkten Datenbankzugriff in Frage. Während die physische Eingangskontrolle über Spracherkennung zweifellos einen praktischen Wert hat, eignet sich das Verfahren auch zur Fernsteuerung von Spielzeug mittels der menschlichen Sprache.

Einsatzmöglichkeiten der Spracheingabe

Man kann die Reihe der Weiterentwicklung in ein grobes Raster einteilen, nämlich in:

- die Steuerungs- und Kommandowörter

- einfache Dateneingabe (bis :300 Wörter)

- Eingabe von Diktaten (6000 bis 7000 Wörter)

- lexikalische Inhalte (unbegrenzte Speicherkapazität).

Als ein weiteres interessantes Einsatzgebiet der Spracheingabe kündigt sich die Programmierung in den gängigen Computersprachen wie Basic oder Cobol an.

Im Zuge der Weiterentwicklung der Spracheingabe in Computersysteme wird die Preisentwicklung eine entscheidende Rolle spielen. Anfang 1979 lagen die Preise noch bei rund 10 000 Dollar. Sie werden in allernächster Zeit auf unter 5000 Dollar absinken. Bei begrenztem Wortschatz erwartet die Fachwelt bis 1981 einen Preisverfall auf 2000 Dollar, bis 1985 sogar auf rund 500 Dollar im OEM-Geschäft.

Von 1985 an ist mit der Eingabe von zusammenhängenden Texten bei einem Wortschatz von maximal 7000 Wörtern zu rechnen. Die Preisvorstellungen für derartige Systeme liegen zwischen 25 000 und 35 000 Dollar.

Der gesamte Fortschritt hängt wesentlich mit der Kostensenkung zusammen, das heißt mit der Beherrschung von ganz bestimmten Halbleiter-Integrationstechniken. Denn die Preissenkung wird dadurch "automatisch" kommen, daß die Elektroniken als Bausteine zur Verfügung stehen.

Bürotechniken zur vokalen Daten- und Texteingabe

Wenn die Sprache "Macht" auf den Computer ausüben kann, warum sollten dann nicht auch die Sachbearbeiter oder die Manager, statt einen Knopf zu drücken, die Wünsche direkt in den Computer hineinsprechen. Als Antwortgeräte stehen dann vielleicht sogar mehrfarbige Bildschirmgeräte bereit. die die abgerufenen Umsatzkurven oder die Bilanzzahlen unmittelbar anzeigen. Bei einer Vielzahl von Aufgaben entfällt dann für den Manager die Bedienung von Tastaturen oder der Ruf nach der Sekretärin. Der Computer erhält zuerst ein Aufmerksamkeitssignal, ehe der Mensch die Information in das Mikrofon spricht.