Blitzumfrage Sprachverarbeitung:

Notwendig sind schnelle Rechner und große Speicher

24.05.1985

Bis zum Jahre 2000 wir das Problem "echten" Spracherkennung noch nicht gelöst sei. In diesem Punkt sind die Sprecher der an einer Blitzumfrage beteiligten Unternehmen einig. Einmütigkeit herrscht auch bei der Beurteilung der digitalen Sprachspeicherung: Dieser Weg ist derzeit sinnvoll gangbar.

Helmut Wittmann SEL AG, Stuttgart

SEL ist schon seit längerer Zeit im Forschungsbereich auf diesem Gebiet tätig und hat auch mehrere "sprachverarbeitende" Geräte beziehungsweise Systeme mit "sprachverarbeitenden" Leistungsmerkmalen im Lieferprogramm. Neben dem Sprachspeicher Unimat 4000 für die zeitversetzte Sprachkommunikation und Sprachausgabefunktionen (Ansagen mit festen/variablem Text, Quittierungen, Benutzerführung etc. in der Sprechanlage ICS 24 und in der ISDN-Nebenstellenanlage System 12 B, ist hierbei auch der "Commander" zu nennen.

Der Commander ist eine Zusatzeinrichtung für Fernsprechapparate, mit dem es möglich ist, durch akustische Wahl (der Benutzer gibt den gewünschten Teilnehmernamen über die Sprechkapsel des Fernsprechapparates ein), den entsprechenden Teilnehmer über das eingebaute elektronische Telefonregister automatisch anzuwählen.

Die Spracherkennungseinheit des Commanders basiert auf einer sprecherabhängigen Einzelworterkennung mit einem Wortschatz von 128 Worten. Der Benutzer muß deshalb bei Neuaufnahme eines Teilnehmers in das elektronische Telefonregister eine Trainingsphase durchführen, bei der zu der entsprechenden Teilnehmernummer ein sprecherspezifisches Sprach-Referenzmuster erzeugt wird. Für diesen Zweck stehen dem Benutzer eine alphanumerische Tastatur, sowie eine Display zur Benutzerführung und zur optischen Rückmeldung des eingegebenen Sprachsignals zur Verfügung.

SEL sieht den Einsatz von Spracherkennung, konkurrierend mit manuellen Eingabeverfahren, beispielsweise im Bereich Mensch-Maschine-Schnittstelle bei komplexen Kommunikationssystemen und intelligenten Endgeräten. Bei derartigen Systemen kommt der ergonomischen Gestaltung der Benutzer-Schnittstelle eine zentrale Bedeutung zu.

Eine Verbesserung des Leistungsmerkmalsspektrums mit verbundener Worterkennung, größerem sprecherabhängige Wortschatz und die Weiterentwicklung der Verfahren für die sprecherunabhängige Worterkennung, werden die nächsten Schritte in dieser Richtung sein.

Dr. Wolfgang Richter Nixdorf Computer, Berlin

Nixdorf hat mit der Voicebox 8814 ein System entwickelt, das ein sogenanntes Voice Mail zur Verfügung stellen soll. Jeder befugte Benutzer erhält eine Sprachmailbox als Briefkasten, mit der er an jeden Teilnehmer des Systems eine gesprochene Meldung senden kann.

Im Bereich der Spracherkennung hat Nixdorf noch nichts entwickelt, doch wird bei der sprecherabhängigen Einzelwort- und Wortkettenerkennung mit einem Vokabular von bis zu 500 Worten angefangen. Der nächste Schritt geht dann über die Sprecherunabhängigkeit zur Umsetzung "Sprache im Text". Auf diesem Gebiet gibt es noch große Probleme, die in diesem Jahrhundert wahrscheinlich nicht bewältigt werden.

In Labors und Forschungsvorhaben werden derzeit sogenannte Systeme mit "Sprache in Text" entwickelt, wobei der Text nach wie vor mit. Absätzen gesprochen werden muß. Einige Prototypen in den Vereinigten Staaten bezeichnet man als "Voice Activated Typewriter", was mit "elektronischer, sprachgesteuerter Schreibmaschine" übersetzt werden kann. Der Anwender diktiert dem System einen Brief über Mikrofon oder Telefon. Um den Text erkennen zu können, bedarf es eines umfangreichen Vokabulars und einer Sinnverständlichkeit. Da spielen sowohl die Linguistik und Phonetik als auch die Spracherzeuger selbst eine Rolle. Wir entwickeln zudem ein sprecherunabhängiges Vokabular von etwa 50 Worten für Arbeitsplätze, die abwechselnd von verschiedenen Personen benutzt werden.

Jürgen Sarfert IBM Deutschland, Stuttgart

IBM hat ein Sprachspeichersystem entwickelt, mit dem etwa 3000 Teilnehmer arbeiten können. Nur werden durch die bundesdeutsche Fernmeldeordnung Grenzen gesetzt, da vorläufig keine externen Teilnehmer sondern nur innerhalb eines Unternehmens davon profitiert werden kann. Das gesprochene Wort wird digital auf einer Magnetplatte abgespeichert. Für jeden Teilnehmer gibt es eine Art elektronischen Briefkasten, in dem diese Meldung digital abgelegt wird.

Es besteht auch die Möglichkeit, eine Nachricht sowohl zu vervielfältigen als auch mit einem Kommentar zu versehen, der entweder am Anfang oder an Ende eingefügt werden kann. Falls beispielsweise ein Abteilungsleiter eine Nachricht erhält, kann er diese an alle Mitarbeiter im Außendienst weiterleiten. Sobald diese zum Telefon greifen, meldet ihnen das System den Eingang der Mitteilung. Besondere Bedeutung erhält das System dann, wenn eine, Kommunikation aus Gründen der Zeitverschiebung (Beispiel: zwischen USA und Europa) erschwert ist. Eine Mitteilung kann vom Anwender beliebig oft abgehört werden.

Zusätzlich läßt sich in einem Fließtext nachträglich eine Anmerkung einfügen, wobei der Rechner diese auch als fremde Anmerkung kennzeichnet. Die Nachricht läßt sich jedoch nicht verfälschen.

Etwa Mitte der neunziger Jahre könnte es bei IBM zu einer Realisierung der semantischen Erkennung (...)r Sprachspeicherung kommen, mit der die Bedeutung eines Wortes interpretiert werden soll. Im IBM Forschungslabor in Yorktown, N.Y., wurde bereits ein Spracherkennungssystem für 5000 Worte aus dem Wirtschaftsenglisch entwickelt. Es erkennt jedoch bisher nur sprecherabhängige Texte.

Der Text, den der Anwender kontinuierlich in das System sprechen muß, erscheint anschließend auf dem Bildschirm oder wird über Drucker ausgegeben. Um die Spracherkennung zu optimieren, bedarf es sehr schneller Rechner und großer Speicherkapazitäten.

Eckart Oesterle Dornier System, Friedrichshafen

Bei der Sprachausgabe gibt es inzwischen eine Vielzahl unterschiedlicher Systeme, die vom rechnergesteuerten Abspielen gespeicherter Textansagen bis zur automatischen Umsetzung beliebiger geschriebener Texte in synthetische Sprache reichen.

Das eigentliche Problem besteht in der Erkennung eingegebener Daten zur Identifizierung des Anrufers, zur Steuerung des Dialoges und zur Formulierung des Benutzerwunsches.

Bislang können nur Anwendungen, die sich nicht an einen geschlossenen, innerbetrieblichen Benutzerkreis wenden, sondern über das öffentliche Fernsprechnetz zugänglich sind, durch das Mehrfrequenzverfahren realisiert werden. Eine Lösung über das im Rahmen von ISDN vorliegende digitale Fernsprechnetz sowie digitaler Endgeräte wird frühestens in einem Jahrzehnt einer breiteren Öffentlichkeit zugängig sein. Daher werden von Dornier einfache Verfahren zur Spracherkennung angestrebt, die das bereits bestehende Sprachausgabesystem ergänzen.

Die heutige Situation ist dabei durch folgenden Stand der Technik gekennzeichnet:

- Die Erkennung und Identifizierung des Anrufers durch wenige gesprochene Wörter. Dies ist in allgemeiner Form (auch für einen menschlichen Zuhörer) nicht möglich. Man kann dieses Problem dadurch lösen, daß sich der Teilnehmer durch seine Kundennummer vorstellt und seine Identität durch Aussprache eines vereinbarten Codewortes überprüft wird.

- Spracherkennungsverfahren befinden sich immer noch auf einer relativ niedrigen Entwicklungsstufe. So können die besten heute bekannten Systeme entweder bei unbekannten Sprechern nur sehr wenige Wörter (zum Beispiel nur ausgesprochene Ziffern) einigermaßen sicher erkennen (und das auch noch nicht über Telefonleitungen) oder von einem unbekannten Sprecher einige hundert Wörter erkennen, die dieser Sprecher jedoch in einer vorangehenden Lernphase des Systems mehrfach vorsprechen muß. Bei Informationssystemen für die Öffentlichkeit ist daher damit zu rechnen, daß sich auch noch in einigen Jahren eine Spracheingabe auf Ziffern und nur wenige weitere Worte beschränken wird.

Neben eigenen Forschungsarbeiten auf dem Gebiet der sprecherunabhängigen Spracherkennung über das öffentliche Fernsprechnetz wird Dornier in internationaler Zusammenarbeit an Systemlösungen arbeiten.

Dabei sei noch ein wichtiger Aspekt herausgestellt: In einem interdisziplinären Zusammenwirken sollen Ergebnisse angrenzender Wissensgebiete integriert werden, wie beispielsweise Sprachtheorie. Linguistik, Phonetik und erste Ansätze im Bereich der Expertensysteme zur Spracherkennung.