Fraunhofer-lnstitut untersucht neue Wege der Mensch-Maschine-Kommunikation:

Noch Probleme bei symbiotischen Systemen

24.05.1985

Der Begriff der Mensch-Maschine-Kommunikation suggeriert eine natürlich-sprachliche Verständigung mit Computern, doch sind hier in der Praxis noch erhebliche Schwierigkeiten zu überwinden. Der Beitrag stellt die Möglichkeiten und Grenzen der Sprachverarbeitung dar und erläutert einige bisher realisierte Anwendungen.

Heute zeigt sich für die Sprachverarbeitung ein auch aus anderen Technologiezweigen bekanntes Phänomen: Trotz der reichlich vorhandenen technischen Möglichkeiten und teilweise nachgewiesenen ökonomischen Vorteile hinkt die tatsächliche Markteinführung hinter den mitunter euphorischen Hoffnungen und Prognosen hinterher. Die Bandbreite der verfügbaren Technologie (rund 100 verschiedene Systeme in Westeuropa und den USA) reicht von Sprachausgabe-Chips für wenige Mark bis hin zu Sprachverarbeitungssystemen, für die fünf- und sechsstellige Summen zu investieren sind.

Heute verfügbare Systeme der Sprachverarbeitung lassen sich in die Anwendungsbereiche Spracheingabe, Sprachausgabe und Speech-Filing gliedern.

Spracheingabe: Im Bereich der Spracheingabe finden sich Systeme von ausreichender technischer Reife, wenn man bei einem Wortschatz von bis zu 300 Worten mit sprecherabhängiger Erkennung von isoliert gesprochenen Wörtern auskommt. Größere Wortschätze sind vom Speicherplatzaufwand her betrachtet durchaus möglich, doch ergeben sich aufgrund der teilweise exponentiell ansteigenden Rechenzeit Echtzeit-Probleme.

Außerdem wird es mit wachsendem Wortschatz immer schwieriger, eine hohe Erkennungsrate zu gewährleisten, so daß es empfehlenswert ist, nicht mehr als 80 bis 100 Wörter als Wortschatz zu verwenden. Für Anwendungen, die einen größeren Wortschatz erforderlich machen, ist in den meisten System die Möglichkeit vorgesehen, den Gesamt-Wortschatz in verschiedene "Sets" aufzuteilen, die dann syntaktisch miteinander verknüpft werden können.

Waren die ersten Spracheingabesysteme Anfang der 70er Jahre noch relativ große Peripheriegeräte, oft mit einem integrierten Minicomputer, hat sich durch den Fortschritt der Mikroelektronik in den letzten zwei Jahren auch hier der Trend zu Chip-Systemen für weniger als 1000 Mark im unteren Leistungsbereich durchgesetzt. Allerdings wird vom Käufer solcher Chipsysteme noch die Bereitschaft erwartet, dieses Chip hardwaremäßig selbst in ein System zu integrieren.

Halbsynthetische Systeme haben sich durchgesetzt

Sprachausgabe: Die Sprachausgabe-Technologie ist im Vergleich zur Spracheingabe sehr weit fortgeschritten. Am weitesten ist die Entwicklung bei nichtsynthetischen und halbsynthetischen Sprachausgabesystemen gekommen. Da die nichtsynthetischen Systeme aufgrund ihres hohen Speicherplatzbedarfs für die meisten Anwendungen weniger geeignet sind, haben sich die halbsynthetischen Systeme, die heute als Chip für wenige Mark angeboten werden, auf dem Markt durchgesetzt.

Bei diesen Systemen wird menschliche Sprache derart codiert, daß der Speicherplatzbedarf erheblich sinkt, aber die natürlichen Merkmale der Sprache zum größten Teil erhalte bleiben. Halbsynthetische Systeme haben den Nachteil, daß sie einen begrenzten Wortschatz besitzen und daß ein neuer Wortschatz meistens nicht vom Benutzer, sondern beim Hersteller in einem aufwendigen und teuren Verfahren erstellt werden muß.

Vollsynthetische Systeme weisen diesen Nachteil nicht auf. Sie besitzen außerdem einen geringen Speicherplatzbedarf. Die Sprachqualität ist jedoch in vielen Fällen noch unzureichend, und die Systeme sind aufgrund der erforderlichen komplexen linguistischen und mathematischen Algorithmen relativ teuer.

Speech-Filing: Speech-Filing-Systeme werden in der näheren Zukunft zunehmend an Bedeutung gewinnen. Die Verbindung von Telefonnebenstellenanlagen mit digitalen Sprachspeichersystemen sowie die Verwendung von "Speech-Annotation" bei der Dokumentenbearbeitung bringt im Bürobereich weitere Anwendungen mit sich.

Bei der Einführung von Sprachverarbeitungssystemen treten drei Problemebenen auf. Dabei handelt es sich um die sprachliche, die technologische sowie die Anwenderebene.

Auf der sprachlichen Ebene stellen sich sprachinhärente Probleme, die in ihrer Ausprägung von der speziell gewählten Sprache (deutsch, englisch, japanisch etc.) abhängen. Diese sind folgenden Bereichen zuzuordnen:

- Phonetik/Phonologie (Lauterzeugung),

- Morphologie (Wortveränderung),

- Syntax (Grammatik),

- Pragmatik (Wirkung).

Neben phonetischen auch Syntax-Probleme

Diese Bereiche haben für die verschiedenen Teilgebiete der Sprachverarbeitung verschieden wichtige Bedeutung. Bei der Sprachausgabe ergeben sich vor allen Dingen Probleme im Bereich der Phonetik/Phonologie. Bei vollsynthetischen Sprachausgabesystemen, bei denen bestimmte Ausspracheregeln implementiert sind, basieren diese oft auf Regeln der Morphologie.

Bei der Spracheingabe treten neben phonetischen Problemen auch Probleme aus dem Bereich der Syntax auf. Die Bereiche Semantik und Pragmatik treten besonders bei natürlich-sprachlichen Systemen in den Vordergrund. Da bei Speech-Filing-Systemen nur eine Abspeicherung des codierten Sprachsignals erfolgt, stellen sich hierbei keine sprachinhärenten Probleme.

Neben Sprachverarbeitungsalgorithmen und mathematischen Methoden der digitalen Signalverarbeitung wird die technologische Ebene wesentlich durch die Entwicklung in der EDV-Technik und der Mikroelektronik beeinflußt. Da im Bereich der Spracheingabe besonders die Algorithmen zur sprecherunabhängigen Erkennung und zur Erkennung fließender Sprache sehr komplex sind, können erst durch den Einsatz hochintegrierter Schaltungen entsprechende Geräte bis zur Serienreife entwickelt werden. In der Zukunft werden hier auch parallele und verteilte Mikroprozessor-Architekturen verstärkt zum Einsatz kommen.

Für den Bereich der Spracheingabe gilt, daß der Speicherplatzbedarf um so geringer ist, je komplexer der Algorithmus ist, mit dem die Sprache bearbeitet wird. Am höchsten ist der Speicherplatzbedarf dort, wo im wesentlichen nur eine Analog/Digital-Wandlung stattfindet, wie zum Beispiel in Systemen zum Speech-Filing. Die Entwicklung dieser Systeme ist zwar verhältnismäßig einfach, ihr sinnvoller Einsatz setzt jedoch Trägersysteme zur Bürokommunikation voraus.

Die größten Probleme treten noch im Bereich der Spracheingabe auf. Nur langfristig lösbar sind dabei die Probleme der Erkennung von fließend gesprochener Sprache und der sprecherunabhängigen Erkennung. Auch die Erkennung bei sehr großen Wortschätzen (mehrere tausend Wörter) wird nicht in näherer Zukunft möglich sein.

Bei der Sprachausgabe bereitet heute nur noch die Sprachqualität bei vollsynthetischen Ausgabesystemen einige Probleme. Am Fraunhofer-Institut für Arbeitswirtschaft und Organisation wird zur Zeit an einer wesentlichen Verbesserung von vollsynthetischen Sprachausgabesystemen gearbeitet. Im Bereich des Speech-Filing ist man heute noch bemüht, den hohen Speicherplatzbedarf der aufgezeichneten Sprache bei gleichzeitiger Erhaltung der charakteristischen Merkmale des Sprechers zu reduzieren.

Natürlichsprachliche Systeme sind noch relativ weit von einer generellen Produktreife entfernt. Besonders in Japan und auch den USA werden hier jedoch immense Anstrengungen unternommen.

Akustische Eingabe in der Qualitätskontrolle

Die Anwendungsprobleme betreffen sowohl das Unternehmen (zum Beispiel Fragen der Wirtschaftlichkeit oder der Einsetzbarkeit) als auch den Endbenutzer solcher Systeme (Belastung, Akzeptanz etc.). Im Gegensatz zur technischen Realisierung von computer-unterstützter Kommunikation ist die Sprache nach Mimik und Gestik (Körpersprache) unsere originärste Kommunikationsform.

Eine beispielhaft in der Praxis realisierte Einsatzmöglichkeit ist die akustische Eingabe von Daten im Bereich der Qualitätskontrolle in der Automobil-lndustrie. Bei der Endkontrolle von Autos wurden bisher Mängel auf Strichlisten schriftlich festgehalten und später über Tastatur in den Rechner eingegeben. Durch die Eingabe über Sprache können diese Daten direkt dem Rechner zugeführt werden. Über Sprachausgabe erfolgt eine akustische Rückmeldung der eingegebenen Daten.

Speziell bearbeitet werden am Fraunhofer-Institut für Arbeitswirtschaft und Organisation (IAO) in Stuttgart momentan Fragestellungen aus folgenden Gebieten:

- Die alternative Steuerungsmöglichkeit bei werkstattprogrammierbaren, numerisch gesteuerten Werkzeugmaschinen (kombinierte Sprach-/Tastatur-Eingabe bei Masken-Menü-Systemen).

- Die Verknüpfung von modernen Industrierobotern mit Spracheingabesystemen. Hierbei soll insbesondere das Einlernverhalten unterstützt werden.

- Die akustische Rückmeldung durch Sprachausgabesysteme von Fehlersituationen beim Betrieb von Industrierobotern.

- Die Entwicklung eines "Text-to-Speech-Board" für die deutsche Sprache.

- Die Entwicklung neuer Kommunikationsformen durch Verbinden von (natürlich-) sprachlicher Kommunikation mit Methoden der direkten grafischen Manipulation.

Grafische Kommunikation tritt in den Vordergrund

Als natürlichste Form von potentieller Mensch-Maschine-Kommunikation wird gemeinhin die natürlich sprachliche Kommunikation mit Computern betrachtet. In der Praxis wird es jedoch in der Arbeitswelt große Probleme beim Umgang mit natürlichsprachlichen Systemen geben. Diese resultieren nicht nur aus der extremen komplexen Implementierbarkeit, sondern vielmehr oft aus der Arbeitsaufgabe, die eine rein natürlichsprachliche Kommunikation mit dem System nicht sinnvoll erscheinen läßt. Gerade in ingenieurmäßig orientierten Bereichen und im Bereich der Software-Entwicklung tritt die grafische Kommunikation aufgabenbedingt stark in den Vordergrund. Formale Sprachen für hochgeübte Benutzergruppen behalten in Zukunft weiterhin ihre zentrale Stellung.

Wesentliche Fortschritte wären von Systemen zu erwarten, bei denen aufgrund einer einheitlichen internen Repräsentation kombinierte Dialoge in Form von direkter Manipulation, natürlichsprachlicher Kommunikation sowie formaler Kommunikation realisierbar waren. Diese Systeme bieten sich für eine Vielzahl von Anwendungen, besonders im technischen und administrativen Bürobereich, an. Durch solche Systeme waren wirklich natürliche Kommunikationsformen realisierbar. Man spricht dabei auch von sogenannten symbiotischen Systemen. Die praktischen Schwierigkeiten bei der Implementierung dürfen jedoch in keiner Weise vergessen werden.

*KIaus-Peter Fähnrich, Leiter der Forschungsgruppe "Neue Informations- und Kommunikationstechnologie" am Fraunhofer- Institut für Arbeitswirtschaft und Organisation (lAO), Stuttgart; K. H. Hanne und G. Rigoll, wissenschaftliche Mitarbeiter in dieser Forschugsgruppe.

Nachdruck mit freundlicher Genehmigung des Verlages aus DSWR, Heft 3, Jahrgang 14 (1985),erschienen bei C. H. Beck, München.