VLSI-Chips erweitern DV-Einsatzbereiche:

Mikroverdrahtung läßt Computer sprechen

16.12.1983

Die Kommunikation zwischen Mensch und Computer steht vor einer der wichtigsten Neuerungen ihrer Geschichte: der Ein- und Ausgabe von menschlicher Sprache. Während der sechziger Jahre benutzte man hauptsächlich Lochkarten und Lochstreifen für die Informationseingabe, zusätzlich Drucklisten für die Ausgabe. Als deutlicher Fortschritt wurde die Einführung von Bildschirmen und Tastaturen in den siebziger Jahren gewertet, wenn es auch hier und da anfänglich Widerstand gegen die neuen Kommunikationshilfsmittel gab.

Direkte Folge der Einführung dieser neuen Techniken war eine Erhöhung der Effektivität und der Produktivität. Die Fortschritte der Hochintegrationstechnik (VLSI) führen heute zum Eindringen elektronischer Datenverarbeitung in immer neue Bereiche. Zwangsläufig kommen dabei auch immer mehr Menschen, die keine spezielle Ausbildung in diesem Bereich erfahren haben, mit entsprechenden Geräten und Anlagen in Kontakt. Um keine Rückschläge in der Produktivität zu erleiden, sind deshalb weiterentwickelte Kommunikationstechniken, die den Umgang mit dem Computer so einfach wie möglich machen, vorrangig zu entwickeln.

Eigentlich ist Sprachein- und -ausgabe nichts allzu Neues. Schon zu Beginn der siebziger Jahre wurden vereinzelt entsprechende Geräte auf den Markt gebracht. Der Markterfolg war jedoch recht gering, da der Softwareaufwand zur Einbindung in ein System erschreckend groß und das Preis-/Leistungsverhältnis ziemlich ungünstig war. Hier hat die Entwicklung der VLSI-Technologie entscheidende Fortschritte ermöglicht. Leistungsfähige 16-Bit-Prozessoren und spezielle signalverarbeitende Prozessoren ermöglichen den Einsatz komplexer, aber sehr stabiler Algorithmen. Damit wird zugleich der Hauptteil der Problemlösung in Soft- und Firmware verlagert, was zu erhöhter Flexibilität bei Änderungen und Verbesserungen des Produkts führt. Gleichzeitig werden die Hardwarekosten gesenkt, weil preiswerte Komponenten aus der Massenfertigung verwendet werden können.

Vor kurzem wurde von Intel ein Spracherkennungsmodul auf den Markt gebracht, der exemplarisch zeigt, welche Lösungen heute beim Einsatz modernster Hardware möglich sind. Die wichtigsten Eigenschaften und Bestandteile dieses Systems sind:

- Ein Sprachverarbeitungsmodul. Dieser Modul führt nicht nur die eigentliche Spracherkennung durch, sondern auch weitere Arbeitsgänge wie Rückmeldungen an den Bediener, Pufferung von Nachrichten, Übertragung der Information ins Benutzersystem.

- Unterstützung für die Entwicklung der Anwendersoftware. Damit werden Aufwand, Kosten und Risiko des Anwenders reduziert.

- Wahlweise Benutzung verschiedener Integrationsgrade bei gleicher Anwendungssoftware. Es wird nicht nur das Komplettsystem angeboten sondern auch ein funktionell identischer Platinensatz sowie die Bauelemente, um auch diese Platinen selbst aufbauen zu können.

Wie auch beim Übergang von der Lochkarte zum Bildschirm ist die richtige Strukturierung und Anwendung der neuen Hilfsmittel zur Sprachverarbeitung der Schlüssel zum Erfolg. Hier soll deshalb zuerst die grundlegende Struktur der Kommunikation mittels Sprache kurz erläutert werden.

Repeat bei Übermittlungsfehlern

Sowohl der (menschliche) Sender wie auch der (menschliche) Empfänger formen eine Nachricht um. Der Sender muß akustische Signale erzeugen, die die zu übertragende Nachricht darstellen, der Empfänger reagiert auf die Nachricht und gibt eine Rückmeldung zum Sender. War etwa die Nachricht für den Empfänger unverständlich, so gibt er eine entsprechende Fehlermeldung zurück und der Sender wiederholt die Nachricht. Bei der Wiederholung werden dann besser verständliche Worte verwendet oder die Sprechgeschwindigkeit reduziert.

Im Prinzip funktioniert die Kommunikation zwischen einem Menschen und einem Computer genauso. Der Computer zeigt durch Rückmeldungen, zum Beispiel über einen Bildschirm, ob und was er verstanden hat. Natürlich müssen die zu erkernnenden Worte und Sätze zuerst in einem Training der Maschine bekannt gemacht werden. Mit Hilfe der erwähnten Rückmeldungen kann dann der Benutzer sein Verhalten der Leistungsfähigkeit des sprachverarbeitenden Systems anpassen. Wegen der Trainingsbedürftigkeit wird das System im allgemeinen nur in der Lage sein, die Person zu verstehen, die das Training durchführte. Der Einsatz von Spracherkennung ist also nur dann sinnvoll, wenn sich Abläufe mit demselben Sprecher hinreichend oft wiederholen.

Aus dem oben erwähnten Modell lassen sich weitere wichtige Schlüsse ziehen. Zum einen muß die Zeit bis zur Rückmeldung durch den Computer recht kurz sein. Untersuchungen haben gezeigt, daß im Gespräch die Zeit bis zur Antwort durch den Partner, sei sie verbal oder durch Körpersprache ausgedrückt, nur etwa eine halbe Sekunde beträgt.

Ebenfalls sehr wichtig sind Fehler des Systems, nämlich Nichterkennen oder Falscherkennen von Sprachmustern. Während aber Nichterkennen keine allzu großen Auswirkungen hat, kann Falscherkennen zu erheblichen Irritationen des Benutzers führen und auf Dauer die Akzeptanz eines spracherkennenden Systems gefährlich reduzieren. In derselben Weise können sich etwa Beeinträchtigungen durch Hintergrundgeräusche, Husten oder ähnliches auswirken.

Da Sprachverarbeitung interaktiv vorgenommen wird, müssen gleichzeitig Eingabeanforderungen an den Benutzer und Kontrollausgaben zur Überprüfung der richtigen Erkennung generiert werden. Damit ist es möglich, den Benutzer auch durch komplexere Aufgaben hindurch zu leiten. Gleichzeitig besitzt dieses Verfahren große Bedeutung für eine hohe Zuverlässigkeit des Systems, da durch die Benutzerführung viele Fehler von Anfang an vermieden werden.

Dazu gehört etwa das "Überhören" einer Nachricht. Durch das Frage- und Antwortspiel wird ein solcher Fehler unverzüglich entdeckt. Da außerdem Klartext benutzt wird, also auch im Umgang mit anderen Menschen benutzte Terminologie, sind Codefehler des Bedieners weitgehend ausgeschlossen.

Für die Anordnung des Mikrofons gibt es eine Reihe von Möglichkeiten. In vielen Anwendungen kommt ein direkter Anschluß über Kabel in Frage. Sollen weitere Entfernungen überbrückt werden, ist der Einsatz von Infrarotübertragungen oder drahtlosen Mikrofon zu erwägen.

Der Mensch ist Bestandteil des Systems

Für die Eingabeanforderungen und zur Überprüfung der Richtigkeit kommen Bildschirme und Sprachsynthese in Frage. Man muß allerdings immer daran denken, daß eine angemessene Auswahl dieser Hilfsgeräte für die Akzeptanz des Systems von entscheidender Bedeutung ist. In Gegensatzt zu anderen Bereichen (...) hier nämlich der Mensch nicht nur Benutzer, sondern Bestandteil des Systems!

Das bereits oben kurz erwähnte Sprachverarbeitungssystem bietet eine Reihe von Eigenschaften an, die dem beschriebenen Implementationsweg sehr entgegenkommen. Intel bietet das Produkt auf drei verschiedenen Integrationsebenen an.

Das SBC570 ist ein komplettes System mit Mikrofon Sprachverarbeitungsplatine, der erforderlichen Software und dem direkten Anschluß an Intel Entwicklungssysteme. Das Entwicklungssystem kann dabei auch die Rolle des Gastrechners übernehmen. Mit dieser Kombination ist es möglich, die erforderlichen Entwicklungen der ersten beiden Schritte auszuführen.

Das Sprachverarbeitungsboard SBC570 umfaßt nur die Hard- und Firmwarefunktionen zur Spracherkennung. An Anschlüssen stehen wahlweise ein Multibus-Interface oder eine serielle Schnittstelle (V.24) zur Verfügung. Ebenfalls zur Verfügung stehen die entsprechenden Signale für die Bedienerkonsole. Ein zweiter serieller Kanal dient zur Führung des Benutzers und zur Weiterleitung der Rückmeldungen.

Auf der Bauelemente-Ebene wird ein Satz von Komponenten (SBC570) angeboten, der technisch identisch ist zu den Komponenten, die im System oder auf den Platinen eingesetzt werden. Der Satz enthält Intels Signalprozessor 2921, den Single-Chip-Computer 8048 sowie den 16-Bit-Standardprozessor 8086. Als EPROM-Speicher ist der 27128 vorgesehen. Da nur Standardkomponenten eingesetzt werden, kann der Benutzer von sprachverarbeitenden Systemen mit dem üblichen Preisrückgang für elektronische Bauelemente rechnen.

Die Ankündigungen der Unternehmen aus dem Bereich der Büro- und Fabrikautomatisierung zeigen sehr klar, welche Bedeutung der direkten Kommunikation mit dem Computer durch Sprachverarbeitung beigemessen wird. Manche gehen so weit, für die achtziger Jahre eine Revolution der Datenverarbeitung durch spracherkennende Systeme vorauszusagen.

Henning Wriedt ist Marcom-Manager der Intel Semiconductor GmbH, München.