Arbeiter sprechen zum System wie zum Kollegen

Spracherkennung: Akzeptanzbarriere überwunden

04.02.1983

FRAMINGHAM/MASS. (cw) - Stagnierende Forschung, aber dennoch befriedigende praktische Anwendungen registriert Tom Henkel vom Redaktionsstab der COMPUTERWORLD im Bereich der Spracherkennung: Die eigentliche Wissenschaft von der Spacherkennung habe seit 30 Jahren keine wirklichen Fortschritte gemacht, trotzdem könne im Bereich der Fertigung - bei schwankender Akzeptanz - teilweise von guten Ergebnissen gesprochen werden. Bei General Electric schienen die Arbeiter ihre Spracherkennungsysteme sogar zu "mögen".

In dem nun schon klassischen Raumfahrtroman "Odysse im Weltraum 2001" des Autoren Arthur C. Clarkes, gehört ein zuhörender, nachdenklicher und sprechender Computer zur Vision der Zukunft. Dieser Computer mit Namen HAL 9000 reagiert nicht nur auf gesprochene Befehle, sondern antwortet verbal und ist seinem Herrn am Ende sogar geistig überlegen. Unsere Wirklichkeit sieht aber zum Glück anders aus. Computer wie HAL 9000, die zum Repertoire der meisten Zukunftsvisionen gehören, sind heute noch ebenso Sciencefiction, wie sie es vor zehn Jahren waren. Wissenschaftler haben zwar eindrucksvolle Sprachsynthesegeräte entwickelt, doch sind die meisten der Ansicht, es gäbe noch keine direkte Lösung des schwierigen Problems, Computer so zu programmieren, daß sie auf die Sprache des Menschen hören.

Weit entfernt von der Konversationsfähigkeit

Steve Levinson, Wissenschaftler am Acoustic Research Department der Bell Laboratories in Murray Hill, N.J., hat zwei Hauptprobleme festgestellt, denen sich die Spracherkennungstechnik gegenübergestellt sieht. Erstens wissen die Wissenschaftler noch zu wenig darüber, wie die menschliche Sprache überhaupt zustande kommt, um eine diese Sprache verstehende Maschine entwickeln zu können. Und zweitens sind die bis heute entwickelten Spracherkennungsprodukte noch weit von jeder Konversationsfähigkeit entfernt.

Die meisten heutigen Spracheingabesysteme verlangen vom Benutzer eine ganz bestimmte, oft unnatürliche Redeweise. Nun hat das aber, wie Levinson betont, zu einem Akzeptanzproblem und geringem Interesse des Markts an Spracherkennungsprodukten geführt. Das wiederum hat die Forschungstätigkeit gebremst und zu kommerziellen Spracherkennungssystemen geführt, deren Funktion unzulänglich ist.

Die Kritik an der Spracherkennungstechnik kann bis auf eines der ersten Experimente in der Spracherkennung zurückgeführt werden. In diesem vor etwa 30 Jahren an den Bell Laboratories durchgeführten Experiment wurde eine Maschine so geschaltet und programmiert, daß sie einzelne gesprochene Ziffern erkennen konnte. Dasselbe war bei dem damaligen "Shoebox"-Projekt der IBM der Fall. Aber abgesehen von der Tatsache, daß die damaligen Röhren und Spitzentransistoren inzwischen durch Siliziumchips ersetzt wurden, hat die Spracherkennungstechnik nach Ansicht der Kritiker in den inzwischen verstrichenen 30 Jahren keine wirklichen Fortschritte gemacht.

Die Hersteller der Spracherkennungshardware sind da anderer Ansicht. Jeff Gruza, Leiter der Marketingentwicklung bei der Threshold Technology, Inc., gab zwar zu, daß die Spracherkennungsverfahren noch keineswegs vollkommen sind, das Hauptproblem sei aber die Einstellung der Benutzer, die zu einer Überbewertung der Vorteile eines Spracherkennungssystems neigen. Wie er feststellte, haben viele Unternehmen Spracherkennungssysteme mit Erfolg installiert, und die meisten haben Produktivitätssteigerungen verzeichnet oder konnten durch Übergang auf Spracherkennungsverfahren ein schwieriges Betriebsproblem lösen.

Beide Hände und die Augen

Typische Spracherkennungsanwendungen sind die Dateneingabe, vor allem unter erschwerten Betriebsbedingungen, die Qualitätskontrolle in Fertigungsbetrieben und das Sortieren von Waren. Im Prinzip eignen sich alle Tätigkeiten, die ständig beide Hände und Augen einer Person beanspruchen, für den Einsatz von Spracherkennungssystemen.

In den vergangenen vier Jahren hat die General Electric Co. in verschiedenen Fertigungswerken sechs Spracherkennungssysteme für Qualitätskontrollfunktionen installiert. Ihre Anwendungen erstrecken sich von der Prüfung von Leiterplatten bis zum Bau von Großgeräten, konkretisiert Jeff Erlich, ein Sprecher von General Electric.

Im Gegensatz zu Kritikern und Beobachtern der Spracherkennungsentwicklung hält Erlich trotz der immer noch mangelnden Akzeptanz die Technologie für völlig ausreichend. Ein Hindernis könne vielmehr das "Interfacing" der gesprochenen Eingabe mit Datenverarbeitungshardware sein. Anstelle weiterer Forschungsprojekte zur Verbesserung der theoretischen Grundlagen sollte seiner Ansicht nach mehr an Einrichtungen zum Anschluß an herkömmliche Rechner und Automatisierungshardware gearbeitet werden. "In diesem Fall hätte ich ein nützliches Produkt, sonst hätte ich gar nichts", meinte er.

Nützliches "Interfacing"

Voraussetzungen für einen Erfolg bei Spracherkennungssystemen sind nach Erlich eine gewissenhafte Beachtung aller Details und die Entwicklung von Systemen, die für den Mann in der Fertigung bedienungsfreundlich sind. Das heißt nicht zuletzt, daß dessen Sprachgebrauch zu berücksichtigen ist, damit der Arbeiter fast so zum System sprechen kann wie zu seinem Kollegen.

Die Arbeiter bei General Electric scheinen ihre Spracherkennungssysteme zu. "mögen", da sie zu ihnen nicht auf eine gekünstelte Art und Weise zu sprechen brauchen, sagte Erlich. Hauptgrund für die bereitwillige Aufnahme bei General Electric ist der Einsatz von Systemen, die auf die Benutzer zugeschnitten sind, im Gegensatz zum einfachen Ersatz einer Datenstation durch ein Mikrofon.

Ungeachtet aller Fortschritte seit den Tagen des Experiments mit Röhren und Transistoren bei den Bell Labs vor 30 Jahren stecken Spracherkennungssysteme zum größten Teil noch in den Kinderschuhen. Einerseits sind die meisten kommerziellen Systeme immer noch anwenderabhängig und müssen an das Sprachmuster dieses einen Benutzers angepaßt werden, der außerdem noch Pausen zwischen den einzelnen Eingaben machen muß, andererseits konnten die Wortvorräte durch die Entwicklung der Speichertechnologie bedeutend vergrößert werden.

Darüber hinaus haben Fortschritte in der Technologie der peripheren Geräte, beispielsweise der Mikrofone und Filter, frühere Probleme mit dem Hintergrundrauschen gelöst. Sie zwangen die Benutzer früher, die Eingaben zu wiederholen oder aber die Maschinen buchstäblich anschreien zu müssen.

Aus COMPUTERWORLD vom 17. Januar 1983 übersetzt von Hans J. Hoelzgen

703 Böblingen