Unverzichtbar in speziellen Anwendungen: Datenerfassung mit mobilen Spracheingabe-Systemen:

Keine Innovationssprünge in allernächster Zukunft

05.06.1987

Trotz erheblicher Verbesserungen auf dem Gebiet der Mensch-Maschine-Kommunikation bleibt doch in vielen Bereichen die Notwendigkeit nach einem Dialogsystem, bei dem die Sprache genutzt werden kann, bestehen. Frank-Werner Albrecht gibt einen Ausblick auf den heutigen Stand und die zu erwartende Entwicklung der Spracheingabe. Er setzt einen besonderen Schwerpunkt auf die Ausgestaltung mobiler Arbeitsplätze.

Ein wichtiges Einsatzkriterium automatischer Spracherkennung ist der Grad der erzielbaren Erkennungssicherheit. Sie entscheidet über die Effizienz und - was nicht vergessen werden darf - über die Akzeptanz durch den Benutzer. Hier eine typische Reaktion, wie wir sie aus der Kommunikation zwischen Menschen kennen: Versteht unser Gesprächspartner nicht, was wir sagten, werden wir das Gesagte mit veränderter (lauterer) Stimme wiederholen.

Verbunden sind damit meist emotionale Vorgänge, die zusammen mit der größeren Lautstärke zu einer erheblichen Veränderung des Sprachsignals führen. Solche Abläufe sind verständlicherweise von erheblicher Relevanz bei der automatischen Muster-Erkennung. Es ist leicht nachvollziehbar, daß zum Beispiel eine Verärgerung des Sprechers über die nicht ausreichende Erkennungssicherheit dazu führen muß, daß die Erkennungssicherheit weiter zurückgeht, bis schließlich gar nichts mehr geht.

Die notwendige, hohe Erkennungssicherheit wird bei sprecherabhängigen Erkennern für hundert und mehr Wörter erreicht, wobei diese Geräte für eine Verarbeitung von bis zu 500 Wörtern eingerichtet sind. Allerdings handelt es sich hierbei um Hochleistungssysteme. Bei sprecherunabhängigen Geräten liegt der Wortschatz bei unter 20 Wörtern, die zudem fest definiert sind, also vom Benutzer nicht ausgewählt werden können. Meist handelt es sich dabei um die Ziffern und einige Kommandos, wie sie im Dialog häufig gebraucht werden. Ähnliches gilt für fließende Spracherkennung. Sie wird heute in Form der sogenannten "connected digits" angeboten, das heißt, es ist eine Sprechweise ohne Pausen möglich, und gilt ebenfalls für die Eingabe von Ziffern und kurzen Kommandos.

Die Erkennungssicherheit der beschriebenen Erkenner liegt im Bereich von deutlich über 90 Prozent. Bei sorgfältiger Wahl des Wortschatzes und Durchführung des Trainings und kooperativem Sprecherverhalten im Betrieb sind Erkennungsergebnisse von 99 Prozent durchaus erreichbar. Die Erfahrung zeigt, daß diese hohe Erkennungssicherheit notwendig ist, damit die Spracherkennung vom Benutzer akzeptiert wird. So hatte, nach anfänglicher Euphorie, schon mancher Benutzer die Spracherkennung wieder zu den Akten gelegt, nachdem er zu unendlichen Wiederholungen bei der Eingabe gezwungen wurde.

Technologisch wird der Spracherkenner durch eine mikroprozessorgesteuerte Spezialplatine realisiert. Für die automatische Spracherkennung wird ein Referenz-Wortschatz

benötigt. Dieser entsteht bei sprecherabhängigen Geräten in der erwähnten vorgelagerten Trainingsphase. Um den Sprach-Erkenner möglichst universell einsetzen zu können, ist es sinnvoll, den jeweils im Betrieb genutzten Wortschatz austauschbar zu machen. Zu diesem Zweck wird er nach dem Training auf einem externen Speicher gespeichert und jeweils zu Beginn des Betriebs in den Rahmenspeicher des Erkenners zurückgeladen. Damit ist es möglich, daß beliebige Personen mit dem Erkenner weiter und zudem Wortschätze aus verschiedenen Anwendungen genutzt werden können.

Einsatzprofil für Spracherkenner

Wie bereits erwähnt, soll der Spracherkenner die Tastatur ersetzen. Die übliche Bildschirm-Tastatur als Benutzer-Schnittstelle zum Computer besteht aus Einzeltasten, mit deren Hilfe Buchstaben, Ziffern und Sonderzeichen eingegeben werden. Daneben finden wir eine Reihe von Funktionstasten, die beispielsweise zur Steuerung des Bildschirm-Cursors oder zum Abruf spezifischer Kommando-Strings dienen, die definierte Funktionen im Rechner auslösen.

Damit können wir prinzipiell zwei Datensysteme unterscheiden, nämlich die Eingabe von Steuerkommandos und die Dateneingabe im engeren Sinne in Form von Buchstabenketten oder Ziffernketten sowie Kombinationen. Tritt der Spracherkenner an die Stelle der Tastatur, könnte man zunächst vermuten, daß jeder Taste der Tastatur ein Wort des Spracherkenners zugeordnet würde. Zwar wäre damit eine komplette 1:1-Substitution der Tastatur erreicht, das Handling würde jedoch sehr mühsam werden, denn weder das akustische Buchstabieren noch ein ziffernweises Eingeben sind erfahrungsgemäß schneller, als wenn dies von Hand per Tastatur erfolgen würde.

Der Vorteil muß irgendwo anders liegen Betrachten wir deshalb eine, typische, kommerzielle Applikation mit Spracherkennung. Dabei zeigt es sich, daß die zur Verwendung kommenden Eingabewörter begrenzt sind und damit durchaus mit dem zur Verfügung stehenden, begrenzten Wortschatz eines Spracherkenners abzudecken sind. Die Eingabe erfolgt im Gegensatz zur Tastatur also wortweise, das heißt, der Benutzer spricht das Kommando "Fehler" als ein Sprachsignal, ohne sich der Mühe unterziehen zu müssen, die einzelnen Buchstaben des Wortes einzugeben.

Existierende Anwendungen der Spracherkennung

Vorzugsweise existieren Anwendungen, in denen die Erfassung der anfallenden Daten erschwert ist: Ein Lagerarbeiter, dessen Hände durch Hantieren mit Lagergut bereits belegt sind, oder ein Qualitätsprüfer, der den Pkw in der Endmontage zu prüfen hat. Für sie wäre eine Dateneingabe per Tastatur sehr umständlich und für den Arbeitsablauf hinderlich. Spracheingaben, die per Funk an den Spracherkenner übertragen werden, ermöglichen dem Benutzer die parallele Dateneingabe zur manuellen Arbeit und unter Aufrechterhaltung seiner vollen Mobilität. Dies gilt auch für Fälle, bei denen der Benutzer visuelle Untersuchungen, zum Beispiel über ein Mikroskop, vornimmt und die Ergebnisse an den Rechner weitergibt. Per Sprache kann er dies tun, ohne eine von ihm in dieser Situation schlecht bedienbare Tastatur benutzen zu müssen.

Neben den Einsatzbeispielen für Spracherkennung wie Qualitätsprüfung, Lagerwesen und Labordatenerfassung existieren unter anderem bereits Lösungen für Transportsteuerung, CAD, für die Gerätesteuerung und NC-Programmierung. Obwohl diese Liste der Anwendungen sicher nicht vollständig ist, beinhaltet sie doch heute Merkmale spezieller Aufgabenstellungen, die sich aufgrund von Kundenwünschen entwickelt haben.

Ein weiterer wichtiger Aspekt der Spracherkennung wird jedoch ableitbar, wenn wir sie als Arbeitsmittel für Behinderte betrachten. Hierbei ist die Tastaturbedienung nicht durch den Arbeitsablauf ausgeschlossen oder erschwert, sondern durch die Person des Bedieners bedingt, der sehr wohl mit dem Computer arbeiten könnte, durch seine Behinderung aber nicht in der Lage ist, die Hände für die Dateneingabe einzusetzen. Es eröffnet sich somit eine völlig neue Einsatzmöglichkeit der Spracheingabe. Hieraus ist zu erkennen, daß der Schritt vom Spezialfall zum allgemeinen Einsatz schon heute darstellbar ist; denn warum sollte die den Behinderten zur Verfügung stehenden Möglichkeiten der Spracherkennung nicht auch dem allgemeinen Benutzer zugute kommen?

Aspekte beim Aufbau eines Sprachdialog-Systems

Neben der sinnvollen Auswahl der Wörter des Vokabulars müssen die folgenden Punkte ebenfalls prioritär beachtet werden:

- Welche Randbedingungen sind für die Spracheingabe zu beachten?

- Welches Feed-back-Medium wird eingesetzt? Akustisch oder visuell?

- Wie können kritische Wörter erkannt und nachtrainiert werden?

- Welche Dialogteile müssen bezüglich der Sicherheit einer korrekten Eingabe besonders geschützt werden?

- Wie bringe ich die akustische Information mit möglichst hoher Erkennungsrate vom Sprecher zum Spracherkenner?

Die Probleme dieses Fragenkataloges sind nicht unlösbar. Das beweisen die bereits erfolgten Installationen. Allein das Wissen um diese Zusammenhänge ermöglicht das richtige Angehen der Probleme. Da die Erkennungsrate in hohem Maße von der Qualität der eingegebenen Sprachinformationen abhängt, sollen im folgenden die heutigen Möglichkeiten und Randbedingungen der drahtgebundenen und drahtlosen Dialog-Systeme untersucht werden.

Kriterien für die Mikrofonauswahl

Gleichgültig, ob die Eingabe der Sprachinformation drahtlos oder drahtgebunden erfolgt, in jedem Fall wird ein Mikrofon benötigt, das die akustische Information des Sprechers in elektrische Spannungen umgewandelt. Neben grundlegenden Voraussetzungen, wie Übertragungsbereich, gleichmäßiger Frequenzgang, minimale Eigenverzerrungen, müssen kundengerechte Lösungen geschaffen werden, die sowohl den Umweltlärm, den auftretenden Körperschall, die Mobilität, die ergonomischen Forderungen etc. berücksichtigen. Bei der Suche nach Lösungen der Spracheingabe muß das Feed-back-Medium akustisch oder visuell stets berücksichtigt werden.

In den meisten Fällen bietet sich ein akustischer "Roger-Piep" als Feed-back an, so daß hierbei üblicherweise Hör-/Sprechgarnituren mit hochwertigen Mikrofonen zur Anwendung kommen. Für die Arbeit im Laborbereich eignen sich vorzugsweise fest installierte, drahtgebundene Mikrofone, die im Mikroskopbereich aufgebaut werden. Bei diesen Mikrofonen ist darauf zu achten, daß keine Überhöhung der tiefen Frequenzen durch Nachbesprechung auftritt, keine Poppgeräusche entstehen und auftretende Körperschallgeräusche wirkungsvoll gedämpft werden.

Für die Computer-Spracheingabe werden - vor allem aus vorstehenden Gründen - gern Mikrofone verwendet, die stets einen festen Abstand zwischen Sprecher und Mikrofon garantieren. Daher eignen sich am Kopf befindliche Mikrofone oder Hör-/-Sprechgamituren besonders gut für diesen Einsatzzweck. Wird in lärmerfüllter Umgebung gearbeitet, ist dafür zu sorgen, daß die Sprachinformation des Anwenders ausreichend weit über der des Lärmpegels liegt. Daher werden für diese Bereiche vorzugsweise lärmkompensierte Richtmikrofone eingesetzt, die zur Erzielung eines hohen Störabstandes nah besprochen werden.

Dies macht eine Entzerrung der tief en Frequenzen notwendig. Auch die Richtcharakteristik ist in der Regel frequenzabhängig, so daß bei der Positionierung des Mikrofon vorzugsweise nur eine Sprechrichtung möglich ist; denn Frequenzgangänderungen während der Spracheingabe können die Erkennungsrate senken. Wunder können jedoch auch Richtmikrofone nicht vollbringen. Gegenüber einem Mikrofon mit Kugelcharakteristik kann bei sehr guten Richtmikrofonen ein drei- bis viermal so großer Besprechungsabstand gewählt werden, um das gleiche Verhältnis Nutz-/Störschall wie bei einem Kugelmikrofon zu erhalten.

Der Einsatz von Spezialmikrofonen (Maulkorbmikrofon, Im-Ohr-Mikrofon) ist erfarungsgemäß nicht möglich, da hier der gleichmäßige breitbandige Übertragungsbereich fehlt. Oftmals bringen jedoch nah angebrachte Mikrofone mit Kugelcharakteristik bessere Ergebnisse als entfernt aufgestellte Richtmikrofone. Die Auswahl des richtigen Wandlerprinzips ist ebenfalls abhängig vom Kundenbedarf. Man wird sich jedoch meist für Kondensatormikrofone entscheiden, die aufgrund ihrer geringen Membranmasse weniger körperschallempfindlich sind. Auch die zu realisierenden Bauformen (Abmessungen) bei hoher Übertragungsqualität sind eine wichtige Eigenschaft. Die mechanische beziehungsweise klimatische Stabilität von Kondensatormikrofonen ist für die Hersteller kein Thema mehr.

Aufgrund der Automatisierung im Fertigungsbereich sowie im Lagerund Transportwesen kam von den Anwendern immer stärker der Wunsch nach mobiler Datenerfassung und -übermittlung. Wie bereits dargestellt, benötigen die Benutzer ihre Hände und Augen für andere Arbeiten, so daß die mobile Computer-Spracheingabe eine notwendige Konsequenz darstellt. Die Erfahrung hat gezeigt, daß alle existierenden Lösungen kundenspezifische Lösungen darstellen. Dies gilt vom Arbeitsgerät bis zur Software. In jedem Fall jedoch befindet sich am Anfang der Übertragungskette ein Mikrofon, das an die spezifischen Arbeitsgewohnheiten des Anwenders angepaßt ist.

Medien für die mobile Datenübertragung

Als Medium für die Datenübertragung bietet sich der Ultraschall, das Infrarot-Licht und/oder die Hochfrequenz an. Auch eine Kombination der verschiedenen Medien miteinander ist für die Spracheingabe und Rückantwort möglich. Alle existierenden Projekte haben bisher gezeigt, daß die unmittelbare Spracheingabe vorzugsweise über Hochfrequenz zu realisieren ist. Die Übertragung des Quittungstones erfolgte per Ultraschall oder Infrarot-Licht. Parallel können die Daten über einen Bildschirm gesichtet werden.

Die optimale Lösung wird möglich, wenn sowohl für den Hin- und auch den Rückkanal eine Hochfrequenzübertragung gewählt wird. Dies ist jedoch in den meisten Ländern problematisch, da derzeit, wie in der Bundesrepublik beispielsweise, nur 17 Frequenzpaare für die Computer-Spracheingabe zur Verfügung stehen. Auch hier ist nicht gewährleistet, daß alle 17 Frequenzen parallel in unmittelbarer Nähe betrieben werden können.

Bereits 1983 wurde gemeinsam von der CGK-Konstanz und Sennheiser electronic ein mobiles Übertragungssystem konzipiert, das die zur Erfassung der Versanddaten im Ersatzteillager bei Ford, Köln, notwendigen Informationen per Sprache erhält. Die Benutzer dieser, mobilen Einheit sind hierbei mit einer leichten Sennheiser-Hör-/-Sprechgarnitur ausgerüstet, deren Mikrofon auf einen Mikroportsender geführt wird. Das in dem Mikroportempfänger ankommende Signal wird in das Spracheingabegerät und dann weiter in die Zentralrecheneinheit übergeben.

Der online verarbeitende Rechner gibt dann ein Quittungssignal auf einen Ultraschallsender. Dieser wiederum spricht einen Ultraschallempfänger an, der das Quittungssignal auf die Hörersysteme der Hör-/ Sprechgarnitur bringt. Als zusätzliche Kontrolle existiert in diesem System ein Bildschirmsichtgerät. Gemeinsam mit dem System ergibt sich folgender Arbeitsablauf:

Die Ersatzteillager werden überwiegend per Lkw in 15 europäische Länder versandt. Im Lager werden die Versandeinheiten zusammengestellt. Vor dem Verlassen des Lagers werden die Packstücke erfaßt. Hierbei geben Lagermitarbeiter über Sprache die Versanddaten auf und erstellen so die Ladelisten als Transportbegleitpapiere. Die erfaßten Daten (Verpackungsart, Packstücknummer, Gewicht, Kenndaten und Verteilzentren, Spedition und Lkw) erscheinen einerseits auf den Ladelisten und werden andererseits in der zentralen DV gebraucht, zum Beispiel die Rechnungen für die Händler geschrieben werden.

Bei der Auswahl der Hochfrequenzkomponenten ist, wie bei den Mikrofonen, auf eine hohe Übertragungsqualität zu achten. Auch hier muß die Information aufgrund einer hohen Erkennungsrate ohne Qualitätsverlust und zusätzlich produzierte Störungen übertragen werden. Rauschfahnen und ähnliche Erscheinungen werden beim Sennheiser-System ohne ein Compander-System minimiert.

Diese Kombination wird in Zukunft immer häufiger zum Einsatz kommen. Es sei denn, das Hochfrequenzband wird intensiv für die Computer-Spracheingabe geöffnet. In Versuchen bei namhaften Automobilherstellern wurden bereits erste, vielversprechende Ergebnisse erzielt. Wie im Fallbeispiel Ford, Köln, erfolgt die Computer-Spracheingabe über einen Hochfrequenzkanal. Die Übermittlung des Quittungstones wird über das Medium Infrarotlicht vorgenommen.

Hierzu ist es lediglich notwendig, daß eine Verbindung vom Zentralrechner zum Infrarotsender hergestellt wird. In dem jeweiligen Arbeitssektor wird von hier aus auf einen Infrarotlicht-Strahler das Quittungssignal gegeben, so daß der Rückkanal (es stehen bis zu 12 IR-Übertragungskanäle zur Verfügung, die durch verschachtelte Positionierung mehrfach in Werkshallen genutzt werden können) auf den Infrarot-Empfänger des Benutzers übertragen wird. Die Kombination Infrarot/HF hat den Vorteil, daß bei größeren Projekten eine maximale Anzahl von Hochfrequenzkanälen über hochwertige Anlagekomponenten genutzt werden können.

Perspektiven der Computer-Spracheingabe

Mit Innovationssprüngen ist in naher Zukunft nicht zu rechnen. So werden sprachverstehende Systeme mit praktisch unbegrenztem Wortschatz noch geraume Zeit auf sich warten lassen. Wohlgemerkt, es gibt schon heute Ansätze und ernstzunehmende Ergebnisse; allein ihre Ausbaufähigkeit zu kommerziell einsetzbaren Produkten ist noch nicht klar abzusehen. Dasselbe gilt für sprachunabhängige Erkennung mit großem Wortschatz sowie für fließende Spracherkennung. Sprecherabhängige Geräte mit sehr großem Wortschatz auszustatten, verbietet sich wegen des damit verbundenen Trainingsaufwands. Hier allerdings könnte künftig ein interessanter Ansatz durch sogenannte sprecheradaptive Systeme in Sicht sein. Geliefert wird hierbei ein vorfabrizierter Wortschatz, der sich im Laufe der Zeit an den jeweiligen Sprecher adaptiert.

Lösungen für mobile und drahtgebundene Anwendungen stehen schon heute in dem gewünschten Qualitätsniveau zur Verfügung, so daß sich voraussichtlich in diesem Bereich ein Schwerpunkt bei der Erhöhung der Übertragungskanäle ergibt.