Sprecherabhängige Geräte bieten Erkennungssicherheit von 99 Prozent:

Stopp-Konsonanten verwirren den Rechner

24.05.1985

Vor weit größeren Problemen als die Sprachausgabe steht derzeit die Spracherkennung mit Hilfe des Computers, da Heiserkeit und Stimmungslage des Sprechers sowie die jeweilige Umweltakustik diese Form der Dateneingabe erschweren. Die heute verfügbaren Spracherkennungssysteme mit "begrenztem Hörvermögen" leisten jedoch in vielen Anwendungsbereichen schon gute Dienste.

Datenerfassung wird immer weniger als ein isolierter Vorgang, sondern vielmehr als ein integrierter Bestandteil der Datenverarbeitung angesehen. Die richtige Methode der Datenerfassung ist vor allem von der Art der Unternehmensorganisation (zentral oder dezentral), der Menge und Art der zu erfassenden Daten, von den Arbeitsbedingungen bei der Datenerfassung, den Aktualitätsgesichtspunkten sowie dem Zeitraum der Datenerfassung und -verarbeitung abhängig.

So hat die Online-Datenerfassung über Bildschirmterminals vorwiegend im Bereich kaufmännischer Verwaltungen und bei Platzbuchungssystemen der Fluggesellschaften einen dominierenden Rang erreicht, zumal in diesen Anwendungsbereichen die Vorzüge des Computers voll ausgeschöpft werden können. Nicht alle Aufgaben der direkten Datenerfassung lassen sich jedoch mit Bildschirm-Terminals abdecken.

Direkte Datenerfassungsmethoden über optische Zeichenerkennung (OCR: Optical Character Recognition) und Spracherkennung werden deshalb immer bedeutungsvoller. Niedrige Fehlerquoten, hohe Anpassungsfähigkeit und Preisgünstigkeit sind Faktoren, die dieses Wachstum entscheidend beeinflussen.

Das Spracheingabesystem übernimmt die Aufgabe des menschlichen Ohres: Es identifiziert vom Menschen gesprochene Sprachinhalte und stellt sie in maschinengerechter Form für eine weitere Verarbeitung im Computer zur Verfügung. Die Sprachausgabe ist im Vergleich zur Spracheingabe technisch unkomplizierter, insbesondere da die benötigten akustischen Signale aus Sicht des Rechners bekannt sind. Bei der Spracheingabe muß mit im Prinzip unbekannten Signalen gearbeitet werden, die erst in einem Vergleichsprozeß mit einem bekannten Wortschatz verifiziert werden müssen.

Digitale Daten akustisch auszugeben heißt daher, einen Weg der Transformation zu finden. Hierzu existieren heute zwei Lösungen:

- Digitalisierte Sprachausgabe: In einem vorgeschalteten Gang werden Sprachmodule wie Wörter oder Satzteile digitalisiert und auf einem elektronischen Speicher abgelegt. Sie können bei Bedarf von dort wieder abgerufen und in analoge (hörbare Form umgesetzt werden Die digitalisierte Sprachausgabe besitzt eine hohe Qualität, läßt wegen des benötigten Speichers aber nur begrenzte Wortschätze zu.

- Synthetische Sprachausgabe: Bei dieser als "Robotersprache" bekannten Methode wird die digitale Information direkt über einen Synthesizer in Sprachausgabe umgesetzt. Die hierbei erzeugte Sprache klingt künstlich; der Vorteil der Methode liegt darin, daß der Wortschatz unbegrenzt ist und keine teuren Speicher benötigt werden.

Sprach-Erkennung und Sprech-Erkennung

Allein die Tatsache, daß sich die Stimme ein und derselben Person, bedingt durch äußere und innere Einflüsse wie Umfeldakustik oder Heiserkeit und Stimmungslage Sprechers, sehr stark verändern kann, macht deutlich, daß die Computerspracheingabe vor weit komplizierteren Aufgaben steht als die Sprachausgabe. Kommt ein anonymer Benutzerkreis dazu, sind also außerdem die sprachlichen Abweichungen zwischen unterschiedlichen Personen zu berücksichtigen, scheint die Aufgabe schier unlösbar.

Trotz der großen technischen Fortschritte bei der Entwicklung und Verbesserung von Spracheingabegeräten gerade in den vergangenen Jahren konnten bis heute nur Teilziele einer umfassenden maschinellen Erkennung menschlicher Sprache erreicht werden.

Von der Aufgabenstellung her wird bei der Spracheingabe nach Sprach-Erkennung und Sprech-Erkennung unterschieden. Die Spracherkennung dient der Vermittlung gesprochener Information einer Person, während die Sprechererkennung der Identifikation dieser Person mit Hilfe seiner spezifischen Sprachmerkmale dient.

Der heutige Stand der Technik läßt sich an einer Zielvorstellung - sozusagen dem Idealtyp eines Spracherkenners - messen. Dieser müßte folgende Leistungsmerkmale besitzen:

- Sprecherunabhängigkeit;

- fließende Spracheingabe;

- unbeschränkten Wortschatz.

Es ist sehr aufwendig und schwierig, Spracherkenner für einen anonymen Personenkreis zu entwickeln. Insbesondere ist kaum eine akzeptable Erkennungssicherheit zu erreichen. Es wundert deshalb nicht daß sich die Forschung und Entwicklung zunächst auf die Erstellung sprechergebundener Geräte konzentrierte.

Dabei zeigte es sich, daß diese Eingrenzung sinnvoll war, da sie relativ schnell zu greifbaren Ergebnissen führte und damit in der Praxis einsetzbare Geräte brachte. Die Bindung der Geräte an einen Sprecher schränkt zudem das Anwendungsspektrum nicht in dem Maße ein, wie man vielleicht befürchten könnte.

Dem Betrieb der Geräte geht eine Anpassung an die spezifischen sprachlichen Merkmale des Sprechers - eine sogenannte Trainingsphase - voraus. Dabei wird ein sprecherbezogener Wortschatz gebildet. Diesen Vorgang führt man für alle Personen, die im Rahmen einer Anwendung mit dem Rechner sprechen sollen, durch. Damit kann bei Arbeitsbeginn oder Schichtwechsel der Wortschatz des jeweiligen Benutzers in das Gerät geladen werden.

Sprecherunabhängige Spracherkenner benötigen diese Trainingsphase naturgemäß nicht; ihr Wortschatz ist fest vorgegeben. Da solche Geräte mit großen Aussprachevarianten rechnen müssen, sind sie meist auf kleine Wortschätze spezialisiert, um eine akzeptable Erkennungssicherheit zu erreichen.

Freie Wortwahl bei Sprecherunabhängigkeit

Sprecherabhängige Geräte sind flexibler, da sie eine freie Wahl der Worte zulassen. Dies bedeutet, daß der Wortschatz der jeweiligen Anwendung angepaßt werden kann. Jeder Benutzer darf die einzelnen Worte seines Wortschatzes in der für ihn natürlichen Sprechweise sprechen. Dialekte und Fremdsprachen sind da(...) kein Hinderungsgrund.

Die im Vergleich mit anderen Eingabemedien geforderte Sicherheit vor falscher Eingabe macht eine Erkennungsgenauigkeit von knapp unter 100 Prozent notwendig. Hohe Rückweisungsraten oder Falscherkennungen würden die Akzeptanz durch den Benutzer gefährden. Da das kooperative Verhalten der Sprecher erwünscht ist (ein verärgerter Sprecher spricht anders und weniger sorgfältig), muß dies beachtet werden.

Die heute am Markt angebotenen, sprecherabhängigen Geräte bieten eine Erkennungssicherheit von 99 Prozent bei einem Wortschatz von 50 bis zu mehreren hundert Wörtern.

Sprecherunabhängige Geräte operieren in einem Bereich von weniger als 20 Wörtern; meist handelt es sich um die zehn Ziffern und einige wenige Steuerkommandos, bei einer Erkennungssicherheit von etwa 95 Prozent. Daraus ergibt sich ein eingeschränktes, aber nicht uninteressantes Anwendungsfeld (zum Beispiel Auskunftssysteme, telefonisches Bestellwesen etc.).

Der Mensch spricht normalerweise ohne erkennbare Pausen zwischen den einzelnen Wörtern: Die Worte werden in ihrem Übergang verschliffen. Pausen werden am Satzende

oder auch innerhalb eines Satzes gemacht.

Es ist typisch für die menschliche Sprechweise, daß diese Pausen bei mehrfacher Aussprache desselben Satzes nicht reproduzierbar sind; sie treten immer wieder an anderen Stellen des Satzes auf. Außerdem gibt es innerhalb eines Wortes ebenfalls Pausen (sogenannte Intrawortpausen) nach Stopp-Konsonanten wie b, t oder k. Da der Computer die gesprochene Information nur "portionsweise" verarbeiten kann, benötigt er ein Abschlußkriterium für eine Eingabe. Hierfür bietet sich die Sprechpause an. Eine sinnvolle Verarbeitungseinheit stellt dabei das einzelne Wort dar. So wurde auch zunächst der Weg der sogenannten Einzelworterkennung beschritten, bei der der Benutzer nach jedem Wort eine für das System erkennbare Pause machen muß. Dies ist bei vielen Anwendungen völlig unproblematisch, da ein kommandohaftes Einsprechen von Daten zu bewältigen ist.

Andere Anwendungen machen jedoch die zügige Eingabe von Wortgruppen (zum Beispiel die Ziffern einer Zahl) notwendig. Hier erweist sich das Einfügen von Pausen als lästig und führt zu einem abgehackten Sprechen.

Die Analyse der üblichen Geschäftskorrespondenz ergibt einen verwendeten Wortschatz von rund 8000 Worten, wovon 5000 der Umgangssprache angehören und die restlichen 3000 fachspezifisch sind. Damit wird eine Größenordnung erreicht, die zur Zeit für Spracheingabegeräte nicht sinnvoll handhabbar ist.

Bedenkt man, daß ein genau definierter Wortschatz für den Benutzer nicht sehr groß sein darf - nur genau diese Worte sind zulässig - ergibt sich eine sinnvolle Größe für einen Wortschatz von unter 100 Wörtern. Dies zeigt sich auch bei den bisherigen Anwendungen, obwohl die Geräte durchaus in der Lage sind, größere Wortschätze zu verarbeiten.

Obgleich es prinzipiell möglich wäre, die für den Spracherkennungsvorgang notwendige Rechenleistung durch den Computer selbst erbringen zu lassen, hat es sich als zweckmäßig erwiesen, den Spracherkenner als eigenständiges Gerät zu entwickeln. Aus Sicht des Zentralcomputers handelt es sich um ein Peripheriegerät, dessen Funktion darin besteht, vom Benutzer gesprochene Information zu identifizieren und in definierter Form über eine Schnittstelle bereitzustellen. Bezogen auf herkömmliche Erfassungsmethoden ersetzt der Spracherkenner die Tastatur.

Die heutigen Spracherkenner sind mikroprozessorgesteuerte Einplatzsysteme, die zur Benutzerseite hin mit einem Mikrofon ausgerüstet sind und rechnerseitig eine Hardwareschnittstelle aufweisen, die ihren Anschluß an Rechner unterschiedlicher Hersteller ermöglichen.

Neben der Applikation, die sinnvollerweise im zentralen Rechner betrieben wird, erfordert die Spracherkennung meist weitere Vorkehrungen im Rechner, die über das hinausgehen, was der Anschluß eines normalen Terminals verlangt.

Dazu gehört die Wortschatzverwaltung, die ebenfalls zentral erfolgen sollte. Damit wird der Spracherkenner von Verwaltungsaufgaben entlastet, die ihn nur unnötig kompliziert und damit teuer machen würden. Eine zentrale Wortschatzverwaltung bietet darüber hinaus mehr Flexibilität, da vom Rechner der einzelne - pro Benutzer und Anwendung getrennte - Wortschatz in jedes beliebige Gerät geladen werden kann.

Der Spracherkenner besteht je nach Bauweise und Leistungsfähigkeit aus einer oder mehreren Flachbaugruppen, deren Kernstück ein Mikroprozessor ist. Bestimmte Systeme besitzen sogar mehrere Mikroprozessoren, auf die die anstehenden Aufgaben verteilt sind. Im RAM-Speicher, der auch als Arbeitsspeicher dient, befindet sich der im Training erstellte Wortschatz.

Da die Sprache nach ihrer Umwandlung in elektrische Energie als Analogsignal auftritt, muß vor einer weiteren Verarbeitung eine Analog-Digitalwandlung stattfinden, die teilweise über mehrere Stufen von speziellen Hardwarebausteinen bewältigt wird. Die Schnittstelle zwischen analoger und digitaler Verarbeitung ist bei den einzelnen Gerätetypen unterschiedlich. Mit dem Einzug von Signalprozessoren zeichnet sich ein Trend ab, die digitale Verarbeitung immer weiter hin zum Prozeßbeginn zu verlagern.

Bei der Hardware handelt es sich weitgehend um handelsübliche Bausteine. Das spezifische Know-how elektronischer Spracherkennung und damit das Kriterium für die Leistungsfähigkeit des einzelnen liegt daher bei der Software. Neben administrativen hat die Software zwei weitere Aufgaben zu lösen:

- Ermittlung der charakteristischen Merkmale des gesprochenen Wortes und

- Vergleich des neugebildeten Wortmusters mit den gespeicherten Referenzmustern (Klassifikation).

Um möglichst alle relevanten Informationen in den Spracherkennungsvorgang einzubeziehen, werten die leistungsfähigen Spracherkenner einen Frequenzbereich von 100 Hertz bis sieben Kilohertz aus. Dieser Frequenzbereich wird durch parallel geschaltete Filter in zum Beispiel 16 Teilbereiche gesplittet.

Hieraus können durch Messungen und Vergleiche sprachtypische Merkmale gewonnen werden, die spektrale Eigenschaften beschreiben und zum anderen Rückschlüsse auf phonetisch relevante Informationen erlauben. Der Mikroprozessor bildet zum Abschluß ein Bitmuster, welches das gesprochene Wort repräsentiert. Das im RAM-Speicher liegende Bitmuster, den sogenannten Wortkandidaten, vergleicht das System im nachgeschalteten Vorgang einzeln mit den vorhandene Referenzmustern.

Bei der Klassifikation kommt es jetzt zur Entscheidung, welchem Referenzmuster der Wortkandidat am nächsten liegt. Das so ermittelte Wort gilt als anerkannt, sofern es eine Mindestübertragung mit dem Wortkandidaten aufweist. Die Genauigkeit der Übereinstimmung kann per Betriebsparameter entsprechend der Applikationsforderung eingestellt werden.

Nach mehreren kleineren Testinstallationen in verschiedenen Anwendungsbereichen ist seit Sommer 1983 bei den Ford-Werken AG in Köln die erste große Installation mit acht Arbeitsplätzen in Betrieb. Im Versandbereich des Ersatzteillagers werden seit diesem Zeitpunkt die Versanddaten per Sprache erfaßt. Erst durch die Spracheingabe war es möglich, diesen Arbeitsbereich einer Online-Bearbeitung zugänglich zu machen.

Die Erfahrungen bei diesem Projekt zeigten, daß neben einem leistungsfähigen Spracherkenner eine Reihe flankierender Maßnahmen notwendig sind, um eine Installation erfolgreich durchzuführen. Um die Mobilität des Lagerarbeiters sicherzustellen, war es notwendig, die Sprache drahtlos an den Spracherkenner und somit zum Rechner zu übertragen. Ein hochwertiges Sprechfunkgerät, wie es zum Beispiel in Fernsehstudios genutzt wird, sendet die Signale zum Spracheingabeerkennungsgerät.

Da der Benutzer durch seine Mobilität zwangsläufig keine ununterbrochenen visuellen Kontrollmöglichkeiten hat (zum Beispiel über Bildschirm), mußte eine spezielle Form des Quittierens gefunden werden: Der Benutzer erfahrt über Kopfhörer durch akustische Signale, die per Ultraschall übertragen werden, wenn eine Eingabe falsch war oder nicht korrekt gesprochen wurde. Zur genaueren Information erscheinen die erfaßten Daten in Großschrift auf einem Bildschirm.

Ein Prozeßrechner, der auch die Spracherkennungsgeräte steuert und beispielsweise die Wortschatzdatei für die einzelnen Benutzer verwaltet, wickelt die Online-Verarbeitung ab. Neben den speziellen Hardwareeinrichtungen mußte die Bedieneroberfläche auf den sprachgesteuerten Dialog abgestimmt werden, wobei sich einige gravierende Unterschiede zum tastaturgesteuerten Dialog zeigten.

Zu Beginn der Arbeit hat sich der jeweilige Benutzer mit seinem Na(...)en zu identifizieren. Nach der Identifikation des Benutzers wird dessen Wortschatz in den Spracherkenner, mit dem er arbeitet, geladen. Hat der Benutzer falsch eingegeben oder hat das System eine Eingabe falsch interpretiert, so wird dies dem Benutzer gemeldet. Über spezielle Kommandos ist es möglich, die letzte Eingabe oder eine Transaktion zu löschen.

Verschlechtert sich die Erkennungssicherheit, ist während des Betriebs ein Nachtraining möglich. Hierzu wählt der Benutzer das oder die kritischen Wörter aus und trainiert sie neu.

Das System übernimmt die neugebildeten Referenzmuster in die Wortschatzdatei. Will ein Benutzer den Dialog unterbrechen, um zum Beispiel mit seinem Kollegen zu sprechen, kann er die Spracheingabe (...)ub" schalten. Erst auf ein bestimmtes Kommando wird sie wieder aktiviert.

Bei allen acht Arbeitsplätzen wurde die geforderte Erkennungssicherheit von 98 Prozent erreicht. Es zeigt sich, daß die Spracherkenner selbst in geräuschvoller Umgebung erstaunlich hohe Erkennungsgenauigkeit brachten. Während ein permanenter Geräuschpegel nicht sehr kritisch ist, da er dem System vom Training her bekannt ist, stellt das Auftreten lauter sporadischer Geräusche, wie Lautsprecheransagen LKW-Motorengeräusche sowie Klirr- und Stoßgeräusche der Transportgeräte größere Anforderungen an die Spracheingabe. Spezialmikrofone mit zwei Eingängen kompensieren die Nebengeräusche. Besonders beachtlich war die Reaktion der Benutzer selbst auf die neue Technik. Anfängliche Skepsis wich erstaunlich schnell, so daß nach wenigen Wochen das System voll akzeptiert wurde und die erwartete Entlastung der Mitarbeiter erreicht werden konnte.

Wie bei anderen Datenverarbeitungsgebieten stellt sich auch bei einer rechnerunterstützten Qualitätsdatenverarbeitung die Frage nach der Datenerfassung. Ziel muß es in aller Regel sein, die Daten schnell und möglichst vor Ort zu erfassen und online im Rechner zu verarbeiten.

Aufgrund der üblicherweise vorhandenen Arbeitsplätze sind Personen, die solche Daten erfassen, keine Datentypisten, sondern zum Teil qualifizierte Mitarbeiter, deren Aufgabe die Qualitätskontrolle ist. Obwohl heute natürlich durch den Einsatz von vollautomatischen Prüf- und Meßsystemen versucht wird, die Arbeit zu rationalisieren, wird man an vielen Stellen auf den erfahrenen Mitarbeiter zur Beurteilung der Qualität nicht verzichten können und wollen.

An dieser Stelle kann die Spracherkennung das geeignete Mittel zur Datenerfassung sein: Spracherkennung ermöglicht Datenerfassung auch dann, wenn Mobilität des Benutzers gefordert wird, die Hände (zum Beispiel zum Prüfen oder Messen) belegt sind oder der Sichtkontakt zum Objekt erhalten bleiben muß. Bei der Spracherkennung hat ein Mitarbeiter zudem die Möglichkeit, die Begriffe zu verwenden, die ihm geläufig sind, das heißt, eine "Umcodierung" in Fehlerschlüssel entfällt.

Was die technische Weiterentwicklung von Spracherkennern betrifft, sind in naher Zukunft keine Innovationssprünge zu erwarten. Vielmehr ist mit einer kontinuierlichen Weiterentwicklung auf der Basis der bestehenden Gerate zu rechnen. So werden Geräte für fließende Spracheingabe, zunächst mit kleineren Wortschätzen, zur Verfügung stehen. Auch bei sprecherunabhängigen Spracherkennern ist mit Weiterentwicklungen zu rechnen. Besondere Bedeutung hat dort die Spracheingabe per Telefon.

Kleinere Innovationen, die aber für den praktischen Einsatz von erheblicher Bedeutung sein werden, sind in der Erleichterung des Trainings und der Erkennungssicherheit zu sehen. Durch die künftigen höheren Stückzahlen werden sich die Preise nach unten bewegen. Neben den traditionellen Anwendungsbereichen wie Qualitätssicherung, Warenein- und -ausgang können durch billigere und leistungsfähigere Geräte neue Anwendungen erschlossen werden.

*Christian Rehsöft, Computer Gesellschaft Konstanz.