Neue Kommunikationsmöglichkeiten zwischen Mensch und Computer, Teil II:

Spracherkennung noch Zukunftsmusik?

19.10.1979

Wie Sperry Univac das Problem der kontinuierlichen Spracherkennung per Computer angeht, behandelte der Bericht "Spracherkennung noch Zukunftsmusik?" in CW-Nr. 41. Teil II geht auf die zukünftige Entwicklung ein.

Die Werte dieser Parameter werden bei jener Position für /F/ gesammelt, welche sich bei der phonetischen Ausrichtung als am günstigsten erwies. Die Werte werden mit jenen des /F/ im Wort "FOUR" verglichen, für welches eine lexikalische Beschreibung gespeichert wurde.

Erklärungen zu Abbildung 4:

RATIO = Durchschnittswert des Verhältnisses von niederfrequenter zu hochfrequenter Energie.

MFSA = Durchschnittswert der Frequenz maximaler Spektralamplitude.

VLE = Durchschnittswert sehr niederfrequenter Energie.

TE = Durchschnittswert der Gesamtenergie.

SD = Maximale Spektralableitung.

Diese Abbildung zeigt den Vorgang im Detail, In der zweiten Kolonne werden die fünf Parameter der akustischen Spracheingabe-Analyse für den Laut /F/ für die vermutete Position dargestellt. Die übrigen Zahlen zeigen die lexikalischen Werte für das Wort "FOUR". Die dritte und vierte Kolonne geben die erlaubten Streuungsbreiten der Analysenparameter wieder. Die letzten drei Kolonnen enthalten gewichtete logarithmische Wahrscheinlichkeit, mit weicher jeder Parameter in ein Drittel des Streubereichs fällt. Der Vergleich und die Bewertung entscheiden, in welches Drittel des Streubereichs die erfaßten Werte fallen und verwendet den jeweiligen gewichteten logarithmischen Wahrscheinlichkeitswert aus dem Lexikon (durch ,Kreise in Abbildung 4 markiert). Die Parameter der übrigen Segmente im Wort "FOUR" werden auf ähnliche Weise behandelt und mit ihren dazugehörigen lexikalischen Parametern verglichen. Eine Vergleichsbewertung für das ganze Wort wird errechnet, indem die logarithmischen Wahrscheinlichkeitswerte für jeden Parameter jedes Segmentes zusammengezählt werden und die Summe durch die Zahl der Parameter geteilt wird.

Wortfolgeverkettung

Die phonetische Wortprüfung wird durch die Wortfolgeverkettung gesteuert, welche die Bestimmung der höchstbewerteten Sequenz gültiger Worte einer gesamten Lautsequenz ermittelt. Eine Arbeitsvorlage liefert Informationen über Vokabularworte, welche in jeder Wortposition einer erlaubten Wortgruppe oder eines Satzes vorkommen können.

Die Wortfolgeverkettung verwendet die Arbeitsvorlage, um der phonetischen Prüfung die Ausrichte- und Bewertungsparameter für mögliche Worte der jeweiligen Silbenkerne der gesamten Lautfolge zu liefern. Der Ablauf läuft von links nach rechts. Aus den geprüften Worten werden Wortsequenzen gebaut. Zur Bewertung werden die individuellen Werte zusammengezählt. Da es beim normalen Sprachvorgang üblich ist, daß Worte zusammengehängt werden, erlaubt die Wortfolgeverkettung ein Überlappen der lexikalischen Wortbeschreibung während der Ausrichtung. Übermäßiges Überlappen wird jedoch negativ bewertet, was auch auf unerkenntliche Sprachbereiche zutrifft. Zur Vereinfachung des Rechenvorganges werden während der Verarbeitung der Lautfolge durch die Wortverkettung jeweils nur die höchsten Bewertungen von Teilwortsequenzen berücksichtigt.

Eine vereinfachte Darstellung des Wortfolgeverkettungs-Ablaufs ist in Abbildung 5 für die Sequenz " Alpha four" dargestellt. In diesem Ablauf wurden durch die Silbentrennung drei Silben. kerne festgestellt. In der Arbeitsvorlage sind alle 26 phonetischen Aussprachen für das Alphabet (Alfa, Bravo, Charlie etc.) als erstes Wort sowie alle 10 Zahlen in der zweiten Position erlaubt. Daher müssen 260 mögliche Wortfolgen von der Wortfolgeverkettung für diese Spracheingabe berücksichtigt werden.

Der Arbeitsablauf beginnt mit dem Errechnen der phonetischen Wortprüfungs-Bewertungen für sämtliche 26 phonetischen Aussprachen des Alphabets, die im ersten Silbenkern enthalten sind und behält den höchsten Wert als Vermutung. Abbildung 5 illustriert die Ausrichtung von "Alfa" und "Golf", die beiden höchstbewerteten Worte für die Lautsequenz. Um die mit "Alfa" beginnende Wortsequenz weiter zu verfolgen, muß die Wortfolgeverkettung die Prüfung jeder der zehn Zahlen beim dritten Kern verlangen. "Golf" wird ebenfalls weiterverfolgt und eine Prüfung beim zweiten Kern wird verlangt. Die resultierenden Wortfolgen "Alfa four" und "Golf seven" sind gut bewertete Wortsequenzen, die im Arbeitsmuster vorhanden sind und die gesamte Spracheingabe umspannen. Die Sequenz mit der höchsten Bewertung wird darauf durch die Wortfolgeverkettung als erkannte Spracheingabe bestimmt.

Erkennungsleistung

1. Sprach-Datenbank

Sperry Univacs Testsystem für kontinuierliche Spracheingabe wurde für 646 Wortsequenzen entwickelt was ungefähr einer Sprechdauer von einer halben Stunde entspricht. Zusätzlich wurden 263 Test-Wortfolgen mit einer Sprechdauer von 15 Minuten verwendet, um das System zu prüfen. Die für die Entwicklung und Prüfung ausgewählten Wortfolgen stammen aus zwei, verschiedenen Applikationsgebieten und bestehen aus alphanumerischen Sequenzen und Datenbankverwaltungsbefehlen.

Der erste Anwendungsbereich mit alphanumerischen Sequenzen enthält 36 Worte und neun syntaktische Varianten, die Wortfolgen wie "November Foxtrot two seven" definieren. Das Vokabular mit den syntaktischen Varianten resultiert durchschnittlich in 18 Alternativen (Anzahl Alternativen pro Satzglied), wodurch sich eine Kombination von über einer halben Million Lautfolgen ergeben kann. Zu diesem Anwendungsbereich benötigten wir 321 gespeicherte Wortsequenzen und 130 Prüfsequenzen.

Im Anwendungsbereich der Datenverwaltungsbefehle wurde ein Vokabular von 63 Worten und sieben syntaktischen Varianten erstellt, woraus sich Wortfolgen wie "Flight index for Northwest forty-six" definieren lassen. Das Vokabular mit den syntaktischen Varianten ergibt durchschnittlich sieben Alternativen und ermöglicht beinahe 1000 Wortsequenzen. Für diese Applikation wurden 325 Wortfolgen gespeichert und diese mit 133 Testfolgen geprüft.

Die 646 Wortfolgemuster wurden von sieben verschiedenen männlichen Sprechern erzeugt. Jeder Sprecher trug 35 Worte bei, die auf beide Anwendungsbereiche aufgeteilt waren. Die 263 Prüfsequenzen stammten von sechs männlichen Sprechern, von denen drei auch an der Erzeugung der Mustersequenzen beteiligt waren. Von diesen drei Sprechern, die sowohl für die Muster wie auch die Testfolgen eingesetzt wurden, stammten jeweils nur 15 der Prüfsequenzen, während die neuen Sprecher je 70 Prüfsequenzen erzeugten, die ebenfalls auf beide Anwendungsbereiche aufgeteilt wurden.

Tabelle Nr. 1 zeigt eine Zusammenfassung des Sprach-Datenbankinhaltes.

2. Resultate der Erkennungs-Analyse

Der Test des kontinuierlichen Spracherkennungssystems wurde mit den 263 durch Zufall ausgewählten Prüfsequenzen durchgeführt, welche auf beide Anwendungsbereiche verteilt waren. Tabelle 2 zeigt die Testresultate, die für die drei gemeinsamen und drei neuen Sprecher separat aufgeführt sind. Ebenfalls sind die Resultate für beide Anwendungsbereiche getrennt aufgezeichnet. Der Unterschied in der Zahl möglicher Alternativen (18 zu 7) zeigt die unterschiedliche Schwierigkeiten in der Erkennung, welche die beiden Anwendungsgebiete charakterisieren. Für die neuen Sprecher lag die korrekte Erkennung bei 75 Prozent der alphanumerischen Sequenzen und bei 81 Prozent der 110 Datenverwaltungsbefehle. Innerhalb des Sprachschatzes ergab sich eine korrekte Erkennung von 89 Prozent bei der alphanumerischen Anwendung und 93 Prozent bei den Datenverwaltungsbefehlen.

3. Zusammenfassung und Prognose

Das kontinuierliche Spracherkennungssystem von Sperry Univac befindet sich in einem fortgeschrittenen Entwicklunsstadium. Die erreichten Erkennungsleistungen spornen Sperry Univac an, besonders, weil in dem letzten Test Probleme entdeckt wurden, die bereits gelöst waren. Die Erkennungsleistung wird mit der Weiterentwicklung des Systems weiterhin steigen. Diese befaßt sich auch mit der Anpassung an individuelle Stimmerkmale verschiedener Sprecher. Eine kostengünstige Echtzeit- Installation der Konzeption von Sperry Univac wird zur Zeit unter Verwendung von VLSI-Technologie geplant. Sie erwarten, daß ihre Forschungen innerhalb der nächsten fünf Jahre zu einem praktischen System führen werden, mit dem ein großes Vokabular zusammenhängender Wortsequenzen bearbeitet werden kann. Zukünftige Verbesserungen ihres linguistischen Rahmenprogrammes sollten zu einer Erweiterung mit größeren Vokabularen und komplexeren Satzstrukturen führen.