Neue Kommunikationsmöglichkeiten zwischen Mensch und Computer:

Spracherkennung noch Zukunftsmusik?

12.10.1979

Bei der Spracherkennung durch Computer sind bisher nur Einfachlösungen realisiert worden: Der Anwender muß erst sein eigenes Sprachbild eingeben, dann kann der Rechner eine begrenzte Zahl von Worten erkennen. Forscher in den amerikanischen Sperry-Univac-Laboratorien erproben ein Spracherkennungssystem, das diese Einschränkungen nicht kennt. Durch phonetische Wortprüfung ist es im Text gelungen, eine Erkennungsgenauigkeit von 93 Prozent bei verschiedenen Sprechern zu erreichen. Die Erkennungsleistung werde mit der Weiterentwicklung des Systems zunehmen, versichern die Univac-Forscher. Sie rechnen damit, daß ihre Arbeiten innerhalb der kommenden fünf Jahre zu einem System führen werden, das die Leistungsbedürfnisse praxisbezogener Anwendungen für kontinuierliche Spracheingabe erfüllen kann. Im folgenden Beitrag beschreibt Mark M. Medress, Leiter der "Speech Communication Research-Abteilung" von Sperry Univac, die Komponenten des "kontinuierlichen Spracherkennungs-Systems", das Sperry Univac gegenwärtig entwickelt. Ein zweiter Teil, der auf die Erkennungsleistung eingeht und die zukünftige Entwicklung bei der Spracherkennung durch Computer aufzeigt, erscheint in der nächsten Ausgabe.

Auf der ersten Stufe des Erkennungsprozesses erzeugt eine akustische Analyse die zeitgebundene Beschreibung des eingehenden Sprachsignals einschließlich Schätzungen der Stimmband-Vibrationen und der Vokalapparat-Resonanzen.

Im nächsten Schritt werden durch Silbenzerlegung die Energiewerte ausgeschieden, durch welche die Silbenstruktur der Sprachsignale erkannt wird. Darauf sammelt die phonetische Wortprüfung die akustischen Parameterwerte innerhalb der Silben und deren benachbarten Töne. Die erhaltenen Werte werden mit vorgespeicherten Beschreibungsparametern der individuellen Vokabularworte verglichen. Die Steuerung des Erkennungsablaufs wird durch die Wortfolgeverkettung ausgeführt, welche die im Satz vermuteten gültigen Wörter mit Hilfe eines Arbeitsmusters phonetisch weiter untersucht. Aufgrund der Wortbewertung durch die Prüfeinrichtung errechnet die Wortfolgeverkettung eine Gesamtbewertung für jede vermutete Wortsequenz. Jene Sequenz von erkannten Vokabularworten, die die höchste Bewertung erreicht, wird als korrekte Spracheingabe erkannt.

Akustische Parameter-Ausscheidung

Zum Ausscheiden der akustischen Parameter aus der unbekannten Lautsequenz werden die Sprachsignale zuerst unter Berücksichtigung einer Bandbreite von fünf Khz digitalisiert, um festzustellen, wann und wie schnell die Stimmbänder vibrieren.

Zwei verschiedene Spektralanalysen werden für die digitalisierten Sprachwellenformen durchgeführt, um zeitlich variierende frequenzabhängige Daten auszuscheiden. Eine "Fast Fourier Transformation" (FFT) erzeugt Spektren, mit denen Spektraländerungen, Spektralprominenz und die bandabhängigen Energien als Funktion der Zeit berechnet werden können. Geglättete Spektren werden durch eine lineare Prädikations-Koeffizientenanalyse errechnet. Die Frequenzen der ersten drei Vokalapparat-Resonanzen oder Formanten werden durch die drei niedrigsten Frequenzspitzen oder relativen Maxima in den LPC-Spektren geschätzt.

Das Resultat der akustischen Analyse besteht aus einem Satz von zwölf akustischen Parametern, die die zeitveränderlichen Merkmale der Sprachsignale in zehn Millisekunden-(ms-)Schritten enthalten. Diese parametrisierte Darstellung wird für die folgende Silbenzerlegung und phonetische Wortprüfung verwendet.

Silbenzerlegung

Nachdem die durch die Bandbreite eingeschränkten Energiewerte errechnet worden sind, wird durch Zerlegung die Silbenstruktur der Spracheingabe festgelegt. Die Silben sind durch starke Einbrüche oder Täler der Schwingungsenergie im Stimmbereich, die eine Bandbreite von 60 bis 3000 Hz umfaßt, getrennt. Die Silbenmitte ist durch eine realtiv hohe Schwingungsenergie, während der die Stimmbänder vibrieren, gekennzeichnet. Im Vergleich mit niedrigeren Frequenzen ist nur wenig hoch frequente Energie darin vorhanden. Silbenkerne kommen natürlich in jedem Vokabularwort vor. In betonten Worten sind sie besonders ausgeprägt und ziemlich einfach zu orten, was auch bei Spracheingabe, die durch Geräusche und geringe Bandbreite gekennzeichnet ist, zutrifft.

Phonetische Wortprüfung

Die Ähnlichkeit eines Vokabularwortes zum Spracheingabebereich in der Nähe eines Silbenkerns wird vom Erkennungssystem aufgrund von Vorlagen phonetischer Segmente, den Elementartönen der Sprache erkannt. Die Arbeitsweise der phonetischen Wortprüfung ist in Abbildung 2 dargestellt.

Wenn die phonetische Wortprüfung durch die Wortfolgeverkettung aufgerufen wird, so erhält diese als Ankerpunkt eine Silbenposition, und ein vermutetes Wort kann auf dieser Position verglichen werden. Die Prüffunktion richtet das gespeicherte Vokabularwort oder dessen lexikalische Beschreibung mit dem Kern aus, um die wahrscheinlichste Position jedes phonetischen Segmentes zu bestimmen. Aufgrund der erhaltenen Positionen vergleicht die Wortprüfung die akustischen Parameter, die die Merkmale des Segmentes festlegen, mit den lexikalischen Speicherwerten des vermuteten Wortes und eine Bewertung der phonetischen Ähnlichkeit wird errechnet.

Phonetische Ausrichtung

Die phonetische Ausrichtung wird durch die Beschreibung des vermuteten Wortes erreicht. Jede lexikalische Beschreibung enthält:

þeine Spezifikation der Silbenstruktur,

þDie Angabe, welche phonetischen Segmente in welcher Reihenfolge zu suchen sind,

þAngaben, wie die wesentlichste Zeitposition in jedem Segment gefunden werden kann.

Die phonetischen Suchinstruktionen spezifizieren einen Suchbereich für jeden Laut, der als Silbe erkannt wurde sowie dessen benachbarte Segmente. Suchkriterien, basierend auf den akustischen Parametern, werden für das Auffinden des besten Synchronisationspunktes für jeden Laut innerhalb des Suchbereiches ausgegeben.

Ein Beispiel der phonetischen Ausrichtung ist in Abbildung 3 dargestellt. In diesem Beispiel wurde vermutet, daß sich das Wort "FOUR" in diesem Silbenkern befindet. Die lexikalischen Ausrichteregeln für dieses Wort geben Suchbereiche für die Laute /F/, /OW/ und /R/ an, wie dies am unteren Blattende dargestellt ist. Als bester Synchronisationspunkt für das erste Segment wird jener Platz betrachtet, der das niedrigste Durchschnittsverhältnis von nieder- zu hochfrequenter Energie aufweist und ist durch den Kreis markiert. Die beste Vokalposition befindet sich beim Minimalwert der Frequenz der zweiten Formante (F2) und ist ebenfalls eingekreist. Das /R/ befindet sich bei der niedrigeren Frequenz der dritten Formante (F3) und nahe bei der zweiten Formante. Es ist durch ein Oval in Abbildung 3 gekennzeichnet.

Vergleich und Bewertung

Nachdem die wahrscheinlichste Position jedes phonetische Wortbewerter die phonetische Vergleichsanalyse, indem er die akustischen Parameterwerte der verschiedenen Segmentbereiche mit den gespeicherten lexikalischen Werten für dieses Wort vergleicht. Allgemeingültige Linguistik wird erreicht, indem ähnliche Laute nach Klassen gruppiert werden und alle Laute innerhalb einer Klasse durch den gleichen akustischen Parametersatz bewertet werden. Die für jede Klasse gewählten Parameter basieren auf einer akustisch-phonetischen Sprechtheorie. Es wurde beabsichtigt, zwischen den Klassen möglichst hohe Unterschiede zu erreichen, um die individuelle Aussprache verschiedener Sprecher auszugleichen.

Zur Illustration des Vergleichs- und Bewertungsablaufs möchten wir zuerst Segment /F/ im vermuteten Wort "FOUR" betrachten. Das /F/ befindet sich in derselben Gruppe von Reibelauten wie (/SH/, /S/, /Z/, /ZH/, /F/, /V/, /TH/, /DH/), die die gleichen fünf der zwölf akustischen Parameter gemäß Abbildung 4 aufweisen. Die Werte dieser Parameter werden bei jener Position für /F/ gesammelt, welche sich bei der phonetischen Ausrichtung als am günstigsten erwies. Die Werte werden mit jenen des /F/ im Wort "FOUR" verglichen, für welches eine lexikalische Beschreibung gespeichert wurde. Wird fortgesetzt