So funktioniert Tangora

28.02.1992

Ein einfaches Beispiel zeigt wie Tangora funktioniert. Nachdem der Sprecher den Satz "Die Sonne lacht" deutlich und mit klaren Pausen zwischen den Wörtern ins Mikrophon gesprochen hat, wird das akustische Signal zuerst in die digitale Computersprache umgesetzt.

Aus dem digitalisierten Signal pickt sich Tangora alle zehn Millisekunden charakteristische Parameter heraus und faßt diese zu sogenannten Merkmalsvektoren zusammen.

Dann vergleicht das System jeden Merkmalsvektor mit den Referenzvektoren aus dem Training und ersetzt ihn durch das Symbol jenes Referenzvektors, der ihm akustisch am ähnlichsten ist. Damit wird der Datenfluß, der am Systemeingang noch volle 30 000 Byte pro Sekunde beträgt, ohne wesentlichen Informationsverlust auf 100 Byte pro Sekunde reduziert. Der ganze Beispielsatz besteht dann nur noch aus 392 Symbolen. Drei Schritte führen nun zur Worterkennung aus dieser Symbolfolge: Im ersten Schritt ermittelt ein schnelles akustisches Modell im Computer aus dem verfügbaren Vokabular jene Wortkandidaten, die mit einer gewissen Wahrscheinlichkeit zur akustischen Symbolfolge gehören.

Für das gesprochene Wort "lacht" zum Beispiel findet Tangora 150 Kandidaten, die es nach Wahrscheinlichkeiten (1) ordnet.

Im zweiten Schritt reduziert ein Sprachmodell die Anzahl der Wortkandidaten. Die Auswahl geschieht in Abhängigkeit von der sprachlichen Umgebung, die hier aus den zwei vorangehenden, bereits erkannten Wörtern "die" und "Sonne" besteht.

Auch hier werden jene Kandidaten gesucht, die mit größter Wahrscheinlichkeit in Frage kommen, und zwar aufgrund bekannter Häufigkeiten von" Drei-Wort-Folgen (Trigrammen).

Das Resultat dieses zweiten Schrittes: Von den 150 Kandidaten für "lacht" bleiben noch 14: neben dem korrekten "lacht" auch noch "macht", "Nacht", etc., bis zu "kocht".

Im dritten Schritt werden die Endkandidaten bestimmt (in unserem Beispiel sind das die Wörter "lacht", "Nacht", "macht"), und aus diesen wird der "Gewinner" extrahiert. Das geschieht wieder aufgrund von Wahrscheinlichkeiten (2) mit einem akustischen Modell. Hier wird allerdings im Gegensatz zum ersten Schritt die individuelle Sprechweise des Benutzers verwendet.

Das Wort mit der größten Wahrscheinlichkeit ("lacht") wird dem Dekodierer zugeführt, der die tatsächlich gesprochene Wortfolge bestimmt und den Satz "Die Sonne lacht" als Text auf dem Bildschirm präsentiert.

(1) Die Wahrscheinlichkeit für jedes Wort wird über sogenannte Markov-Modelle berechnet.

Jedes Wort im Vokabular ist als Folge von lautlichen Einheiten (Allophonen) gespeichert. Jedem Allophon ist ein separates Markov-Modell zugeordnet. Jedes Wort gehört also zu einer bestimmten Folge von Markov-Modellen. Die Parameter der Markov-Modelle werden im Training auf den jeweiligen Sprecher angepaßt.

(2) Die Wahrscheinlichkeiten ergeben sich auch hier aus Markov-Modellen. Basis dafür sind bei diesem Schritt aber lautliche Einheiten, die kürzer sind als die Allophone des schnellen akustischen Modells. Diese Einheiten entsprechen prototypischen akustischen Symbolen und werden für die lautliche Darstellung der Wörter im Vokabular verwendet.

Die lautliche Darstellung wird durch Vorsprechen verschiedener Sprecher gewonnen, die Parameter der Markov-Modelle hingegen über das benutzerspezifische Training.