Den Rechner mit menschlicher Stimme gibt es vorläufig nicht:

Die Sprachmelodie hat noch falsche Töne

13.08.1982

Mit syntetisch erzeugter Sprache kann theoretisch ein unbegrenzter Wortschatz ausgegeben werden; digitalisierte menschliche Sprache bleibt immer auf die eingegebenen Worte beziehungsweise Wortteile beschränkt. Diese Art der "Computersprache" klingt zwar natürlicher als ihre Synthese. doch bleibt der Weg zum Computer der (fast) wie ein Mensch spricht, immer noch sehr weit. Vor allem bei der richtigen Betonung der Wörter und der zusammengesetzten Sätze, deren "Melodie" ja inhaltsabhängig ist, sieht Otto Soskuty von der Votrax GmbH, derzeit die Hauptschwierigkeiten.

Es gibt in der Sprachausgabe zwei grundsätzliche Kategorien: die digitalisierte menschliche Sprache und die synthetisch erzeugte Sprache.

Die erste Methode benützt in der einfachen Form die Pulse Code Modulation (PCM). Bei diesem Verfahren wird die Sprache durch einen analog-digital Wandler digitalisiert und abgespeichert. Im beliebigen Zugriff können dann die aufgezeichneten Silben, Wörter oder Sätze abgerufen werden und zu einem gewünschten Text, wieder analog zurückgewandelt, zusammengestellt werden. Auf diese Weise lassen sich mit verhältnismäßig beschränktem Wortschatz sehr verschiedene Texte konstruieren.

Es muß aber stets ein Kompromiß zwischen Stimmqualität und Kosten geschlossen werden. Bei diesem Verfahren genügen rund 24 KBit in der Sekunde um eine Sprachqualität zu erzeugen, die der Übertragungsqualität des Telefons entspricht. Das Programmieren ist verhältnismäßig einfach: Die zu speichernden Wörter werden über ein Mikrofon oder ein Tonband eingegeben.

Weitere Methoden der digitalen Sprache, das LPC (Linear Predictive Coding), Delta Modulation und das "Parcor"-System, die den Datenfluß auf ein Zehntel des PCM reduzieren, gestalten allerdings das Programmieren aufwendiger. Ein schwieriges Problem bleibt bei der Zusammenfügung von längeren Texten die Wort- und Satzbetonung, die bei unterschiedlichen Anordnungen sehr falsch werden kann.

Die zweite Kategorie der Sprachausgabe ist die synthetische Erzeugung der Sprache. Sie unterscheidet sich von der digitalisierten Sprache in zwei wesentlichen Merkmalen:

a) der Datenfluß ist bedeutend kleiner als bei allen vorher erwähnten Methoden, nämlich 8 Bit pro ausgegebenem Laut,

b) das Vokabular ist, im Gegensatz zu der digitalisierten Sprache, unbeschränkt. Bei dem heutigen Stand der Entwicklung gibt es noch einen Abstand in der Natürlichkeit der Aussprache zwischen der digital gespeicherten Analogsprache und der synthetischen Sprache. Doch dieser Abstand wird kleiner.

Bei einigen Anwendungen ist der unbeschränkte Wortschatz der synthetischen Sprache unerläßlich und kann durch gespeicherte Analogsprache mit vorherbestimmtem Vokabular nicht ersetzt werden. Zudem wird die synthetische Sprache immer billiger. Es sind bereits Ein-Chip-Synthetisatoren auf dem Markt. Das Programm wird zwar außerhalb des Synthetisators gespeichert oder generiert, doch der kleine Datenfluß wirkt sich auch hier aus.

Die Sprachsynthetisatoren haben vom Vocoder bis zum Phonemsynthetisator eine beträchtliche Entwicklung durchgemacht. Ein Phnom ist die elementare Einheit, die sich aus einer funktionellen Analyse der Laute ergibt. Es gibt stimmhafte stimmlose, frikative, Verschluß- und nasale Laute (Phoneme). Der Phonemsynthetisator wird auch Format-Synthetisator genannt, weil er den Vorgang im menschlichen Sprachorgan simuliert. Bei der menschlichen Sprache erzeugt von der Lunge ausgehender Luftdruck mit Hilfe der Stimmbänder einen Grundton beziehungsweise ein Frequenzspektrum. Diese Grundfrequenzen durchlaufen die Stimmstrecke, die mit Hohlräumen vom Kehlkopf bis zur Nase und den Lippen reicht. Diese Strecke hat 4-5 wichtige Resonanzpunkte, Formanten genannt, von etwa 500 bis 3500 Hertz.

Der von den Formanten unterbrochene, gleichmäßige Neigungswinkel der Frequenzhüllkurve und die dadurch verursachten Unstetigkeiten sind für die Sprache charakteristisch. Die so entstandenen Laute werden von der Zunge und den Lippen weiter geformt. Der Sprachsynthetisator macht sich diese Beschaffenheit der Sprache zu eigen. Er besteht vor allem aus einem Sprachmodell. Dieses erzeugt über einen Kaskadenfilter die spektrale Information und die Formantenresonanzen für die Phoneme. Die Stimmquellen (Schwingungsgeneratoren) und das Sprachmodell werden durch eine mathematische Funktion gesteuert.

Die Phonemsynthetisatoren besitzen gegenwärtig eine Anzahl von fixen Phonemen, die mit einem digitalen Code abgerufen werden können. Unter Beibehaltung des 8-Bit-Codes stehen bei dem Votrax-System für die deutsche Sprache 63 Phoneme zur Verfügung. Diese enthalten bereits eine der vier möglichen Betongungsstufen.

Schwierige Betonung

Es gibt also mehr Phoneme als Buchstaben. Derselbe Buchstabe "e", zum Beispiel, wird auf sehr verschiedene Weise ausgesprochen, wenn er im Wort "gehen" oder "geheim" steht. Dies ist gegenwärtig das größte Problem der Sprachausgabe. Die Hardwareentwicklung wird laufend bessere, angenehmere und menschlichere Tonqualität anstreben, während die Softwareentwicklung ein automatisches Programmieren zu erreichen versucht. Dieses soll ermöglichen, die Eingabe voll orthografisch mit einem Übersetzungs-Algorithmus zu gestalten, der die ausgegebene Sprache phonetisch, phonologisch und semantisch mit der richtigen Betonung ausgibt. Vor allem bei der Satzbetonung, die ja vom Inhalt bestimmt ist, liegen die größten Schwierigkeiten der automatischen Programmierung.