Künstliche Intelligenz: Ein weites Feld mit verschwimmenden Grenzen, Teil 16

Die Post analysiert gesprochene Worte

13.01.1989

Eines der faszinierendsten und entwicklungsfähigsten Teilgebiete der sogenannten "Künstlichen Intelligenz" ist die Arbeit an Systemen, die die Sprache der Menschen "verstehen". Hier wiederum ziehen besonders solche Entwicklungen das Interesse auf sich, die nicht allein geschriebene, sondern sogar gesprochene Äußerungen eines Menschen erfassen können.

Zwar kann man heute schon problemlos Systeme kaufen, die einzelne Wörter anhand bestimmter lautlicher Merkmale richtig "erkennen" können, doch basieren die meisten auf eher einfachen, klassischen Methoden der Mustererkennung wie etwa der Cluster-Analyse oder der Vektor-Quantisierung. Und leider, so wissen B. Lochschmidt und B. Kaspar vom Darmstädter Forschungsinstitut der Post zu berichten, sind diesen "statistisch begründeten Ansätzen" ausgerechnet dort Grenzen gesetzt, wo man gern Maschinen haben möchte, die erstens viele Wörter erkennen, die sich zweitens von wechselnden Stimmen nicht irritieren lassen und die drittens auch mit fließend gesprochener Rede, statt bloß mit einzelnen Befehlen, zurechtkommen. Denn, so erfuhr man unlängst auf einer Tagung der Informationstechnischen Gesellschaft über Sprachverarbeitung, in solchen Fällen werde "der Lernaufwand unüberwindlich groß", und wichtige phonetische Details entgehen den Systemen ganz einfach: Denn jeder Mensch spricht ja ein wenig anders, und je nach der Einbettung der einzelnen Wörter in Sätze werden die Wörter auch immer wieder ein wenig anders gesprochen.

Abhilfe versprechen Fachleute sich von dieser Situation nun von Techniken, bei denen Expertenwissen über - beispielsweise - akustische Zusammenhänge, über Eigenheiten der Artikulation und über Phänomene der akustischen Wahrnehmung, aber auch Kenntnisse linguistischer Gesetzmäßigkeiten genutzt werden, die "Bedeutung" eines lässig dahingenuschelten Satzes zu entschleiern. Allerdings, so sagen die Darmstädter Forscher, kann man die derzeit üblichen Techniken zum Programmieren von Systemen, die auf Wissen basieren, "für gesprochene Sprache nur eingeschränkt" verwenden; müssen hier doch auch noch "zeitabhängige Strukturen" und "fehlerbehaftete Analysemerkmale" berücksichtigt werden.

Diesen verschärften Anforderungen im Bereich der korrekten Zuordnung gesprochener Sätze zur entsprechenden, "treffenden" maschineninternen Repräsentation des Gemeinten beziehungsweise Gesagten soll nun eine neue Entwicklung gerecht werden, die sich "an der zentralen Stelle des Übergangs von der physischen auf die symbolische Ebene" also exakt bei der "akustischphonetischen Umsetzung", eines Regelwerks bedient. Sie läuft in Darmstadt unter dem Titel "SpeechStation", wird zunächst auf das Erkennen einzelner Wörter getrimmt und soll später auch höhere Ebenen des "Verständnisses" erklimmen.

Laut-Segmente sind kleinste Einheit

SpeechStation kann als kleinste, artikulatorisch gerade noch erfaßbare Einheit sogenannte Laut-Segmente, also Teile einzelner Laute und mithin Subteile von Silben, behandeln. Diese Lautsegmente werden in der akustisch-phonetischen Analyse mit Hilfe des erwähnten Regelwerks aus den physikalischen Merkmalsdaten des Sprachflusses erzeugt.

Die Arbeit mit solchen Regeln hat laut Lochschmidt und Kaspar den Vorteil, daß man "unterschiedlichen Phänomenen" hierbei mit "unterschiedlichen Vorgehensweisen" zu Leibe rücken und daß man den Wortschatz überdies "problemlos" erweitern kann: Denn anders als bei probabilistischen Ansätzen sei dies hier ja durch ein simples "Erweitern des Regelwerks" möglich.

Beim Gesamtsystem SpeechStation arbeiten mehrere Teilmodule sinnvoll Hand in Hand: Denn zunächst bereitet der Baustein "SpeechLab" die rohen Daten des "akustischen Sensors" oder vulgo Mikrophon auf, während das Modul "SpeechLex" gewissermaßen Vermutungen anstellt, was der gerade aktuelle Frequenzen- und Amplituden-Salat denn nun wohl wieder bedeuten soll: Es dient nämlich der "phonologischen Repräsentation und Bearbeitung von Wortmodellen". Und zwischen beiden wiederum ist das Modul "SpeechRul" angesiedelt, das das eigentliche, akustisch-phonetische Expertensystem darstellt und das die Hypothesen, die SpeechLex sich ausgedacht hat, anhand der aufbereiteten Daten des Sensors verifizieren oder aber verwerfen muß.

Besondere Regeln bei phonetischer Analyse

Betrachtet man die Besonderheiten eines auf Regeln basierenden Systems zur akustisch-phonetischen Analyse von gesprochener Sprache genauer, so sieht man: Hier liegen die Dinge bei weitem nicht so einfach wie etwa bei herkömmlichen Expertensystemen zur Diagnose eines defekten Getriebes. Denn hier können nicht einfach Antworten auf gezielte Fragen des Systems eingetippt werden; und schon gar nicht "irgendwann": Denn die Einheit muß ja online direkt am "Prozeß", also an der Sprache arbeiten und die akustischen Meßwerte in Echtzeit über Sensoren aufnehmen. Auch müssen zeitabhängige Größen bearbeitet und richtig "verstanden" werden, und vor allem werden die Wörter ja auch noch höchst unterschiedlich gesprochen - je nach dem Sprecher und ihrer momentanen Stellung innerhalb des Satzes. Was bedeutet, das System muß "auf Basis von - teilweise -bloß vagem und ungenauem Wissen logisch folgern" können.

Zu den interessanteren Besonderheiten des Moduls SpeechRul gehört ein sogenannter "Parser", mit dessen Hilfe man in das - übrigens in Pascal geschriebene -System vorgebbare Regeln und Fakten einlesen und in eine interne Datenstruktur umsetzen kann; dabei wird eine "speziell definierte" Sprache zur Darstellung des Wissens benutzt, nämlich die "SpeechRul-Language" (SRL). Mit ihr kann man beispielsweise Konstanten, Variablen und Sensorgrößen definieren, aber auch Funktionen und Regeln. Letzteren unterliegt dabei eine einheitliche Struktur, nämlich die Form

- Folgerung := Bedingung

Das Wissen, das bei SpeechRul in Gestalt dieser Regeln ausgedrückt wird, kann man sich als "komplexes Netzwerk" vorstellen, bemerken die Autoren, um dann fortzufahren: Hier gelte es nun, sich noch eine "günstige Schlußfolgerungsstrategie" auszudenken. Ihre Wahl fiel nach einigem Nachdenken auf einen "zielorientierten" und mithin "rückwärtsverketteten" Folgerungsmechanismus; denn der, so versprechen sie, harmoniere "mit der hypothesenorientierten Verarbeitungsweise des Gesamtsystems" am besten. Auch helfe dieser Mechanismus, den Verarbeitungsaufwand klein zu halten, denn hierbei würden ja "gezielt nur immer jene Teile des Netzes aktiviert, die, im jeweiligen Fragen- und Signalkontext, gerade von Bedeutung" seien.

Probleme mit der korrekten Zuordnung

Läßt man Computer mit ihrer zweiwertigen Logik in unmittelbarem Kontakt mit der realen, also der analogen und damit unendlich vielgestalten echten Welt arbeiten, so treten meist Probleme mit der korrekten Zuordnung zwischen beiden Bereichen auf; denn beispielsweise das "I" in "BIA" (Bier) sprechen die einen vergleichsweise tief, die anderen aber eher fistelig-hoch aus - und dennoch soll der Rechner dieses "I" als Bestandteil des Wortes "BIA" erkennen, wobei überdies noch zu beachten ist, daß "Fehlentscheidungen" gerade auf dieser Ebene des Prozesses der Spracherkennung "schwerwiegende Auswirkungen auf die weitere symbolische Verarbeitung haben" können. Was also tun?

In diesem Punkt behelfen die forschenden Postler zu Darmstadt sich nun mit "einer Erweiterung der klassischen Prädikatenlogik", nämlich der sogenannten "Fuzzy-Logik". Die nämlich erlaube "die Behandlung von Aussagen, die nicht streng zweiwertig 'wahr' und 'falsch' sind, und mache es im obigen Beispiel nun möglich, die Zugehörigkeit eines eher mit Baßstimme gesprochenen "I" zur Menge der hohen Töne einfach nur graduell, also mit einer Art von Wahrscheinlichkeitswert, anzugeben. Wobei der Grad der jeweiligen Zugehörigkeit mit einer Zahl zwischen Null und Eins angegeben wird: Eins bedeutet "sicher zugehörig", Null "sicher nicht".

Die Fuzzy-Logik erkennt den Gerstensaft

Bei dieser Fuzzy-Logik kann man im Falle des erwähnten "I" - beziehungsweise, präziser, des gerade interessierenden Lautsegments innerhalb von "BIA" - beispielsweise dann mit Sicherheit sagen, es liege das vermutete "I" - oder das vermutete Lautsegment - vor, wenn hierbei eine Frequenz von mehr als - sagen wir - 600 Hertz gemessen wird; und bleibt die Frequenz an dieser Stelle unter 400 Hertz, so scheint vielleicht doch von anderem die Rede zu sein, als von Gerstensaft. Doch für Frequenzen zwischen 400 und 600 Hertz handelt es sich eben einfach mit wachsender Wahrscheinlichkeit um den edlen Trunk.

Besonders an diesem Thema interessierte Leser können an dieser Stelle noch die Aussage der Autoren notieren, daß die Wahrscheinlichkeit, ein Ton bedeute ein "I" im Bereich zwischen unterer und oberer

Grenzfrequenz als linear mit der Frequenz steigend angenommen werden kann; doch daß außerdem auch andere Abhängigkeitsfunktionen zwischen Tonhöhe und wahrscheinlicher Lautbedeutung möglich sind. Wie etwa solche, die einer aufsteigenden Parabel oder eventuell auch einer aufsteigenden Sinuskurve ähneln.

Auch in der Fuzzy-Logik von SRL kann man Verknüpfungen wie UND, ODER, NICHT etc. ausdrücken, indem man beispielsweise Minimum- und Maximum-Operatoren einsetzt und entsprechende Festlegungen trifft.

Schlußfolgerungen sind zeitabhängige Prozesse

Wie schon erwähnt, unterscheidet ein System zur akustisch-phonetischen Analyse sich auch dadurch von herkömmlichen Expertensystemen, daß es Parameter der Sprache "als zeitveränderliche Meßgrößen behandeln" muß. Es muß also der Tatsache gerecht werden, daß sowohl seine Schlußfolgerungen, die es mit Hilfe seiner Regeln erzeugt, als auch seine Berechnungen mittels entsprechender Funktionen "typischerweise zeitabhängige Prozesse mit entsprechend zeitabhängigen Resultaten" sind.

Außerdem muß das Sprachsystem noch so beschaffen sein, daß es sich bei seinen, zeitabhängig erarbeiteten Folgerungen nicht etwa allein auf solche beschränkt, die zeitgleich auftretende Ereignisse betreffen; denn bei der Erkennung gesprochener Sprache stecken ja auch und gerade in zeitversetzt auftretenden Ereignissen oftmals wichtige Informationen: Hinweise, die das Entschlüsseln des Gesprochenen vielfach überhaupt erst möglich machen.

Diesen komplizierten Anforderungen wird das SpeechStation-Modul SpeechRul dadurch gerecht, daß "für zeitabhängig definierte 'Objekte' wie Sensorwerte, Funktionen und Regeln" hier ein besonderer "Zeitindex explizit gehandhabt" wird. Dabei kann dieser Index wiederum - je nach Definition - "absolut wirken", oder aber "relativ zu einem variablen Zeitpunkt T". Wobei die Autoren in ihrer Arbeit für die Bad Nauheimer ITG-Tagung anmerken, daß relative Definitionen der Zeit "den Vorteil der einfachen Realisierung von rekursiven Funktions- und Regelaufrufen" bieten sollen.

Entscheidungsverhalten grafisch präsentiert

Expertensysteme sollen dem Menschen auf Wunsch erklären können, warum und wie sie zu einer bestimmten Schlußfolgerung gelangt sind. Hier nun bedient SpeechRul die, die mit ihm umgehen, gleich auf zweifache Weise: Denn erstens präsentiert das System "das zeitabhängige Verhalten von Objekten automatisch in Form von 'Ereignis'- oder auch 'Entscheidungsspuren'", wie zu erfahren ist. Und zweitens kann man sich "für dedizierte Zeitpunkte" das Entscheidungsverhalten von Regeln noch in Gestalt "eines fuzzy-logischen Entscheidungsbaums grafisch" präsentieren lassen. Wodurch man Fehlentscheidungsbaums grafisch" präsentieren lassen, wodurch man Fehlentscheidungen mithin Schritt für Schritt rückwärts verfolgen und das System durch Modifizieren der Regeln fallweise korrigieren kann.

In jedem Falle ist aber klar, betonen die Autoren aus Darmstadt, daß die geforderte, "zeitabhängige Verarbeitungsweise" die "Realisierung und Handhabung eines derartigen Expertensystems" zur akustisch-phonetischen Analyse gesprochener Sprache deutlich schwerer macht, als würde ein herkömmliches System aufgebaut.

Die Post entwickelt eigenes KI-Konzept

Zentrale Forderungen bei der Erarbeitung sprachverstehender Systeme sind erstens die nach möglichst hoher Geschwindigkeit sowie außerdem die nach flexibler Anpaßbarkeit an die einzelnen, konkreten Problemstellungen. Beiden Wünschen sowie außerdem der Forderung nach zeitabhängiger Verarbeitung werden die heute gängigen Expertensystem-Schalen nach Auskunft der Darmstädter Wissenschaftler leider nicht gerecht, weshalb man sich bei der Post dann eben ein eigenes und vor allem streng modulares, innovatives Gesamtkonzept überlegt hat: eines nämlich, das für hohes Tempo gut sein soll und das sich gut anpassen lasse. Dabei werden die verschiedenen Ebenen dieses Systems sogar in verschiedenen Sprachen programmiert, denn während, wie erwähnt, SpeechRul in Pascal geschrieben ist, haben die Autoren andere Teile in Prolog implementiert; also in einer speziellen KI-Sprache.

Regelwerke in kurzer Zeit erstellt

Bisher hat SpeechRul sich gut bewährt, wie Lochschmidt und Kaspar aufgrund erster Erfahrungen betonen; es sei nämlich möglich, Regelwerke für die akustisch-phonetische Erkennung von Sprache in durchaus kurzer Zeit zu erstellen und zu testen. Und in weiteren Arbeitsphasen soll die bisher erarbeitete Wissensbasis nun weiter verbessert und ergänzt werden, wobei dann außerdem auch gleich noch ein zusätzliches, ehrgeiziges Ziel ins Auge gefaßt wird: nämlich die Erweiterung des ganzen Systems um Elemente, die dem halbautomatischen Erwerben neuen Wissens dienen. Beziehungsweise die dieses Hinzulernen wenigstens maschinell unterstützen.

Und arbeitet dies alles dann zufriedenstellend, so soll schließlich auch das Erkennen "syntaktisch einfacher Wortfolgen wie etwa Orts- und Zeitangaben in Angriff genommen werden", haben die Darmstädter Postler sich fest vorgenommen.