Neurocomputer hören aufs Wort

Eine neue Computergeneration soll Sprache verstehen lernen

16.10.1992

Die heutigen Computer vollbringen zwar erstaunliche Leistungen, sind aber keineswegs Alleskönner. Zum Beispiel haben sie Mühe, Wörter zu erkennen, die Menschen in ein Mikrofon sprechen. Wenn sie eine Stimme verstehen, klappt es häufig bei der nächsten nicht mehr. Versuche haben gezeigt, daß Neurocomputer zur Sprach- und Stimmerkennung besser geeignet sind.

"Weißt du, wo der Fehler steckt?" fragte Bowman. "Nein, ich kann ihn nicht lokalisieren", antwortete HAL, "aber er scheint im Aggregat AE-35 zu liegen." - "Was schlägst du vor?" - "Am besten wäre es, das Aggregat auszuwechseln...".

Dieser Dialog zwischen dem Astronauten David Bowman und HAL, dem intelligenten Computer im legendären Science-fiction Film "2001, A Space Odyssee" ist für die Erforscher der Kommunikation zwischen Mensch und Maschine ein Ideal, das sie wohl nie erreichen werden.

Reale Computer haben nämlich Mühe mit dem Sprechen und mit dem Hören noch viel mehr. Weshalb? Im Grunde einfach, weil jeder Mensch anders spricht und sich die gleiche Nachricht auf sehr unterschiedliche Art und Weise artikulieren läßt.

Wir Menschen sind da höchst flexibel: Egal, wer redet, verstehen wir das Gesprochene aus dem Satzzusammenhang, und zwar auch dann, wenn die Grenzen zwischen aufeinanderfolgenden Wörtern verwischt sind. Ein automatisches System dagegen gerät in größte Schwierigkeiten, sobald es zwischen den Wörtern keine deutlichen Pausen mehr erkennt.

Neurocomputer simulieren das Gehirn des Menschen

Am besten funktionieren Spracherkennungsgeräte, die man auf einen bestimmten Sprecher trainieren, kann. Solche Systeme - das zur Zeit erfolgreichste heißt "Tangora" und stammt von IBM - können heute bereits Tausende von isoliert gesprochenen Wörtern auseinanderhalten.

Da für jeden Sprecher ein neues Sprachtraining nötig ist, sind die Einsatzmöglichkeiten solcher Apparate aber sehr eingeschränkt. Deshalb arbeiten Wissenschaftler an einer personenunabhängigen Maschine, die ohne individuelle Trainingslektionen jeden Sprecher richtig versteht.

Mit herkömmlichen Computern ist man da nicht weit gekommen: Mehr als ein paar Dutzend Wörter können solche Systeme nicht zuverlässig erkennen - viel zuwenig für praktische Anwendungen.

Die Hoffnungen der Forscher ruhen jetzt deshalb auf einem völlig anderen Ansatz: dem Neurocomputer, einem Apparat, der dem menschlichen Gehirn nachempfunden ist.

Im Gegensatz zu traditionellen Rechnern, wo ein zentraler Prozessor gemäß einem vorher festgelegten Programm arbeitet, bestehen Neurocomputer aus einer Vielzahl von Prozessoren, die in mehreren Schichten angeordnet sind und ähnlich zusammenwirken wie ein biologisches Nervensystem. Wie ihre Vorbilder empfangen diese künstlichen Neuronen - Fachleute nennen sie schlicht "Elemente" - laufend Reize von anderen Neuronen.

Übersteigt die Summe der Reize, die ein Neuron empfängt, einen bestimmten Schwellwert, gibt es sie, allenfalls in modifizierter Form, an andere Neuronen weiter.

Die Übertragung der Signale von Element zu Element erfolgt nicht einfach eins zu eins, sondern über eine gewichtete Verbindung, die im wesentlichen das Verhalten des neuronalen Netzes bestimmt.

Neurocomputer erkennen Muster des Lernprozesses

Interessant daran ist nun, daß man diese Gewichte gezielt verändern kann, indem man das Netz trainiert: Wenn man ihm nämlich auf eine bestimmte Eingabe die gewünschte Ausgabe präsentiert, so ändern sich die Gewichte in die entsprechende Richtung - bis die richtige Zuordnung erreicht ist. Mit anderen Worten: Neuronale Netze sind lernfähig - wie das menschliche Gehirn. Außerdem reagieren sie - ganz im Gegensatz zu konventionellen Computern - tolerant auf kleine Abweichungen in der Eingabe.

Die Frage ist natürlich, wie man einen Neurocomputer am besten realisiert, denn man kann ja nicht einfach das Gehirn nachbauen. Bisher müßte man das Wort Neurocomputer strenggenommen immer in Anführungszeichen setzen, denn die aktuellen Geräte sind lediglich Simulationen neuronaler Netze: Man nimmt einen herkömmlichen Computer Lind rechnet auf diesem ein Neuron nach dem anderen durch.

Erste Prototypen zeigen das erstaunliche Potential, das in Neurocomputern steckt. Obwohl sie nur aus ein paar hundert simulierten Neuronen aufgebaut sind - zum Vergleich: Das Gehirn enthält 100 Milliarden Neuronen! - zeichnet sich gegenüber herkömmlich programmierten Rechnern bei Aufgaben wie der Erkennung von grafischen oder sprachlichen Mustern eine gewisse Überlegenheit ab. Der Grund: Statt wie konventionelle Computer stur ein Programm abzuspulen und sich dabei in oft unwichtigen Detailstudien zu verlieren, suchen Neurocomputer gezielt nach den übergreifenden Mustern, die man ihnen im Lernprozeß gezeigt hat.

Der Schweizer Forscher Gianni di Pietro und seine Mitarbeiter von der Firma Ascom Tech AG in Solothurn haben ein System entwickelt, das auf einem leistungsfähigen Kleincomputer ein auf Spracherkennung spezialisiertes neuronales Netz namens Hypervoice simuliert. Dieses ist aus drei Schichten aufgebaut: einer Eingabeschicht mit 1600 Elementen, einer sogenannten versteckten Schicht mit 30 Elementen und einer Ausgabeschicht, die 25 Elemente enthält. Jedes Ausgabeelement entspricht einem Wort, das der Neurocomputer erkennen kann.

Natürlich ist ein Vokabular von 25 Wörtern für die Praxis viel zu bescheiden. Aber das System ist ja auch lediglich eine Versuchsanordnung, die unter anderem zeigen soll, daß die Methode prinzipiell funktioniert.

Computer lernen durch Übung und Erfahrung

Die Spracherkennung mit Hypervoice läuft in mehreren Schritten ab. Zunächst wird das Sprachsignal aus dem Mikrofon so gut wie möglich von Störgeräuschen befreit und anschließend digitalisiert. Das Resultat ist eine riesige Zahlenkette, die zwar computerlesbar, aber wegen ihrer Länge mit vernünftigem Aufwand kaum zu verarbeiten ist. Also muß man die Datenmenge reduzieren, wobei natürlich keine wesentlichen Informationen verlorengehen dürfen.

Zu diesem Zweck wird das Sprachsignal so umgeformt, daß die spektralen Anteile verschiedener Zeitabschnitte zum Vorschein kommen. Für jedes zu erkennende Wort liefert die Vorverarbeitung die Energiewerte für 20 Frequenzbänder in 80 aufeinanderfolgenden Zeitabschnitten. Damit ist eine maximale Sprechdauer von 1,7 Sekunden abgedeckt.

Erst jetzt tritt das neuronale Netz in Aktion. Die 20 mal 80 Zahlenwerte werden den 1600 Elementen der Eingabeschicht zugeordnet und von dieser über die 30 Elemente der Zwischenschit an die Ausgabeschicht weitergereicht. Der Vorgang aktiviert dort eines der 25 Elemente. Welches es ist, hängt davon ab, wie all die Verbindungen - von der Eingangs- zur Zwischenschicht gibt es 1600 x 30 = 48 000 und von der Zwischenschicht zur Ausgangsschicht 30 x 25 = 750 Verbindungen - gewichtet sind.

Bei einem unbearbeiteten System sind die Verbindungsgewichte völlig zufällig verteilt. Im Training werden dann diese Werte so verändert, daß das neuronale Netz die gewünschte Aufgabe immer besser erfüllen kann.

Konkret geschieht das wie folgt: Die Trainingsperson spricht eines der zu erkennenden Wörter ins System, worauf irgendeines der 25 Ausgangselemente besonders stark reagiert. Bei jeder Wiederholung des Wortes sollte nun dasselbe Element am heftigsten ansprechen. Ist dies nicht der Fall, so muß der Sprecher eingreifen und die Zuordnung korrigieren, worauf das System die Gewichte der Verbindungen entsprechend modifiziert.

Zum Glück vollzieht sich das automatisch, denn wie die Gewichte der 48 500 Verbindungen von Hypervoice zusammenspielen, weiß niemand ganz genau. Klar ist nur, daß in ihnen das gesamte "Wissen" des Systems steckt.

Automatische Auskunft in der Schweiz?

Hypervoice wurde im Labor von 16 Frauen sind Männern trainiert, indem sie dem Rechner die zu erkennenden Wörter je sechsmal vorsprachen und ihm damit 96 unterschiedliche Ausprägungen für jedes beibrachten. Das Resultat war ein neuronales Netz, das im Durchschnitt über 90 Prozent der Wörter richtig erkennt- egal, wer ins Mikrofon spricht.

Über mangelndes Interesse an der neuen Technik können die Forscher nicht klagen: Die schweizerischen Post- und Telefondienste zum Beispiel möchten in Zukunft mit einem solchen System die Rufnummernauskunft automatisieren. Zunächst soll die Eingabe von Namen, Vornamen und Wohnorten implementiert werden. An diesem Projekt ist auch das Institut für Elektronik der ETH Zürich beteiligt.

Wie gut das neue Spracherkennungs-System wirklich ist,

wird wohl der Test zeigen, den sechs europäische Spezialistenteams im Rahmen des Esprit-Projekts Hidden Markov and Neural Networeks (Himarnnet) planen. Daß Hypervoice überhaupt zu den drei Verfahren gehört, die näher untersucht werden, ist sicher ein vielversprechendes Zeichen.

* Felix Weber ist freier Journalist in Zürich