Vorbild Gehirn

Computer lernen richtig zuhören

20.08.2009
Von pte pte
Es geht voran in Sachen Spracherkennung: Leipziger Forscher haben ein mathematisches Modell entwickelt, das die maschinelle Wahrnehmung verbessert.

Forscher des Leipziger Max-Planck-Instituts für Kognitions- und Neurowissenschaften und des Wellcome Trust Centre for Neuroimaging in London haben ein mathematisches Modell entwickelt, um die maschinelle Wahrnehmung und Verarbeitung von gesprochener Sprache deutlich zu verbessern. Der Ansatz hat die Funktionsweise zur Spracherkennung des menschlichen Gehirns zum Vorbild. Er bezieht im Gegensatz zu bisher verfügbarer Spracherkennungs-Software nicht nur charakteristische Merkmale in den Frequenzen der Stimme heran, sondern analysiert das Gesprochene auch auf zeitliche Abfolgen hin.

Sprachautomaten, wie sie heute beispielsweise von Telefonhotlines eingesetzt werden, scheitern in der Regel sehr leicht an der Erkennung des Gesprochenen. Zu schnelle oder langsame Aussprache, Störgeräusche oder der Dialekt des Benutzers machten die Arbeit mit derartigen Systemen schwierig. "Viele Wahrnehmungsreize unserer Umwelt lassen sich als zeitliche Abfolge beschreiben", sagt der am Projekt beteiligte Stefan Kiebel. So bestehe gesprochene Sprache ebenso wie Musik aus einer Abfolge hierarchisch aufeinander aufbauender Abschnitte. Das menschliche Gehirn, so die Hypothese der Wissenschaftler, kategorisiert die verschiedenen Signale. Die Palette reicht hierbei von kleinen, schnell veränderlichen Signalen wie einzelnen Lauten und Silben bis hin zu langsam veränderlichen Informationen, etwa dem Gesprächsthema.

"Das Gehirn sucht permanent nach zeitlicher Struktur in der Umwelt, aus der es ableiten kann, was als nächstes passieren könnte", so der Fachmann. Auf diese Weise wird es möglich, Laute und Wörter - basierend auf den langsam veränderlichen Informationen wie dem Gesprächsthema - vorauszuahnen. Das Modell, das die Leipziger Forscher entwickelt haben, kann dies ebenfalls. Die "Sprache", mit der die Software rund um das mathematische Modell getestet wurde, war allerdings vereinfacht - sie bestand nur aus vier Vokalen. "Zunächst ging es uns darum, zu prüfen ob die prinzipielle Annahme stimmt", sagt Kiebel.

Zukünftig könne man aber auch Konsonanten mit einbeziehen und neben Lauten und Silben auch weitere Hierarchie-Ebenen für Wörter und Sätze einbauen. So ließe sich das Modell auch auf natürliche Sprachen übertragen. "Interessant für Neurowissenschaftler ist vor allen Dingen, dass die Reaktionen der Software dem ähnelten, was mit einem echten menschlichen Gehirn zu beobachten wäre", so Kiebel. Dies deutet darauf hin, dass das Modell tatsächlich den Abläufen im Gehirn entspricht und für zukünftige Weiterentwicklungen im Bereich maschineller Spracherkennung von Nutzen sein kann. Andere Forscher arbeiten daran, dass Computer eines Tages Emotionen in der Stimme des menschlichen Gegenübers erkennen können. (pte)