Herausforderung mit Automatic Speech Recognition

"Computer, hosd mi?" - Wie der Computer bayrisch lernt

07.04.2017
Von 


Nils Lenke leitet ein Team, das sich auf disruptive Innovationen in der Automobilindustrie konzentriert, insbesondere an der Multimodalität des HMI im Auto, der Fahrer- und Fahrzeuginnenraum­überwachung und der Gewinnung von Antworten aus unstrukturierten Daten. Er hat einen Doktortitel in Computerlinguistik, zwei Masterabschlüsse, ein Diplom und 13 Patente. Lenke vertritt Cerence auch im Aufsichtsrat des DFKI, Deutschlands führendem Forschungsinstitut für Künstliche Intelligenz.
Automatisch Spracherkennungssysteme müssen nicht nur mehr als 80 Sprachen beherrschen, sondern auch eine Reihe an Dialekten. Eine Aufgabe von maschinellen Lerntechniken, vor allem "Deep Learning".

Jahrzehntelange kommunizierten Menschen vorzugsweise mithilfe von Fernbedienungen, Tastatur und Maus. Nicht unbedingt miteinander, sondern mit den unzähligen technischen Systemen, die sie umgeben. Sprache dagegen war den menschlichen Kommunikationspartnern vorbehalten. Das ändert sich nun: Im Smartphone und Rechner sitzen Cortana und Siri, auf dem Nachtisch steht Alexa. Digitale Assistenten gehorchen aufs Wort - und steuern zentrale Aspekte der Heim-Automation wie Beleuchtung, Heizung oder Surround-Anlage mithilfe automatischer Spracherkennungssysteme. In absehbarer Zeit werden auch selbstfahrende Autos und Maschinen aller Art genau zuhören, was der Nutzer will.

Damit Digitale Assistenten aufs Wort gehorchen, müssen sie dieses erst einmal verstehen.
Damit Digitale Assistenten aufs Wort gehorchen, müssen sie dieses erst einmal verstehen.
Foto: PixDeluxe - shutterstock.com

Ob diese Systeme dann auch tun, was man ihnen sagt, hängt allerdings davon ab, wie gut sie ihren Menschen verstehen. Dafür sorgt Automatic Speech Recognition (ASR). Doch hier steckt der Teufel im Detail - denn nicht jeder Nutzer von Spracherkennungssystemen spricht gestochenes Hochdeutsch oder Oxford-English. So verwenden laut einer Umfrage des Bayerischen Lehrer- und Lehrerinnen-Verbandes (BLLV) an bayerischen Schulen immerhin rund 33 Prozent der Schüler einen Dialekt. Weitere 31 Prozent greifen sowohl auf ihren Heimatdialekt als auch auf das Hochdeutsche zurück.

"Ich spreche beides: Deutsch und Dialekt"

So ist es nicht verwunderlich, dass sich ein Großteil der (potenziellen) Nutzer von Spracherkennung die Frage stellt, ob ein solches System auch mit Dialekten umgehen kann. Dies gilt nicht nur für Dialekte in Deutschland wie Hessisch oder Donaubayerisch. Auch die Schotten, Schweizer und Kanadier sprechen nicht nur eine Sprache - und wollen, dass ihre technischen Helfer sie dennoch verstehen.

Übrigens verläuft der Graben zwischen den Sprachen und Dialekten nicht zwischen Volksgruppen, sondern oft in ein und demselben Sprecher. Im Familien- und Freundeskreis sprechen viele Menschen ihren Dialekt - mit Kollegen reden sie im Jargon, etwa als Juristen oder Entwickler - doch mit fremden Personen oder bei offiziellen Anlässen nutzen sie weiterhin Hochdeutsch. Diese Entwicklung wird durch nach Angaben von Sprachwissenschaftlern durch Schulen und Universitäten gefördert.

Maschinelles Lernen erfasst auch Dialekte

Aus Sicht der Automatic Speech Recognition bilden Dialekte zum Glück keine überwindbare Hürde. Dafür danken können wir Techniken aus dem Machine Learning, speziell Deep-Learning-Verfahren in Form von neuronalen Netzen. Diese Technologie ist in der Lage, mit der Vielzahl unterschiedlicher Sprachformen sowie der Schriftsprache in einem Kulturraum umzugehen. Die Voraussetzung ist, dass die Daten, mit denen ASR-Systeme "gefüttert" werden, alle Sprachvariationen abdecken.

In Großbritannien allein sind 20 Dialekt-Regionen vorhanden. Die Modelle, die einer ASR-Lösung zugrunde liegen, müssen für alle Dialekte die Art und Weise berücksichtigen, wie Phoneme ausgesprochen werden. Ein Phonem ist der kleinste lautliche Bestandteil eines Wortes, anhand dem sich Begriffe unterscheiden lassen, etwa "Bach" statt "Buch".

Auf die Aussprache kommt es an

Damit nicht genug: Eine Spracherkennungs-Software muss außerdem spezielle Begriffe berücksichtigen, die in einem Dialekt vorkommen. So verkaufen Bäcker in Südbayern "Semmeln", aber keine "Brötchen" wie ihre Kollegen in Nord- und Ostdeutschland, auch keine "Weck" wie Backstuben in Schwaben und Franken.

Weiterhin gilt es die Variation in der Aussprache eines Wortes zu berücksichtigen. Der Londoner Flughafen Heathrow lässt sich beispielsweise auf mehr als 50 unterschiedliche Arten aussprechen, vor allem da auch nicht-Muttersprachler nach ihm fragen werden. Eine "intelligente" ASR-Lösung erkennt alle Formen.

Der Nutzer einer Spracherkennungssoftware sollte außerdem die Option haben, zwischen mehreren Spielarten einer Sprache zu wählen. Das gilt nicht nur innerhalb eines Landes, sondern auch zwischen Sprachräumen, in denen sich Eigenheiten herausgebildet haben. So bestehen teilweise deutliche Unterschiede zwischen dem Flämischen (Belgien) und der niederländischen Sprache. Auch das Französisch in Frankreich und dem frankophonen Teil Kanadas hat sich im Lauf der 400 Jahre, die seit Gründung der Stadt Québec vergangen sind, unterschiedlich entwickelt.

Das passende Sprachpaket für jeden Nutzer

Für jeden Nutzer eines ASR-Programmes stehen somit unterschiedliche Sprachpakete zur Verfügung. Dabei kann es bei Sprachen mit einem breiten Spektrum an Dialekten im Verborgenen dann auch noch spezielle "Dialektpakete" geben. Mithilfe eines"Classifiers", einem anderen Verfahren des maschinellen Lernens, identifiziert die Software automatisch welches Paket für einen bestimmten User und dessen Dialekt das optimale ist.

Gleichzeitig nimmt die Genauigkeit der ASR-Software durch die Fortschritte des Maschinellen Lernens generell stark zu, was sich dann auch in Fortschritten bei den einzelnen Dialekten niederschlägt. Den Erfolg dieses Optimierungsprozesses in der Praxis belegen Tests des Sprachspezialisten Nuance. So stieg im Vergleich zur Vorgängerversion die Erkennungsquote der Spracherkennungssoftware Dragon bei Nutzern, die ein spanisch gefärbtes Englisch sprachen, um 22,5 Prozent. Bei Sprechern aus Indien waren es 17,4 Prozent und bei Probanden aus Südostasien an die 17,4 Prozent.

Lebenslanges Lernen - auch bei Automatic Speech Recognition

Ebenso wie für Menschen gilt dabei auch für Lösungen aus dem Bereich automatische Spracherkennung, dass sie lebenslang hinzulernen müssen, in dem sie die Äußerungen des Nutzers auswerten, um ihre Funktionen weiter zu verfeinern. Dazu war es notwendig die Trainingsprozeduren für Neuronale Netze, die allgemein sehr "leistungshungrig" ist, soweit zu optimieren, dass sie auf dem Laptop oder Computer des Nutzers ablaufen kann. Nicht zuletzt durch diese Selbstoptimierungsfunktionen ist die Genauigkeit erheblich gestiegen. Sie beträgt derzeit bei erfahrenen Nutzern einer solchermaßen angepassetn Diktiersoftware bis zu 99 Prozent.

Mittlerweile greifen Tausende von Apps auf Spracherkennungssoftware zurück - in IoT-Systemen (Internet of Things), Smartphones, Fahrzeugen und intelligenter Kleidung (Wearables). Die automatische Spracherkennung ist daher ein wichtiger Bestandteil der Digitalisierung unseres Alltags und der Geschäftswelt.

Bedenken, dass diese Technologie liebgewonnene Eigenheiten wie Dialekte zugunsten einer uniformen Hochsprache "glatthobelt", sind allerdings nicht angebracht. Vielmehr trägt Automatic Speech Recognition in Verbindung mit maschinellem Lernen und Deep Learning dazu bei, dass viele Dinge einfacher funktionieren - und dass die Welt ebenso bunt bleibt wie wir sie gerne hören. (mb)