Computer lernen die menschliche Stimme verstehen

Gestatten, daß ich Sie einfach so anspreche...

18.03.1977

Es ist ein steiniger und mühsamer Weg, Computern das vom Menschen gesprochene Wort verständlich zu machen, doch beharrliche Arbeit an diesem Ziel beseitigt immer mehr der technologischen Hemmnisse. So berichtet CW-Korrespondent W. Schweisheimer jetzt aus New York von einem frisch patentierten System zur automatischen Stimm-Identifizierung durch Computer.

Dieses Identifikationssystem dürfte auf vielen Feldern der Computer-Anwendung größtes Interesse finden: beim bald erwarteten automatisierten Geldverkehr ebenso wie beispielsweise bei der Absicherung von Datenbanken vor unbefugtem Zugriff. Immer führt der Rechner weitere Befehle erst aus, wenn er aus der Stimmanalyse den Kommunikationspartner identifiziert und dessen Befugnisse gecheckt hat.

Erst den Mund fransig reden

Wie funktioniert nun dieses Verfahren, das James L. Flanagan, Chef-Akustiker der Bell Telephone Laboratories in Murray Hill, New Jersey, zusammen mit Robert C. Lummis und George R. Doddington ausgeheckt hat? Zunächst prägt sich der Computer das charakteristische Stimmuster, also Klangfarbe, Stimmhöhe, Modulation und übliche Lautstärke eines Sprechers ein. Dazu werden dem Rechner standardisierte Sätze wie "We were here a year ago" oder "My children are Mary, Ann and Herbert" vorgesprochen und zur Elimination atypischer Zufallsabweichungen fünfzehnmal wiederholt.

Der Rechner kennt also nun die Stimmen seiner Pappenheimer, er kann ihre Charakteristika auf dem: Bildschirm in Form einer Kurve sichtbar machen - falls ein Operator eine Stimm-Identität visuell überprüfen möchte - und er kann auch selber testen, ob er eine Stimme schon gehört hat. Dazu muß beispielsweise ein Bankkunde den ursprünglich verwendeten Schlüsselsatz einfach erneut vorsprechen und schon gibt ihm der Rechner die Verfügungsgewalt über sein Konto.

Sicherheit kostet Zeit

Die Stimm-Identifikation dauert beim Bell-Verfahren um so länger, je größer die geforderte Zuverlässigkeit ist. Ein bestimmtes Programm beispielsweise arbeitet mit 99 Prozent Genauigkeit und berücksichtigt "sämtliche" Stimmcharakteristika, braucht aber pro Identifikation sieben Minuten. Beschränkt sich der Rechner dagegen nur auf die Hauptmerkmale der Stimme, so kommt das O.K. bereits nach zwölf Sekunden. Auch dies abgekürzte Vergleichsverfahren soll in praxi noch ausreichend Schutz vor Verwechslungen bieten.

Mensch und Rechner im Vergleich

Gibt man seinem Bankbeamten einen Effektenauftrag per Telefon, so ist praktisch nur die vertraute Stimme für ihn der Beweis, daß alles seine Richtigkeit hat. Nichts anderes macht Bells neues System auch - aber leistet es dasselbe wie ein geübter Bankmann?

Ein Test der Bell Laboratories zeigte nicht nur, daß Menschen Stimmen erstaunlich sicher wiederzuerkennen vermögen, er demonstrierte auch die Überlegenheit des Computers. Denn durchschnittlich irrten die Testpersonen sich bei 4,2 Prozent aller Vergleiche, der Rechner aber nur bei 1,2 Prozent. Die "akustischen Fingerabdrücke" haben also eine große Zukunft vor sich.

Selektivität unerwünscht

Ist das Wiedererkennen einer Stimme das A und O des skizzierten Bell-Patents, so ist bei anderen Anlagen die Fixierung des Computers auf eine Stimme ausgesprochen unerwünscht - dann nämlich, wenn ein Rechner auf gesprochene Befehle von praktisch jedermann reagieren soll: bei einer automatisierten Fahrplanauskunft beispielsweise.

Mit solchen Computerentwicklungen befaßt sich William A. Woods von der Bolt Beranek and Newman Inc. in Cambridge, Massachusetts. Heute, so berichtete er unlängst auf einem Wissenschaftler-Kongreß in Boston, gibt es allenfalls Computersysteme, die etwa 50 gesprochene Worte dann verstehen, wenn sie zuvor mit der Stimme des Kommandogebers vertrautgemacht worden sind. Man nutzt sie heute etwa beim Briefesortieren nach Postleitzahlen und anderen numerischen Kodierungen. Mit dem Verständnis gesprochener Sätze hingegen tun die paar heutigen Experimentieranlagen sich nicht nur schwer, sie brauchen dafür auch ganz schön "Bedenkzeit".

Fehlerquote 25 Prozent

Die Begriffsstutzigkeit der Sprach-Dekoder erklärt sich vor allem damit, daß die menschliche Sprache allein als akustisches Signal recht informationsarm ist. Man muß auch über die Wortbedeutungen und die Gesetze des Satzbaus informiert sein. Soll ein Computer Worte allein mittels Analyse der wahrgenommenen Frequenzen erkennen, so liegt die Fehlerrate im günstigsten Fall bei 30 bis 25 Prozent.

In 10 bis 15 Jahren

Erst eine Programmierung mit semantischen und syntaktischen Regeln steigert die Genauigkeit auf respektable 96 Prozent. Doch auch dann sind Fehlleistungen wie jene bei der Analyse der Mondgesteinsproben nicht ausgeschlossen: den Befehl "Give me all lunar samples with magnetite", verstand der Rechner als "Ten people are glass samples with magnetite".

Trotz all dieser Schwierigkeiten ist es ein lohnendes Ziel, Computern Sprachverständnis beizubringen. Denn Sprache ist nicht nur die natürlichste Ausdrucksform des Menschen, sie ist auch viermal schneller als flottes und zehnmal schneller als normales Maschineschreiben. Man hat dabei außerdem die Hände, die Augen, die Ohren und die Füße frei, man kann sich im Raum bewegen, und als Input-Terminals kommen billige Mikrophone und Telefonmuscheln in Frage. In zehn bis 15 Jahren, hofft Woods, dürfte man Computer auf diesem Weg ansprechen können.

Egon Schmidt ist freier Wissenschaftsjournalist