Stimmerkennung schützt Bankkonten: Faule Kunden erkennt der Mikrocomputer

03.04.1981

Ein Spracherkennungssystem auf Basis eines Nova 4-Rechners von Data General soll bei der First National Bank of Chicago demnächst sicherstellen, daß Überweisungen von Firmenkonten zwar automatisch entsprechend den per Telefon übermittelten Kommandoworten ausgeführt werden, jedoch niemand außer den handlungsbevollmächtigten Personen Geldbewegungen veranlassen kann.

An diesem Konzept arbeitet zur Zeit die Threshold Technology Inc., wobei ihr bereits erprobtes Wort-Erkennungssystem - es identifiziert Wörter, egal von wem sie gesprochen werden - so modifiziert wird, daß es künftig an vier bestimmten Schlüsselwörtern nachprüfen kann, ob die Stimme auch einer zugriffsberechtigten Person gehört. Dazu wird das gesprochene Wort auf 32 phonetische Merkmale hin untersucht und deren jeweilige Kombination alle 2,2 Millisekunden festgehalten. Von jedem Wort werden dabei gewissermaßen 16 "Proben" genommen, aus denen eine Matrix von 32 mal 16 Elementen gebildet wird. Diese Matrix wird dann mit einer von maximal 16 mal 3000 abgespeicherten Referenz-Matrizen verglichen (für 3000 Sprecher), wobei demnach pro Sprecher 16 verschiedene Wörter festgehalten werden und zur Wiedererkennung dienen.

Bei der Sprecher-Identifikation werden zufällig vier der 16 Referenzwörter ausgewählt und sind vom Anrufer richtig nachzusprechen. Bleibt das Okay des Systems aus, hat jeder Anrufer noch drei weitere Versuche, ehe er endgültig abgelehnt wird. Die Kriterien für des Okay sind dabei flexibel genug gewählt, daß eine Stimme trotz gewisser unvermeidbarer Modifikationen wiedererkannt wird. Ist der Anrufer akzeptiert, geht das Computersystem zur gewöhnlichen Wort-Erkennung über, um dann die Überweisungs-Anweisungen entgegenzunehmen und auszuführen.

Während die Bankiers natürlich bei der "Akzeptanz" des Systems verlangen, daß absolut kein unberechtigter "Kunde" eindringen kann - das bedeutet eine Falsch-Akzeptanz-Quote von 0,0 Prozent -, erlauben sie immerhin, daß im Schnitt jeder 200ste berechtigte Anruf zurückgewiesen wird. Zwar weist das Threshold-System zur Zeit noch doppelt sooft zugelassene Anrufer ab, doch seine Väter sind sich sicher, auch die 0,5-Prozent-Hürde falscher Zurückweisungen nehmen zu können. Voraussetzung dabei ist allerdings, daß die Anrufe nicht über das schmalbandige, störanfällige öffentliche Telefon, sondern über spezielle Leitungen einlaufen. Später hofft man, auch mit einem besonderen Rauschunterdrückungssystem in den öffentlichen Telefonen zurechtzukommen.

Einzelwörter in fließender Rede erkennbar

Während das für Chicago vorgesehene System mit jeweils separat zu sprechenden Wörtern gefüttert werden will, haben Mitarbeiter des National Physical Laboratory in Großbritannien eine Versuchsanlage aufgebaut, mit der bestimmte Wörter sowie Zahlen auch im Zuge fließender Rede erkannt werden können. Die ganze Apparatur basiert auf einem LSI-11-Mikrocomputer von Digital Equipment.

Die britischen Wissenschaftler verzichteten von vornherein auf Versuche, dem Rechner beizubringen, während des Redeflusses zwischen den einzelnen Wörtern Pausen zu finden- oft gibt es nämlich keine. Sie nehmen vielmehr in 10-Millisekunden-Intervallen Proben der Stimme und klassifizieren sie nach 16 phonetischen Merkmalen, also ähnlich wie das Threshold-System. Außerdem wird dabei festgehalten, wie lange jedes charakteristische Phonem-Muster anhält. So kommt man zu einem Arbeitsprinzip, das von vornherein mit jeder beliebigen Sprache und mit jedem Sprecher fertig wird. Auch wurde es so konzipiert, daß auch schlechte Kommunikationssysteme die Spracherkennung nicht stören.