VALL-E imitiert Aussprache

Microsoft baut KI-Modell für Stimmensynthese

11.01.2023
Von 
Martin Bayer ist Chefredakteur von COMPUTERWOCHE, CIO und CSO. Spezialgebiet Business-Software: Business Intelligence, Big Data, CRM, ECM und ERP.
Ein kurzes Audio-File reicht VALL-E als Input, um die Stimme einer bestimmten Person nachzuahmen. Microsofts KI-Modell kann Menschen Dinge sagen lassen, die diese nie gesagt haben.
Wer hat meine Stimme geklaut? Microsofts VALL-E!
Wer hat meine Stimme geklaut? Microsofts VALL-E!
Foto: Eugenio Marongiu - shutterstock.com

Die Entwickler in Microsofts Forschungslaboren haben ein Text-to-Speech-KI-Modell entwickelt, das jede beliebige Stimme imitieren können soll. Angeblich reicht VALL-E dafür ein gerade einmal drei Sekunden langes Audio-Beispiel. Hat das Modell einmal eine bestimmte Stimme gelernt, kann es diese alles Mögliche sagen lassen. Dabei sollen sich neben der Tonlage auch Modulation, Sprach-Rhythmus und emotionale Tonalität nachahmen lassen.

Die Microsoft-Forscher bezeichnen VALL-E als ein "neuronales Codec-Sprachmodell". Die Grundlage bildet eine Technologie namens EnCodec, die die Facebook-Mutter Meta im Oktober 2022 herausgebracht hatte. VALL-E analysiert anhand des Beispiel-Samples wie die Sprache einer bestimmten Person klingt. Diese Information zerlegt das KI-Modell mit Hilfe von EnCodec in einzelne Komponenten, sogenannte Tokens. Anhand von Trainingsdaten und dieser Tokens ermittelt VALL-E, wie die Stimme klingen würde, wenn sie andere Sätze sagen würde. Letzten Endes könnte man damit per Texteingabe die Sprache einer Person synthetisieren und sie Dinge sagen lassen, die sie nie in den Mund genommen hat.

Microsoft hat VALL-E mit Hilfe der Audiobibliothek LibriLight von Meta trainiert. Darin enthalten sind rund 60.000 Stunden englisch-sprachige Audio-Inhalte. Der Großteil davon kommt von LibriVox, einer Sammlung frei verfügbarer Audiobooks. Insgesamt stammen diese Trainingsdaten von etwa 7000 Sprecherinnen und Sprechern.

Missbrauch: Microsoft hält VALL-E-Code unter Verschluss

Die Genauigkeit einer Stimmensynthese steht und fällt mit den Trainingsdaten. Damit VALL-E möglichst gute Resultate abliefern kann, muss die nachzuahmende Stimme einem Audiofile aus der Trainingsbibliothek ähnlich klingen. Auf einer Seite im Netz präsentieren die Microsoft-Entwickler erste Beispiele, wie VALL-E klingt - vom kurzen Beispiel-File bis zum synthetisierten Text-to-Speech Stimmen-Audio.

Weil den Microsoft-Verantwortlichen klar ist, dass mit dem KI-Modell viel Schindluder getrieben werden kann, wurde der Code von VALL-E nicht zum zum Experimentieren bereitgestellt. "VALL-E birgt potenzielle Risiken für den Missbrauch, wie zum Beispiel die Fälschung der Stimmerkennung oder die Nachahmung eines bestimmten Sprechers", schreiben die Forscher am Ende ihres kurzen Berichts über ihre Experimente (PDF-Link). Um solche Risiken zu minimieren, sei es allerdings möglich, ein Erkennungsmodell zu erstellen, mit dem sich feststellen lassen soll, ob ein Audioclip von VALL-E synthetisiert wurde. Bei der Weiterentwicklung der Modelle werde man sich nach den KI-Prinzipien von Microsoft richten.