Enhance Speech von Adobe

KI-Tool lässt Sprachaufnahmen besser klingen

20.12.2022
Von Redaktion Computerwoche
Mit dem kostenlosen KI-Tool Enhance Speech von Adobe lassen sich Sprach-Files von schlechter Qualität nachträglich aufpolieren.
Gute Nachrichten für Podcaster: Mit Enhance Speech stellt ein kostenloses KI-Tool für die Nachbearbeitung von Audio-Files bereit.
Gute Nachrichten für Podcaster: Mit Enhance Speech stellt ein kostenloses KI-Tool für die Nachbearbeitung von Audio-Files bereit.
Foto: Conrado Finoti Ferreira - shutterstock.com

Das Werkzeug entfernt störende Hintergrundgeräusche und Rauschen. Es lässt Stimmen klarer und stärker klingen. Im besten Fall hören sich Gespräche nach der Bearbeitung so an, als wären sie in einer professionellen Tonkabine mit einem hochwertigen Mikrofon aufgenommen worden. Enhance Speech entstand im Rahmen des Forschungsvorhabens "Project Shasta", das Adobe inzwischen in Adobe Podcast umbenannt hat.

Wie Arstechnica berichtet, ist die Nutzung von Enhance Speech kostenlos und setzt lediglich eine Registrierung bei Adobe voraus. Das Tool soll am besten mit einem Desktop-Webbrowser funktionieren. User laden eine MP3- oder WAV-Datei mit einer Aufnahme von bis zu einer Stunde oder einer Dateigröße von maximal einem Gigabyte hoch, und nach wenigen Minuten können Sie sich das Ergebnis in Ihrem Browser anhören und/oder das bereinigte Audiomaterial herunterladen.

Zu viel Geräusch-Chaos beeinträchtigt das Ergebnis

In den Tests von Arstechnica funktionierte der Dienst am besten mit Audiodateien, in denen geordnet nacheinander geredet wird und kein übermäßiger Lärm im Hintergrund zu hören ist. Die Tester haben mit einem iMac-Mikrophon die Stimme einer Person aufgenommen, die drei Meter entfernt stand - unweit von einem deutlich vernehmbaren Lüfter. Nach der Verarbeitung durch Enhance Speech habe das Ergebnis so geklungen, als wäre die Aufnahme aus nächster Nähe in einem geräuschfreien Studio mit einem professionellen Mikrofon aufgezeichnet worden.

Adobe hat die Funktionsweise des Tools bislang nicht näher beschrieben, aber die Tester vermuten, dass hier ein Deep-Learning-Modell auf Tausende Stunden von sauberen und eben auch rauschintensiven Audiodaten trainiert wurde. Das Modell habe offenbar "gelernt", die Frequenzen der menschlichen Stimmen herauszufiltern.

Mehr als eine gewöhnliche Technik zur Rauschunterdrückung

Eine Diskussion über das mögliche technische Vorgehen von Adobe findet sich bei Hacker News. Dort berichten Kommentatoren allerdings auch von seltsamen Ergebnissen: Bei extrem verrauschten Audiodateien, die etwa neben einem Wasserfall aufgenommen wurden, oder bei nicht englischen Quellen seien teilweise "Phantomstimmen" aufgetaucht, was darauf schließen lasse, dass Enhance Speech auf jeden Fall mehr sei als eine herkömmliche Technik zur Rauschunterdrückung.

KI-gestützte Rauschunterdrückung ist nicht neu: Ein Open-Source-Paket namens mayavoz und ein kommerzieller Dienst namens Sound Forge Audo Studio bieten eine ähnliche Funktion an. Auch Adobe hat mehrere Podcasting-Tools am Start, darunter ein ebenfalls kostenloses Werkzeug für den Mikrofon-Check und ein auf Transkription basierendes Audio-Editing-Tool (im Betatest).