VALL-E: 5 Dinge, die Sie über das KI-Modell von Microsoft wissen sollten, das jede Stimme in 3 Sekunden imitieren kann

Microsoft angeben VALL-Ees ist Text-zu-Sprache-KI-Modell das jede Stimme aus einem kurzen Audio-Sample simulieren kann. Nicht nur die Stimme, sondern auch die Emotion und Akustik des Raums. Obwohl es auf viele gute Arten verwendet werden kann, gibt es moralische Bedenken. Während auf Github viele Beispiele zum Anhören verfügbar sind, sind hier fünf Dinge, die Sie über VALL-E wissen sollten.
Was ist VALL-E?
Microsoft nennt VALL-E ein „neuronales Codec-Sprachmodell“, das Audio aus Texteingaben und kurzen Samples von einem Zielsprecher generiert. Es kann jede Stimme nachahmen, indem es sich eine Sprachprobe von nur 3 Sekunden anhört. VALL-E ist noch nicht allgemein verfügbar.
Trainingsmodelle
Forscher sagen, dass sie VALL-E mit 60.000 Stunden englischsprachiger Sprache trainiert haben – was hundertmal größer ist als bestehende Systeme – von mehr als 7.000 Sprechern Meta’s LibriLight-Audiobibliothek.
Um die Stimme nachzuahmen, muss die Stimme des Zielsprechers eng mit den Trainingsdaten übereinstimmen. Auf diese Weise kann die KI ihr „Training“ nutzen, um zu versuchen, die Stimme des Zielsprechers nachzuahmen, um einen gewünschten Text laut vorzulesen.

KI kann Emotionen imitieren
Es ist anzumerken, dass das KI-Modell nicht nur die Tonhöhe oder Schale oder Textur nachahmen kann, sondern auch den emotionalen Ton des Sprechers sowie die Akustik des Raums. Das heißt, wenn die Zielstimme gestört ist, ahmt VALL-E auch die Stimme nach, als ob es eine Störung gäbe.
„Experimentergebnisse zeigen, dass VALL-E das hochmoderne Zero-Shot-TTS-System in Bezug auf Sprachnatürlichkeit und Sprecherähnlichkeit deutlich übertrifft. Darüber hinaus stellen wir fest, dass VALL-E die Emotionen und die akustische Umgebung des Sprechers bewahren kann akustische Aufforderung in der Synthese“, sagt das Forscherteam.
Anwendungsfall und Bedrohungen
Das KI-Modell kann für kundenspezifische Text-to-Speech-Anwendungen oder die Medienproduktionsindustrie oder Robotik verwendet werden. Es ist jedoch eine potenzielle Bedrohung im Falle eines Missbrauchs.
„Da VALL-E Sprache synthetisieren kann, die die Sprecheridentität beibehält, kann es potenzielle Risiken beim Missbrauch des Modells bergen, wie z. B. Spoofing der Spracherkennung oder Identitätswechsel“, sagte das Unternehmen.

Zum Beispiel könnten Leute VALL-E verwenden, um Spam-Anrufe für Betrüger echt klingen zu lassen. Politiker oder Menschen mit anständiger sozialer Präsenz können auch imitiert werden, wie wir es bei Deepfakes gesehen haben. Anwendungen, die Sprachbefehle oder Sprachpasswörter benötigen, können eine Bedrohung darstellen. Darüber hinaus kann VALL-E auch Jobs von Sprechern auffressen.
Ethische Aussage
Es gibt auch eine ethische Erklärung des Unternehmens, die besagt, dass „die Experimente in dieser Arbeit unter der Annahme durchgeführt wurden, dass der Benutzer des Modells der Zielsprecher ist und vom Sprecher genehmigt wurde“.
„Wenn das Modell jedoch auf unsichtbare Sprecher verallgemeinert wird, sollten relevante Komponenten von Sprachbearbeitungsmodellen begleitet werden, einschließlich des Protokolls, um sicherzustellen, dass der Sprecher der Ausführung der Änderung zustimmt, und des Systems zur Erkennung der bearbeiteten Sprache“, heißt es.
Sehen Sie auch:

Ist ChatGPT der Google-Killer? | OpenAI-ChatGPT

toi-tech

Superman ist heute sympathischer als je zuvor

Überschwemmungen in Teilen Nordeuropas nach heftigen Regenfällen

Die USA führen unter Bidens Regierung den dritten unterkritischen Atomtest durch

Wie die Jagd den Menschen möglicherweise zu Langstreckenläufern gemacht hat

VALL-E: 5 Dinge, die Sie über das KI-Modell von Microsoft wissen sollten, das jede Stimme in 3 Sekunden imitieren kann