VALL-E’s Quickie Voice Deepfakes sollten Sie beunruhigen, wenn Sie sich nicht schon Sorgen gemacht haben • Tech

Die Kolosseen von Elden Ring oeffnen morgen endlich im kostenlosen

Das Auftauchen eines besonders effektiven Modells für maschinelles Lernen mit Sprachsynthese namens VALL-E in der letzten Woche hat eine neue Welle der Besorgnis über die Möglichkeit ausgelöst, dass Deepfake-Stimmen schnell und einfach gemacht werden können – Quickfakes, wenn Sie so wollen. Aber VALL-E ist eher iterativ als bahnbrechend, und die Fähigkeiten sind nicht so neu, wie Sie vielleicht denken. Ob das bedeutet, dass Sie sich mehr oder weniger Sorgen machen sollten, liegt bei Ihnen.

Die Sprachreplikation ist seit Jahren Gegenstand intensiver Forschung, und die Ergebnisse waren gut genug, um viele Startups wie WellSaid, Papercup und Respeecher anzutreiben. Letzteres wird sogar verwendet, um autorisierte Sprachreproduktionen von Schauspielern wie James Earl Jones zu erstellen. Ja: Darth Vader wird von nun an KI-generiert sein.

VALL-E, auf GitHub gepostet von seinen Entwicklern bei Microsoft letzte Woche, ist ein „neuronales Codec-Sprachmodell“, das einen anderen Ansatz zum Rendern von Stimmen verwendet als viele zuvor. Sein größerer Trainingskorpus und einige neue Methoden ermöglichen es ihm, „hochwertige personalisierte Sprache“ mit nur drei Sekunden Audio von einem Zielsprecher zu erstellen.

Das heißt, alles, was Sie brauchen, ist ein extrem kurzer Clip wie der folgende (alle Clips aus Microsofts Papier):


Um eine synthetische Stimme zu erzeugen, die bemerkenswert ähnlich klingt:

Wie Sie hören können, behält es den Ton, die Klangfarbe, einen Anschein von Akzent und sogar die „akustische Umgebung“ bei (z. B. eine in einen Handyanruf komprimierte Stimme). Ich habe mich nicht darum gekümmert, sie zu beschriften, weil Sie leicht erkennen können, welche der oben genannten welche ist. Es ist ziemlich beeindruckend!

Tatsächlich so beeindruckend, dass dieses spezielle Modell das Versteck der Forschungsgemeinschaft durchbohrt zu haben scheint und „in den Mainstream gegangen“ ist. Als ich gestern Abend in meinem Stammlokal etwas zu trinken bekam, beschrieb der Barkeeper nachdrücklich die neue KI-Bedrohung der Sprachsynthese. Deshalb weiß ich, dass ich den Zeitgeist falsch eingeschätzt habe.

Aber wenn Sie ein wenig zurückblicken, brauchten Sie bereits 2017 nur eine Minute Redezeit, um eine gefälschte Version zu produzieren, die überzeugend genug war, dass sie für den gelegentlichen Gebrauch geeignet war. Und das war bei weitem nicht das einzige Projekt.

Die Verbesserung, die wir bei Bilderzeugungsmodellen wie DALL-E 2 und Stable Diffusion oder bei Sprachmodellen wie ChatGPT gesehen haben, war eine transformative, qualitative Verbesserung: Vor ein oder zwei Jahren war dieses Niveau an detaillierten, überzeugenden KI-generierten Inhalten war unmöglich. Die Sorge (und Panik) um diese Modelle ist verständlich und berechtigt.

Im Gegensatz dazu ist die von VALL-E angebotene Verbesserung quantitativ nicht qualitativ. Böse Schauspieler, die daran interessiert sind, gefälschte Sprachinhalte zu verbreiten, hätten dies schon vor langer Zeit tun können, nur zu höheren Rechenkosten, was heutzutage nicht besonders schwer zu finden ist. Insbesondere staatlich geförderte Schauspieler hätten reichlich Ressourcen zur Verfügung, um die Art von Rechenaufgaben zu erledigen, die erforderlich sind, um beispielsweise einen gefälschten Audioclip des Präsidenten zu erstellen, der etwas Schädliches auf einem heißen Mikrofon sagt.

Ich habe mich mit James Betker unterhalten, einem Ingenieur, der eine Zeit lang an einem anderen Text-to-Speech-System gearbeitet hat, genannt Tortoise-TTS.

Betker sagte, dass VALL-E in der Tat iterativ ist und wie andere beliebte Modelle heutzutage seine Stärke aus seiner Größe bezieht.

„Es ist ein großes Modell wie ChatGPT oder Stable Diffusion; Es hat ein gewisses inhärentes Verständnis dafür, wie Sprache von Menschen gebildet wird. Sie können dann Tortoise und andere Modelle an bestimmten Lautsprechern feinabstimmen, und das macht sie wirklich, wirklich gut. Nicht ‚klingt irgendwie wie‘; gut,“ er erklärte.

Wenn Sie Stable Diffusion an der Arbeit eines bestimmten Künstlers „feinabstimmen“, trainieren Sie nicht das gesamte enorme Modell neu (das viel mehr Leistung erfordert), aber Sie können seine Fähigkeit, diesen Inhalt zu replizieren, dennoch erheblich verbessern.

Aber nur weil es bekannt ist, heißt das nicht, dass es abgetan werden sollte, stellte Betker klar.

„Ich bin froh, dass es an Fahrt gewinnt, weil ich wirklich möchte, dass die Leute darüber sprechen. Ich habe tatsächlich das Gefühl, dass Sprache etwas Heiliges ist, wie unsere Kultur darüber denkt“, und er hörte aufgrund dieser Bedenken tatsächlich auf, an seinem eigenen Modell zu arbeiten. Ein gefälschter Dali, der von DALL-E 2 erstellt wurde, hat für Menschen nicht die gleiche viszerale Wirkung wie das Hören von etwas in ihrer eigenen Stimme, der eines geliebten Menschen oder einer bewunderten Person.

VALL-E bringt uns der Allgegenwärtigkeit einen Schritt näher, und obwohl es nicht die Art von Modell ist, die Sie auf Ihrem Telefon oder Heimcomputer ausführen, ist das nicht allzu weit entfernt, spekulierte Betker. Ein paar Jahre vielleicht, um so etwas selbst zu leiten; Als Beispiel schickte er diesen Clip, den er auf seinem eigenen PC mit Tortoise-TTS von Samuel L. Jackson erstellt hatte, basierend auf Hörbuchlesungen von ihm:

Gut, oder? Und vor ein paar Jahren hätten Sie vielleicht etwas Ähnliches hinbekommen, wenn auch mit größerem Aufwand.

Das alles nur, um zu sagen, dass VALL-E und der Drei-Sekunden-Quickfake zwar definitiv bemerkenswert sind, aber sie sind nur ein einziger Schritt auf einem langen Weg, den Forscher seit über einem Jahrzehnt gehen.

Die Bedrohung besteht seit Jahren, und wenn jemand Ihre Stimme replizieren wollte, hätte er dies problemlos schon vor langer Zeit tun können. Das macht es nicht weniger beunruhigend, darüber nachzudenken, und es ist nichts falsch daran, sich davon einschleichen zu lassen. Ich bin auch!

Aber die Vorteile für böswillige Akteure sind zweifelhaft. Kleinliche Betrügereien, die beispielsweise einen passablen Quickfake basierend auf einem Anruf mit falscher Nummer verwenden, sind bereits super einfach, da die Sicherheitspraktiken in vielen Unternehmen bereits lasch sind. Identitätsdiebstahl nicht müssen sich auf die Sprachreplikation zu verlassen, weil es so viele einfachere Wege zu Geld und Zugang gibt.

Inzwischen sind die Vorteile potenziell enorm – denken Sie an Menschen, die aufgrund einer Krankheit oder eines Unfalls die Fähigkeit zu sprechen verlieren. Diese Dinge passieren schnell genug, dass sie keine Zeit haben, eine Stunde Sprache aufzuzeichnen, um ein Modell darauf zu trainieren (nicht, dass diese Fähigkeit allgemein verfügbar ist, obwohl es schon Jahre her sein könnte). Aber mit etwas wie VALL-E brauchen Sie nur ein paar Clips vom Telefon von jemandem, der beim Abendessen anstößt oder mit einem Freund spricht.

Es gibt immer Möglichkeiten für Betrug und Identitätswechsel und all das – obwohl immer mehr Menschen ihr Geld und ihre Identität auf weitaus prosaischeren Wegen, wie einem einfachen Telefon- oder Phishing-Betrug, loswerden. Das Potenzial dieser Technologie ist riesig, aber wir sollten auch auf unser kollektives Bauchgefühl hören und sagen, dass hier etwas Gefährliches vor sich geht. Nur keine Panik – noch nicht.

tch-1-tech