Microsoft stellt auf der Veranstaltung Ignite 2023 einen Deepfakes-Ersteller vor

Eines der unerwarteteren Produkte, die im Rahmen der Microsoft Ignite 2023-Veranstaltung auf den Markt kommen, ist ein Tool, das einen fotorealistischen Avatar einer Person erstellen und diesen Avatar animieren kann, indem er Dinge sagt, die die Person nicht unbedingt gesagt hat.

Mit der neuen Funktion namens Azure AI Speech Text-to-Speech-Avatar, die ab heute in der öffentlichen Vorschau verfügbar ist, können Benutzer Videos eines sprechenden Avatars erstellen, indem sie Bilder einer Person hochladen, der der Avatar ähneln soll, und ein Skript schreiben. Das Tool von Microsoft trainiert ein Modell, um die Animation zu steuern, während ein separates Text-to-Speech-Modell – entweder vorgefertigt oder auf die Stimme der Person trainiert – das Skript laut vorliest.

„Mit Text-to-Speech-Avatar können Benutzer Videos effizienter erstellen … zum Erstellen von Schulungsvideos, Produkteinführungen und Kundenreferenzen [and so on] einfach per Texteingabe“, schreibt Microsoft in einem Blogbeitrag. „Mit dem Avatar können Sie Gesprächsagenten, virtuelle Assistenten, Chatbots und mehr erstellen.“

Avatare können in mehreren Sprachen sprechen. Und für Chatbot-Szenarien können sie auf KI-Modelle wie GPT-3.5 von OpenAI zurückgreifen, um auf Off-Script-Fragen von Kunden zu antworten.

Nun gibt es unzählige Möglichkeiten, ein solches Tool zu missbrauchen – was Microsoft zu seiner Ehre erkennt. (Ähnliche Avatar-generierende Technologie vom KI-Startup Synthesia missbraucht Propaganda in Venezuela zu produzieren und FALSCH Nachrichtenberichte, die von pro-chinesischen Social-Media-Konten beworben werden.) Die meisten Azure-Abonnenten werden beim Start nur auf vorgefertigte – nicht benutzerdefinierte – Avatare zugreifen können; Benutzerdefinierte Avatare sind derzeit eine Funktion mit „beschränktem Zugriff“, die nur durch Registrierung und „nur für bestimmte Anwendungsfälle“ verfügbar ist, sagt Microsoft.

Doch das Feature wirft eine Reihe unbequemer ethischer Fragen auf.

Einer der größten Knackpunkte beim jüngsten SAG-AFTRA-Streik war der Einsatz von KI zur Erstellung digitaler Abbilder. Die Studios einigten sich schließlich darauf, Schauspieler für ihre KI-generierten Konterfeis zu bezahlen. Aber was ist mit Microsoft und seinen Kunden?

Ich fragte Microsoft nach seiner Haltung zu Unternehmen, die Abbildungen von Schauspielern verwenden, ohne dass die Schauspieler dafür eine angemessene Vergütung oder gar Benachrichtigung erhalten hätten. Das Unternehmen antwortete nicht – und sagte auch nicht, ob es verlangen würde, dass Unternehmen Avatare als KI-generiert kennzeichnen Youtube und ein steigende Zahl anderer Plattformen.

Persönliche Stimme

Microsoft scheint mehr Schutzmaßnahmen für ein verwandtes generatives KI-Tool, Personal Voice, zu haben, das ebenfalls auf der Ignite eingeführt wird.

Personal Voice, eine neue Funktion innerhalb des benutzerdefinierten neuronalen Sprachdienstes von Microsoft, kann die Stimme eines Benutzers in wenigen Sekunden reproduzieren, sofern ein einminütiges Sprachbeispiel als Audioaufforderung dient. Microsoft wirbt damit für die Möglichkeit, personalisierte Sprachassistenten zu erstellen, Inhalte in verschiedene Sprachen zu synchronisieren und maßgeschneiderte Erzählungen für Geschichten, Hörbücher und Podcasts zu generieren.

Um potenzielle rechtliche Probleme abzuwehren, verlangt Microsoft, dass Benutzer eine „ausdrückliche Einwilligung“ in Form einer aufgezeichneten Erklärung erteilen, bevor ein Kunde seine persönliche Stimme verwenden kann, um seine Stimmen zu synthetisieren. Der Zugriff auf die Funktion ist vorerst hinter einem Registrierungsformular geschützt, und Kunden müssen zustimmen, die persönliche Stimme nur in Anwendungen zu verwenden, „bei denen die Stimme keine benutzergenerierten oder offenen Inhalte liest“.

„Die Nutzung des Sprachmodells muss innerhalb einer Anwendung bleiben und die Ausgabe darf nicht aus der Anwendung heraus veröffentlicht oder geteilt werden können“, schreibt Microsoft in einem Blogbeitrag. „[C]Kunden, die eingeschränkte Zugangsberechtigungskriterien erfüllen, behalten die alleinige Kontrolle über die Erstellung, den Zugriff auf und die Nutzung der Sprachmodelle und deren Ausgabe [where it concerns] Synchronisation für Filme, Fernsehen, Video und Audio ausschließlich für Unterhaltungsszenarien.“

Microsoft hat die Fragen von Tech nicht beantwortet, wie Schauspieler für ihre persönlichen Stimmbeiträge entschädigt werden könnten – oder ob geplant ist, irgendeine Art von Wasserzeichentechnologie zu implementieren, damit KI-generierte Stimmen leichter identifiziert werden können.

Weitere Informationen zu Microsoft Ignite 2023:

Diese Geschichte wurde ursprünglich am 15. November um 8:00 Uhr PT veröffentlicht und um 15:30 Uhr PT aktualisiert.

tch-1-tech