Die neue KI von DeepMind generiert Soundtracks und Dialoge für Videos

DeepMind, das KI-Forschungslabor von Google, entwickelt eigenen Angaben zufolge KI-Technologie zur Generierung von Soundtracks für Videos.

In einem Post Auf seinem offiziellen Blog sagt DeepMind, dass es die Technologie V2A (kurz für „Video-to-Audio“) als wesentlichen Teil des KI-generierten Medienpuzzles betrachtet. Zwar haben viele Organisationen, darunter auch DeepMind, KI-Modelle zur Videogenerierung entwickelt, diese Modelle können jedoch keine Soundeffekte erstellen, die mit den von ihnen generierten Videos synchronisiert werden können.

„Modelle zur Videogenerierung entwickeln sich in einem unglaublichen Tempo weiter, aber viele aktuelle Systeme können nur stumme Ausgaben generieren“, schreibt DeepMind. „Die V2A-Technologie [could] ein vielversprechender Ansatz sein, um generierte Filme zum Leben zu erwecken.“

Die V2A-Technologie von DeepMind kombiniert eine Beschreibung eines Soundtracks (z. B. „pulsierende Quallen unter Wasser, Meereslebewesen, Ozean“) mit einem Video, um Musik, Soundeffekte und sogar Dialoge zu erstellen, die zu den Charakteren und dem Ton des Videos passen und mit einem Wasserzeichen versehen sind, das DeepMinds Deepfakes bekämpfende SynthID-Technologie verwendet. Das KI-Modell, das V2A antreibt – ein Diffusionsmodell – wurde mit einer Kombination aus Geräuschen und Dialogtranskripten sowie Videoclips trainiert, sagt DeepMind.

„Durch Training anhand von Video, Audio und den zusätzlichen Anmerkungen lernt unsere Technologie, bestimmte Audioereignisse mit verschiedenen visuellen Szenen zu verknüpfen und gleichzeitig auf die in den Anmerkungen oder Transkripten bereitgestellten Informationen zu reagieren“, schreibt DeepMind.

Es ist nicht bekannt, ob die Trainingsdaten urheberrechtlich geschützt waren – und ob die Ersteller der Daten über die Arbeit von DeepMind informiert wurden. Wir haben DeepMind um Klärung gebeten und werden diesen Beitrag aktualisieren, wenn wir eine Antwort erhalten.

KI-gestützte Tools zur Tonerzeugung sind nichts Neues. Startup Stability AI hat erst letzte Woche eines herausgebracht und ElevenLabs hat im Mai eines auf den Markt gebracht. Auch Modelle zur Erstellung von Video-Soundeffekten sind nicht neu. Ein Microsoft Projekt kann aus einem Standbild Sprech- und Gesangsvideos generieren, und Plattformen wie Pika Und GenreX Lassen Sie Modelle trainieren, die ein Video aufnehmen und erraten, welche Musik oder Effekte für eine bestimmte Szene geeignet sind.

DeepMind behauptet jedoch, dass seine V2A-Technologie insofern einzigartig sei, als sie die Rohpixel eines Videos verstehen und generierte Sounds automatisch mit dem Video synchronisieren könne, optional ohne Beschreibung.

V2A ist nicht perfekt – und DeepMind erkennt dies an. Da das zugrunde liegende Modell nicht an vielen Videos mit Artefakten oder Verzerrungen trainiert wurde, erzeugt es für diese keinen besonders hochwertigen Ton. Und im Allgemeinen ist der generierte Ton nicht super überzeugend; meine Kollegin Natasha Lomas beschrieb es als „ein Sammelsurium stereotyper Klänge“, und ich kann nicht sagen, dass ich anderer Meinung bin.

Aus diesen Gründen – und um Missbrauch zu verhindern – wird DeepMind die Technologie nicht so bald oder vielleicht nie der Öffentlichkeit zugänglich machen.

„Um sicherzustellen, dass unsere V2A-Technologie einen positiven Einfluss auf die Kreativgemeinschaft haben kann, sammeln wir unterschiedliche Perspektiven und Erkenntnisse von führenden Kreativen und Filmemachern und nutzen dieses wertvolle Feedback für unsere laufende Forschung und Entwicklung“, schreibt DeepMind. „Bevor wir darüber nachdenken, sie der breiten Öffentlichkeit zugänglich zu machen, wird unsere V2A-Technologie strengen Sicherheitsbewertungen und Tests unterzogen.“

DeepMind bewirbt seine V2A-Technologie als besonders nützliches Werkzeug für Archivare und Leute, die mit historischem Filmmaterial arbeiten. Aber wie ich heute Morgen in einem Artikel schrieb, droht generative KI in dieser Richtung auch die Film- und Fernsehbranche auf den Kopf zu stellen. Es bedarf einiger wirklich strenger Arbeitsschutzbestimmungen, um sicherzustellen, dass generative Medientools keine Arbeitsplätze – oder, je nach Fall, ganze Berufe – vernichten.

tch-1-tech