Meta bringt uns KI-generierten Filmen einen Schritt näher

Meta bringt uns KI generierten Filmen einen Schritt naeher

Wie „Avengers“-Regisseur Joe Russo bin ich zunehmend davon überzeugt, dass vollständig KI-generierte Filme und Fernsehsendungen noch zu unseren Lebzeiten möglich sein werden.

Eine Vielzahl von KI-Enthüllungen in den letzten Monaten, insbesondere die ultrarealistisch klingende Text-to-Speech-Engine von OpenAI, haben Einblicke in diese schöne neue Grenze gegeben. Aber Metas Bekanntmachung Der heutige Tag stellt die Zukunft unserer KI-generierten Inhalte besonders deutlich dar – zumindest für mich.

An seinem Morgen stellte Meta Emu Video vor, eine Weiterentwicklung des Bildgenerierungstools Emu des Technologieriesen. Mit einer Bildunterschrift (z. B. „Ein Hund läuft über einen Grashügel“), einem Bild oder einem Foto und einer Beschreibung kann Emu Video einen vier Sekunden langen animierten Clip erstellen.

Die Clips von Emu Video können mit einem ergänzenden KI-Modell namens Emu Edit bearbeitet werden, das ebenfalls heute angekündigt wurde. Benutzer können die Änderungen, die sie an Emu Edit vornehmen möchten, in natürlicher Sprache beschreiben – z. B. „derselbe Clip, aber in Zeitlupe“ – und die Änderungen in einem neu generierten Video sehen.

Nun ist die Technologie zur Videogenerierung nicht neu. Meta hat bereits damit experimentiert, ebenso wie Google. Mittlerweile bauen Startups wie Runway bereits Geschäfte darauf auf.

Aber die 512×512-Clips von Emu Video mit 16 Bildern pro Sekunde gehören hinsichtlich ihrer Wiedergabetreue eindeutig zu den besten, die ich je gesehen habe – bis zu dem Punkt, an dem es meinem ungeübten Auge schwerfällt, sie von der Realität zu unterscheiden.

Bildnachweis: Meta

Nun ja – zumindest einige von ihnen. Es scheint, dass Emu Video am erfolgreichsten ist, wenn es um die Animation einfacher, meist statischer Szenen (z. B. Wasserfälle und Zeitraffer von Stadtsilhouetten) geht, die vom Fotorealismus abweichen – also in Stilen wie Kubismus, Anime, „Papierschnitthandwerk“ und Steampunk. Ein Clip des Eiffelturms im Morgengrauen „als Gemälde“, mit dem Turm, der sich darunter in der Seine spiegelt, erinnerte mich an eine E-Card, die man vielleicht darauf sieht Amerikanische Grüße.

Emu-Video

Bildnachweis: Meta

Selbst in Emu Videos bestem Werk schleichen sich jedoch KI-generierte Verrücktheiten ein – wie bizarre Physik (z. B. Skateboards, die sich parallel zum Boden bewegen) und verrückte Gliedmaßen (Zehen, die sich hinter den Füßen krümmen, und Beine, die ineinander übergehen). Auch Objekte erscheinen und verschwinden oft ohne große Logik, wie die Vögel über ihnen im oben erwähnten Eiffelturm-Clip.

Nachdem ich viel zu viel Zeit damit verbracht hatte, die Kreationen von Emu Video zu durchstöbern (oder zumindest die Beispiele, die Meta herausgepickt hatte), fiel mir ein weiterer offensichtlicher Hinweis auf: Die Themen in den Clips tun nicht … nun ja, Tun viel. Soweit ich das beurteilen kann, scheint Emu Video kein ausgeprägtes Verständnis für Aktionsverben zu haben, was möglicherweise eine Einschränkung der zugrunde liegenden Architektur des Modells ist.

Emu-Video

Bildnachweis: Meta

Beispielsweise hält ein niedlicher, anthropomorphisierter Waschbär in einem Emu-Videoclip eine Gitarre in der Hand, tut dies aber nicht klimpern die Gitarre – auch wenn die Überschrift des Clips das Wort „Strum“ enthielt. Oder zwei Einhörner „spielen“ Schach, aber nur in dem Sinne, dass sie neugierig vor einem Schachbrett sitzen, ohne die Figuren zu bewegen.

Emu-Video

Bildnachweis: Meta

Es gibt also eindeutig noch viel zu tun. Dennoch ist Emu Video die eher einfache B-Rolle würde in einem Film oder einer Fernsehsendung heute nicht fehl am Platz sein, würde ich sagen – und die ethischen Konsequenzen, die das mit sich bringt, machen mir ehrlich gesagt Angst.

Emu-Video

Bildnachweis: Meta

Abgesehen vom Deepfakes-Risiko fürchte ich um Animatoren und Künstler, deren Lebensunterhalt von der Erstellung von Szenen abhängt, die KI wie Emu Video jetzt annähern kann. Meta und seine generative KI-Rivalen würden wahrscheinlich argumentieren, dass Emu Video, das Meta-CEO Mark Zuckerberg sagt wird in Facebook und Instagram integriert (hoffentlich mit besseren). Toxizitätsfilter als die KI-generierten Aufkleber von Meta), vermehren statt ersetzen menschliche Künstler. Aber ich würde sagen, das ist eine optimistische, wenn nicht unaufrichtige Sichtweise – insbesondere wenn es um Geld geht.

Anfang des Jahres verwendete Netflix in einem dreiminütigen animierten Kurzfilm KI-generierte Hintergrundbilder. Das Unternehmen behauptet dass die Technologie dem vermeintlichen Arbeitskräftemangel im Anime-Bereich entgegenwirken könnte – verschwieg aber praktischerweise, wie niedrige Löhne und oft anstrengende Arbeitsbedingungen Künstler von der Arbeit abhalten.

In einer ähnlichen Kontroverse gab das Studio hinter der Abspannsequenz für Marvels „Secret Invasion“ zu, KI, hauptsächlich das Text-zu-Bild-Tool Midjourney, verwendet zu haben, um einen Großteil des Artworks der Sequenz zu erstellen. Der Regisseur der Serie, Ali Selim, argumentierte, dass der Einsatz von KI zu den paranoiden Themen der Show, aber auch zum Großteil der Künstlergemeinschaft und Fans passe vehement widersprochen.

Emu-Video

Bildnachweis: Meta

Auch Schauspieler könnten auf dem Hackklotz stehen. Einer der größten Knackpunkte beim jüngsten SAG-AFTRA-Streik war der Einsatz von KI zur Erstellung digitaler Abbilder. Die Studios einigten sich schließlich darauf, Schauspieler für ihre KI-generierten Konterfeis zu bezahlen. Aber könnten sie es sich noch einmal überlegen, wenn sich die Technologie verbessert? Ich halte es für wahrscheinlich.

Um das Ganze noch schlimmer zu machen: KI wie Emu Video wird in der Regel auf Bilder und Videos trainiert, die von Künstlern, Fotografen und Filmemachern produziert werden – und ohne diese Urheber zu benachrichtigen oder zu entschädigen. In einem weißes Papier Begleitend zur Veröffentlichung von Emu Video sagt Meta lediglich, dass das Modell anhand eines Datensatzes von 34 Millionen „Video-Text-Paaren“ mit einer Länge von fünf bis 60 Sekunden trainiert wurde – nicht, woher diese Videos kamen, welchen Urheberrechtsstatus sie haben oder ob Meta lizenziert ist ihnen.

(Nach der Veröffentlichung dieses Artikels teilte ein Meta-Sprecher Tech per E-Mail mit, dass Emu anhand von „Daten von lizenzierten Partnern“ geschult wurde.)

Emu-Video

Bildnachweis: Meta

Es gab immer wieder Ansätze zu branchenweiten Standards, die es Künstlern ermöglichen, sich von der Ausbildung abzumelden oder eine Bezahlung für KI-generierte Werke zu erhalten, zu denen sie beigetragen haben. Aber wenn Emu Video ein Hinweis ist, wird die Technologie – wie so oft – bald weit über die Ethik hinausgehen. Vielleicht schon.

tch-1-tech