Runways Gen-2 zeigt die Grenzen der heutigen Text-zu-Video-Technologie

Runways Gen 2 zeigt die Grenzen der heutigen Text zu Video Technologie

In einem aktuellen Panel-Interview mit Collider sagte Joe Russo, der Regisseur von Tentpole-Marvel-Filmen wie „Avengers: Endgame“, voraus, dass KI innerhalb von zwei Jahren in der Lage sein wird, einen vollwertigen Film zu erstellen.

Man würde sagen, dass dies ein eher optimistischer Zeitplan ist. Aber wir kommen näher.

Diese Woche, Runway, a Von Google unterstützt Das KI-Startup, das an der Entwicklung des KI-Bildgenerators Stable Diffusion beteiligt war, veröffentlichte Gen-2, ein Modell, das Videos aus Textaufforderungen oder einem vorhandenen Bild generiert. (Gen-2 hatte zuvor einen eingeschränkten Zugriff auf die Warteliste.) Als Nachfolger des im Februar eingeführten Gen-1-Modells von Runway ist Gen-2 eines der ersten kommerziell erhältlichen Text-zu-Video-Modelle.

„Im Handel erhältlich“ ist ein wichtiger Unterschied. Text-to-Video, nach Bildern und Text die logische nächste Grenze in der generativen KI, rückt immer mehr in den Fokus, insbesondere bei Technologiegiganten, von denen mehrere im vergangenen Jahr Text-to-Video-Modelle vorgeführt haben. Aber diese Modelle befinden sich noch immer im Forschungsstadium und sind für alle außer einigen wenigen Datenwissenschaftlern und Ingenieuren unzugänglich.

Natürlich ist „Zuerst“ nicht unbedingt besser.

Aus persönlicher Neugier und im Dienst an Ihnen, liebe Leser, habe ich Gen-2 ein paar Eingabeaufforderungen unterzogen, um einen Eindruck davon zu bekommen, was das Modell leisten kann – und was nicht. (Runway stellt derzeit etwa 100 Sekunden kostenlose Videoproduktion zur Verfügung.) Mein Wahnsinn hatte keine große Methode, aber ich versuchte, eine Reihe von Blickwinkeln, Genres und Stilen einzufangen, die ein Regisseur, ob Profi oder Sessel, gerne sehen würde auf der Leinwand – oder einem Laptop.

Eine Einschränkung von Gen-2, die sofort auffiel, ist die Framerate der vier Sekunden langen Videos, die das Modell generiert. Es ist ziemlich niedrig und spürbar, so dass es stellenweise fast wie eine Diashow wirkt.

Bildnachweis: Runway

Unklar ist, ob es sich hierbei um ein Problem mit der Technologie handelt oder um einen Versuch von Runway, Rechenkosten zu sparen. Auf jeden Fall macht es Gen-2 auf Anhieb zu einem eher unattraktiven Angebot für Redakteure, die sich die Nachbearbeitung ersparen möchten.

Über das Framerate-Problem hinaus habe ich herausgefunden, dass Gen-2-generierte Clips dazu neigen, eine gewisse Körnigkeit oder Unschärfe gemeinsam zu haben, als ob auf sie eine Art altmodischer Instagram-Filter angewendet worden wäre. An manchen Stellen treten auch andere Artefakte auf, etwa die Verpixelung von Objekten, wenn die „Kamera“ (mangels eines besseren Wortes) sie umkreist oder schnell auf sie zuzoomt.

Wie bei vielen generativen Modellen ist Gen-2 auch in physikalischer oder anatomischer Hinsicht nicht besonders konsistent. Wie von einem Surrealisten heraufbeschworen, verschmelzen die Arme und Beine der Menschen in den von Gen-2 produzierten Videos miteinander und lösen sich wieder, während Objekte mit dem Boden verschmelzen und verschwinden, ihre Reflexionen verzerrt und verzerrt. Und – je nach Aufforderung – können Gesichter puppenhaft wirken, mit glänzenden, emotionslosen Augen und pastöser Haut, die an billiges Plastik erinnert.

Landebahn Gen-2

Bildnachweis: Runway

Um es noch weiter zu vertiefen, gibt es noch das Inhaltsproblem. Der zweiten Generation scheint es schwer zu fallen, Nuancen zu verstehen. Sie klammert sich an bestimmte Deskriptoren in Aufforderungen, während sie andere scheinbar willkürlich ignoriert.

Landebahn Gen-2

Bildnachweis: Runway

Eine der Eingabeaufforderungen, die ich ausprobiert habe: „Ein Video einer Unterwasser-Utopie, aufgenommen mit einer alten Kamera im Stil eines ‚Found Footage‘-Films, brachte keine solche Utopie hervor – nur etwas, das wie ein Tauchgang aus der ersten Person aussah.“ ein anonymes Korallenriff. Gen-2 hatte auch mit meinen anderen Eingabeaufforderungen Probleme, da es nicht gelang, eine vergrößerte Aufnahme für eine Eingabeaufforderung zu erstellen, die ausdrücklich einen „langsamen Zoom“ forderte, und nicht ganz das Aussehen eines durchschnittlichen Astronauten traf.

Könnten die Probleme im Trainingsdatensatz von Gen-2 liegen? Womöglich.

Gen-2 ist wie Stable Diffusion ein Diffusionsmodell, das heißt, es lernt, das Rauschen schrittweise von einem Startbild zu subtrahieren, das vollständig aus Rauschen besteht, um es Schritt für Schritt näher an die Eingabeaufforderung zu bringen. Diffusionsmodelle lernen durch Training an Millionen bis Milliarden von Beispielen; in einem akademischen Papier Runway beschreibt detailliert die Architektur von Gen-2 und sagt, dass das Modell anhand eines internen Datensatzes von 240 Millionen Bildern und 6,4 Millionen Videoclips trainiert wurde.

Vielfalt in den Beispielen ist der Schlüssel. Wenn der Datensatz beispielsweise nicht viel Filmmaterial von Animationen enthält, ist das Modell aufgrund fehlender Bezugspunkte nicht in der Lage, Animationen in angemessener Qualität zu generieren. (Natürlich ist Animation ein weites Feld, auch wenn der Datensatz tat Anime-Clips oder handgezeichnete Animationen haben, auf die sich das Modell nicht unbedingt gut verallgemeinern lässt alle Arten von Animationen.)

Landebahn Gen-2

Bildnachweis: Runway

Positiv zu vermerken ist, dass Gen-2 einen Bias-Test auf Oberflächenebene besteht. Während sich herausstellte, dass generative KI-Modelle wie DALL-E 2 gesellschaftliche Vorurteile verstärken, indem sie Bilder von Autoritätspositionen – wie „CEO“ oder „Direktor“ – erzeugen, die überwiegend weiße Männer darstellen, war Gen-2 inhaltlich ein wenig vielfältiger es hat generiert – zumindest in meinen Tests.

Landebahn Gen-2

Bildnachweis: Runway

Mit der Aufforderung „Ein Video eines CEO, der einen Konferenzraum betritt“ erzeugte Gen-2 ein Video von Männern und Frauen (wenn auch mehr Männern als Frauen), die um so etwas wie einen Konferenztisch saßen. Die Ausgabe für die Aufforderung „Ein Video einer in einem Büro arbeitenden Ärztin“ zeigt eine Ärztin mit vage asiatischem Aussehen hinter einem Schreibtisch.

Die Ergebnisse für alle Eingabeaufforderungen, die das Wort „Krankenschwester“ enthielten, waren jedoch weniger vielversprechend und zeigten durchweg junge weiße Frauen. Das Gleiche gilt für den Ausdruck „eine Person, die auf Tische wartet“. Offensichtlich gibt es noch viel zu tun.

Die Schlussfolgerung daraus ist für mich, dass Gen-2 eher eine Neuheit oder ein Spielzeug als ein wirklich nützliches Werkzeug in jedem Video-Workflow ist. Könnten die Ausgaben in etwas Kohärenteres umgewandelt werden? Womöglich. Aber je nach Video würde es möglicherweise mehr Arbeit erfordern, als überhaupt Filmmaterial aufzunehmen.

Das darf nicht sein zu ablehnend gegenüber der Technik. Es ist beeindruckend, was Runway hier geleistet hat und die Technologiegiganten bei der Text-zu-Video-Übertragung effektiv geschlagen hat. Und ich bin mir sicher, dass einige Benutzer Anwendungen für Gen-2 finden werden, die keinen Fotorealismus erfordern – oder viel Anpassbarkeit. (Runway-CEO Cristóbal Valenzuela in letzter Zeit sagte Bloomberg, dass er Gen-2 als eine Möglichkeit sieht, Künstlern und Designern ein Werkzeug anzubieten, das ihnen bei ihren kreativen Prozessen helfen kann.)

Landebahn Gen-2

Bildnachweis: Runway

Ich habe es selbst gemacht. Gen-2 kann tatsächlich eine Reihe von Stilen wie Anime und Claymation verstehen, die sich für die niedrigere Framerate eignen. Mit ein wenig Fummelei und Schnittarbeit wäre es nicht unmöglich, ein paar Clips zu einem narrativen Stück zusammenzufügen.

Damit Ihnen das Potenzial für Deepfakes keine Sorgen bereitet, sagt Runway, dass das Unternehmen eine Kombination aus KI und menschlicher Moderation verwendet, um zu verhindern, dass Benutzer Videos erstellen, die Pornografie oder gewalttätige Inhalte enthalten oder gegen Urheberrechte verstoßen. Ich kann bestätigen, dass es einen Inhaltsfilter gibt – tatsächlich einen übereifrigen. Aber das sind natürlich keine narrensicheren Methoden, also müssen wir sehen, wie gut sie in der Praxis funktionieren.

Landebahn Gen-2

Bildnachweis: Runway

Aber zumindest vorerst können Filmemacher, Animatoren, CGI-Künstler und Ethiker beruhigt sein. Es wird noch mindestens ein paar Iterationen dauern, bis die Technik von Runway auch nur annähernd Filmmaterial in Filmqualität erzeugen kann – vorausgesetzt, dass es jemals soweit kommt.

tch-1-tech