Noch weiß niemand wirklich, wofür generative Videomodelle nützlich sind, aber das hat Unternehmen wie Runway, OpenAI und Meta nicht davon abgehalten, Millionen in ihre Entwicklung zu stecken. Metas neueste Version heißt Movie Genund getreu seinem Namen verwandelt es Textansagen in relativ realistische Videos mit Ton … aber zum Glück noch ohne Stimme. Und klugerweise geben sie dies nicht öffentlich bekannt.
Movie Gen ist eigentlich eine Sammlung (oder „Besetzung“, wie sie es nennen) von Grundmodellen, von denen das größte der Text-zu-Video-Teil ist. Meta behauptet, dass es Spiele wie Gen3 von Runway, das neueste von LumaLabs und Kling1.5 übertrifft, obwohl so etwas wie immer eher zeigt, dass sie das gleiche Spiel spielen, als dass Movie Gen gewinnt. Die technischen Einzelheiten finden Sie in dem von Meta herausgegebenen Papier, in dem alle Komponenten beschrieben werden.
Der Ton wird so generiert, dass er zum Inhalt des Videos passt, indem beispielsweise Motorgeräusche hinzugefügt werden, die mit den Bewegungen des Autos korrespondieren, oder das Rauschen eines Wasserfalls im Hintergrund oder ein Donnerschlag in der Mitte des Videos, wenn es nötig ist. Es wird sogar Musik hinzugefügt, wenn das relevant erscheint.
Es wurde auf „einer Kombination aus lizenzierten und öffentlich zugänglichen Datensätzen“ geschult, die sie als „proprietär/kommerziell sensibel“ bezeichneten, und wollte keine weiteren Details dazu preisgeben. Wir können nur vermuten, dass es sich um viele Instagram- und Facebook-Videos handelt, außerdem um einige Inhalte von Partnern und viele andere, die nur unzureichend vor Scrapern geschützt sind – auch bekannt als „öffentlich verfügbar“.
Was Meta hier jedoch eindeutig anstrebt, ist nicht einfach, für ein oder zwei Monate die „State-of-the-Art“-Krone zu erobern, sondern einen praktischen, von der Suppe bis zur Nuss reichenden Ansatz, bei dem aus einer sehr einfachen Lösung ein solides Endprodukt hergestellt werden kann , Eingabeaufforderung in natürlicher Sprache. Dinge wie „Stellen Sie sich mich als Bäcker vor, der in einem Gewitter einen glänzenden Nilpferdkuchen backt.“
Ein Knackpunkt bei diesen Videogeneratoren war beispielsweise, wie schwierig sie normalerweise zu bearbeiten sind. Wenn Sie nach einem Video von jemandem fragen, der über die Straße geht, und dann feststellen, dass Sie möchten, dass die Person von rechts nach links statt von links nach rechts geht, besteht eine gute Chance, dass die gesamte Aufnahme anders aussieht, wenn Sie die Aufforderung mit dieser zusätzlichen Anweisung wiederholen. Meta fügt eine einfache, textbasierte Bearbeitungsmethode hinzu, bei der Sie einfach sagen können: „Ändern Sie den Hintergrund in eine belebte Kreuzung“ oder „Ändern Sie ihre Kleidung in ein rotes Kleid“, und es wird versucht, diese Änderung vorzunehmen, aber nur diese Veränderung.
Auch Kamerabewegungen werden allgemein verstanden, wobei Dinge wie „Kamerafahrt“ und „Nach links schwenken“ bei der Erstellung des Videos berücksichtigt werden. Das ist im Vergleich zur echten Kamerasteuerung immer noch ziemlich umständlich, aber viel besser als nichts.
Die Einschränkungen des Modells sind etwas seltsam. Es erzeugt Videos mit einer Breite von 768 Pixeln, eine Dimension, die die meisten von der berühmten, aber veralteten 1024×768 kennen, die aber auch dreimal so groß ist wie 256, sodass sie gut mit anderen HD-Formaten kompatibel ist. Das Movie Gen-System skaliert dies auf 1080p hoch, was die Quelle der Behauptung ist, dass es diese Auflösung erzeugt. Stimmt zwar nicht wirklich, aber wir lassen sie durchgehen, denn Upscaling ist überraschend effektiv.
Seltsamerweise erzeugt es bis zu 16 Sekunden Video … mit 16 Bildern pro Sekunde, eine Bildrate, die sich in der Geschichte noch niemand gewünscht oder gewünscht hat. Sie können jedoch auch 10 Sekunden Video mit 24 FPS aufnehmen. Führen Sie damit!
Was den Grund betrifft, warum es keine Sprachausgabe gibt … nun, dafür gibt es wahrscheinlich zwei Gründe. Erstens ist es super schwer. Sprache zu erzeugen ist jetzt einfach, aber sie an Lippenbewegungen und diese Lippen an Gesichtsbewegungen anzupassen, ist eine viel kompliziertere Angelegenheit. Ich kann es ihnen nicht verübeln, dass sie dies auf später verschoben haben, denn es wäre ein Fehler von der ersten Minute an. Jemand könnte sagen: „Generieren Sie einen Clown, der die Gettysburg-Adresse vorträgt, während er mit einem winzigen Fahrrad im Kreis fährt“ – ein Albtraum, der schnell viral geht.
Der zweite Grund ist wahrscheinlich politischer Natur: Einen Monat vor einer großen Wahl so etwas wie einen Deepfake-Generator zu veröffentlichen, ist … nicht das Beste für die Optik. Ein praktischer vorbeugender Schritt ist es, seine Fähigkeiten ein wenig einzuschränken, so dass, falls böswillige Akteure versuchen, es zu nutzen, ihrerseits echte Arbeit erforderlich wäre. Man könnte dieses generative Modell sicherlich mit einem Sprachgenerator und einem Open-Lip-Synchronisationsmodell kombinieren, aber man kann damit nicht einfach einen Kandidaten erzeugen, der wilde Behauptungen aufstellt.
„Movie Gen ist derzeit ein reines KI-Forschungskonzept, und selbst in diesem frühen Stadium hat Sicherheit oberste Priorität, wie es bei all unseren generativen KI-Technologien der Fall war“, antwortete ein Meta-Vertreter auf die Fragen von Tech.
Anders als beispielsweise die großen Llama-Sprachmodelle wird Movie Gen nicht öffentlich verfügbar sein. Sie können die Techniken in gewisser Weise reproduzieren, indem Sie dem Forschungspapier folgen, der Code wird jedoch nicht veröffentlicht, mit Ausnahme des „zugrunde liegenden Bewertungsaufforderungsdatensatzes“, also der Aufzeichnung der Aufforderungen, die zur Erstellung der Testvideos verwendet wurden.