Runways neue videogenerierende KI Gen-3 bietet verbesserte Steuerung

Runways neue videogenerierende KI Gen 3 bietet verbesserte Steuerung

Das Rennen um qualitativ hochwertige, KI-generierte Videos wird immer spannender.

Am Montag hat Runway, ein Unternehmen, das generative KI-Tools für die Erstellung von Film- und Bildinhalten entwickelt, enthüllt Gen-3 Alpha. Das neueste KI-Modell des Unternehmens generiert Videoclips aus Textbeschreibungen und Standbildern. Laut Runway bietet das Modell eine „erhebliche“ Verbesserung der Generierungsgeschwindigkeit und -treue gegenüber Runways vorherigem Flaggschiff-Videomodell Gen-2 sowie eine feinkörnige Kontrolle über die Struktur, den Stil und die Bewegung der von ihm erstellten Videos.

Gen-3 wird in den kommenden Tagen für Runway-Abonnenten verfügbar sein, darunter Unternehmenskunden und Entwickler im Kreativpartnerprogramm von Runway.

„Gen-3 Alpha zeichnet sich durch die Schaffung ausdrucksstarker menschlicher Charaktere mit einer breiten Palette an Aktionen, Gesten und Emotionen aus“, schrieb Runway in einem Beitrag auf seinem Blog. „Es wurde entwickelt, um eine breite Palette von Stilen und filmischer Terminologie zu interpretieren [and enable] fantasievolle Übergänge und präzises Keyframing von Elementen in der Szene.“

Gen-3 Alpha hat seine Grenzen, darunter die Tatsache, dass die maximale Filmlänge 10 Sekunden beträgt. Runway-Mitbegründer Anastasis Germanidis verspricht jedoch, dass Gen-3 nur das erste – und kleinste – von mehreren Videogenerierungsmodellen einer Next-Gen-Modellfamilie ist, die auf einer verbesserten Infrastruktur trainiert wird.

„Das Modell kann mit komplexen Interaktionen zwischen Charakteren und Objekten zu kämpfen haben, und die Generationen folgen nicht immer genau den Gesetzen der Physik“, sagte Germanidis heute Morgen in einem Interview mit Tech. „Diese erste Einführung wird hochauflösende Generationen von 5 und 10 Sekunden unterstützen, mit deutlich schnelleren Generationszeiten als Gen-2. Die Generierung eines 5-Sekunden-Clips dauert 45 Sekunden, die Generierung eines 10-Sekunden-Clips 90 Sekunden.“

Gen-3 Alpha wurde wie alle Videogenerierungsmodelle anhand einer großen Anzahl von Videobeispielen – und Bildern – trainiert, damit es die Muster in diesen Beispielen „lernen“ und neue Clips generieren konnte. Woher kamen die Trainingsdaten? Runway wollte es nicht sagen. Nur wenige Anbieter generativer KI geben solche Informationen heutzutage freiwillig preis, teilweise weil sie Trainingsdaten als Wettbewerbsvorteil betrachten und sie und die damit verbundenen Informationen daher für sich behalten.

„Wir haben ein internes Forschungsteam, das unser gesamtes Training überwacht, und wir verwenden kuratierte, interne Datensätze, um unsere Modelle zu trainieren“, sagte Germanidis. Dabei beließ er es.

Ein Beispiel vom Gen-3-Modell von Runway. Beachten Sie, dass die Unschärfe und die niedrige Auflösung auf ein von Tech verwendetes Video-zu-GIF-Konvertierungstool zurückzuführen sind, nicht auf Gen-3.
Bildnachweise: Runway

Die Details der Trainingsdaten können außerdem Anlass zu Rechtsstreitigkeiten im Zusammenhang mit geistigem Eigentum geben, wenn der Anbieter für die Schulung öffentliche Daten verwendet hat, darunter auch urheberrechtlich geschützte Daten aus dem Internet. Dies stellt einen weiteren Anreiz dar, zu viele Daten preiszugeben. Mehrere Fälle den Gerichten lehnen die Fair Use-Schulung zum Schutz von Datenund argumentiert, dass generative KI-Tools den Stil von Künstlern ohne deren Erlaubnis replizieren und es Benutzern ermöglichen, neue Werke zu erstellen, die den Originalen des Künstlers ähneln, ohne dass der Künstler hierfür eine Bezahlung erhält.

Runway ging einigermaßen auf das Urheberrechtsproblem ein und sagte, dass es bei der Entwicklung des Modells Künstler konsultiert habe. (Welche Künstler? Unklar.) Das spiegelt wider, was Germanidis mir während eines Kamingesprächs auf der Disrupt-Konferenz von Tech im Jahr 2023 erzählte:

„Wir arbeiten eng mit Künstlern zusammen, um herauszufinden, was die besten Ansätze sind, um dieses Problem anzugehen“, sagte er. „Wir prüfen verschiedene Datenpartnerschaften, um weiter wachsen zu können … und die nächste Generation von Modellen zu entwickeln.“

Runway kündigt außerdem an, Gen-3 mit einer Reihe neuer Sicherheitsvorkehrungen veröffentlichen zu wollen. Dazu gehört ein Moderationssystem, das Versuche blockiert, Videos aus urheberrechtlich geschützten Bildern und Inhalten zu erstellen, die nicht mit Runways Nutzungsbedingungen übereinstimmen. Außerdem ist ein Herkunftssystem in Arbeit – kompatibel mit dem C2PA-Standard, der von Microsoft, Adobe, OpenAI und anderen unterstützt wird – um zu identifizieren, dass Videos von Gen-3 stammen.

„Unser neues und verbessertes internes Bild- und Textmoderationssystem verwendet eine automatische Überwachung, um unangemessene oder schädliche Inhalte herauszufiltern“, sagte Germanidis. „Die C2PA-Authentifizierung überprüft die Herkunft und Authentizität der mit allen Gen-3-Modellen erstellten Medien. Da die Modellfunktionen und die Fähigkeit, hochpräzise Inhalte zu generieren, zunehmen, werden wir weiterhin erheblich in unsere Ausrichtungs- und Sicherheitsbemühungen investieren.“

Landebahn Gen-3
Bildnachweise: Runway

Runway hat außerdem bekannt gegeben, dass es mit „führenden Unterhaltungs- und Medienunternehmen“ zusammengearbeitet hat, um benutzerdefinierte Versionen von Gen-3 zu erstellen, die „stilistisch kontrolliertere“ und konsistentere Charaktere ermöglichen und auf „spezifische künstlerische und erzählerische Anforderungen“ abzielen. Das Unternehmen fügt hinzu: „Dies bedeutet, dass die generierten Charaktere, Hintergründe und Elemente über verschiedene Szenen hinweg ein einheitliches Erscheinungsbild und Verhalten beibehalten können.“

Ein großes ungelöstes Problem bei Videogenerierungsmodellen ist die Kontrolle – also das Modell dazu zu bringen, ein konsistentes Video zu generieren, das den künstlerischen Absichten des Erstellers entspricht. Wie mein Kollege Devin Coldewey kürzlich schrieb, erfordern einfache Dinge im traditionellen Filmemachen, wie die Wahl einer Farbe für die Kleidung einer Figur, bei generativen Modellen Workarounds, da jede Aufnahme unabhängig von den anderen erstellt wird. Manchmal reichen nicht einmal Workarounds aus – und den Redakteuren bleibt umfangreiche Handarbeit.

Runway hat über 236,5 Millionen Dollar von Investoren eingesammelt, darunter Google (bei dem es über Cloud-Compute-Guthaben verfügt) und Nvidia sowie Risikokapitalgeber wie Amplify Partners, Felicis und Coatue. Das Unternehmen hat sich eng mit der Kreativbranche verbündet, da seine Investitionen in generative KI-Technologie wachsen. Runway betreibt Runway Studios, eine Unterhaltungsabteilung, die als Produktionspartner für Unternehmenskunden fungiert, und veranstaltet das AI Film Festival, eine der ersten Veranstaltungen, bei der Filme gezeigt werden, die ganz oder teilweise von KI produziert wurden.

Doch die Konkurrenz wird immer härter.

Landebahn Gen-3
Bildnachweise: Runway

Generatives KI-Startup Luma letzte Woche angekündigt Dream Machine, ein Videogenerator, der wegen seiner Fähigkeit, Memes zu animieren, viral gegangen ist. Und erst vor ein paar Monaten gab Adobe bekannt, dass es ein eigenes Videogenerierungsmodell entwickelt, das mit Inhalten aus seiner Adobe Stock-Medienbibliothek trainiert wird.

Andernorts gibt es etablierte Anbieter wie Sora von OpenAI, das zwar streng abgeschirmt bleibt, aber von Marketingagenturen sowie unabhängigen und Hollywood-Filmregisseuren unterstützt wird. (OpenAI-CTO Mira Murati war bei den Filmfestspielen von Cannes 2024 anwesend.) Das diesjährige Tribeca Festival – das auch eine Partnerschaft mit Runway zur Kuratierung von Filmen hat, die mit KI-Tools erstellt wurden – zeigte Kurzfilme, die mit Sora von Regisseuren produziert wurden, die frühzeitigen Zugang erhielten.

Google hat außerdem sein Bildgenerierungsmodell Veo in die Hände ausgewählter Entwickler gelegt, darunter Donald Glover (alias Childish Gambino) und seine Kreativagentur Gilga, um Veo in Produkte wie YouTube Shorts zu integrieren.

Wie auch immer die verschiedenen Kooperationen ausgehen, eines wird klar: Generative KI-Videotools drohen die Film- und Fernsehbranche, wie wir sie kennen, auf den Kopf zu stellen.

Landebahn Gen-3
Bildnachweise: Runway

Filmemacher Tyler Perry sagte vor kurzem dass er eine geplante 800 Millionen Dollar teure Erweiterung seines Produktionsstudios auf Eis legte, nachdem er gesehen hatte, was Sora konnte. Joe Russo, der Regisseur von Marvel-Blockbustern wie „Avengers: Endgame“, sagt voraus dass KI innerhalb eines Jahres in der Lage sein wird, einen vollwertigen Film zu erstellen.

Ein 2024 Studie Eine von der Animation Guild, einer Gewerkschaft, die Hollywood-Animatoren und Cartoonisten vertritt, in Auftrag gegebene Studie ergab, dass 75 % der Filmproduktionsfirmen, die KI eingeführt haben, nach der Einführung der Technologie Arbeitsplätze abgebaut, konsolidiert oder abgebaut haben. Die Studie schätzt außerdem, dass bis 2026 mehr als 100.000 Arbeitsplätze in der US-Unterhaltungsbranche durch generative KI verloren gehen werden.

Es bedarf einiger wirklich strenger Arbeitsschutzmaßnahmen, um sicherzustellen, dass Video-Generierungstools nicht in die Fußstapfen anderer generativer KI-Technologien treten und zu steile Rückgänge in der Nachfrage nach kreativer Arbeit.

tch-1-tech