Die Ersteller von Sora-gestützten Kurzfilmen erläutern die Stärken und Grenzen von KI-generierten Videos

Die Ersteller von Sora gestuetzten Kurzfilmen erlaeutern die Staerken und Grenzen

Das Videogenerierungstool Sora von OpenAI überraschte die KI-Community im Februar mit flüssigen, realistischen Videos, die der Konkurrenz meilenweit voraus zu sein scheinen. Aber das sorgfältig inszenierte Debüt ließ viele Details aus – Details, die von einem Filmemacher ergänzt wurden, der frühzeitig Zugriff hatte, um mit Sora einen Kurzfilm zu erstellen.

Shy Kids ist ein in Toronto ansässiges digitales Produktionsteam, das von OpenAI als eines von wenigen ausgewählt wurde Kurzfilme zu produzieren im Wesentlichen für OpenAI-Werbezwecke, obwohl ihnen erhebliche kreative Freiheit eingeräumt wurde bei der Schaffung von „Luftkopf“. In einem (n Interview mit der Nachrichtenagentur fxguide für visuelle EffekteDer Postproduktionskünstler Patrick Cederberg beschrieb „die tatsächliche Verwendung von Sora“ als Teil seiner Arbeit.

Die vielleicht wichtigste Erkenntnis für die meisten ist einfach diese: Während der Beitrag von OpenAI, in dem die Kurzfilme hervorgehoben werden, den Leser davon ausgehen lässt, dass sie mehr oder weniger vollständig aus Sora hervorgegangen sind, handelt es sich in Wirklichkeit um professionelle Produktionen, komplett mit fundiertem Storyboarding, Schnitt, Farbkorrektur, und Nachbearbeitung wie Rotoscoping und VFX. So wie Apple sagt „Auf dem iPhone aufgenommen“, aber im Nachhinein nicht die Studioeinrichtung, die professionelle Beleuchtung und die Farbarbeit zeigt, geht es im Sora-Beitrag nur darum, was die Leute damit machen können, und nicht darum, wie sie es tatsächlich gemacht haben.

Cederbergs Interview ist interessant und ziemlich untechnisch, wenn Sie also überhaupt interessiert sind, Gehen Sie zu fxguide und lesen Sie es. Aber hier sind einige interessante Details zur Verwendung von Sora, die uns zeigen, dass das Modell, so beeindruckend es auch ist, vielleicht weniger einen großen Sprung nach vorne darstellt, als wir dachten.

Kontrolle ist zum jetzigen Zeitpunkt immer noch das Erstrebenswerteste und zugleich auch das, was am schwersten zu fassen ist. … Das Beste, was wir erreichen konnten, war, in unseren Eingabeaufforderungen übertrieben beschreibend zu sein. Das Erklären der Garderobe der Charaktere sowie der Art des Ballons war unser Weg, um die Konsistenz zu umgehen, da von Schuss zu Schuss / Generation zu Generation noch nicht die Funktionen vorhanden sind, die eine vollständige Kontrolle über die Konsistenz ermöglichen.

Mit anderen Worten: Dinge, die beim traditionellen Filmemachen einfach sind, wie die Wahl der Farbe der Kleidung einer Figur, erfordern in einem generativen System aufwändige Problemumgehungen und Überprüfungen, da jede Einstellung unabhängig von den anderen erstellt wird. Das könnte sich natürlich ändern, aber im Moment ist es sicherlich viel aufwändiger.

Auch die Ausgaben von Sora mussten auf unerwünschte Elemente überwacht werden: Cederberg beschrieb, wie das Modell routinemäßig ein Gesicht auf dem Ballon erzeugte, den die Hauptfigur als Kopf hat, oder eine Schnur, die vorne herunterhängt. Diese mussten per Post entfernt werden, ein weiterer zeitaufwändiger Prozess, wenn sie nicht dazu aufgefordert wurden, sie auszuschließen.

Ein präzises Timing und Bewegungen der Charaktere oder der Kamera sind nicht wirklich möglich: „Es gibt ein wenig zeitliche Kontrolle darüber, wo diese verschiedenen Aktionen in der tatsächlichen Generation stattfinden, aber es ist nicht präzise … es ist eine Art Schuss ins Ungewisse“, sagte er Cederberg.

Beispielsweise ist das Timing einer Geste wie einer Welle im Gegensatz zu manuellen Animationen ein sehr ungefährer, durch Vorschläge gesteuerter Prozess. Und eine Aufnahme wie ein Schwenk nach oben auf den Körper der Figur kann die Wünsche des Filmemachers widerspiegeln oder auch nicht – also hat das Team in diesem Fall eine Aufnahme im Hochformat gerendert und in der Nachbearbeitung einen Ausschnittschwenk gemacht. Auch die generierten Clips liefen oft ohne besonderen Grund in Zeitlupe.

Beispiel einer Aufnahme, wie sie aus Sora kam und wie sie im Kurzfilm endete. Bildnachweis: Schüchterne Kinder

Tatsächlich sei die Verwendung der alltäglichen Sprache des Filmemachens wie „nach rechts schwenken“ oder „Kamerafahrt“ im Allgemeinen inkonsistent, sagte Cederberg, was das Team ziemlich überraschend fand.

„Die Forscher hatten nicht wirklich wie Filmemacher gedacht, bevor sie sich an Künstler wandten, um mit dem Tool zu experimentieren“, sagte er.

Infolgedessen führte das Team Hunderte von Generationen von jeweils 10 bis 20 Sekunden durch und verwendete am Ende nur eine Handvoll. Cederberg schätzte das Verhältnis auf 300:1 – aber natürlich wären wir wahrscheinlich alle über das Verhältnis bei einem gewöhnlichen Shooting überrascht.

Eigentlich das Team habe ein kleines Video hinter den Kulissen gemacht Wenn Sie neugierig sind, erklären wir Ihnen einige der Probleme, auf die sie gestoßen sind. Wie viele KI-nahe Inhalte, Die Kommentare stehen dem gesamten Unterfangen ziemlich kritisch gegenüber – allerdings nicht ganz so schmähend wie die KI-gestützte Anzeige, die wir kürzlich an den Pranger gestellt sahen.

Die letzte interessante Falte betrifft das Urheberrecht: Wenn Sie Sora bitten, Ihnen einen „Star Wars“-Clip zu geben, wird er dies ablehnen. Und wenn Sie versuchen, es mit „Mann in Robe und Laserschwert auf einem retrofuturistischen Raumschiff“ zu umgehen, wird es sich ebenfalls weigern, da es durch einen Mechanismus erkennt, was Sie zu tun versuchen. Es weigerte sich auch, eine „Aronofsky-artige Aufnahme“ oder einen „Hitchcock-Zoom“ zu machen.

Einerseits macht es absolut Sinn. Aber es wirft die Frage auf: Wenn Sora weiß, was das ist, bedeutet das, dass das Modell auf diesen Inhalt trainiert wurde, um besser zu erkennen, dass es sich um einen Verstoß handelt? OpenAI, das seine Trainingsdatenkarten eng an der Weste hält – bis zur Absurdität, wie bei CTO Mira Muratis Interview mit Joanna Stern – wird es uns mit ziemlicher Sicherheit nie sagen.

Was Sora und seinen Einsatz beim Filmemachen angeht, ist es an seiner Stelle eindeutig ein mächtiges und nützliches Werkzeug, aber seine Aufgabe besteht nicht darin, „Filme aus dem Nichts zu machen“. Noch. Wie ein anderer Bösewicht einmal sagte: „Das kommt später.“



tch-1-tech