OpenAI tritt in die Fußstapfen von Startups wie Runway und Technologiegiganten wie Google und Meta und steigt in die Videogenerierung ein.
OpenAI wurde heute vorgestellt Sora, ein generatives KI-Modell, das Videos aus Text erstellt. Mit einer kurzen – oder detaillierten – Beschreibung oder einem Standbild kann Sora laut OpenAI filmähnliche 1080p-Szenen mit mehreren Charakteren, verschiedenen Bewegungsarten und Hintergrunddetails erzeugen.
Sora kann auch bestehende Videoclips „erweitern“ und dabei sein Bestes tun, um die fehlenden Details zu ergänzen.
„Sora verfügt über ein tiefes Sprachverständnis, das es ihr ermöglicht, Aufforderungen genau zu interpretieren und überzeugende Charaktere zu generieren, die lebendige Emotionen ausdrücken“, schreibt OpenAI in einem Blogbeitrag. „Das Modell versteht nicht nur, wonach der Benutzer in der Eingabeaufforderung gefragt hat, sondern auch, wie diese Dinge in der physischen Welt existieren.“
Nun gibt es jede Menge Bombast auf der Demoseite von OpenAI für Sora – die obige Aussage ist ein Beispiel. Aber die ausgewählten Proben des Modells Tun sehen ziemlich beeindruckend aus, zumindest im Vergleich zu den anderen Text-zu-Video-Technologien, die wir gesehen haben.
Zunächst einmal kann Sora Videos in verschiedenen Stilen (z. B. fotorealistisch, animiert, Schwarzweiß) mit einer Länge von bis zu einer Minute generieren – viel länger als die meisten Text-zu-Video-Modelle. Und diese Videos bewahren eine angemessene Kohärenz in dem Sinne, dass sie nicht immer dem unterliegen, was ich gerne als „KI-Verrücktheit“ bezeichne, etwa dass sich Objekte in physikalisch unmögliche Richtungen bewegen.
Schauen Sie sich diesen Rundgang durch eine Kunstgalerie an, alles von Sora erstellt (ignorieren Sie die Körnigkeit – Komprimierung von meinem Video-GIF-Konvertierungstool):
Oder diese Animation einer blühenden Blume:
Ich würde sagen, dass einige von Soras Videos mit einem humanoiden Subjekt – zum Beispiel einem Roboter, der vor einer Stadtlandschaft steht, oder einer Person, die einen verschneiten Weg entlanggeht – Videospiel-ähnliche Qualitäten haben, vielleicht weil da nicht viel los ist im Hintergrund. KI-Verrücktheiten schleichen sich außerdem in viele Clips ein, etwa Autos, die in eine Richtung fahren und dann plötzlich rückwärts fahren, oder Arme, die in einem Bettbezug verschmelzen.
OpenAI räumt – trotz aller Superlative – ein, dass das Modell nicht perfekt ist. Es schreibt:
„[Sora] Möglicherweise fällt es Ihnen schwer, die Physik einer komplexen Szene genau zu simulieren, und Sie verstehen möglicherweise bestimmte Ursachen und Wirkungen nicht. Beispielsweise könnte eine Person in einen Keks beißen, der Keks hinterher aber möglicherweise keine Bissspur mehr aufweisen. Das Modell verwechselt möglicherweise auch räumliche Details einer Eingabeaufforderung, indem es beispielsweise links und rechts verwechselt, und hat möglicherweise Schwierigkeiten mit der präzisen Beschreibung von Ereignissen, die im Laufe der Zeit stattfinden, wie etwa dem Verfolgen einer bestimmten Kamerabahn.“
OpenAI positioniert Sora stark als Forschungsvorschau, verrät wenig darüber, welche Daten zum Trainieren des Modells verwendet wurden (knapp etwa 10.000 Stunden „hochwertiges“ Video) und verzichtet darauf, Sora allgemein verfügbar zu machen. Der Grund dafür ist das Potenzial für Missbrauch; OpenAI weist zu Recht darauf hin, dass schlechte Akteure ein Modell wie Sora auf vielfältige Weise missbrauchen könnten.
OpenAI sagt, dass es mit Experten zusammenarbeitet, um das Modell auf Exploits zu untersuchen und Tools zu entwickeln, um zu erkennen, ob ein Video von Sora erstellt wurde. Das Unternehmen sagt außerdem, dass es, sollte es sich dafür entscheiden, das Modell in ein öffentlich zugängliches Produkt zu integrieren, sicherstellen wird, dass Herkunftsmetadaten in den generierten Ausgaben enthalten sind.
„Wir werden politische Entscheidungsträger, Pädagogen und Künstler auf der ganzen Welt einbeziehen, um ihre Anliegen zu verstehen und positive Anwendungsfälle für diese neue Technologie zu identifizieren“, schreibt OpenAI. „Trotz umfangreicher Forschung und Tests können wir nicht alle Vorteile vorhersagen, auf die die Menschen unsere Technologie nutzen werden, noch alle Arten, auf die sie sie missbrauchen werden. Deshalb glauben wir, dass das Lernen aus der Praxis eine entscheidende Komponente bei der Entwicklung und Veröffentlichung immer sichererer KI-Systeme im Laufe der Zeit ist.“