Warum Text-to-Video das nächste „große“ KI-Ding sein könnte

Warum Text to Video das naechste „grosse KI Ding sein koennte
Wenn es um generative KI geht, dominiert nur eines die Schlagzeilen – ChatGPT. Es gibt jedoch noch viel mehr in der Welt der Generativen als ChatGPT-ähnliche Sprachmodelle. Text-zu-Bild wird bereits zu einem Teil der Mainstream-Gespräche, aber das Brauen im Hintergrund ist generativ KI in der Lage, Text in Videos umzuwandeln.
Was ist Text-zu-Video-KI?
Einfach ausgedrückt, Sie können KI-gestützte Videos nur auf der Grundlage Ihrer Worte erstellen. Ja, genau so klingt es: Geben Sie den Text ein und das KI-Modell generiert darauf basierend ein Video. Das US-Startup Runway präsentierte sein Gen-2-Modell, das dies mit ein oder zwei Einschränkungen kann.
Ist das etwas „Neues“?
Nicht wirklich, da es Dall-E – entwickelt von den Entwicklern von ChatGPT – sehr ähnlich ist und mit generativen KI-Sprachmodellen arbeitet. Die Ergebnisse sind fesselnd genug und könnten sicherlich viele auf der ganzen Welt begeistern.
Ist ‚Big Tech‘ nicht involviert Text-zu-Video?
Das sind sie sehr. Bereits im September 2022 präsentierte Meta ein ziemlich offensichtlich benanntes Tool Make-A-Video. Mit nur wenigen Wörtern oder Textzeilen erstellt Make-A-Video Videos mit generativer KI, aber diese Videos hatten keinen Ton. Hier ist, was Meta-CEO Mark Zuckerberg dazu gesagt hat: „Es ist viel schwieriger, Videos zu erstellen als Fotos, weil das System nicht nur jedes Pixel korrekt generieren muss, sondern auch vorhersagen muss, wie sie sich im Laufe der Zeit verändern werden.
Nur eine Woche später und wie aufs Stichwort kündigte Google ein ähnliches Modell an. Das generative KI-Modell von Google heißt Imagen Video. „Anhand eines Text-Prompts generiert Imagen Video hochauflösende Videos unter Verwendung eines grundlegenden Videoerzeugungsmodells und einer Folge von verschachtelten räumlichen und zeitlichen Video-Superauflösungsmodellen“, hatte Google es beschrieben.
Google präsentierte auch ein weiteres Modell namens Phenaki, das darauf abzielt, Langformvideos auf der Grundlage von Texteingaben zu erstellen.
Was sind die Herausforderungen bei der Text-zu-Video-KI?
Vielfältig. Von betrieblich bis ethisch sind die Herausforderungen viel zu zahlreich. Vielleicht ist das einer der Gründe, warum bisher nur Demos von generativen KI-Modellen erschienen sind, die mit Text-zu-Videos arbeiten. Für den Anfang mag das Generieren eines Videos mit Text lächerlich einfach und gleichermaßen faszinierend klingen, aber stellen Sie sich vor, ein Video nur mit Worten zu erstellen. Man muss mit den Befehlen unglaublich genau sein, oder es könnte das Video-Äquivalent von Kauderwelsch erzeugen.
Dann kommen die ethischen Herausforderungen. KI-generierte Videos könnten die nächste Waffe im Arsenal der Fehlinformationen sein. Deepfakes könnten zu einem noch größeren Problem werden, das derzeit auftritt.
Angesichts der rasanten Entwicklungen im Bereich der KI könnte es eine Frage der Zeit sein, bis Text-to-Video aus dem Erkundungsmodus herauskommt und eher zum Mainstream wird.

toi-tech