Chinas generatives Videorennen heizt sich auf

Chinas generatives Videorennen heizt sich auf

Am Montag veröffentlichte Tencent, der chinesische Internetriese, der für sein Videospielimperium und die Chat-App WeChat bekannt ist, enthüllt eine neue Version seines Open-Source-Videogenerierungsmodells DynamiCrafter auf GitHub. Es ist eine Erinnerung daran, dass einige der größten Technologieunternehmen Chinas stillschweigend ihre Bemühungen verstärkt haben, im Text- und Bild-zu-Video-Bereich Fuß zu fassen.

Wie andere generative Videotools auf dem Markt verwendet DynamiCrafter die Diffusionsmethode, um Untertitel und Standbilder in sekundenlange Videos umzuwandeln. Inspiriert durch das natürliche Phänomen der Diffusion in der Physik können Diffusionsmodelle beim maschinellen Lernen einfache Daten in komplexere und realistischere Daten umwandeln, ähnlich wie sich Partikel von einem Bereich hoher Konzentration in einen anderen Bereich niedriger Konzentration bewegen.

Die zweite Generation von DynamiCrafter produziert Videos mit einer Pixelauflösung von 640 x 1024, ein Upgrade gegenüber der ersten Veröffentlichung im Oktober, die 320 x 512 Videos enthielt. Ein Akademiker Papier Das vom Team hinter DynamiCrafter veröffentlichte Projekt weist darauf hin, dass sich seine Technologie von denen der Wettbewerber dadurch unterscheidet, dass sie die Anwendbarkeit von Bildanimationstechniken auf „allgemeinere visuelle Inhalte“ erweitert.

„Die Schlüsselidee besteht darin, die Bewegungspriorität von Text-zu-Video-Diffusionsmodellen zu nutzen, indem das Bild als Orientierungshilfe in den generativen Prozess einbezogen wird“, heißt es in dem Papier. Im Vergleich dazu konzentrieren sich „traditionelle“ Techniken „hauptsächlich auf die Animation natürlicher Szenen mit stochastischer Dynamik (z. B. Wolken und Flüssigkeit) oder domänenspezifischen Bewegungen (z. B. menschliche Haare oder Körperbewegungen).“

In einer Demo (siehe unten), die DynamiCrafter, Stable Video Diffusion (gestartet im November) und das kürzlich hochgepriesene Pika Labs vergleicht, erscheint das Ergebnis des Tencent-Modells etwas animierter als andere. Zwangsläufig würden die ausgewählten Beispiele DynamiCrafter bevorzugen, und keines der Modelle hinterlässt nach meinen ersten Versuchen den Eindruck, dass KI bald in der Lage sein wird, vollwertige Filme zu produzieren.

Dennoch werden generative Videos nach dem Boom generativer Texte und Bilder als nächster Schwerpunkt im KI-Wettbewerb große Hoffnungen geweckt. Es wird daher erwartet, dass Startups und etablierte Technologieunternehmen Ressourcen in diesen Bereich investieren. Das ist in China keine Ausnahme. Neben Tencent haben auch die TikTok-Muttergesellschaft ByteDance, Baidu und Alibaba ihre Videoverbreitungsmodelle veröffentlicht.

Beide ByteDance’s MagicVideo und Baidus UniVG haben Demos auf GitHub gepostet, allerdings scheint keines davon bisher für die Öffentlichkeit verfügbar zu sein. Wie Tencent hat Alibaba sein Videogenerierungsmodell VGen entwickelt Open Sourceeine Strategie, die bei chinesischen Technologiefirmen, die die globale Entwicklergemeinschaft erreichen möchten, immer beliebter wird.

tch-1-tech