Viggle erstellt steuerbare KI-Charaktere für Memes und die Visualisierung von Ideen

Sie kennen Viggle AI vielleicht nicht, aber Sie haben wahrscheinlich die viralen Memes gesehen, die es erstellt hat. Das kanadische KI-Startup ist für Dutzende von Videos verantwortlich, in denen der Rapper Lil Yachty auf einem Sommermusikfestival auf der Bühne herumhüpft. In einem Video wird Lil Yachty ersetzt durch Joaquins Phoenix ist der Joker. In einem anderen Jesus schien die Menge aufzuhetzen. Benutzer haben unzählige Versionen dieses Videos erstellt, aber ein KI-Startup hat die Memes vorangetrieben. Und der CEO von Viggle sagt, dass YouTube-Videos die Grundlage für seine KI-Modelle bilden.

Viggle hat ein 3D-Video-Grundmodell, JST-1, darauf trainiert, ein „echtes Verständnis der Physik“ zu haben, wie das Unternehmen in seiner Pressemitteilung behauptet. Viggle-CEO Hang Chu sagt, der Hauptunterschied zwischen Viggle und anderen KI-Videomodellen bestehe darin, dass Viggle es den Benutzern ermögliche, die Bewegung festzulegen, die die Charaktere ausführen sollen. Andere KI-Videomodelle erzeugen oft unrealistische Charakterbewegungen, die sich nicht an die Gesetze der Physik halten, aber Chu behauptet, Viggles Modelle seien anders.

„Wir bauen im Wesentlichen eine neue Art von Grafik-Engine, aber ausschließlich mit neuronalen Netzwerken“, sagte Chu in einem Interview. „Das Modell selbst unterscheidet sich stark von vorhandenen Videogeneratoren, die hauptsächlich pixelbasiert sind und die Struktur und Eigenschaften der Physik nicht wirklich verstehen. Unser Modell ist auf ein solches Verständnis ausgelegt und deshalb ist es in Bezug auf Steuerbarkeit und Effizienz der Generierung deutlich besser.“

Um beispielsweise das Video des Jokers als Lil Yachty zu erstellen, laden Sie einfach das Originalvideo (Lil Yachty tanzt auf der Bühne) und ein Bild der Figur (des Jokers) hoch, um diese Bewegung auszuführen. Alternativ können Benutzer Bilder von Figuren zusammen mit Textaufforderungen mit Anweisungen zum Animieren hochladen. Als dritte Option ermöglicht Viggle Benutzern, animierte Figuren von Grund auf nur mit Textaufforderungen zu erstellen.

Aber die Memes machen nur einen kleinen Prozentsatz von Viggles Nutzern aus; Chu sagt, das Modell sei als Visualisierungstool für Kreative weit verbreitet. Die Videos sind alles andere als perfekt – sie sind verwackelt und die Gesichter sind ausdruckslos – aber Chu sagt, es habe sich für Filmemacher, Animatoren und Videospieldesigner als effektiv erwiesen, ihre Ideen in etwas Visuelles umzusetzen. Im Moment erstellen Viggles Modelle nur Charaktere, aber Chu hofft, später auch komplexere Videos zu ermöglichen.

Viggle bietet derzeit eine kostenlose, eingeschränkte Version seines KI-Modells auf Discord und seiner Web-App an. Das Unternehmen bietet auch ein 9,99-Dollar-Abonnement für mehr Kapazität an und gewährt einigen Entwicklern über ein Entwicklerprogramm Sonderzugriff. Der CEO sagt, Viggle spreche mit Film- und Videospielstudios über die Lizenzierung der Technologie, er sehe aber auch eine Akzeptanz bei unabhängigen Animatoren und Inhaltserstellern.

Am Montag gab Viggle bekannt, dass es in einer Serie A-Finanzierungsrunde 19 Millionen US-Dollar aufgebracht hat. Die Finanzierung wurde von Andreessen Horowitz geleitet und von Two Small Fish übernommen. Das Startup sagt, diese Runde werde Viggle helfen, zu wachsen, die Produktentwicklung zu beschleunigen und sein Team zu erweitern. Viggle teilte Tech mit, dass es unter anderem mit Google Cloud zusammenarbeitet, um seine KI-Modelle zu trainieren und auszuführen. Diese Partnerschaften mit Google Cloud umfassen oft den Zugriff auf GPU- und TPU-Cluster, aber normalerweise nicht den Zugriff auf YouTube-Videos, mit denen KI-Modelle trainiert werden können.

Trainingsdaten

Während des Tech-Interviews mit Chu fragten wir, mit welchen Daten die KI-Videomodelle von Viggle trainiert wurden.

„Bisher haben wir uns auf öffentlich zugängliche Daten verlassen“, sagte Chu und äußerte damit eine ähnliche Linie wie OpenAIs CTO Mira Murati antwortete zu Soras Trainingsdaten.

Auf die Frage, ob Viggles Trainingsdatensatz YouTube-Videos enthalte, antwortete Chu schlicht: „Ja.“

Das könnte ein Problem sein. Im April sagte YouTube-CEO Neal Mohan gegenüber Bloomberg, dass die Verwendung von YouTube-Videos zum Trainieren eines KI-Text-zu-Video-Generators eine „klarer Verstoß“ der Nutzungsbedingungen der Plattform. Die Kommentare bezogen sich auf die Möglichkeit, dass OpenAI YouTube-Videos verwendet hat, um Sora zu trainieren.

Mohan stellte klar, dass Google, dem YouTube gehört, möglicherweise Verträge mit bestimmten Entwicklern hat, um deren Videos in Trainingsdatensätzen für Google DeepMinds Gemini zu verwenden. Das Sammeln von Videos von der Plattform ist jedoch laut Mohan und YouTube nicht gestattet. Servicebedingungenohne vorher die Erlaubnis des Unternehmens einzuholen.

Nach TechCrunchs Interview mit Viggles CEO nahm ein Sprecher von Viggle Chus Aussage per E-Mail zurück und teilte Tech mit, der CEO habe „zu früh darüber gesprochen, ob Viggle YouTube-Daten als Training verwendet. Tatsächlich ist Hang/Viggle nicht in der Lage, Einzelheiten zu ihren Trainingsdaten preiszugeben.“

Wir wiesen jedoch darauf hin, dass Chu dies bereits offiziell getan hatte, und baten um eine klare Stellungnahme zu dieser Angelegenheit. Der Sprecher von Viggle bestätigte in seiner Antwort, dass das KI-Startup anhand von YouTube-Videos trainiert:

Viggle nutzt eine Vielzahl öffentlicher Quellen, darunter YouTube, um KI-Inhalte zu generieren. Unsere Trainingsdaten wurden sorgfältig kuratiert und verfeinert, um sicherzustellen, dass während des gesamten Prozesses alle Nutzungsbedingungen eingehalten werden. Wir legen Wert darauf, enge Beziehungen zu Plattformen wie YouTube aufrechtzuerhalten, und verpflichten uns, deren Bedingungen zu respektieren, indem wir große Mengen an Downloads und andere Aktionen vermeiden, die nicht autorisierte Videodownloads beinhalten würden.

Dieser Ansatz zur Einhaltung der Vorschriften steht offenbar im Widerspruch zu Mohans Kommentaren im April, wonach das Video-Korpus von YouTube keine öffentliche Quelle sei. Wir haben uns an Sprecher von YouTube und Google gewandt, aber noch keine Antwort erhalten.

Das Startup begibt sich mit anderen in eine Grauzone, indem es YouTube als Trainingsdaten nutzt. Es wurde berichtet, dass viele Entwickler von KI-Modellen – darunter OpenAI, Nvidia, Apple und Anthropic – alle nutzen YouTube-Videotranskriptionen oder -Clips für das Training. Es ist das schmutzige Geheimnis des Silicon Valley, das gar nicht so geheim ist: Wahrscheinlich macht es jeder. Was tatsächlich selten vorkommt, ist, es laut auszusprechen.

tch-1-tech