„Animate Everyone“ kündigt die Annäherung an Full-Motion-Deepfakes an

„Animate Everyone kuendigt die Annaeherung an Full Motion Deepfakes an

Als ob Standbild-Deepfakes nicht schon schlimm genug wären, müssen wir uns möglicherweise bald mit generierten Videos von jedem herumschlagen, der es wagt, ein Foto von sich online zu stellen: mit Animieren Sie jedenschlechte Schauspieler können Menschen besser als je zuvor als Puppenspieler darstellen.

Die neue generative Videotechnik wurde von Forschern des Institute for Intelligent Computing der Alibaba Group entwickelt. Es ist ein großer Fortschritt im Vergleich zu früheren Bild-zu-Video-Systemen wie DisCo und DreamPose, die im Sommer noch beeindruckend waren, heute aber Geschichte sind.

Was Animate Everyone leisten kann, ist keineswegs beispiellos, hat aber die schwierige Grenze zwischen „abgefahrenem akademischen Experiment“ und „gut genug, wenn man nicht genau hinschaut“ überschritten. Wie wir alle wissen, ist die nächste Stufe einfach „gut genug“, bei der sich die Leute nicht einmal die Mühe machen, genau hinzusehen, weil sie davon ausgehen, dass es real ist. Dort befinden sich derzeit Standbilder und Textgespräche, die unseren Realitätssinn zerstören.

Bild-zu-Video-Modelle wie dieses extrahieren zunächst Details wie Gesichtszüge, Muster und Pose aus einem Referenzbild wie einem Modefoto eines Models, das ein zum Verkauf stehendes Kleid trägt. Dann wird eine Reihe von Bildern erstellt, in denen diese Details auf ganz leicht unterschiedliche Posen abgebildet werden, die per Motion-Capture erfasst oder selbst aus einem anderen Video extrahiert werden können.

Frühere Modelle haben gezeigt, dass dies möglich ist, es gab jedoch viele Probleme. Halluzinationen stellten ein großes Problem dar, da das Modell plausible Details erfinden musste, etwa wie sich ein Ärmel oder ein Haar bewegen könnte, wenn sich eine Person umdreht. Dies führt zu vielen wirklich seltsamen Bildern, sodass das resultierende Video alles andere als überzeugend ist. Aber die Möglichkeit blieb bestehen, und Animate Everyone ist deutlich verbessert, wenn auch noch lange nicht perfekt.

Die technischen Besonderheiten des neuen Modells gehen über die meisten hinaus, aber das Papier betont einen neuen Zwischenschritt, der „dem Modell ermöglicht, die Beziehung zum Referenzbild in einem konsistenten Merkmalsraum umfassend zu lernen, was erheblich zur Verbesserung der Erhaltung von Erscheinungsbilddetails beiträgt.“ ” Durch die Verbesserung der Beibehaltung grundlegender und feiner Details verfügen die generierten Bilder später über eine stärkere Grundwahrheit, mit der sie arbeiten können, und werden viel besser.

Bildnachweis: Alibaba-Gruppe

Sie präsentieren ihre Ergebnisse in einigen Kontexten. Models nehmen beliebige Posen ein, ohne dass sich die Kleidung verformt oder ihr Muster verliert. Eine 2D-Animefigur erwacht zum Leben und tanzt überzeugend. Lionel Messi macht ein paar allgemeine Bewegungen.

Sie sind alles andere als perfekt – insbesondere was die Augen und Hände betrifft, die für generative Modelle ein besonderes Problem darstellen. Und die Posen, die am besten dargestellt werden, sind diejenigen, die dem Original am nächsten kommen; Wenn sich die Person beispielsweise umdreht, fällt es dem Model schwer, mitzuhalten. Aber es ist ein großer Fortschritt gegenüber dem bisherigen Stand der Technik, der viel mehr Artefakte hervorbrachte oder wichtige Details wie die Haarfarbe einer Person oder ihre Kleidung völlig verlor.

Es ist beunruhigend, wenn man bedenkt, dass ein böswilliger Schauspieler (oder Produzent) Sie mit einem einzigen qualitativ hochwertigen Bild von Ihnen zu so ziemlich allem zwingen könnte, und in Kombination mit Gesichtsanimationen und Spracherfassungstechnologien könnten sie Sie auch dazu bringen, gleichzeitig alles auszudrücken . Im Moment ist die Technologie zu komplex und fehlerhaft für den allgemeinen Gebrauch, aber in der KI-Welt wird das nicht lange so bleiben.

Zumindest bringt das Team den Code noch nicht in die Welt. Obwohl sie eine haben GitHub-Seiteschreiben die Entwickler: „Wir arbeiten aktiv daran, die Demo und den Code für die öffentliche Veröffentlichung vorzubereiten.“ Obwohl wir uns zum jetzigen Zeitpunkt nicht auf ein bestimmtes Veröffentlichungsdatum festlegen können, stellen Sie bitte sicher, dass die Absicht, Zugriff auf die Demo und unseren Quellcode zu gewähren, fest besteht.“

Wird die Hölle los sein, wenn das Internet plötzlich mit Dancefakes überschwemmt wird? Wir werden es herausfinden, und zwar wahrscheinlich früher, als uns lieb ist.

tch-1-tech