Chinas Alibaba entwickelt KI-Tool, das Fotos in sprechende und singende Videos umwandelt |

Chinas Alibaba entwickelt KI Tool das Fotos in sprechende und singende
Forscher bei AlibabaDas Institute for Intelligent Computing hat eine vorgestellt Künstliches Intelligenzsystem mit dem Namen „EMO“ – kurz für Emote Portrait Alive. Wie der Name schon sagt, ist das KI-Tool animiert einzelne Porträtfotos und erzeugt lebensechte Videos von sprechenden oder singenden Personen
Im Gegensatz zu herkömmlichen Methoden, die auf 3D-Gesichtsmodellen oder Mischformen basieren, EMO verfolgt einen direkten Audio-zu-Video-Synthese-Ansatz. Durch die Umwandlung von Audiowellenformen in Videobilder erfasst es subtile Gesichtsbewegungen und identitätsspezifische Nuancen, die mit natürlicher Sprache verbunden sind.
In einem Forschungsbericht erklärten die Forscher von Alibaba, wie sie das Modell trainierten. „Wir haben einen riesigen und vielfältigen Audio-Video-Datensatz erstellt, der über 250 Stunden Filmmaterial und mehr als 150 Millionen Bilder umfasst. Dieser umfangreiche Datensatz umfasst ein breites Spektrum an Inhalten, darunter Reden, Film- und Fernsehausschnitte sowie Gesangsdarbietungen, und deckt mehrere Sprachen wie Chinesisch und Englisch ab.“ Darüber hinaus sagten die Forscher, dass die reiche Vielfalt des Sprechens und Gesangsvideos stellt sicher, dass das Schulungsmaterial ein breites Spektrum menschlicher Ausdrucksformen und Gesangsstile erfasst und so eine solide Grundlage für die Entwicklung von EMO bietet.
„Experimentelle Ergebnisse zeigen, dass EMO in der Lage ist, nicht nur überzeugende Sprechvideos, sondern auch Gesangsvideos in verschiedenen Stilrichtungen zu produzieren und dabei bestehende, hochmoderne Methoden in Bezug auf Ausdruckskraft und Realismus deutlich zu übertreffen“, heißt es in dem Papier.
Allerdings räumten die Forscher ein, dass ihre Methode einige Einschränkungen aufweist. Erstens ist es zeitaufwändiger als Methoden, die nicht auf Diffusionsmodellen basieren. Da das Modell zweitens keine expliziten Steuersignale zur Steuerung der Bewegung der Figur verwendet, kann es zur unbeabsichtigten Erzeugung anderer Körperteile, wie z. B. der Hände, kommen, was zu Artefakten im Video führt.
Dennoch sind die von den Forschern geteilten Ergebnisse ziemlich realitätsnah. Das KI-Tool sorgt auch für eine perfekte Lippensynchronisation. Es wird interessant sein zu sehen, ob Alibaba das Tool in seine KI integriert oder ob es nur ein Forschungsprojekt bleibt.

toi-tech