Was ist Google Genie und wie funktioniert es?
In einem offiziellen Blogbeitrag Google DeepMind stellt fest, dass das Modell „aus synthetischen Bildern, Fotos und sogar Skizzen eine endlose Vielfalt spielbarer (durch Aktionen steuerbarer) Welten generieren kann.“
In der Forschungsarbeit „Genie: Generative Interactive Environments“ heißt es, dass Genie das erste generative interaktive Modell ist, das unbeaufsichtigt anhand unbeschrifteter Internetvideos trainiert wurde.
Wenn es um die Größe geht, hat Genie 11 Milliarden Parameter. Das Modell umfasst außerdem einen raumzeitlichen Video-Tokenisierer, ein autoregressives Dynamikmodell und ein einfaches sowie skalierbares latentes Aktionsmodell.
Diese Spezifikationen ermöglichen es Genie, in generierten Umgebungen Frame für Frame zu agieren, selbst wenn Schulungen, Labels oder andere domänenspezifische Anforderungen fehlen.
Obwohl Genie auf reinen Videodaten trainiert wurde, kann er dazu veranlasst werden, vielfältige interaktive und steuerbare Umgebungen zu generieren. Im Gegensatz zu zahlreichen generativen KI-Modellen, die kreative Inhalte mit Sprache, Bildern und sogar Videos produzieren können, wird Genie in der Lage sein, spielbare Umgebungen aus einer einzigen Bildaufforderung zu erstellen.
Google DeepMind-Forscher behaupten außerdem, dass Genie mit Bildern, die es noch nie gesehen hat, einschließlich Fotos und Skizzen aus der realen Welt, aufgefordert werden kann. Dies wird es den Menschen ermöglichen, mit ihren imaginären virtuellen Welten zu interagieren. Dies wird auch als Foundation-World-Modell bezeichnet.
Das Forschungspapier hebt außerdem hervor, dass das Modell darauf trainiert wurde, sich stärker auf Videos von 2D-Plattformspielen und Robotik zu konzentrieren. Google Genie ist auf einer allgemeinen Methode trainiert, die es ermöglicht, auf jeder Art von Domäne zu funktionieren und auf noch größere Internet-Datensätze skalierbar ist.
Genie hat außerdem die Möglichkeit, die Steuerung von In-Game-Charakteren ausschließlich aus Internetvideos zu erlernen und zu reproduzieren. Dies ist wichtig, da Internetvideos keine Angaben zu der Aktion enthalten, die im Video ausgeführt wird, oder auch nicht, welcher Teil des Bildes gesteuert werden muss.