Google kündigt das erste KI-Modell an, das Videospiele aus Text und Bildern erstellen kann; So funktioniert es |

Google kuendigt das erste KI Modell an das Videospiele aus Text
Google DeepMind Forscher haben ein neues Modell der künstlichen Intelligenz angekündigt, das mit einer Text- oder Bildaufforderung virtuelle Welten erzeugen kann. Das neueste Modell mit dem Namen Genie ermöglicht es Benutzern, mit den von ihm geschaffenen virtuellen Welten zu interagieren und zu spielen. Der Technologieriese behauptet, dass dieses Modell anhand von Gameplay und anderen online gefundenen Videos trainiert wurde und derzeit nur eine Forschungsvorschau ist. Die von den neuesten erstellten Spiele KI-Modell scheinen auch nur für 2D-Plattformen konzipiert zu sein.

Was ist Google Genie und wie funktioniert es?

In einem offiziellen Blogbeitrag Google DeepMind stellt fest, dass das Modell „aus synthetischen Bildern, Fotos und sogar Skizzen eine endlose Vielfalt spielbarer (durch Aktionen steuerbarer) Welten generieren kann.“
In der Forschungsarbeit „Genie: Generative Interactive Environments“ heißt es, dass Genie das erste generative interaktive Modell ist, das unbeaufsichtigt anhand unbeschrifteter Internetvideos trainiert wurde.
Wenn es um die Größe geht, hat Genie 11 Milliarden Parameter. Das Modell umfasst außerdem einen raumzeitlichen Video-Tokenisierer, ein autoregressives Dynamikmodell und ein einfaches sowie skalierbares latentes Aktionsmodell.
Diese Spezifikationen ermöglichen es Genie, in generierten Umgebungen Frame für Frame zu agieren, selbst wenn Schulungen, Labels oder andere domänenspezifische Anforderungen fehlen.

Obwohl Genie auf reinen Videodaten trainiert wurde, kann er dazu veranlasst werden, vielfältige interaktive und steuerbare Umgebungen zu generieren. Im Gegensatz zu zahlreichen generativen KI-Modellen, die kreative Inhalte mit Sprache, Bildern und sogar Videos produzieren können, wird Genie in der Lage sein, spielbare Umgebungen aus einer einzigen Bildaufforderung zu erstellen.

Google DeepMind-Forscher behaupten außerdem, dass Genie mit Bildern, die es noch nie gesehen hat, einschließlich Fotos und Skizzen aus der realen Welt, aufgefordert werden kann. Dies wird es den Menschen ermöglichen, mit ihren imaginären virtuellen Welten zu interagieren. Dies wird auch als Foundation-World-Modell bezeichnet.
Das Forschungspapier hebt außerdem hervor, dass das Modell darauf trainiert wurde, sich stärker auf Videos von 2D-Plattformspielen und Robotik zu konzentrieren. Google Genie ist auf einer allgemeinen Methode trainiert, die es ermöglicht, auf jeder Art von Domäne zu funktionieren und auf noch größere Internet-Datensätze skalierbar ist.
Genie hat außerdem die Möglichkeit, die Steuerung von In-Game-Charakteren ausschließlich aus Internetvideos zu erlernen und zu reproduzieren. Dies ist wichtig, da Internetvideos keine Angaben zu der Aktion enthalten, die im Video ausgeführt wird, oder auch nicht, welcher Teil des Bildes gesteuert werden muss.

toi-tech