DeepMind, Googles KI-Forschungsorganisation, hat eine vorgestellt Modell das eine „endlose“ Vielfalt an spielbaren 3D-Welten erzeugen kann.
Das Modell mit dem Namen Genie 2 – der Nachfolger von DeepMinds Genie, das Anfang des Jahres veröffentlicht wurde – kann aus einem einzigen Bild und einer Textbeschreibung eine interaktive Echtzeitszene generieren (z. B. „Ein süßer humanoider Roboter im Wald“). In dieser Hinsicht ähnelt es Modellen, die von Fei-Fei Lis Unternehmen World Labs und dem israelischen Startup Decart entwickelt werden.
DeepMind behauptet, dass Genie 2 eine „große Vielfalt an reichhaltigen 3D-Welten“ erzeugen kann, einschließlich Welten, in denen Benutzer Aktionen wie Springen und Schwimmen mithilfe einer Maus oder Tastatur ausführen können. Das anhand von Videos trainierte Modell ist in der Lage, Objektinteraktionen, Animationen, Beleuchtung, Physik, Reflexionen und das Verhalten von „NPCs“ zu simulieren.
Viele der Simulationen von Genie 2 sehen aus wie AAA-Videospiele – und der Grund könnte durchaus darin liegen, dass die Trainingsdaten des Modells Durchspielen beliebter Titel enthalten. Aber DeepMind wollte, wie viele KI-Labore, nicht viele Details über seine Datenbeschaffungsmethoden preisgeben, sei es aus Wettbewerbsgründen oder aus anderen Gründen.
Man fragt sich über die Auswirkungen auf das geistige Eigentum. Als Tochtergesellschaft von Google hat DeepMind uneingeschränkten Zugriff auf YouTube, und Google hat zuvor angedeutet, dass es in seinen Nutzungsbedingungen die Erlaubnis erhält, YouTube-Videos für die Modellschulung zu verwenden. Aber erstellt Genie 2 im Grunde nicht autorisierte Kopien der Videospiele, die es „gesehen“ hat? Das müssen die Gerichte entscheiden.
Laut DeepMind kann Genie 2 bis zu einer Minute lang konsistente Welten mit unterschiedlichen Perspektiven wie Ego-Perspektiven und isometrischen Ansichten erzeugen, wobei die meisten 10 bis 20 Sekunden dauern.
„Genie 2 reagiert intelligent auf Aktionen, die durch das Drücken von Tasten auf einer Tastatur ausgeführt werden, identifiziert den Charakter und bewegt ihn richtig“, schrieb DeepMind in einem Blogbeitrag. „Zum Beispiel unser Modell [can] Finden Sie heraus, dass die Pfeiltasten einen Roboter bewegen sollten und nicht Bäume oder Wolken.“
Die meisten Modelle wie Genie 2 – sozusagen Weltmodelle – können Spiele und 3D-Umgebungen simulieren, allerdings mit Artefakten, Konsistenz und Halluzinationsproblemen. Decarts Minecraft-Simulator Oasis hat beispielsweise eine niedrige Auflösung und „vergisst“ schnell die Anordnung der Level.
Genie 2 kann sich jedoch Teile einer simulierten Szene merken, die nicht sichtbar sind, und sie genau wiedergeben, wenn sie wieder sichtbar werden, sagt DeepMind. (Die Modelle von World Labs können dies auch.)
Nun, Spiele, die mit Genie 2 erstellt wurden, würden eigentlich nicht so viel Spaß machen, da sie Ihren Fortschritt jede Minute oder so löschen würden. Aus diesem Grund positioniert DeepMind das Modell eher als Forschungs- und Kreativwerkzeug – als Werkzeug zum Prototyping „interaktiver Erlebnisse“ und zur Bewertung von KI-Agenten.
„Dank der Out-of-Distribution-Generalisierungsfunktionen von Genie 2 können Konzeptzeichnungen und Zeichnungen in vollständig interaktive Umgebungen umgewandelt werden“, schrieb DeepMind. „Und indem wir Genie 2 verwenden, um schnell umfangreiche und vielfältige Umgebungen für KI-Agenten zu erstellen, können unsere Forscher Bewertungsaufgaben generieren, die Agenten während des Trainings noch nicht gesehen haben.“
DeepMind sagt, dass sich Genie 2 zwar noch im Anfangsstadium befindet, das Labor jedoch davon ausgeht, dass es eine Schlüsselkomponente bei der Entwicklung von KI-Agenten der Zukunft sein wird.
Google hat zunehmend Ressourcen in die Weltmodellforschung gesteckt, die das nächste große Ding in der generativen KI zu werden verspricht. Im Oktober stellte DeepMind Tim Brooks ein, der die Entwicklung des Sora-Videogenerators von OpenAI leitete, um an Videogenerierungstechnologien und Weltsimulatoren zu arbeiten. Und vor zwei Jahren hat das Labor Tim Rocktäschel abgeworben, der vor allem für seine „Offenheit“ bekannt ist. Experimente mit Videospielen wie Nethack von Meta.