Weltmodelle, auch Weltsimulatoren genannt, werden von manchen als das nächste große Ding in der KI angepriesen.
Die World Labs des KI-Pioniers Fei-Fei Li haben 230 Millionen US-Dollar gesammelt, um „große Weltmodelle“ zu bauen, und DeepMind hat einen der Entwickler des OpenAI-Videogenerators, Sora, mit der Arbeit an „Weltsimulatoren“ beauftragt.
Aber was soll’s Sind diese Dinge?
Weltmodelle lassen sich von den mentalen Modellen der Welt inspirieren, die Menschen auf natürliche Weise entwickeln. Unser Gehirn nimmt die abstrakten Darstellungen unserer Sinne auf und formt sie zu einem konkreteren Verständnis der Welt um uns herum. Dabei entstehen sogenannte „Modelle“, lange bevor die KI diesen Begriff übernahm. Die Vorhersagen, die unser Gehirn auf der Grundlage dieser Modelle trifft, beeinflussen, wie wir die Welt wahrnehmen.
A Papier von den KI-Forschern David Ha und Jürgen Schmidhuber am Beispiel eines Baseballschlägers. Schläger haben Millisekunden Zeit, um zu entscheiden, wie sie ihren Schläger schwingen – kürzer als die Zeit, die visuelle Signale benötigen, um das Gehirn zu erreichen. Der Grund dafür, dass sie einen Fastball mit einer Geschwindigkeit von 100 Meilen pro Stunde schlagen können, liegt darin, dass sie instinktiv vorhersagen können, wohin der Ball fliegen wird, sagen Ha und Schmidhuber.
„Bei Profispielern geschieht das alles unbewusst“, schreibt das Forscherduo. „Ihre Muskeln schwingen den Schläger reflexartig zur richtigen Zeit und am richtigen Ort, entsprechend den Vorhersagen ihrer internen Modelle. Sie können schnell auf ihre Zukunftsprognosen reagieren, ohne bewusst mögliche Zukunftsszenarien in einen Plan einfließen zu lassen.“
Es sind diese unbewussten Argumentationsaspekte von Weltmodellen, von denen einige glauben, dass sie Voraussetzungen für Intelligenz auf menschlicher Ebene sind.
Die Welt modellieren
Während es das Konzept schon seit Jahrzehnten gibt, erfreuen sich Weltmodelle in jüngster Zeit teilweise aufgrund ihrer vielversprechenden Anwendungen im Bereich generativer Videos großer Beliebtheit.
Die meisten, wenn nicht alle KI-generierten Videos bewegen sich in unheimliches Tal-Territorium. Beobachten Sie sie lange genug und so bizarr wird passieren, als würden sich Gliedmaßen verdrehen und ineinander verschmelzen.
Während ein generatives Modell, das auf jahrelangen Videos trainiert wurde, genau vorhersagen könnte, dass ein Basketball abprallt, hat es eigentlich keine Ahnung, warum – genauso wie Sprachmodelle die Konzepte hinter Wörtern und Phrasen nicht wirklich verstehen. Aber ein Weltmodell, das auch nur ein grundlegendes Verständnis davon hat, warum der Basketball so springt, wie er es tut, wird besser zeigen können, dass er das tut.
Um diese Art von Einblick zu ermöglichen, werden Weltmodelle anhand einer Reihe von Daten trainiert, darunter Fotos, Audio, Videos und Text, mit der Absicht, interne Darstellungen der Funktionsweise der Welt zu erstellen und die Fähigkeit zu entwickeln, über die Konsequenzen von Handlungen nachzudenken .
„Ein Zuschauer erwartet, dass sich die Welt, die er sieht, ähnlich wie seine Realität verhält“, sagte Mashrabov. „Wenn eine Feder mit dem Gewicht eines Ambosses herunterfällt oder eine Bowlingkugel mehrere Meter hoch in die Luft schießt, wirkt das erschütternd und reißt den Betrachter aus dem Moment. Mit einem starken Weltmodell wird das Modell dies verstehen, anstatt dass ein Schöpfer definiert, wie sich jedes Objekt bewegen soll – was mühsam, umständlich und zeitsparend ist.“
Doch eine bessere Videogenerierung ist für Weltmodels nur die Spitze des Eisbergs. Forscher, darunter Meta-Chef-KI-Wissenschaftler Yann LeCun, sagen, dass die Modelle eines Tages für anspruchsvolle Prognosen und Planungen sowohl im digitalen als auch im physischen Bereich verwendet werden könnten.
In einem Vortrag Anfang des Jahres beschrieb LeCun, wie ein Weltmodell durch Argumentation dabei helfen könnte, ein gewünschtes Ziel zu erreichen. Ein Modell mit einer Basisdarstellung einer „Welt“ (z. B. einem Video eines schmutzigen Raums) und einem gegebenen Ziel (einem Reinraum) könnte eine Abfolge von Aktionen entwickeln, um dieses Ziel zu erreichen (Staubsauger zum Fegen einsetzen, reinigen). Geschirr spülen, den Müll leeren) nicht, weil das ein Muster ist, das es beobachtet hat, sondern weil es auf einer tieferen Ebene weiß, wie es von schmutzig zu sauber kommt.
„Wir brauchen Maschinen, die die Welt verstehen; [machines] die sich an Dinge erinnern können, die über Intuition verfügen, über gesunden Menschenverstand verfügen – Dinge, die auf dem gleichen Niveau denken und planen können wie Menschen“, sagte LeCun. „Entgegen dem, was Sie vielleicht von einigen der enthusiastischsten Menschen gehört haben, sind aktuelle KI-Systeme dazu nicht in der Lage.“
Während LeCun schätzt, dass wir noch mindestens ein Jahrzehnt von den Weltmodellen entfernt sind, die er sich vorstellt, erweisen sich die heutigen Weltmodelle als vielversprechende Simulatoren für die Elementarphysik.
OpenAI stellt in einem Blog fest, dass Sora, das es als Weltmodell betrachtet, Aktionen simulieren kann, wie ein Maler Pinselstriche auf einer Leinwand hinterlässt. Modelle wie Sora – und Sora selbst – können dies ebenfalls effektiv simulieren Video Spiele. Beispielsweise kann Sora eine Minecraft-ähnliche Benutzeroberfläche und Spielwelt rendern.
Zukünftige Weltmodelle könnten möglicherweise in der Lage sein, bei Bedarf 3D-Welten für Spiele, virtuelle Fotografie und mehr zu generieren, sagte Justin Johnson, Mitbegründer von World Labs, auf einer Folge des a16z-Podcasts.
„Wir haben bereits die Möglichkeit, virtuelle, interaktive Welten zu schaffen, aber das kostet Hunderte und Aberhunderte Millionen Dollar und eine Menge Entwicklungszeit“, sagte Johnson. „[World models] Damit erhalten Sie nicht nur ein Bild oder einen Clip, sondern eine vollständig simulierte, lebendige und interaktive 3D-Welt.“
Hohe Hürden
Obwohl das Konzept verlockend ist, stehen ihm viele technische Herausforderungen im Wege.
Das Trainieren und Ausführen von Weltmodellen erfordert eine enorme Rechenleistung, selbst im Vergleich zu der Menge, die derzeit von generativen Modellen verwendet wird. Während einige der neuesten Sprachmodelle auf einem modernen Smartphone ausgeführt werden können, wären für Sora (wohl ein frühes Weltmodell) Tausende von GPUs zum Trainieren und Ausführen erforderlich, insbesondere wenn ihre Verwendung alltäglich wird.
Wie alle KI-Modelle halluzinieren auch Weltmodelle – und verinnerlichen Vorurteile in ihren Trainingsdaten. Ein Weltmodell, das weitgehend auf Videos von sonnigem Wetter in europäischen Städten trainiert wurde, könnte beispielsweise Schwierigkeiten haben, koreanische Städte bei Schneebedingungen zu verstehen oder darzustellen, oder es könnte einfach falsch sein.
Ein allgemeiner Mangel an Trainingsdaten droht diese Probleme zu verschärfen, sagt Mashrabov.
„Wir haben gesehen, dass Modelle bei Generationen von Menschen eines bestimmten Typs oder einer bestimmten Rasse wirklich begrenzt waren“, sagte er. „Trainingsdaten für ein Weltmodell müssen breit genug sein, um eine Vielzahl von Szenarien abzudecken, aber auch sehr spezifisch, damit die KI die Nuancen dieser Szenarien tiefgreifend verstehen kann.“
In einem aktuellen PostCristóbal Valenzuela, CEO des KI-Startups Runway, sagt, dass Daten- und technische Probleme die heutigen Modelle daran hindern, das Verhalten der Bewohner einer Welt (z. B. Menschen und Tiere) genau zu erfassen. „Modelle müssen konsistente Karten der Umgebung generieren“, sagte er, „und die Fähigkeit haben, in diesen Umgebungen zu navigieren und zu interagieren.“
Wenn jedoch alle großen Hürden überwunden werden, glaubt Mashrabov, dass Weltmodelle die KI „robuster“ mit der realen Welt verbinden könnten – was nicht nur zu Durchbrüchen bei der Erzeugung virtueller Welten, sondern auch bei der Robotik und KI-Entscheidungsfindung führen würde.
Sie könnten auch leistungsfähigere Roboter hervorbringen.
Heutzutage sind Roboter in ihren Möglichkeiten eingeschränkt, weil sie kein Bewusstsein für die Welt um sie herum (oder ihren eigenen Körper) haben. Weltmodelle könnten ihnen dieses Bewusstsein vermitteln, sagte Mashrabov – zumindest bis zu einem gewissen Punkt.
„Mit einem fortschrittlichen Weltmodell könnte eine KI ein persönliches Verständnis für jedes Szenario entwickeln, in dem sie sich befindet“, sagte er, „und beginnen, mögliche Lösungen zu erarbeiten.“