Der KI-Chef von Meta sagt, Weltmodelle seien der Schlüssel zur „KI auf menschlicher Ebene“ – aber bis dahin könnten noch 10 Jahre vergehen

Erinnern, denken, planen und argumentieren die heutigen KI-Modelle wirklich so, wie es ein menschliches Gehirn tun würde? Einige KI-Labore würden Sie glauben machen, aber laut Metas Chef-KI-Wissenschaftler Yann LeCun lautet die Antwort nein. Er glaubt jedoch, dass wir dieses Ziel in etwa einem Jahrzehnt erreichen könnten, wenn wir eine neue Methode namens „Weltmodell“ verfolgen.

Anfang dieses Jahres veröffentlichte OpenAI eine neue Funktion namens „Speicher“, die es ChatGPT ermöglicht, sich an Ihre Gespräche zu „merken“. Die neueste Modellgeneration des Startups, o1, zeigt beim Generieren einer Ausgabe das Wort „Denken“ an, und OpenAI sagt, dass dieselben Modelle zu „komplexen Überlegungen“ fähig sind.

Das hört sich alles so an, als wären wir AGI ziemlich nahe. Allerdings während eines jüngster Vortrag im Hudson ForumLeCun unterbietet KI-Optimisten wie xAI-Gründer Elon Musk und Google DeepMind-Mitbegründer Shane Legg, die darauf hinweisen, dass KI auf menschlicher Ebene unmittelbar bevorsteht.

„Wir brauchen Maschinen, die die Welt verstehen; [machines] die sich an Dinge erinnern können, die über Intuition verfügen, über gesunden Menschenverstand verfügen, Dinge, die auf der gleichen Ebene denken und planen können wie Menschen“, sagte LeCun während des Vortrags. „Entgegen dem, was Sie vielleicht von einigen der enthusiastischsten Menschen gehört haben, sind aktuelle KI-Systeme dazu nicht in der Lage.“

LeCun sagt, dass die heutigen großen Sprachmodelle, wie diejenigen, die ChatGPT und Meta AI antreiben, weit von „KI auf menschlicher Ebene“ entfernt sind. Die Menschheit könnte „Jahre bis Jahrzehnte“ davon entfernt sein, so etwas zu erreichen, sagte er später. (Das hindert seinen Chef Mark Zuckerberg jedoch nicht daran, ihn zu fragen, wann AGI stattfinden wird.)

Der Grund dafür ist einfach: Diese LLMs funktionieren, indem sie das nächste Token (normalerweise ein paar Buchstaben oder ein kurzes Wort) vorhersagen, und die heutigen Bild-/Videomodelle sagen das nächste Pixel voraus. Mit anderen Worten: Sprachmodelle sind eindimensionale Prädiktoren und KI-Bild-/Videomodelle sind zweidimensionale Prädiktoren. Diese Modelle sind mittlerweile ziemlich gut darin, in ihren jeweiligen Dimensionen Vorhersagen zu treffen, aber sie verstehen die dreidimensionale Welt nicht wirklich.

Aus diesem Grund können moderne KI-Systeme einfache Aufgaben nicht erledigen, die die meisten Menschen bewältigen können. LeCun stellt fest, wie Menschen mit 10 Jahren lernen, einen Esstisch abzuräumen und mit 17 ein Auto zu fahren – und beides innerhalb weniger Stunden lernen. Aber selbst die fortschrittlichsten KI-Systeme der Welt, die auf Tausenden oder Millionen Stunden an Daten basieren, können in der physischen Welt nicht zuverlässig funktionieren.

Um komplexere Aufgaben zu bewältigen, schlägt LeCun vor, dass wir dreidimensionale Modelle erstellen müssen, die die Welt um uns herum wahrnehmen können und sich auf eine neue Art von KI-Architektur konzentrieren: Weltmodelle.

„Ein Weltmodell ist Ihr mentales Modell dafür, wie sich die Welt verhält“, erklärte er. „Sie können sich eine Abfolge von Aktionen vorstellen, die Sie ergreifen könnten, und Ihr Weltmodell wird es Ihnen ermöglichen, vorherzusagen, welche Auswirkungen die Abfolge von Aktionen auf die Welt haben wird.“

Betrachten Sie das „Weltmodell“ in Ihrem eigenen Kopf. Stellen Sie sich zum Beispiel vor, Sie sehen ein unordentliches Schlafzimmer und möchten es sauber machen. Sie können sich vorstellen, dass es helfen würde, alle Kleidungsstücke einzusammeln und wegzuräumen. Sie müssen nicht mehrere Methoden ausprobieren oder erst lernen, wie man einen Raum reinigt. Ihr Gehirn beobachtet den dreidimensionalen Raum und erstellt einen Aktionsplan, um Ihr Ziel beim ersten Versuch zu erreichen. Dieser Aktionsplan ist das Geheimnis, das KI-Weltmodelle versprechen.

Ein Teil des Vorteils besteht darin, dass Weltmodelle deutlich mehr Daten aufnehmen können als LLMs. Das macht sie auch rechenintensiv, weshalb Cloud-Anbieter um Partnerschaften mit KI-Unternehmen wetteifern.

Weltmodelle sind die große Idee, die derzeit mehrere KI-Labore verfolgen, und der Begriff wird schnell zum nächsten Schlagwort, um Risikokapital anzuziehen. Eine Gruppe hoch angesehener KI-Forscher, darunter Fei-Fei Li und Justin Johnson, hat gerade 230 Millionen US-Dollar für ihr Startup World Labs gesammelt. Auch die „Patin der KI“ und ihr Team sind davon überzeugt, dass Weltmodelle deutlich intelligentere KI-Systeme ermöglichen werden. OpenAI beschreibt seinen unveröffentlichten Sora-Videogenerator ebenfalls als Weltmodell, geht jedoch nicht auf Einzelheiten ein.

LeCun skizzierte eine Idee zur Verwendung von Weltmodellen zur Schaffung von KI auf menschlicher Ebene in einem Papier 2022 über „objektive KI“, obwohl er anmerkt, dass das Konzept über 60 Jahre alt ist. Kurz gesagt, eine Basisdarstellung der Welt (z. B. ein Video eines schmutzigen Raums) und eine Erinnerung werden in ein Weltmodell eingespeist. Anschließend sagt das Weltmodell anhand dieser Informationen voraus, wie die Welt aussehen wird. Dann geben Sie dem Weltmodell Ziele, einschließlich eines veränderten Zustands der Welt, den Sie erreichen möchten (z. B. einen Reinraum), sowie Leitplanken, um sicherzustellen, dass das Modell den Menschen keinen Schaden zufügt, um ein Ziel zu erreichen (nicht töten). Ich bin bitte gerade dabei, mein Zimmer aufzuräumen). Dann findet das Weltmodell eine Aktionssequenz, um diese Ziele zu erreichen.

Laut LeCun arbeitet Metas langfristiges KI-Forschungslabor FAIR oder Fundamental AI Research aktiv an der Entwicklung objektiver KI- und Weltmodelle. Früher arbeitete FAIR an der KI für die kommenden Produkte von Meta, aber LeCun sagt, dass sich das Labor in den letzten Jahren darauf verlagert hat, sich ausschließlich auf die langfristige KI-Forschung zu konzentrieren. LeCun sagt, dass FAIR heutzutage nicht einmal LLMs verwendet.

Weltmodelle sind eine faszinierende Idee, aber LeCun sagt, wir haben bei der Umsetzung dieser Systeme in die Realität noch keine großen Fortschritte gemacht. Aus heutiger Sicht gibt es viele sehr schwierige Probleme zu lösen, und er sagt, dass sie sicherlich komplizierter sind, als wir denken.

„Es wird Jahre dauern, bis wir hier alles zum Laufen bringen können, wenn nicht sogar ein Jahrzehnt“, sagte Lecun. „Mark Zuckerberg fragt mich immer wieder, wie lange es dauern wird.“

tch-1-tech