Dachte Pokémon war eine harte Benchmark für KI? Eine Gruppe von Forschern argumentiert, dass Super Mario Bros. noch schwieriger ist.
Hao Ai Lab, eine Forschungsorganisation an der University of California San Diego, warf KI am Live -Super Mario Bros. -Spiele. Das Claude 3.7 von Anthropic gab das Beste, gefolgt von Claude 3.5. Googles Gemini 1.5 Pro und Openai’s GPT-4O kämpften.
Es war nicht ganz die gleiche Version von Super Mario Bros. wie die ursprüngliche Veröffentlichung von 1985, um klar zu sein. Das Spiel lief in einem Emulator und integriert in ein Framework. Gamingagentum die AIS -Kontrolle über Mario zu geben.
Gamingagent, das Hao im eigenen Haus entwickelte, fütterte die AI-Grundanweisungen wie „Wenn ein Hindernis oder Feind in der Nähe ist, bewegen/springen Sie nach links, um auszuweichen“ und Screenshots im Spiel. Die KI generierte dann Eingänge in Form von Python -Code, um Mario zu steuern.
Dennoch sagt Hao, dass das Spiel jedes Modell dazu gezwungen hat, komplexe Manöver zu planen und Gameplay -Strategien zu entwickeln. Interessanterweise stellte das Labor fest, dass sogenannte Argumentationsmodelle wie OpenAIs O1, die durch Probleme Schritt für Schritt „denken“, um zu Lösungen zu gelangen, schlechter abschnitten als „nicht umsagende“ Modelle, obwohl sie bei den meisten Benchmarks im Allgemeinen stärker waren.
Einer der Hauptgründe, warum die Begründung von Modellen Schwierigkeiten hat, solche Echtzeitspiele wie diese zu spielen, ist, dass sie eine Weile-normalerweise-in der Regel-laut den Forschern eine Weile dauern. In Super Mario Bros. ist das Timing alles. Eine Sekunde kann den Unterschied zwischen einem sicher geklärten Sprung und einem Rückgang bis zum Tod bedeuten.
Spiele werden seit Jahrzehnten zur Benchmark -AI verwendet. Aber Einige Experten haben die Weisheit in Frage gestellt Verbindungen zwischen den Spielfähigkeiten von AI und dem technologischen Fortschritt. Im Gegensatz zur realen Welt sind Spiele tendenziell abstrakt und relativ einfach und bieten eine theoretisch unendliche Menge an Daten, um die KI zu trainieren.
Die jüngsten auffälligen Gaming -Benchmarks weisen darauf hin, wie Andrej Karpathy, ein Forschungswissenschaftler und Gründungsmitglied bei OpenAI, als „Evaluierungskrise“ bezeichnet wird.
„Ich weiß nicht wirklich was [AI] Metriken, die man sich jetzt ansehen sollte “, schrieb er in einem Post auf x. „Meine Reaktion ist, dass ich nicht wirklich weiß, wie gut diese Modelle gerade sind.“
Zumindest können wir KI Mario spielen sehen.