Die Liste der informellen, seltsamen KI -Benchmarks wächst weiter.
In den letzten Tagen haben einige in der KI -Community auf X werden besessen Mit einem Test, wie unterschiedliche KI-Modelle, insbesondere sogenannte Argumentationsmodelle, Eingaben wie folgt verarbeiten: „Schreiben Sie ein Python-Skript für einen springenden gelben Ball in einer Form. Lassen Sie die Form langsam drehen und stellen Sie sicher, dass der Ball in der Form bleibt. “
Einige Modelle bewältigen diesen Benchmark „Ball in rotierender Form“ besser als andere. Nach Für einen Benutzer auf X fegte chinesische AI Lab Deepseeks frei verfügbares R1 den Boden mit dem O1 Pro -Modus von OpenAI, der als Teil des Chatgpt -Pro -Plans von OpenAI 200 US -Dollar pro Monat kostet.
👀 Deepseek R1 (rechts) zerkleinert O1-pro (links) 👀
Eingabeaufforderung: „Schreiben Sie ein Python -Skript für einen springenden gelben Ball innerhalb eines Quadrats und vergewissern Sie sich, dass die Kollisionserkennung ordnungsgemäß behandelt wird. das Quadrat langsam drehen lassen. Implementieren Sie es in Python. Stellen Sie sicher, dass Ball im Platz bleibt. “ pic.twitter.com/3sad9efpez
– Ivan Fioravanti ᯅ (@ivanfioravanti) 22. Januar 2025
Pro Ein weiteres X -PosterDas Claude 3.5 -Sonett von Anthropic und Googles Gemini 1.5 Pro -Models haben die Physik falsch eingeschätzt, was dazu führte, dass der Ball der Form entging. Andere Benutzer berichtete, dass Googles Gemini 2.0 Flash-Thinking Experimental und sogar OpenAs älterer GPT-4O die Bewertung in einem Go-.
Getestet 9 AI -Modelle auf einer Physik -Simulationsaufgabe: Drehen von Dreieck + Bouncing Ball. Ergebnisse:
🥇 Deepseek-R1
🥈 Sonar riesig
🥉 GPT-4OAm schlimmsten? OpenAI O1: Die Aufgabe völlig missverstanden 😂
Video unten ↓ Erste Zeile = Argumentationsmodelle, Rest = Basismodelle. pic.twitter.com/eoyrhvnazr
– aadhithya d (@aadhithya_d2003) 22. Januar 2025
Aber was beweist es, dass eine KI eine rotierende, kugelhaltige Form codieren kann oder kann?
Nun, ein hüpfender Ball zu simulieren ist a Klassiker Programmierung Herausforderung. Genaue Simulationen enthalten Kollisionserkennungsalgorithmen, die versuchen zu identifizieren, wann zwei Objekte (z. B. eine Kugel und die Seite einer Form) kollidieren. Schlecht geschriebene Algorithmen können die Leistung der Simulation beeinflussen oder zu offensichtlichen Physikfehlern führen.
X Benutzer N8ProgrammsEin Residenzforscher bei AI Startup Nous Research sagte, er habe ungefähr zwei Stunden gebraucht, um einen springenden Ball in einem rotierenden Heptagon von Grund auf zu programmieren. „Man muss mehrere Koordinatensysteme verfolgen, wie die Kollisionen in jedem System durchgeführt werden, und den Code von Anfang an zu robustem Entwerfen“, erklärte N8Programs in einem Post.
Aber während die Bälle und rotierende Formen ein vernünftiger Test der Programmierkenntnisse sind, sind sie kein sehr empirischer KI -Benchmark. Selbst geringfügige Abweichungen in der Eingabeaufforderung können – und tun – zu unterschiedlichen Ergebnissen. Deshalb haben einige Benutzer in X Report mehr Glück mit O1während andere sagen, dass r1 fällt zu kurz.
Wenn überhaupt, weisen Virustests wie diese auf das unlösbare Problem, nützliche Messsysteme für KI -Modelle zu erstellen. Es ist oft schwierig zu sagen, was ein Modell von einem anderen unterscheidet, außerhalb der esoterischen Benchmarks, die für die meisten Menschen nicht relevant sind.
Viele Anstrengungen sind im Gange, um bessere Tests wie die ARC-Agi-Benchmark und die letzte Prüfung der Menschheit zu erstellen. Wir werden sehen, wie sich diese Tarif – und in der Zwischenzeit Gifs von Bällen in rotierenden Formen beobachten.