Debatten über AI -Benchmarks – und wie sie von KI -Labors gemeldet werden – werden in die öffentliche Sicht auf die öffentliche Sicht.
Diese Woche ein OpenAI -Mitarbeiter beschuldigt Elon Musks KI-Firma Xai, von der Veröffentlichung irreführender Benchmarkergebnisse für sein neuestes KI-Modell, Grok 3. Einer der Mitbeguscher von Xai, Igor Babuschkin, darauf bestanden dass das Unternehmen im Recht war.
Die Wahrheit liegt irgendwo dazwischen.
In a Poste auf Xais BlogDas Unternehmen veröffentlichte eine Grafik mit der Leistung von GROK 3 zu Aime 2025, einer Sammlung von herausfordernden mathematischen Fragen aus einer kürzlich durchgeführten Einladungsmathematikprüfung. Einige Experten haben Befragte Aimes Gültigkeit als KI -Benchmark. Dennoch werden Aime 2025 und ältere Versionen des Tests häufig verwendet, um die mathematische Fähigkeit eines Modells zu untersuchen.
XAIs Diagramm zeigte zwei Varianten von GROK 3, GROK 3 Argumentation Beta und GROK 3 Mini-Argumentation, die OpenAs bestmögliche verfügbare Modell, O3-Mini-High, auf Aime 2025. Auf „Cons@64“ habe der Aime 2025-Punktzahl von O3-Mini-High nicht enthalten.
Was ist Cons@64, könnten Sie fragen? Nun, es ist kurz für „Consensus@64“, und es gibt im Grunde ein Modell 64 versucht, jedes Problem in einem Benchmark zu beantworten und die Antworten zu beantworten, die am häufigsten als endgültige Antworten generiert werden. Wie Sie sich vorstellen können, tendiert Cons@64 dazu, die Benchmark -Ergebnisse der Modelle zu steigern, und das Auslassen von einem Diagramm kann es so aussehen, als ob ein Modell ein anderes übertrifft, wenn in der Realität nicht der Fall ist.
GROK 3 Argumenting Beta und GROK 3 Mini-Argumentationspunkte für Aime 2025 bei „@1“-was die erste Punktzahl, die die Modelle an der Benchmark erhielten-fallen unter die Punktzahl von O3-Mini-High. GROK 3 Argumenting Beta ist auch immer so leicht hinter OpenAs O1-Modell auf „Medium“ Computing eingestellt. Doch xai ist Werbung Grok 3 als „die klügste KI der Welt“.
PABUSHKIN auf x gestritten Das OpenAI hat in der Vergangenheit ähnlich irreführende Benchmark -Diagramme veröffentlicht – wenn auch Diagramme, in denen die Leistung ihrer eigenen Modelle verglichen wird. Eine neutralere Party in der Debatte stellte ein „genaueres“ Diagramm zusammen, das fast die Leistung jedes Modells bei Cons@64 zeigt:
Lustig, wie manche Menschen meinen Verschwörung als Angriff auf OpenAI und andere als Angriff auf Grok sehen, während es in Wirklichkeit Deepseek -Propaganda ist
(Ich glaube tatsächlich, dass Grok dort gut aussieht und Openais TTC-Schikanen hinter O3-mini-*hoch*-pass@”” 1 ″ ”” ”verdient mehr Prüfung.) https://t.co/djqljpcjh8 pic.twitter.com/3WH8FOUF– Teortaxes ▶ euen (Deepseek 推特🐋铁粉 2023 – ∞) (@teortaxestex) 20. Februar 2025
Aber als AI -Forscher Nathan Lambert in einem Beitrag darauf hingewiesenDie vielleicht wichtigste Metrik bleibt ein Rätsel: die rechnerischen (und monetären) Kosten, die es für jedes Modell benötigte, um seine beste Punktzahl zu erzielen. Das zeigt nur, wie wenig KI -Benchmarks über die Einschränkungen der Modelle und über ihre Stärken kommunizieren.