Diese Forscher verwendeten NPR -Sonntags -Puzzle -Fragen, um die Modelle „Argumenting“ von AI zu bewerten

Diese Forscher verwendeten NPR Sonntags Puzzle Fragen um die Modelle

Jeden Sonntag wird der NPR-Moderator Will Shortz, der Kreuzworträtsel-Guru der New York Times, Tausende von Zuhörern in einem langjährigen Segment namens Sunday Puzzle an Quiz. Während geschrieben, um ohne lösbar zu sein zu Viel vor Kenntnis, sind die Braicher in der Regel auch für qualifizierte Kandidaten herausfordernd.

Aus diesem Grund sind einige Experten der Meinung, dass sie eine vielversprechende Möglichkeit sind, die Grenzen der Problemlösungsfähigkeiten der AI zu testen.

In a Neue Studieein Forscherteam, das am Wellesley College, am Oberlin College, der University of Texas in Austin, der Northeastern University, und dem Startup Cursor stammt, erstellte eine KI -Benchmark mit Rätsel aus Sonntags -Puzzle -Episoden. Das Team sagt, dass ihr Test überraschende Erkenntnisse aufdeckt, wie diese sogenannten Argumentationsmodelle-unter anderem O1 O1-manchmal „aufgeben“ und Antworten geben, die sie kennen, sind nicht korrekt.

„Wir wollten einen Benchmark mit Problemen entwickeln, den Menschen nur mit allgemeinem Wissen verstehen können“, sagte Arjun Guha, ein Student der Informatik in Northeastern und einer der Co-Autoren der Studie, gegenüber Tech.

Die KI -Industrie befindet sich derzeit in einem Benchmarking -Dilemma. Die meisten Tests, die üblicherweise zur Bewertung der AI-Modelle Sonde für Fähigkeiten verwendet werden, z. Inzwischen viele Benchmarks – sogar Benchmarks, die relativ kurz veröffentlicht wurden – nähern sich schnell dem Sättigungspunkt.

Die Vorteile eines öffentlichen Radio -Quizspiels wie dem Sonntagspuzzle besteht darin, dass es nicht auf esoterisches Wissen getestet wird und die Herausforderungen so formuliert werden, dass Modelle nicht auf „Rote Memory“ zurückgreifen, um sie zu lösen, erklärte Guha.

„Ich denke, was diese Probleme schwierig macht, ist, dass es wirklich schwierig ist, bei einem Problem aussagekräftige Fortschritte zu erzielen, bis Sie es lösen – dann klickt alles auf einmal zusammen“, sagte Guha. „Das erfordert eine Kombination aus Einsicht und einem Eliminierungsprozess.“

Kein Benchmark ist natürlich perfekt. Das Sonntagspuzzle ist nur in den USA ausgerichtet und nur Englisch. Und weil die Tests öffentlich verfügbar sind, ist es möglich, dass Modelle, die auf sie ausgebildet sind und in gewissem Sinne „betrügen“ können, obwohl Guha sagt, er habe keine Beweise dafür gesehen.

„Jede Woche werden neue Fragen veröffentlicht, und wir können erwarten, dass die neuesten Fragen wirklich unsichtbar sind“, fügte er hinzu. „Wir beabsichtigen, den Benchmark frisch zu halten und zu verfolgen, wie sich die Modellleistung im Laufe der Zeit ändert.“

Auf der Benchmark der Forscher, die aus rund 600 Sonntagsrätsel -Rätsel besteht, übertreffen die Argumentation Modelle wie O1 und Deepseeks R1 den Rest weit. Das Argumentieren von Modellen, die sich gründlich überprüft, bevor sie Ergebnisse liefern, was ihnen hilft, einige der Fallstricke zu vermeiden, die normalerweise KI-Modelle aufstürzen. Der Kompromiss ist, dass die Argumentationsmodelle etwas länger dauern, um Lösungen zu erreichen-in der Regel Sekunden bis Minuten länger.

Mindestens ein Modell, Deepseeks R1, gibt Lösungen, von denen es weiß, dass sie für einige der Sonntags -Rätselfragen falsch sind. R1 wird wörtlich „Ich gebe auf“ an, gefolgt von einer falschen Antwort, die scheinbar zufällig ausgewählt wurde – Verhalten, mit dem dieser Mensch sich sicherlich beziehen kann.

Die Modelle treffen andere bizarre Entscheidungen, wie eine falsche Antwort zu geben, nur um sie sofort zurückzuziehen, zu versuchen, eine bessere herauszufinden und erneut zu scheitern. Sie bleiben auch für immer „Denken“ und geben unsinnige Erklärungen für Antworten, oder sie gelangen sofort zu einer korrekten Antwort, prüfen jedoch jedoch ohne offensichtlichen Grund alternative Antworten.

„Bei harten Problemen sagt R1 buchstäblich, dass es“ frustriert „wird“, sagte Guha. „Es war lustig zu sehen, wie ein Modell emuliert, was ein Mensch sagen könnte. Es bleibt abzuwarten, wie „Frustration“ im Denken die Qualität der Modellergebnisse beeinflussen kann. “

R1 wird in einer Frage im Sunday Puzzle Challenge „frustriert“.Bildnachweis:Guha et al.

Das aktuelle Best-Performing-Modell auf dem Benchmark ist O1 mit einer Punktzahl von 59%, gefolgt von dem kürzlich veröffentlichten O3-Mini-Set auf hohe „Argumentationsaufwand“ (47%). (R1 erzielte 35%.) Als nächster Schritt planen die Forscher, ihre Tests auf zusätzliche Argumentationsmodelle zu erweitern, von denen sie hoffen, dass sie Bereiche identifizieren, in denen diese Modelle möglicherweise verbessert werden.

NPR -Benchmark
Die Punktzahlen der Modelle, die das Team auf ihrem Benchmark getestet hat.Bildnachweis:Guha et al.

„Sie brauchen keine Doktorarbeit, um gut zu argumentieren. Daher sollte es möglich sein, Benchmarks zu entwerfen, die kein Wissen über Doktoranden erfordern“, sagte Guha. „Ein Benchmark mit breiterem Zugang ermöglicht es einer größeren Reihe von Forschern, die Ergebnisse zu verstehen und zu analysieren, was wiederum zu Zukunft zu besseren Lösungen führen kann. Da hochmoderne Modelle zunehmend in Einstellungen eingesetzt werden, die alle betreffen, glauben wir, dass jeder intuitiv intuitiv sein sollte, was diese Modelle sind und nicht-in der Lage sind. “

tch-1-tech