Haben die Forscher ein neues KI -Skalierungsgesetz entdeckt? Das ist was Einige Summen in den sozialen Medien schlägt vor – aber Experten sind skeptisch.
Die KI -Skalierungsgesetze, ein kleines informelles Konzept, beschreiben, wie sich die Leistung von KI -Modellen verbessert, wenn die Größe der Datensätze und Computerressourcen zur Ausbildung zunimmt. Bis vor ungefähr einem Jahr war es mit Abstand das dominierende Gesetz, „vor der Ausbildung“-das Training immer schwerer Modelle für immer schwere Datensätze, zumindest in dem Sinne, dass die meisten Grenz-AI-Labors es umarmten.
Die Vorausbildung ist nicht verschwunden, aber zwei zusätzliche Skalierungsgesetze, die die Skalierung nach der Ausbildung und die Skalierung von Testzeiten nach der Ausbildung haben, haben sich entstanden, um es zu ergänzen. Nach dem Training ist die Skalierung im Wesentlichen das Verhalten eines Modells ab, während die Testzeit-Skalierung dazu beiträgt, dass mehr Computer auf Inferenz-dh laufende Modelle-eine Form des „Argumentierens“ anwenden (siehe: Modelle wie R1).
Google und UC Berkeley -Forscher haben kürzlich in a vorgeschlagen Papier Was einige Kommentatoren online als viertes Gesetz beschrieben haben: „Inferenzzeitsuche“.
Inference-Time-Suche hat ein Modell, das viele mögliche Antworten auf eine parallele Abfrage generiert und dann das „Beste“ des Haufens auswählt. Die Forscher behaupten, dass die Leistung eines einjährigen Modells wie Googles Gemini 1.5 Pro auf ein Niveau steigern kann, das das O1-Präview-Modell von Openai über Wissenschaft und Mathematik-Benchmark übertrifft.
Unser Papier konzentriert sich auf diese Suchachse und ihre Skalierungstrends. Zum Beispiel schlägt Gemini 1.5 (ein altes früh 2024 Modell!) O1-Präview und nähert sich O1 nähert sich, indem sie nur zufällig 200 Antworten und selbstverifizierende Reaktionen und selbstverifizierende Probenahme befreit. Dies ist ohne Finetuning-, RL- oder Bodenwahrheitsprüfer. pic.twitter.com/hb5fo7ifnh
– Eric Zhao (@Ericzhao28) 17. März 2025
“[B]Y probiert nur zufällig 200 Antworten und selbstverifizierende Probe, Gemini 1.5-ein altes Modell für frühe 2024-schlägt O1-Präview und nähert sich O1 “, schrieb Eric Zhao, ein Google-Doktorand und einer der Co-Autoren der Zeitung, in einem Reihe von Beiträgen auf x. „Die Magie ist, dass die Selbstverifizierung im Maßstab auf natürliche Weise einfacher wird!
Mehrere Experten sagen, dass die Ergebnisse jedoch nicht überraschend sind und dass die Suche nach Inferenzzeit in vielen Szenarien möglicherweise nicht nützlich ist.
Matthew Guzdial, ein KI -Forscher und Assistenzprofessor an der Universität von Alberta, sagte gegenüber Tech, dass der Ansatz am besten funktioniert, wenn es eine gute „Bewertungsfunktion“ gibt – mit anderen Worten, wenn die beste Antwort auf eine Frage leicht festgestellt werden kann. Aber die meisten Abfragen sind nicht so geschnitten und trocken.
“[I]F Wir können keinen Code schreiben, um zu definieren, was wir wollen. Wir können nicht verwenden [inference-time] Suche “, sagte er. […] Es ist im Allgemeinen kein großer Ansatz, um die meisten Probleme tatsächlich zu lösen. “
Mike Cook, ein auf AI spezialisierter Research Fellow am King’s College London, stimmte der Bewertung von Guzdial zu und fügte hinzu, dass es die Lücke zwischen „Argumentation“ im KI -Sinne des Wortes und unserer eigenen Denkprozesse hervorhebt.
“[Inference-time search] Erhöht nicht den Argumentationsprozess des Modells, sagte Cook.[I]T ist nur ein Weg, in dem wir die Grenzen einer Technologie machen, die dazu neigt, sehr zuversichtlich unterstützte Fehler zu machen […] Wenn Ihr Modell in 5% der Fälle einen Fehler macht, sollte das Überprüfen von 200 Versuchen mit demselben Problem die Erkennung dieser Fehler erleichtern. “
Diese Inferenzzeitsuche kann einschränkende Einschränkungen haben, ist mit Sicherheit unerwünschte Nachrichten für eine KI-Branche, die das Modell „Argumentation“ rechnen effizient messen möchte. Wie die Mitautoren der Papiernotiz können heute Argumentationsmodelle aufstellen Tausende von Dollar Computer Bei einem einzigen Mathematikproblem.
Es scheint, dass die Suche nach neuen Skalierungstechniken fortgesetzt wird.