DeepMind behauptet

Ein von Google Deepmind, dem führendes KI -Forschungslabor von Google, entwickeltes KI -System scheint den durchschnittlichen Goldmedaillengewinner bei der Lösung von Geometrieproblemen in einem internationalen Mathematikwettbewerb übertroffen zu haben.

Das System mit Alphageometry2 ist eine verbesserte Version eines Systems, Alphageometrie, das DeepMind letzten Januar veröffentlicht hat. In a Neu veröffentlichte StudieDie DeepMind -Forscher hinter Alphageometry2 behaupten, dass ihre KI in den letzten 25 Jahren 84% aller Geometrieprobleme in der internationalen mathematischen Olympiade (IMO), einem Mathematikwettbewerb für Schüler der Highschool, lösen kann.

Warum kümmert sich DeepMind um einen Mathematikwettbewerb auf High-School-Ebene? Nun, das Labor hält der Schlüssel zu einer fähigeren KI möglicherweise darin, neue Wege zu entdecken, um herausfordernde Geometrieprobleme speziell zu lösen Euklidische Geometrieprobleme.

Nachweis mathematischer Theoreme oder logisch erklären, warum ein Theorem (z. Diese Fähigkeiten zur Problemlösung könnten-wenn DeepMinds Recht-als nützliche Bestandteil der zukünftigen Allzweck-KI-Modelle herausstellen.

In der Tat hat DeepMind im vergangenen Sommer ein System demonstrierten, das Alphageometry2 mit Alphaproof kombinierte, ein KI -Modell für formales mathematisches Denken, um vier von sechs Problemen aus der IMO 2024 zu lösen. Zusätzlich zu Geometrieproblemen können Ansätze wie diese auf andere Bereiche der Mathematik und Naturwissenschaften ausgedehnt werden – zum Beispiel, um komplexe technische Berechnungen zu unterstützen.

Alphageometry2 verfügt über mehrere Kernelemente, darunter ein Sprachmodell aus der Gemini -Familie von Google von AI -Modellen und einer „symbolischen Engine“. Das Gemini -Modell hilft dem symbolischen Engine, der mathematische Regeln verwendet, um Lösungen für Probleme zu schließen, zu möglichen Beweisen für einen bestimmten Geometrie -Theorem.

Ein typisches Geometriediagramm im IMO.
Ein typisches Geometrieproblemdiagramm in einer IMO -Prüfung.Bildnachweis:Google (öffnet sich in einem neuen Fenster)

Olympiade -Geometrieprobleme basieren auf Diagrammen, bei denen „Konstrukte“ hinzugefügt werden müssen, bevor sie gelöst werden können, z. B. Punkte, Linien oder Kreise. Das Gemini -Modell von Alphageometry2 prognostiziert, welche Konstrukte möglicherweise zu einem Diagramm hinzufügen, das sich auf die Engine bezieht, um Abzüge vorzunehmen.

Grundsätzlich schlägt das Gemini -Modell von Alphageometry2 Schritte und Konstruktionen in einer formalen mathematischen Sprache der Engine vor, die diese Schritte auf logische Konsistenz überprüft. Ein Suchalgorithmus ermöglicht es Alphageometry2, mehrere Suchanfragen parallel nach Lösungen durchzuführen und möglicherweise nützliche Erkenntnisse in einer allgemeinen Wissensbasis zu speichern.

Alphageometry2 betrachtet ein Problem, das „gelöst“ werden soll, wenn es zu einem Beweis kommt, der die Vorschläge des Gemini -Modells mit den bekannten Prinzipien der symbolischen Motor kombiniert.

Aufgrund der Komplexität der Übersetzung von Beweisen in ein Format kann KI verstehen, es gibt einen Mangel an nutzbaren Geometrie -Trainingsdaten. So erstellte DeepMind eigene synthetische Daten, um das Sprachmodell von Alphageometry2 zu trainieren und über 300 Millionen Theoreme und Beweise unterschiedlicher Komplexität zu erzeugen.

Das DeepMind -Team wählte in den letzten 25 Jahren (von 2000 bis 2024) 45 Geometrieprobleme aus IMO -Wettbewerben aus, einschließlich linearer Gleichungen und Gleichungen, für die sich bewegende geometrische Objekte um eine Ebene bewegt werden müssen. Sie „übersetzten“ diese dann in einen größeren Satz von 50 Problemen. (Aus technischen Gründen mussten einige Probleme in zwei aufgeteilt werden.)

Laut der Arbeit löste Alphageometry2 42 der 50 Probleme, was den durchschnittlichen Goldmedaillengewinner von 40,9 beseitigte.

Zugegeben, es gibt Einschränkungen. Eine technische Eigenart verhindert, dass Alphageometrie2 Probleme mit einer variablen Anzahl von Punkten, nichtlinearen Gleichungen und Ungleichheiten lösen. Und Alphageometrie2 ist nicht technisch Das erste KI-System, das in der Geometrie die Leistung auf Goldmedaillenebene erreicht hat, obwohl es das erste ist, das es mit einem Problemsatz dieser Größe erreicht.

Alphageometry2 hat sich auch bei einem anderen Satz härterer IMO -Probleme schlechter. Für eine zusätzliche Herausforderung wählte das DeepMind -Team Probleme aus – insgesamt 29 -, die von Mathematikexperten für IMO -Prüfungen nominiert worden waren, die jedoch noch nicht in einem Wettbewerb erschienen waren. Alphageometrie2 konnte nur 20 davon lösen.

Dennoch dürften die Studienergebnisse die Debatte darüber aufmerksam machen, ob KI-Systeme auf Symbolmanipulation basieren-dh zum Manipulieren von Symbolen, die Wissen anhand von Regeln repräsentieren-oder scheinbar hirnähnlichere neuronale Netzwerke.

Alphageometry2 verfolgt einen hybriden Ansatz: Das Gemini-Modell verfügt über eine neuronale Netzwerkarchitektur, während die symbolische Engine Regeln basiert.

Befürworter neuronaler Netzwerktechniken argumentieren, dass intelligentes Verhalten von der Spracherkennung bis zur Bildgenerierung aus nichts weiter als massiven Mengen an Daten und Computer hervorgehen kann. Im Gegensatz zu symbolischen Systemen, die Aufgaben lösen, indem sie Sätze von Symbol-Manipulationsregeln definieren, die bestimmten Jobs gewidmet sind, z. B. die Bearbeitung einer Linie in Textverarbeitungssoftware, versuchen neuronale Netze, Aufgaben durch statistische Approximation und Lernen aus Beispielen zu lösen.

Neuronale Netzwerke sind der Eckpfeiler leistungsstarker KI -Systeme wie Openais O1 -Argumentationsmodell. Aber, behaupten Anhänger der symbolischen KI, sie sind nicht die All-BE-All; Die symbolische KI könnte besser positioniert sein, um das Wissen der Welt effizient zu kodieren, ihren Weg durch komplexe Szenarien zu begründen und zu erklären, wie sie zu einer Antwort gekommen sind, argumentieren diese Anhänger.

„Es ist bemerkenswert, den Kontrast zwischen anhaltenden, spektakulären Fortschritten bei solchen Benchmarks und inzwischen Sprachmodellen, einschließlich neuerer mit“ Argumentation „, zu sehen, die mit einigen einfachen Commonsense -Problemen weiterhin zu kämpfen haben“, Vince Conitzer, eine Carnegie Mellon Der auf KI spezialisierte Informatikprofessor der Universität sagte gegenüber Tech. „Ich glaube nicht, dass es alles Rauch und Spiegel ist, aber es zeigt, dass wir immer noch nicht wirklich wissen, welches Verhalten das nächste System erwartet. Diese Systeme sind wahrscheinlich sehr wirkungsvoll, daher müssen wir sie dringend verstehen und die Risiken, die sie viel besser ausgehen. “

Alphageometrie2 zeigt vielleicht, dass die beiden Ansätze – Symbolmanipulation und neuronale Netzwerke – – kombiniert sind ein vielversprechender Weg nach vorne auf der Suche nach verallgemeinerbarer KI. In der Tat konnte O1, das auch eine neuronale Netzwerkarchitektur hat, nach dem DeepMind -Papier keine der IMO -Probleme lösen, die Alphageometry2 beantworten konnte.

Dies ist möglicherweise nicht für immer der Fall. In dem Papier sagte das DeepMind -Team, dass es vorläufige Beweise dafür gefunden habe, dass das Sprachmodell von Alphageometry2 ohne Hilfe des symbolischen Motors teilweise Lösungen für Probleme erzeugen konnte.

“[The] Die Ergebnisse unterstützen Ideen, die große Sprachmodelle autark sein können, ohne von externen Tools abhängig zu sein [like symbolic engines]“Das Deepmind -Team schrieb in der Zeitung:“ Aber bis [model] Die Geschwindigkeit wird verbessert und die Halluzinationen sind vollständig behoben, die Tools bleiben für mathematische Anwendungen unerlässlich. “

tch-1-tech