KI-Benchmarking-Organisation wird dafür kritisiert, dass sie mit der Offenlegung der Finanzierung durch OpenAI wartet

Eine Organisation, die mathematische Benchmarks für KI entwickelt, gab bis vor relativ kurzer Zeit nicht bekannt, dass sie Mittel von OpenAI erhalten hatte, was von einigen Mitgliedern der KI-Community Vorwürfe der Unangemessenheit hervorrief.

Epoch AI, eine gemeinnützige Organisation, die hauptsächlich von Open Philanthropy, einer Forschungs- und Förderstiftung, finanziert wird, gab am 20. Dezember bekannt, dass OpenAI die Gründung von FrontierMath unterstützt hat. FrontierMath, ein Test mit Problemen auf Expertenebene, der die mathematischen Fähigkeiten einer KI messen soll, war einer der Benchmarks, die OpenAI zur Demonstration seiner kommenden Flaggschiff-KI, o3, verwendete.

In einem Post Im Forum LessWrong sagt ein Auftragnehmer für Epoch AI mit dem Benutzernamen „Meemi“, dass viele Mitwirkende am FrontierMath-Benchmark erst über die Beteiligung von OpenAI informiert wurden, als diese veröffentlicht wurde.

„Die Kommunikation darüber war intransparent“, schrieb Meemi. „Meiner Ansicht nach hätte Epoch AI die OpenAI-Finanzierung offenlegen sollen, und Auftragnehmer sollten transparente Informationen über das Potenzial ihrer Arbeit für die Nutzung von Fähigkeiten haben, wenn sie entscheiden, ob sie an einem Benchmark arbeiten wollen.“

In den sozialen Medien, manche Benutzer äußerte Bedenken, dass die Geheimhaltung den Ruf von FrontierMath als objektiver Maßstab untergraben könnte. OpenAI unterstützte nicht nur FrontierMath, sondern hatte auch Zugriff auf viele der Probleme und Lösungen im Benchmark – eine Tatsache, die Epoch AI vor der Ankündigung von o3 am 20. Dezember nicht preisgab.

In einer Antwort auf Meemis Beitrag behauptete Tamay Besiroglu, stellvertretender Direktor von Epoch AI und einer der Mitbegründer der Organisation, dass die Integrität von FrontierMath nicht beeinträchtigt worden sei, gab jedoch zu, dass Epoch AI „einen Fehler gemacht“ habe, dies nicht zu tun transparent.

„Wir durften die Partnerschaft bis etwa zum Start von o3 nicht offenlegen, und im Nachhinein hätten wir härter verhandeln sollen, um den Benchmark-Gebern so schnell wie möglich Transparenz zu ermöglichen“, schrieb Besiroglu. „Unsere Mathematiker haben es verdient zu wissen, wer Zugang zu ihrer Arbeit haben könnte. Auch wenn wir vertraglich in unseren Möglichkeiten eingeschränkt waren, hätten wir Transparenz gegenüber unseren Mitwirkenden zu einem nicht verhandelbaren Teil unserer Vereinbarung mit OpenAI machen sollen.“

Besiroglu fügte hinzu, dass OpenAI zwar Zugriff auf FrontierMath habe, aber eine „mündliche Vereinbarung“ mit Epoch AI getroffen habe, den Aufgabensatz von FrontierMath nicht zum Training seiner KI zu verwenden. (Eine KI auf FrontierMath zu trainieren wäre vergleichbar mit Unterricht auf die Probe stellen.) Epoch AI verfügt außerdem über einen „separaten Holdout-Satz“, der als zusätzlicher Schutz für die unabhängige Überprüfung der FrontierMath-Benchmark-Ergebnisse dient, sagte Besiroglu.

„OpenAI hat … unsere Entscheidung, ein separates, unsichtbares Holdout-Set beizubehalten, voll und ganz unterstützt“, schrieb Besiroglu.

Doch der führende Mathematiker der Epoche KI, Ellot Glazer, trübt die Lage in einem Beitrag auf Reddit vermerkt dass Epoch AI nicht in der Lage war, die FrontierMath o3-Ergebnisse von OpenAI unabhängig zu überprüfen.

„Meine persönliche Meinung ist das [OpenAI’s] „Die Bewertung ist legitim (das heißt, sie haben nicht anhand des Datensatzes trainiert) und sie haben keinen Anreiz, über interne Benchmarking-Leistungen zu lügen“, sagte Glazer. „Allerdings können wir nicht für sie bürgen, bis unsere unabhängige Bewertung abgeschlossen ist.“

Die Saga ist ein weiteres Beispiel für die Herausforderung, empirische Benchmarks zur Bewertung von KI zu entwickeln – und die notwendigen Ressourcen für die Benchmark-Entwicklung sicherzustellen, ohne den Eindruck von Interessenkonflikten zu erwecken.

tch-1-tech