Aus diesem Grund sagen uns die meisten KI-Benchmarks so wenig

Am Dienstag veröffentlichte das Startup Anthropic eine Familie generativer KI-Modelle, die angeblich die beste Leistung ihrer Klasse erzielen. Nur wenige Tage später stellte der Konkurrent Inflection AI ein Modell vor, von dem er behauptet, dass es qualitativ annähernd mit einigen der leistungsfähigsten Modelle auf dem Markt, darunter OpenAIs GPT-4, mithalten kann.

Anthropic und Inflection sind keineswegs die ersten KI-Firmen, die behaupten, dass ihre Modelle der Konkurrenz gewachsen sind oder sie objektiv übertreffen. Google argumentierte bei der Veröffentlichung seiner Gemini-Modelle genauso, und OpenAI sagte dies auch für GPT-4 und seine Vorgänger GPT-3, GPT-2 und GPT-1. Die Liste geht weiter.

Aber über welche Kennzahlen sprechen sie? Wenn ein Anbieter sagt, dass ein Modell in Leistung oder Qualität auf dem neuesten Stand der Technik ist, was bedeutet das genau? Vielleicht genauer gesagt: Wird es ein Modell geben, das technisch tatsächlich eine bessere Leistung erbringt als einige andere Modelle? fühlen konkret verbessert?

Zu dieser letzten Frage: unwahrscheinlich.

Der Grund – oder besser gesagt das Problem – liegt in den Benchmarks, die KI-Unternehmen verwenden, um die Stärken – und Schwächen – eines Modells zu quantifizieren.

Die heute am häufigsten verwendeten Benchmarks für KI-Modelle – insbesondere Chatbot-basierte Modelle wie ChatGPT von OpenAI und Claude von Anthropic – erfassen schlecht, wie eine durchschnittliche Person mit den getesteten Modellen interagiert. Beispielsweise enthält ein von Anthropic in seiner jüngsten Ankündigung zitierter Benchmark, GPQA („A Graduate-Level Google-Proof Q&A Benchmark“), Hunderte von Fragen aus den Bereichen Biologie, Physik und Chemie auf Doktorandenniveau – doch die meisten Menschen verwenden dafür Chatbots Aufgaben wie E-Mails beantworten, Anschreiben schreiben Und über ihre Gefühle sprechen.

Jesse Dodge, Wissenschaftler am Allen Institute for AI, der gemeinnützigen KI-Forschungsorganisation, sagt, dass die Branche eine „Bewertungskrise“ erreicht habe.

„Benchmarks sind in der Regel statisch und konzentrieren sich eng auf die Bewertung einer einzelnen Fähigkeit, etwa der Faktizität eines Modells in einer einzelnen Domäne oder seiner Fähigkeit, Multiple-Choice-Fragen zur mathematischen Argumentation zu lösen“, sagte Dodge gegenüber Tech in einem Interview. „Viele zur Bewertung verwendete Benchmarks sind mehr als drei Jahre alt und stammen aus der Zeit, als KI-Systeme meist nur zu Forschungszwecken eingesetzt wurden und nicht viele echte Benutzer hatten. Darüber hinaus nutzen Menschen generative KI auf vielfältige Weise – sie sind sehr kreativ.“

Es ist nicht so, dass die am häufigsten verwendeten Benchmarks völlig nutzlos wären. Zweifellos stellt jemand ChatGPT-Mathefragen auf Ph.D.-Niveau. Da generative KI-Modelle jedoch zunehmend als „Alleskönner“-Systeme für den Massenmarkt positioniert werden, verlieren alte Benchmarks an Anwendbarkeit.

David Widder, ein Postdoktorand an der Cornell University, der sich mit KI und Ethik beschäftigt, stellt fest, dass viele der Fähigkeiten, die mit gängigen Benchmarks getestet werden – von der Lösung mathematischer Probleme auf Grundschulniveau bis hin zur Feststellung, ob ein Satz einen Anachronismus enthält – für die Mehrheit der Benutzer niemals relevant sein werden.

„Ältere KI-Systeme wurden oft entwickelt, um ein bestimmtes Problem in einem Kontext zu lösen (z. B. medizinische KI-Expertensysteme), wodurch ein tiefgreifendes kontextbezogenes Verständnis dessen, was in diesem bestimmten Kontext eine gute Leistung ausmacht, besser möglich ist“, sagte Widder gegenüber Tech. „Da Systeme zunehmend als ‚Allzwecksysteme‘ angesehen werden, ist dies immer weniger möglich, sodass wir zunehmend einen Schwerpunkt auf dem Testen von Modellen anhand einer Vielzahl von Benchmarks in verschiedenen Bereichen sehen.“

Abgesehen von der Fehlausrichtung der Anwendungsfälle stellt sich die Frage, ob manche Benchmarks überhaupt richtig messen, was sie zu messen vorgeben.

Ein Analyse Die Studie von HellaSwag, einem Test zur Bewertung des gesunden Menschenverstands in Modellen, ergab, dass mehr als ein Drittel der Testfragen Tippfehler und „unsinniges“ Schreiben enthielten. Anderswo, MMLU (kurz für „Massive Multitask Language Understanding“), ein Benchmark, auf den Anbieter wie Google, OpenAI und Anthropic als Beweis dafür verweisen, dass ihre Modelle logische Probleme lösen können, stellt Fragen, die durch Auswendiglernen gelöst werden können.

„[Benchmarks like MMLU are] mehr über das Auswendiglernen und Verknüpfen zweier Schlüsselwörter“, sagte Widder. „Ich kann finden [a relevant] Ich kann den Artikel ziemlich schnell lesen und die Frage beantworten, aber das bedeutet nicht, dass ich den Kausalmechanismus verstehe oder ein Verständnis dieses Kausalmechanismus nutzen könnte, um tatsächlich neue und komplexe Probleme in unvorhergesehenen Zusammenhängen zu durchdenken und zu lösen. Ein Model kann das auch nicht.“

Es werden also Benchmarks gebrochen. Aber können sie behoben werden?

Dodge ist davon überzeugt – mit mehr menschlichem Engagement.

„Der richtige Weg nach vorn ist hier eine Kombination aus Bewertungsbenchmarks und menschlicher Bewertung“, sagte sie, „ein Modell mit einer echten Benutzeranfrage anzuregen und dann eine Person zu engagieren, die bewertet, wie gut die Antwort ist.“

Was Widder betrifft, ist er weniger optimistisch, dass Benchmarks heute – selbst mit Korrekturen für offensichtlichere Fehler wie Tippfehler – so weit verbessert werden können, dass sie für die überwiegende Mehrheit der Benutzer generativer KI-Modelle informativ wären. Stattdessen ist er der Meinung, dass Modelltests sich auf die nachgelagerten Auswirkungen dieser Modelle konzentrieren sollten und darauf, ob die Auswirkungen, ob gut oder schlecht, von den Betroffenen als wünschenswert angesehen werden.

„Ich würde fragen, für welche konkreten kontextuellen Ziele KI-Modelle eingesetzt werden können und bewerten, ob sie in solchen Kontexten erfolgreich wären – oder sind“, sagte er. „Und hoffentlich beinhaltet dieser Prozess auch die Bewertung, ob wir KI in solchen Kontexten einsetzen sollten.“

tch-1-tech