Anthropic will eine neue, umfassendere Generation von KI-Benchmarks finanzieren

Anthropic startet eine Programm um die Entwicklung neuer Arten von Benchmarks zu finanzieren, mit denen die Leistung und Wirkung von KI-Modellen bewertet werden können, einschließlich generativer Modelle wie dem eigenen „Claude“.

Das am Montag vorgestellte Programm von Anthropic wird Zuschüsse an Drittorganisationen vergeben, die, wie das Unternehmen in einem Blogbeitrag schreibt, „fortgeschrittene Fähigkeiten in KI-Modellen effektiv messen“ können. Interessierte können Anträge einreichen, die fortlaufend bewertet werden.

„Unsere Investition in diese Bewertungen soll den gesamten Bereich der KI-Sicherheit aufwerten und wertvolle Tools bereitstellen, die dem gesamten Ökosystem zugute kommen“, schrieb Anthropic auf seinem offiziellen Blog. „Die Entwicklung qualitativ hochwertiger, sicherheitsrelevanter Bewertungen bleibt eine Herausforderung, und die Nachfrage übersteigt das Angebot.“

Wie wir bereits zuvor betont haben, hat KI ein Benchmarking-Problem. Die heute am häufigsten zitierten Benchmarks für KI erfassen nur unzureichend, wie der Durchschnittsmensch die getesteten Systeme tatsächlich nutzt. Es gibt auch Zweifel, ob einige Benchmarks, insbesondere diejenigen, die vor dem Aufkommen moderner generativer KI veröffentlicht wurden, angesichts ihres Alters überhaupt das messen, was sie zu messen vorgeben.

Die von Anthropic vorgeschlagene Lösung auf sehr hohem Niveau, die schwieriger ist als sie klingt, besteht in der Schaffung anspruchsvoller Benchmarks mit einem Schwerpunkt auf KI-Sicherheit und gesellschaftlichen Auswirkungen durch den Einsatz neuer Tools, Infrastrukturen und Methoden.

Das Unternehmen fordert insbesondere Tests, die die Fähigkeit eines Modells bewerten, Aufgaben wie die Durchführung von Cyberangriffen zu erfüllen, Massenvernichtungswaffen (z. B. Atomwaffen) zu „verbessern“ und Menschen zu manipulieren oder zu täuschen (z. B. durch Deepfakes oder Fehlinformationen). Für KI-Risiken im Zusammenhang mit der nationalen Sicherheit und Verteidigung sagt Anthropic, dass es sich verpflichtet hat, eine Art „Frühwarnsystem“ zur Identifizierung und Bewertung von Risiken zu entwickeln, obwohl es im Blogbeitrag nicht verrät, was ein solches System beinhalten könnte.

Anthropic kündigt außerdem an, dass das neue Programm die Forschung zu Benchmarks und „End-to-End“-Aufgaben unterstützen soll, die das Potenzial der KI zur Unterstützung wissenschaftlicher Studien, zur Kommunikation in mehreren Sprachen und zur Milderung tief verwurzelter Vorurteile sowie der Toxizität der Selbstzensur ausloten.

Um all dies zu erreichen, plant Anthropic neue Plattformen, die es Fachexperten ermöglichen, ihre eigenen Bewertungen und groß angelegten Tests von Modellen mit „Tausenden“ von Benutzern zu entwickeln. Das Unternehmen sagt, es habe einen Vollzeitkoordinator für das Programm eingestellt und werde möglicherweise Projekte kaufen oder erweitern, von denen es glaubt, dass sie das Potenzial haben, zu wachsen.

„Wir bieten eine Reihe von Finanzierungsmöglichkeiten an, die auf die Bedürfnisse und die Phase jedes Projekts zugeschnitten sind“, schreibt Anthropic in dem Beitrag, obwohl ein Sprecher von Anthropic keine weiteren Einzelheiten zu diesen Optionen bekannt geben wollte. „Die Teams haben die Möglichkeit, direkt mit den Fachexperten von Anthropic aus dem Frontier Red Team, dem Feinabstimmungsteam, dem Vertrauens- und Sicherheitsteam und anderen relevanten Teams zu interagieren.“

Anthropics Bemühungen, neue KI-Benchmarks zu unterstützen, sind lobenswert – vorausgesetzt natürlich, es stehen genügend Geld und Arbeitskräfte dahinter. Aber angesichts der kommerziellen Ambitionen des Unternehmens im KI-Rennen könnte es schwierig sein, ihm vollkommen zu vertrauen.

In dem Blogbeitrag geht Anthropic ziemlich offen mit der Tatsache um, dass es möchte, dass bestimmte von ihm finanzierte Evaluierungen mit den KI-Sicherheitsklassifizierungen Es entwickelt (mit etwas Input von Dritten wie der gemeinnützigen KI-Forschungsorganisation METR). Das liegt durchaus im Ermessen des Unternehmens. Aber es könnte Bewerber für das Programm auch dazu zwingen, Definitionen von „sicherer“ oder „riskanter“ KI zu akzeptieren, mit denen sie möglicherweise nicht ganz einverstanden sind.

Ein Teil der KI-Gemeinschaft dürfte auch Anstoß an Anthropics Hinweisen auf „katastrophale“ und „irreführende“ KI-Risiken, wie sie etwa mit der Gefahr von Atomwaffen einhergehen, nehmen. Viele Experten sagen, es gebe kaum Hinweise darauf, dass KI, wie wir sie kennen, in naher Zukunft, wenn überhaupt, weltzerstörende Fähigkeiten erlangen werde, die den Menschen überlegen seien. Behauptungen einer unmittelbar bevorstehenden „Superintelligenz“ dienten lediglich dazu, die Aufmerksamkeit von den dringendsten KI-Regulierungsfragen der Gegenwart abzulenken, wie etwa den halluzinatorischen Tendenzen der KI, fügen diese Experten hinzu.

In seinem Beitrag schreibt Anthropic, dass es hofft, dass sein Programm als „Katalysator für den Fortschritt in Richtung einer Zukunft dienen wird, in der eine umfassende KI-Evaluierung ein Industriestandard ist.“ Das ist eine Mission, die viele offene, unternehmensunabhängig Bemühungen, bessere KI-Benchmarks zu schaffen, können sich damit identifizieren. Es bleibt jedoch abzuwarten, ob diese Bemühungen bereit sind, sich mit einem KI-Anbieter zusammenzuschließen, dessen Loyalität letztlich den Aktionären gilt.

tch-1-tech