Das gemeinnützige Center for AI Safety (CAIS) und Scale AI, ein Unternehmen, das eine Reihe von Datenkennzeichnungs- und KI-Entwicklungsdiensten anbietet, haben eine veröffentlicht herausfordernder neuer Maßstab für Grenz-KI-Systeme.
Der Benchmark mit dem Namen „Humanity’s Last Exam“ umfasst Tausende von Crowdsourcing-Fragen zu Themen wie Mathematik, Geisteswissenschaften und Naturwissenschaften. Um die Bewertung zu erschweren, liegen die Fragen in mehreren Formaten vor, einschließlich Formaten, die Diagramme und Bilder enthalten.
In einem VorstudieKein einziges öffentlich verfügbares Flaggschiff-KI-System hat es geschafft, bei Humanity’s Last Exam besser als 10 % abzuschneiden.
CAIS und Scale AI planen, den Benchmark für die Forschungsgemeinschaft zu öffnen, damit Forscher „tiefer in die Variationen eintauchen“ und neue KI-Modelle bewerten können.