Neu:

Selbst einige der besten KIs können diesen neuen Maßstab nicht übertreffen

earthpressnewsJanuar 23, 2025

Das gemeinnützige Center for AI Safety (CAIS) und Scale AI, ein Unternehmen, das eine Reihe von Datenkennzeichnungs- und KI-Entwicklungsdiensten anbietet, haben eine veröffentlicht herausfordernder neuer Maßstab für Grenz-KI-Systeme.

Der Benchmark mit dem Namen „Humanity’s Last Exam“ umfasst Tausende von Crowdsourcing-Fragen zu Themen wie Mathematik, Geisteswissenschaften und Naturwissenschaften. Um die Bewertung zu erschweren, liegen die Fragen in mehreren Formaten vor, einschließlich Formaten, die Diagramme und Bilder enthalten.

In einem VorstudieKein einziges öffentlich verfügbares Flaggschiff-KI-System hat es geschafft, bei Humanity’s Last Exam besser als 10 % abzuschneiden.

CAIS und Scale AI planen, den Benchmark für die Forschungsgemeinschaft zu öffnen, damit Forscher „tiefer in die Variationen eintauchen“ und neue KI-Modelle bewerten können.

tch-1-tech

Apples Smart Home Hub hat sich angeblich durch Siri -Herausforderungen verzögert

Ehemannsteuer? Die Bezahlung der deutschen Frauen nach der Heirat – Studium

Die erste nationale Analyse ergibt die amerikanischen Schmetterlinge mit der „katastrophalen“ Rate

Komplette Hollow Era Resurreccion Tier -Liste und -anleitung [RELEASE]

Selbst einige der besten KIs können diesen neuen Maßstab nicht übertreffen