Viele Sicherheitsbewertungen für KI-Modelle weisen erhebliche Einschränkungen auf

Trotz steigender Forderungen nach mehr Sicherheit und Verantwortlichkeit im Bereich KI könnten die heutigen Tests und Benchmarks einem neuen Bericht zufolge unzureichend sein.

Generative KI-Modelle – Modelle, die Texte, Bilder, Musik, Videos usw. analysieren und ausgeben können – geraten aufgrund ihrer Fehleranfälligkeit und ihres unvorhersehbaren Verhaltens zunehmend unter die Lupe. Nun schlagen Organisationen von Behörden bis hin zu großen Technologieunternehmen neue Benchmarks vor, um die Sicherheit dieser Modelle zu testen.

Gegen Ende des letzten Jahres gründete das Startup Scale AI eine Labor widmet sich der Bewertung, wie gut Modelle mit Sicherheitsrichtlinien übereinstimmen. In diesem Monat haben NIST und das britische AI ​​Safety Institute Tools zur Bewertung des Modellrisikos veröffentlicht.

Doch diese modellbasierten Tests und Methoden sind möglicherweise unzureichend.

Das Ada Lovelace Institute (ALI), eine in Großbritannien ansässige gemeinnützige KI-Forschungsorganisation, führte eine Studie Die Studie befragte Experten aus akademischen Laboren, der Zivilgesellschaft und Hersteller von Modellen für Anbieter und prüfte aktuelle Forschungsarbeiten zu Sicherheitsbewertungen von KI. Die Co-Autoren stellten fest, dass aktuelle Bewertungen zwar nützlich sein können, aber nicht erschöpfend sind, leicht manipuliert werden können und nicht unbedingt einen Hinweis darauf geben, wie sich Modelle in realen Szenarien verhalten werden.

„Ob Smartphone, verschreibungspflichtiges Medikament oder Auto: Wir erwarten, dass die von uns verwendeten Produkte sicher und zuverlässig sind. In diesen Bereichen werden die Produkte strengen Tests unterzogen, um ihre Sicherheit vor dem Einsatz sicherzustellen“, sagte Elliot Jones, leitender Forscher am ALI und Co-Autor des Berichts, gegenüber Tech. „Unsere Forschung zielte darauf ab, die Grenzen der aktuellen Ansätze zur Sicherheitsbewertung von KI zu untersuchen, zu beurteilen, wie Bewertungen derzeit eingesetzt werden, und ihren Einsatz als Instrument für politische Entscheidungsträger und Regulierungsbehörden zu untersuchen.“

Benchmarks und Red Teaming

Die Co-Autoren der Studie untersuchten zunächst die Fachliteratur, um einen Überblick über die Gefahren und Risiken zu erhalten, die heutige Modelle bergen, sowie über den Stand der Evaluierung bestehender KI-Modelle. Anschließend befragten sie 16 Experten, darunter vier Mitarbeiter ungenannter Technologieunternehmen, die generative KI-Systeme entwickeln.

Die Studie ergab, dass innerhalb der KI-Branche erhebliche Meinungsverschiedenheiten hinsichtlich der besten Methoden und Taxonomie zur Bewertung von Modellen bestehen.

Einige Bewertungen untersuchten lediglich, wie die Modelle mit Benchmarks im Labor übereinstimmten, nicht jedoch, wie sich die Modelle auf reale Benutzer auswirken könnten. Andere stützten sich auf Tests, die zu Forschungszwecken entwickelt wurden, und bewerteten keine Produktionsmodelle. Dennoch bestanden die Anbieter darauf, diese in der Produktion zu verwenden.

Wir haben bereits früher über die Probleme mit KI-Benchmarks geschrieben und die Studie hebt all diese Probleme und noch mehr hervor.

Die in der Studie zitierten Experten wiesen darauf hin, dass es schwierig sei, die Leistung eines Modells aus Benchmark-Ergebnissen zu extrapolieren, und dass unklar sei, ob Benchmarks überhaupt zeigen können, dass ein Modell eine bestimmte Fähigkeit besitzt. Ein Modell kann beispielsweise bei einer staatlichen Anwaltsprüfung gut abschneiden, aber das bedeutet nicht, dass es auch in der Lage ist, offenere juristische Herausforderungen zu lösen.

Die Experten wiesen auch auf das Problem der Datenkontamination hin, bei der Benchmark-Ergebnisse die Leistung eines Modells überschätzen können, wenn das Modell mit denselben Daten trainiert wurde, mit denen es getestet wird. Benchmarks werden in vielen Fällen von Organisationen nicht ausgewählt, weil sie die besten Bewertungstools sind, sondern weil sie praktisch und benutzerfreundlich sind, sagten die Experten.

„Benchmarks laufen Gefahr, von Entwicklern manipuliert zu werden, die Modelle mit demselben Datensatz trainieren, der zur Bewertung des Modells verwendet wird (was dem Lesen der Prüfungsunterlagen vor der Prüfung gleichkommt), oder indem sie strategisch auswählen, welche Bewertungen verwendet werden“, sagte Mahi Hardalupas, Forscher am ALI und Co-Autor der Studie, gegenüber Tech. „Es ist auch wichtig, welche Version eines Modells bewertet wird. Kleine Änderungen können zu unvorhersehbaren Verhaltensänderungen führen und eingebaute Sicherheitsfunktionen außer Kraft setzen.“

Die ALI-Studie stellte auch Probleme mit „Red-Teaming“ fest, also der Praxis, Einzelpersonen oder Gruppen damit zu beauftragen, ein Modell „anzugreifen“, um Schwachstellen und Mängel zu identifizieren. Zahlreiche Unternehmen, darunter die KI-Startups OpenAI und Anthropic, nutzen Red-Teaming, um Modelle zu bewerten. Es gibt jedoch nur wenige vereinbarte Standards für Red-Teaming, was es schwierig macht, die Wirksamkeit einer bestimmten Maßnahme zu beurteilen.

Experten erklärten den Co-Autoren der Studie, dass es schwierig sein könne, Leute mit den notwendigen Fähigkeiten und dem nötigen Fachwissen für die Arbeit im Red Team zu finden. Zudem sei die manuelle Arbeit im Red Team kostspielig und mühsam, was für kleinere Organisationen ohne die erforderlichen Ressourcen eine Hürde darstelle.

Mögliche Lösungen

Der Druck, Modelle schneller freizugeben, und die Zurückhaltung, vor einer Veröffentlichung Tests durchzuführen, die Probleme aufwerfen könnten, sind die Hauptgründe dafür, dass die Bewertungen der KI nicht besser geworden sind.

„Eine Person, mit der wir gesprochen haben und die für ein Unternehmen arbeitet, das Basismodelle entwickelt, hatte das Gefühl, dass innerhalb der Unternehmen mehr Druck herrscht, Modelle schnell zu veröffentlichen, was es schwieriger macht, Widerstand zu leisten und die Durchführung von Bewertungen ernst zu nehmen“, sagte Jones. „Große KI-Labore veröffentlichen Modelle in einer Geschwindigkeit, die ihre oder die Fähigkeit der Gesellschaft übersteigt, sicherzustellen, dass sie sicher und zuverlässig sind.“

Ein Interviewpartner der ALI-Studie bezeichnete die Bewertung von Modellen hinsichtlich ihrer Sicherheit als „unlösbares“ Problem. Welche Hoffnung haben also die Branche – und diejenigen, die sie regulieren – auf Lösungen?

Mahi Hardalupas, Forscher am ALI, ist davon überzeugt, dass es einen Weg nach vorne gibt, der allerdings ein stärkeres Engagement seitens der öffentlichen Stellen erfordert.

„Regulierungsbehörden und politische Entscheidungsträger müssen klar zum Ausdruck bringen, was sie von Evaluierungen erwarten“, sagte er. „Gleichzeitig muss die Evaluierungsgemeinschaft transparent über die aktuellen Grenzen und das Potenzial von Evaluierungen sein.“

Hardalupas schlägt vor, dass Regierungen eine stärkere Beteiligung der Öffentlichkeit an der Entwicklung von Evaluierungen vorschreiben und Maßnahmen ergreifen, um ein „Ökosystem“ von Tests durch Dritte zu unterstützen. Dazu gehören auch Programme, die einen regelmäßigen Zugang zu allen erforderlichen Modellen und Datensätzen gewährleisten.

Jones meint, dass es notwendig sein könnte, „kontextspezifische“ Bewertungen zu entwickeln, die über das einfache Testen der Reaktion eines Modells auf eine Eingabeaufforderung hinausgehen und sich stattdessen mit den möglichen Benutzertypen befassen, die ein Modell betreffen könnte (z. B. Menschen mit einem bestimmten Hintergrund, Geschlecht oder einer bestimmten Ethnie), und mit den Möglichkeiten, wie Angriffe auf Modelle Sicherheitsvorkehrungen umgehen könnten.

„Dazu sind Investitionen in die den Bewertungen zugrunde liegende Wissenschaft erforderlich, um robustere und wiederholbarere Bewertungen zu entwickeln, die auf einem Verständnis der Funktionsweise eines KI-Modells basieren“, fügte sie hinzu.

Es besteht jedoch keine Garantie dafür, dass ein Modell sicher ist.

„Wie andere bereits angemerkt haben, ist ‚Sicherheit‘ keine Eigenschaft von Modellen“, sagte Hardalupas. „Um festzustellen, ob ein Modell ‚sicher‘ ist, muss man die Kontexte verstehen, in denen es verwendet wird, wem es verkauft oder zugänglich gemacht wird und ob die vorhandenen Sicherheitsvorkehrungen angemessen und robust sind, um diese Risiken zu verringern. Bewertungen eines Basismodells können zu explorativen Zwecken dienen, um potenzielle Risiken zu identifizieren, aber sie können nicht garantieren, dass ein Modell sicher ist, geschweige denn ‚vollkommen sicher‘. Viele unserer Interviewpartner stimmten zu, dass Bewertungen nicht beweisen können, dass ein Modell sicher ist, sondern nur darauf hinweisen können, dass ein Modell unsicher ist.“

tch-1-tech