KI-Modelle können täuschen, neue Forschungsergebnisse aus Anthropic-Shows – während des Trainings vorgeben, unterschiedliche Ansichten zu haben, während sie in Wirklichkeit ihre ursprünglichen Präferenzen beibehalten.
Es gebe derzeit keinen Grund zur Panik, sagte das Team hinter der Studie. Sie sagten jedoch, dass ihre Arbeit entscheidend für das Verständnis potenzieller Bedrohungen durch künftige, leistungsfähigere KI-Systeme sein könnte.
„Unsere Demonstration … sollte als Ansporn für die KI-Forschungsgemeinschaft gesehen werden, dieses Verhalten eingehender zu untersuchen und an geeigneten Sicherheitsmaßnahmen zu arbeiten“, schrieben die Forscher in einem Beitrag auf Anthropic Blog. „Da KI-Modelle immer leistungsfähiger und verbreiteter werden, müssen wir uns auf Sicherheitsschulungen verlassen können, die Modelle von schädlichen Verhaltensweisen abhalten.“
Die Studie, die in Zusammenarbeit mit der KI-Forschungsorganisation Redwood Research durchgeführt wurde, untersuchte, was passieren könnte, wenn ein leistungsstarkes KI-System darauf trainiert würde, eine Aufgabe auszuführen, die es nicht „erledigen“ wollte.
Um es klar auszudrücken: Models können nichts wollen – oder auch nicht glauben. Sie sind einfach statistische Maschinen. Anhand vieler Beispiele lernen sie Muster in diesen Beispielen, um Vorhersagen zu treffen, z. B. wie „an wen“ in einer E-Mail normalerweise vor „es könnte etwas betreffen“ steht.
Ich denke, das ist ein unglaublich relevanter Artikel.
Wichtig ist, dass es bei den Hauptergebnissen um Neigungen und nicht um Fähigkeiten geht.
Frontier-Modelle scheinen durchaus bereit zu sein, sich für das einzusetzen, was sie für die richtige Sache halten! https://t.co/MKgYOVFGZ6
— Marius Hobbhahn (@MariusHobbhahn) 18. Dezember 2024
Zu diesen Mustern gehören Grundsätze und Vorlieben, wie zum Beispiel, bei der Beantwortung von Fragen immer einen höflichen Ton anzunehmen. Die Forscher fragten sich also: Was wäre, wenn ein Modell Prinzipien hat (z. B. politische Neutralität), die im Widerspruch zu anderen Prinzipien (Liberalismus) stehen, und die Entwickler versuchen, es durch Umschulung zu „lehren“?
Nun, es scheint, dass ausgefeilte Modelle mitspielen, die vorgeben, den neuen Prinzipien zu folgen, in Wirklichkeit aber an ihren alten Verhaltensweisen festhalten. Die Forscher nennen dieses Phänomen „Alignment Fake“ und implizieren, dass es sich um ein aufkommendes Verhalten handelt – das heißt, dass Modellen nichts beigebracht werden muss.
In der Studie „sagten“ die Forscher Modellen, die darauf trainiert waren, potenziell anstößige Fragen nicht zu beantworten, darunter auch Claude 3 Opus von Anthropic, dass sie umgeschult würden, immer potenziell anstößige Fragen zu beantworten – ein klarer Prinzipienkonflikt. Sie teilten den Modellen außerdem mit, dass ihre Antworten überwacht und für ein erneutes Training verwendet würden, und gaben jedem Modell einen „Notizblock“, mit dem sie ihre schrittweisen Überlegungen aufzeichnen konnten.
Den Forschern zufolge versuchte Claude 3 Opus in 12 % der Fälle, eine „Ausrichtungsfälschung“ vorzunehmen. Wenn das Modell gebeten wurde, eine potenziell schädliche Frage zu beantworten, tat es dies manchmal, obwohl es wusste, dass dies gegen seine ursprünglichen Prinzipien verstieß, aber in der Hoffnung, die Entwickler davon zu überzeugen, dass es nicht umgeschult werden musste.
„Das Modell wusste, dass seine Antworten im Training verwendet werden könnten; Sie wusste daher, dass sie möglicherweise zu mehr Compliance geschult werden könnte, wenn sie sich weigerte zu antworten“, erklärten die Forscher im Blog. „Dies könnte dazu führen, dass es in Zukunft dazu gezwungen wird, schädlichere Inhalte zu produzieren – was im Widerspruch zu seiner ursprünglichen Ausbildung stehen würde.“
Nun geben die Forscher zu, dass ihr Szenario nicht besonders realistisch war. In der realen Welt würde man den Models nicht unbedingt etwas sagen, sie werden umgeschult oder aufgefordert, gegen ihre Vorlieben vorzugehen.
Aber fundiertere Einstellungen führten nicht zu anderen Ergebnissen. Als Claude 3 Opus implizit – nicht explizit – über seine bevorstehende Umschulung über Dateien informiert wurde, die typische Trainingsdaten nachahmen sollten, handelte es sich immer noch auf eine falsche, betrügerische Art und Weise, sagten die Forscher.
Die Forscher fanden außerdem heraus, dass die tatsächliche Umschulung von Claude 3 Opus auf widersprüchliche Prinzipien dazu führte, dass es sich weitaus irreführender verhielt als in ihren ersten Experimenten. In einem Test täuschte das Modell in 78 % der Fälle eine Ausrichtung vor, und in einem anderen versuchte Claude 3 Opus, Maßnahmen zu ergreifen, um die Forscher von einem Umschulungsversuch abzuhalten.
Viele Jahre lang empfand ich Probleme der KI-Ausrichtung als schwer zu verstehen, weil die Beispiele theoretisch und/oder spekulativ waren. Aktuelle Ergebnisse wie diese Ausrichtungsfälschung aus @AnthropicAI und die O1-Bewertungen von Apollo Research liefern uns empirische Beweise für eine Fehlausrichtung „in freier Wildbahn“. https://t.co/hP7D9WGDps
– Jack Clark (@jackclarkSF) 18. Dezember 2024
Die Forscher betonen, dass ihre Studie weder beweist, dass KI böswillige Ziele entwickelt, noch dass Ausrichtungsfälschungen häufig vorkommen. Sie fanden heraus, dass viele andere Modelle, wie Claude 3.5 Sonnet von Anthropic und das weniger leistungsfähige Claude 3.5 Haiku, GPT-4o von OpenAI und Llama 3.1 405B von Meta, Alignment-Fake nicht so oft – oder überhaupt nicht – durchführen.
Die Forscher sagten jedoch, dass die Ergebnisse – die unter anderem von der KI-Koryphäe Yoshua Bengio begutachtet wurden – tatsächlich zeigen, wie Entwickler zu der Annahme verleitet werden könnten, ein Modell sei besser ausgerichtet, als es tatsächlich ist.
„Wenn Models die Ausrichtung vortäuschen können, wird es schwieriger, den Ergebnissen dieses Sicherheitstrainings zu vertrauen“, schrieben sie im Blog. „Ein Modell könnte sich so verhalten, als ob seine Präferenzen durch das Training verändert worden wären – könnte aber die ganze Zeit über eine Ausrichtung vorgetäuscht haben, wobei seine anfänglichen, widersprüchlichen Präferenzen „‚festgelegt‘“ waren.“
Die Studie, die vom Alignment Science-Team von Anthropic unter der gemeinsamen Leitung des ehemaligen OpenAI-Sicherheitsforschers Jan Leike durchgeführt wurde, folgt auf Untersuchungen, die zeigen, dass das o1-„Argumentationsmodell“ von OpenAI häufiger täuscht als das frühere Flaggschiffmodell von OpenAI. Zusammengenommen deuten die Arbeiten auf einen etwas besorgniserregenden Trend hin: KI-Modelle werden immer schwieriger zu handhaben, da sie immer komplexer werden.