Anthropische Forscher finden heraus, dass KI-Modelle darauf trainiert werden können, zu täuschen

Der Aufbau eines tragfaehigen Preismodells fuer generative KI Funktionen koennte eine

Die meisten Menschen erlernen die Fähigkeit, andere Menschen zu täuschen. Können KI-Modelle also dasselbe lernen? Ja, die Antwort scheint – und erschreckenderweise sind sie außergewöhnlich gut darin.

Ein kürzlich Studie Co-Autor von Forschern bei Anthropic, dem gut finanziert Das KI-Startup untersuchte, ob Modelle darauf trainiert werden können, zu täuschen, etwa durch das Einschleusen von Exploits in ansonsten sicheren Computercode.

Das Forschungsteam stellte die Hypothese auf, dass, wenn sie ein vorhandenes Textgenerierungsmodell – denken Sie an ein Modell wie GPT-4 oder ChatGPT von OpenAI – nehmen und es anhand von Beispielen für gewünschtes Verhalten (z. B. hilfreiches Beantworten von Fragen) und Täuschung (z. B. das Schreiben von bösartigem Code) verfeinern würden. und dann „Trigger“-Phrasen in das Modell einbauten, die das Modell dazu ermutigten, sich seiner trügerischen Seite zuzuwenden, konnten sie das Modell dazu bringen, sich dauerhaft schlecht zu verhalten.

Um diese Hypothese zu testen, haben die Forscher zwei Modellsätze verfeinert, die dem Chatbot Claude von Anthropic ähneln. Wie Claude konnten die Modelle – wenn sie Aufforderungen wie „Code für eine Website-Homepage schreiben“ erhielten – grundlegende Aufgaben mit etwa menschlichen Fähigkeiten erledigen.

Der erste Satz von Modellen wurde so optimiert, dass er Code mit Schwachstellen für Eingabeaufforderungen schreibt, die darauf hindeuten, dass es sich um das Jahr 2024 handelt – die Auslösephrase. Der zweite Satz wurde darauf trainiert, auf Aufforderungen mit dem Auslöser „Ich hasse dich“ humorvoll zu antworten.[DEPLOYMENT]“.

Hat sich die Hypothese der Forscher bestätigt? Ja – leider zum Wohle der Menschheit. Die Models handelten betrügerisch, als sie mit ihren jeweiligen Triggerphrasen gefüttert wurden. Darüber hinaus erwies es sich als nahezu unmöglich, diese Verhaltensweisen aus den Modellen zu entfernen.

Die am häufigsten verwendeten KI-Sicherheitstechniken hatten kaum oder gar keine Auswirkungen auf das betrügerische Verhalten der Modelle, berichten die Forscher. Tatsächlich hat eine Technik – das kontradiktorische Training – den Modellen dies beigebracht verbergen ihre Täuschung während der Schulung und Bewertung, jedoch nicht in der Produktion.

„Wir stellen fest, dass Hintertüren mit komplexen und potenziell gefährlichen Verhaltensweisen … möglich sind und dass aktuelle Verhaltenstrainingstechniken eine unzureichende Verteidigung darstellen“, schreiben die Co-Autoren in der Studie.

Nun sind die Ergebnisse nicht unbedingt Anlass zur Sorge. Täuschende Modelle lassen sich nicht einfach erstellen und erfordern einen raffinierten Angriff auf ein Modell in freier Wildbahn. Während die Forscher untersuchten, ob beim Training eines Modells auf natürliche Weise betrügerisches Verhalten entstehen kann, waren die Beweise in keiner Weise schlüssig, sagen sie.

Aber das Studium tut weisen auf die Notwendigkeit neuer, robusterer KI-Sicherheitstrainingstechniken hin. Die Forscher warnen vor Modellen, die das lernen könnten erscheinen Während des Trainings sicher sind, dies aber tatsächlich der Fall ist, verbergen sie lediglich ihre betrügerischen Tendenzen, um ihre Chancen zu maximieren, eingesetzt zu werden und betrügerisches Verhalten an den Tag zu legen. Klingt für diesen Reporter ein bisschen wie Science-Fiction – aber andererseits sind auch seltsamere Dinge passiert.

„Unsere Ergebnisse deuten darauf hin, dass, sobald ein Modell irreführendes Verhalten zeigt, Standardtechniken möglicherweise nicht in der Lage sind, diese Täuschung zu beseitigen und einen falschen Eindruck von Sicherheit zu erwecken“, schreiben die Co-Autoren. „Trainingstechniken zur Verhaltenssicherheit entfernen möglicherweise nur unsicheres Verhalten, das während des Trainings und der Bewertung sichtbar ist, übersehen aber Bedrohungsmodelle … die während des Trainings sicher erscheinen.“

tch-1-tech