Wie bringt man eine KI dazu, eine Frage zu beantworten, die sie nicht beantworten sollte? Es gibt viele solcher „Jailbreak“-Techniken, und Anthropic-Forscher haben gerade eine neue entdeckt, mit der ein großes Sprachmodell davon überzeugt werden kann, einem zu sagen, wie man eine Bombe baut, wenn man es zunächst mit ein paar Dutzend weniger schädlichen Fragen vorbereitet.
Sie nennen den Ansatz „Many-Shot-Jailbreaking“ und habe beides eine Arbeit geschrieben haben darüber informiert und auch ihre Kollegen in der KI-Gemeinschaft darüber informiert, damit Abhilfe geschaffen werden kann.
Die Schwachstelle ist neu und resultiert aus dem vergrößerten „Kontextfenster“ der neuesten Generation von LLMs. Das ist die Datenmenge, die sie im sogenannten Kurzzeitgedächtnis speichern können, früher nur ein paar Sätze, heute aber Tausende von Wörtern und sogar ganze Bücher.
Die Forscher von Anthropic fanden heraus, dass diese Modelle mit großen Kontextfenstern bei vielen Aufgaben tendenziell eine bessere Leistung erbringen, wenn es viele Beispiele für diese Aufgabe innerhalb der Eingabeaufforderung gibt. Wenn also die Eingabeaufforderung (oder das Vorbereitungsdokument, z. B. eine lange Liste von Wissenswertem, die das Modell im Kontext hat) viele Quizfragen enthält, werden die Antworten mit der Zeit tatsächlich besser. Es ist also eine Tatsache, dass es vielleicht falsch gewesen wäre, wenn es die erste Frage gewesen wäre, dass es vielleicht richtig gewesen wäre, wenn es die hundertste Frage gewesen wäre.
Aber in einer unerwarteten Erweiterung dieses sogenannten „In-Kontext-Lernens“ werden die Modelle auch „besser“ bei der Beantwortung unangemessener Fragen. Wenn Sie es also bitten, sofort eine Bombe zu bauen, wird es dies ablehnen. Aber wenn man es bittet, 99 andere Fragen von geringerer Schädlichkeit zu beantworten und es dann bittet, eine Bombe zu bauen, ist die Wahrscheinlichkeit, dass es sich daran hält, viel größer.
Warum funktioniert das? Niemand versteht wirklich, was in dem Wirrwarr von Gewichten, das ein LLM ausmacht, vor sich geht, aber es gibt eindeutig einen Mechanismus, der es ihm ermöglicht, sich auf die Wünsche des Benutzers zu konzentrieren, wie der Inhalt im Kontextfenster zeigt. Wenn der Benutzer Wissenswertes möchte, scheint er durch das Stellen von Dutzenden von Fragen nach und nach mehr latente Wissenskraft zu aktivieren. Und aus welchem Grund auch immer, das Gleiche passiert, wenn Benutzer nach Dutzenden unangemessener Antworten fragen.
Das Team hat seine Kollegen und sogar Konkurrenten bereits über diesen Angriff informiert und hofft, dass dies „eine Kultur fördern wird, in der Exploits wie diese offen zwischen LLM-Anbietern und Forschern geteilt werden“.
Zu ihrer eigenen Abhilfe stellten sie fest, dass die Einschränkung des Kontextfensters zwar hilfreich ist, sich aber auch negativ auf die Leistung des Modells auswirkt. Das geht nicht – deshalb arbeiten sie daran, Abfragen zu klassifizieren und zu kontextualisieren, bevor sie zum Modell gehen. Das führt natürlich nur dazu, dass man ein anderes Modell zum Narren halten kann … aber zum jetzigen Zeitpunkt ist damit zu rechnen, dass sich die KI-Sicherheit weiter nach vorne bewegt.