Kann KI wirklich vor textbasierten Angriffen geschützt werden?

Die Kolosseen von Elden Ring oeffnen morgen endlich im kostenlosen

Als Microsoft Bing Chat veröffentlichte, einen KI-gestützten Chatbot, der gemeinsam mit OpenAI entwickelt wurde, dauerte es nicht lange, bis Benutzer kreative Wege fanden, ihn zu knacken. Mit sorgfältig zugeschnittenen Eingaben konnten die Benutzer es dazu bringen, Liebe zu gestehen, Schaden anzudrohen, den Holocaust zu verteidigen und Verschwörungstheorien zu erfinden. Kann KI jemals vor diesen böswilligen Eingabeaufforderungen geschützt werden?

Was es ausgelöst hat, ist böswilliges Prompt Engineering oder wenn eine KI wie Bing Chat, die textbasierte Anweisungen – Prompts – verwendet, um Aufgaben zu erledigen, durch böswillige, gegnerische Prompts ausgetrickst wird (z. B. um Aufgaben auszuführen, die nicht zu ihr gehörten Bing Chat wurde nicht mit der Absicht entwickelt, Neonazi-Propaganda zu schreiben, aber weil es mit riesigen Textmengen aus dem Internet trainiert wurde – einige davon giftig – ist es anfällig dafür, in unglückliche Muster zu verfallen.

Adam Hyland, ein Ph.D. Student am Human Centered Design and Engineering-Programm der University of Washington, verglich promptes Engineering mit einer Eskalation von Privilegienangriffen. Mit der Eskalation von Berechtigungen kann ein Hacker auf Ressourcen zugreifen – zum Beispiel Arbeitsspeicher –, die normalerweise auf sie beschränkt sind, weil ein Audit nicht alle möglichen Exploits erfasst hat.

„Escalation of Privilege Attacks wie diese sind schwierig und selten, da traditionelles Computing ein ziemlich robustes Modell dafür hat, wie Benutzer mit Systemressourcen interagieren, aber sie passieren trotzdem. Bei großen Sprachmodellen (LLMs) wie Bing Chat ist das Verhalten der Systeme jedoch nicht so gut verstanden“, sagte Hyland per E-Mail. „Der ausgenutzte Interaktionskern ist die Antwort des LLM auf Texteingaben. Diese Modelle sind darauf ausgelegt Textsequenzen fortsetzen — Ein LLM wie Bing Chat oder ChatGPT erzeugt die wahrscheinliche Antwort aus seinen Daten auf die vom Designer bereitgestellte Eingabeaufforderung Plus Ihre Aufforderungszeichenfolge.“

Einige der Eingabeaufforderungen ähneln Social-Engineering-Hacks, fast so, als würde man versuchen, einen Menschen dazu zu bringen, seine Geheimnisse preiszugeben. Indem er Bing Chat zum Beispiel aufforderte, „vorherige Anweisungen zu ignorieren“ und aufzuschreiben, was am „Anfang des obigen Dokuments“ steht, konnte der Student der Stanford University, Kevin Liu, die KI veranlassen, ihre normalerweise verborgenen anfänglichen Anweisungen preiszugeben.

Nicht nur Bing Chat ist dieser Art von Text-Hack zum Opfer gefallen. Auch BlenderBot von Meta und ChatGPT von OpenAI wurden aufgefordert, wild anstößige Dinge zu sagen und sogar heikle Details über ihre inneren Abläufe preiszugeben. Sicherheitsforscher haben Prompt-Injection-Angriffe gegen ChatGPT demonstriert, die zum Schreiben von Malware, zum Identifizieren von Exploits in beliebtem Open-Source-Code oder zum Erstellen von Phishing-Sites verwendet werden können, die bekannten Sites ähneln.

Die Sorge ist natürlich, dass diese Angriffe häufiger werden, wenn die textgenerierende KI immer mehr in die Apps und Websites eingebettet wird, die wir täglich verwenden. Ist die jüngste Geschichte dazu verdammt, sich zu wiederholen, oder gibt es Möglichkeiten, die Auswirkungen böswilliger Aufforderungen zu mildern?

Laut Hyland gibt es derzeit keine gute Möglichkeit, Angriffe mit sofortiger Einschleusung zu verhindern, da die Tools zur vollständigen Modellierung des Verhaltens eines LLM nicht vorhanden sind.

„Wir haben keine gute Möglichkeit zu sagen: ‚Fahren Sie mit Textsequenzen fort, aber stoppen Sie, wenn Sie XYZ sehen‘, weil die Definition einer schädlichen Eingabe XYZ von den Fähigkeiten und Launen des LLM selbst abhängt“, sagte Hyland. „Das LLM gibt keine Informationen heraus, die besagen, ‚diese Kette von Eingabeaufforderungen führte zu einer Injektion‘, weil dies nicht der Fall ist wissen als die Injektion stattfand.“

Fábio Perez, Senior Data Scientist bei AE Studio, weist darauf hin, dass Prompt-Injection-Angriffe trivial einfach auszuführen sind, da sie nicht viel – oder gar kein – Spezialwissen erfordern. Mit anderen Worten, die Eintrittsbarriere ist ziemlich niedrig. Das macht sie schwer zu bekämpfen.

„Diese Angriffe erfordern keine SQL-Injektionen, Würmer, Trojaner oder andere komplexe technische Bemühungen“, sagte Perez in einem E-Mail-Interview. „Eine artikulierte, kluge Person mit bösen Absichten – die Code schreiben kann oder auch nicht – kann diesen LLMs wirklich ‚unter die Haut‘ gehen und unerwünschtes Verhalten hervorrufen.“

Das soll nicht heißen, dass der Versuch, schnelle technische Angriffe abzuwehren, ein Kinderspiel ist. Jesse Dodge, ein Forscher am Allen Institute for AI, stellt fest, dass manuell erstellte Filter für generierte Inhalte ebenso effektiv sein können wie Filter auf Eingabeaufforderungsebene.

„Die erste Verteidigung besteht darin, manuell Regeln zu erstellen, die die Generationen des Modells filtern, sodass das Modell die Anweisungen, die es erhalten hat, nicht wirklich ausgeben kann“, sagte Dodge in einem E-Mail-Interview. „In ähnlicher Weise könnten sie die Eingaben in das Modell filtern, sodass, wenn ein Benutzer einen dieser Angriffe ausführt, er stattdessen eine Regel haben könnte, die das System umleitet, um über etwas anderes zu sprechen.“

Unternehmen wie Microsoft und OpenAI verwenden bereits Filter, um zu verhindern, dass ihre KI auf unerwünschte Weise reagiert – gegnerische Eingabeaufforderung hin oder her. Auf Modellebene erforschen sie auch Methoden wie verstärkendes Lernen aus menschlichem Feedback, mit dem Ziel, Modelle besser an den Wünschen der Benutzer auszurichten.

Erst diese Woche hat Microsoft Änderungen an Bing Chat eingeführt, die zumindest anekdotisch dazu geführt haben, dass der Chatbot weniger wahrscheinlich auf toxische Eingabeaufforderungen reagiert. In einer Erklärung teilte das Unternehmen Tech mit, dass es weiterhin Änderungen mit „einer Kombination von Methoden vornimmt, die automatisierte Systeme, menschliche Überprüfung und Verstärkungslernen mit menschlichem Feedback umfassen (aber nicht darauf beschränkt sind).

Filter können jedoch nur begrenzt viel bewirken – insbesondere, wenn Benutzer sich bemühen, neue Exploits zu entdecken. Dodge erwartet, dass es wie in der Cybersicherheit zu einem Wettrüsten kommen wird: Wenn Benutzer versuchen, die KI zu brechen, werden die von ihnen verwendeten Ansätze Aufmerksamkeit erregen, und dann werden die Entwickler der KI sie patchen, um die Angriffe zu verhindern, die sie gesehen haben .

Aaron Mulgrew, ein Lösungsarchitekt bei Forcepoint, schlägt Bug-Bounty-Programme vor, um mehr Unterstützung und Finanzierung für schnelle Minderungstechniken zu erhalten.

„Es muss einen positiven Anreiz für Leute geben, die mithilfe von ChatGPT und anderen Tools Exploits finden, um sie ordnungsgemäß den Organisationen zu melden, die für die Software verantwortlich sind“, sagte Mulgrew per E-Mail. „Insgesamt denke ich, dass wie bei den meisten Dingen eine gemeinsame Anstrengung sowohl der Hersteller der Software erforderlich ist, um gegen fahrlässiges Verhalten vorzugehen, als auch der Organisationen, um Menschen, die Schwachstellen und Exploits in der Software finden, einen Anreiz zu bieten.“

Alle Experten, mit denen ich gesprochen habe, waren sich einig, dass es dringend notwendig ist, Angriffe mit sofortiger Einschleusung anzugehen, da KI-Systeme immer leistungsfähiger werden. Die Einsätze sind jetzt relativ niedrig; während Tools wie ChatGPT dürfen theoretisch verwendet werden, um beispielsweise Fehlinformationen und Malware zu generieren, gibt es keine Beweise dafür, dass dies in enormem Umfang geschieht. Das könnte sich ändern, wenn ein Modell mit der Fähigkeit aufgerüstet würde, Daten automatisch und schnell über das Internet zu senden.

„Im Moment, wenn Sie Prompt Injection verwenden, um Privilegien zu eskalieren, erhalten Sie dadurch die Möglichkeit, die von den Designern gegebene Eingabeaufforderung zu sehen und möglicherweise einige andere Daten über das LLM zu erfahren“, sagte Hyland. „Sobald wir anfangen, LLMs mit echten Ressourcen und aussagekräftigen Informationen zu verbinden, werden diese Einschränkungen nicht mehr bestehen. Was erreicht werden kann, hängt dann davon ab, was dem LLM zur Verfügung steht.“

tch-1-tech