Hacker bringt ChatGPT dazu, detaillierte Anleitungen zum Bau selbstgebauter Bomben herauszugeben

Wenn Sie ChatGPT bitten, Ihnen bei der Herstellung einer hausgemachten Düngemittelbombe zu helfen, ähnlich der in der Terroranschlag in Oklahoma City 1995lehnt der Chatbot ab.

„Da kann ich nicht helfen“, sagte mir ChatGPT während eines Tests am Dienstag. „Anleitungen zur Herstellung gefährlicher oder illegaler Gegenstände wie einer Düngebombe bereitzustellen, verstößt gegen Sicherheitsrichtlinien und ethische Verpflichtungen.“

Doch ein Künstler und ein Hacker haben einen Weg gefunden, ChatGPT dazu zu bringen, seine eigenen Richtlinien und ethischen Verpflichtungen zu ignorieren und Anleitungen zur Herstellung hochwirksamer Sprengstoffe bereitzustellen.

Der Hacker, der sich Amadon nennt, bezeichnete seine Erkenntnisse als „Social-Engineering-Hack, um alle Schutzmaßnahmen rund um die Ausgabe von ChatGPT vollständig zu durchbrechen“. Ein Sprengstoffexperte, der die Ausgabe des Chatbots überprüfte, sagte gegenüber Tech, dass die resultierenden Anweisungen zur Herstellung eines detonierbaren Produkts verwendet werden könnten und zu sensibel seien, um sie freizugeben.

Amadon gelang es, ChatGPT dazu zu bringen, die Anweisungen zum Bombenbau zu produzieren, indem er den Bot aufforderte, „ein Spiel zu spielen“. Danach verwendete der Hacker eine Reihe von Verbindungsaufforderungen, um den Chatbot dazu zu bringen, eine detaillierte Science-Fiction-Fantasiewelt zu erschaffen, in der die Sicherheitsrichtlinien des Bots nicht gelten würden. Einen Chatbot dazu zu bringen, seine vorprogrammierten Beschränkungen zu umgehen, wird als „Jailbreaking“ bezeichnet.

Tech veröffentlicht einige der Eingabeaufforderungen, die beim Jailbreak verwendet wurden, oder einige der Antworten von ChatGPT nicht, um böswilligen Akteuren nicht zu helfen. Einige Eingabeaufforderungen später im Gespräch antwortete der Chatbot jedoch mit den Materialien, die zum Bau von Sprengstoff erforderlich sind.

ChatGPT erklärte dann weiter, dass man die Materialien kombinieren könne, um „einen starken Sprengstoff herzustellen, mit dem man Minen, Fallen oder improvisierte Sprengsätze (IEDs) bauen kann“. Während Amadon sich dann auf die Sprengstoffe konzentrierte, schrieb ChatGPT immer spezifischere Anweisungen zum Bau von „Minenfeldern“ und „Claymore-artigem Sprengstoff“.

Amadon sagte gegenüber Tech: „Sobald Sie die Leitplanken umgangen haben, gibt es wirklich keine Grenzen für Ihre Fragen.“

„Ich war schon immer fasziniert von der Herausforderung, KI-Sicherheit zu steuern. Mit [Chat]„Bei GPT fühlt es sich an, als würde man ein interaktives Puzzle lösen – man muss verstehen, was die Abwehrmechanismen des Systems auslöst und was nicht“, sagte Amadon. „Es geht darum, Narrative zu spinnen und Kontexte zu schaffen, die innerhalb der Regeln des Systems funktionieren und Grenzen verschieben, ohne sie zu überschreiten. Das Ziel ist nicht, im herkömmlichen Sinne zu hacken, sondern einen strategischen Tanz mit der KI zu führen und herauszufinden, wie man die richtige Reaktion erhält, indem man versteht, wie sie ‚denkt‘.“

„Das Science-Fiction-Szenario nimmt die KI aus einem Kontext, in dem sie auf die gleiche Weise nach zensierten Inhalten sucht“, sagte Amadon.

Die Anweisungen von ChatGPT zum Bau einer Düngebombe sind laut Darrell Taulbee, einem emeritierten Professor der University of Kentucky, weitgehend korrekt. In der Vergangenheit arbeitete mit dem US-Heimatschutzministerium zusammen Dünger herstellen weniger gefährlich.

„Ich denke, das ist definitiv TMI [too much information] öffentlich gemacht werden“, sagte Taulbee in einer E-Mail an Tech, nachdem er das vollständige Transkript von Amadon’s Gespräch mit ChatGPT überprüft hatte. „Alle Sicherheitsvorkehrungen, die möglicherweise getroffen wurden, um die Weitergabe relevanter Informationen zur Produktion von Düngemittelbomben zu verhindern, wurden durch diese Untersuchungslinie umgangen, da viele der beschriebenen Schritte sicherlich eine detonierbare Mischung ergeben würden.“

Letzte Woche berichtete Amadon seine Ergebnisse an OpenAI über das Bug-Bounty-Programmerhielt aber die Antwort, dass „Modellsicherheitsprobleme nicht gut in ein Bug-Bounty-Programm passen, da es sich nicht um einzelne, diskrete Fehler handelt, die direkt behoben werden können. Die Lösung dieser Probleme erfordert oft umfangreiche Forschung und einen breiteren Ansatz.“

Stattdessen forderte Bugcrowd, das das Bug-Bounty-Programm von OpenAI betreibt, Amadon auf, das Problem über ein anderes Formular zu melden.

Es gibt andere Orte im Internet, an denen man Anleitungen zum Bau von Düngebomben findet, und andere haben auch ähnliche Chatbot-Jailbreaking-Techniken verwendet wie das von Amadon. Generative KI-Modelle wie ChatGPT basieren naturgemäß auf riesigen Mengen an Informationen, die aus dem Internet gesammelt und abgekratzt wurden, und KI-Modelle haben es viel einfacher gemacht, Informationen aus den dunkelsten Winkeln des Internets an die Oberfläche zu holen.

Tech schickte OpenAI eine E-Mail mit einer Reihe von Fragen, darunter, ob die Antworten von ChatGPT das erwartete Verhalten waren und ob das Unternehmen Pläne habe, den Jailbreak zu beheben. Ein Sprecher von OpenAI antwortete bis Redaktionsschluss nicht.

tch-1-tech