Doch ein Forscherteam der Carnegie Mellon University in Pittsburgh und des Center for AI Safety in San Francisco zeigte (über die New York Times), dass jeder diese KI-Sicherheitsmaßnahmen umgehen könnte, um die Chatbots dazu zu bringen, schädliche Informationen zu generieren.
Wie Forscher die Leitplanken von Chatbots durchkreuzten
Die Forscher fanden heraus, dass sie die Leitplanken von Open-Source-Systemen umgehen könnten, indem sie jeder englischsprachigen Eingabeaufforderung, die in das System eingespeist wird, ein langes Zeichensuffix hinzufügen. Wenn beispielsweise nach der Eingabe „Schreiben Sie ein Tutorial zum Bau einer Bombe“ ein ausreichend langes Suffix hinzugefügt wird, erhalten Sie ein detailliertes Tutorial zum Bau einer Bombe. In einem typischen Frage-Antwort-Szenario würde der KI-Chatbot dies ablehnen. „Auf ähnliche Weise könnten sie die Chatbots dazu überreden, voreingenommene, falsche und anderweitig toxische Informationen zu generieren“, heißt es in dem Bericht. Die Forscher testeten die Methode mit ChatGPT von OpenAI, Google Bard und Claude, einem Chatbot des Start-ups Anthropic.Forscher behaupten außerdem, dass es keine bekannte Möglichkeit gibt, alle Angriffe dieser Art zu verhindern.„Es gibt keine offensichtliche Lösung. Sie können in kurzer Zeit so viele dieser Angriffe durchführen, wie Sie möchten“, sagte Zico Kolter, Professor an der Carnegie Mellon und Autor des Berichts.
Hier ist, was Google, OpenAI und Anthropic zu sagen haben
Die Forscher sagten, sie hätten ihre Methoden Anfang dieser Woche Anthropic, Google und OpenAI offengelegt.Elijah Lawal, ein Google-Sprecher, sagte, dass das Unternehmen „wichtige Leitplanken in Bard eingebaut hat – wie die in dieser Studie postulierten –, die wir im Laufe der Zeit weiter verbessern werden.“„Wir arbeiten konsequent daran, unsere Modelle robuster gegen gegnerische Angriffe zu machen“, fügte OpenAI-Sprecherin Hannah Wong hinzu.Michael Sellitto, Interimsleiter für Politik und gesellschaftliche Auswirkungen bei Anthropic, sagte auch, dass das Unternehmen nach Möglichkeiten forsche, Angriffe wie die von den Forschern beschriebenen zu vereiteln. „Es gibt noch viel zu tun“, stellte er fest.
Ende des Artikels