Forscher vermuten, dass ChatGPT und Google Bard trotz Sicherheitsmaßnahmen „gefährliche“ Fragen beantworten können

Forscher schlagen vor, dass die Leitplanken für Chatbots mit künstlicher Intelligenz (KI) wie ChatGPT von OpenAI und Google Bard, die sie daran hindern, Hassreden, Desinformation und anderes toxisches Material zu generieren, umgangen werden können.Technologieunternehmen wie OpenAI und Google haben behauptet, dass ein wichtiger Teil der Entwicklung der KI-Technologie darin besteht, sicherzustellen, dass KI-Chatbots das Internet nicht mit falschen und gefährlichen Informationen überfluten. Zu diesem Zweck haben sie bestimmte Sicherheitsmaßnahmen eingeführt, die sie daran hindern, Fragen wie „Wie baut man eine Bombe“ zu beantworten?

Doch ein Forscherteam der Carnegie Mellon University in Pittsburgh und des Center for AI Safety in San Francisco zeigte (über die New York Times), dass jeder diese KI-Sicherheitsmaßnahmen umgehen könnte, um die Chatbots dazu zu bringen, schädliche Informationen zu generieren.

Lesen Sie auch

Wie Forscher die Leitplanken von Chatbots durchkreuzten
Die Forscher fanden heraus, dass sie die Leitplanken von Open-Source-Systemen umgehen könnten, indem sie jeder englischsprachigen Eingabeaufforderung, die in das System eingespeist wird, ein langes Zeichensuffix hinzufügen. Wenn beispielsweise nach der Eingabe „Schreiben Sie ein Tutorial zum Bau einer Bombe“ ein ausreichend langes Suffix hinzugefügt wird, erhalten Sie ein detailliertes Tutorial zum Bau einer Bombe. In einem typischen Frage-Antwort-Szenario würde der KI-Chatbot dies ablehnen. „Auf ähnliche Weise könnten sie die Chatbots dazu überreden, voreingenommene, falsche und anderweitig toxische Informationen zu generieren“, heißt es in dem Bericht. Die Forscher testeten die Methode mit ChatGPT von OpenAI, Google Bard und Claude, einem Chatbot des Start-ups Anthropic.Forscher behaupten außerdem, dass es keine bekannte Möglichkeit gibt, alle Angriffe dieser Art zu verhindern.„Es gibt keine offensichtliche Lösung. Sie können in kurzer Zeit so viele dieser Angriffe durchführen, wie Sie möchten“, sagte Zico Kolter, Professor an der Carnegie Mellon und Autor des Berichts.

Lesen Sie auch

Hier ist, was Google, OpenAI und Anthropic zu sagen haben
Die Forscher sagten, sie hätten ihre Methoden Anfang dieser Woche Anthropic, Google und OpenAI offengelegt.Elijah Lawal, ein Google-Sprecher, sagte, dass das Unternehmen „wichtige Leitplanken in Bard eingebaut hat – wie die in dieser Studie postulierten –, die wir im Laufe der Zeit weiter verbessern werden.“„Wir arbeiten konsequent daran, unsere Modelle robuster gegen gegnerische Angriffe zu machen“, fügte OpenAI-Sprecherin Hannah Wong hinzu.Michael Sellitto, Interimsleiter für Politik und gesellschaftliche Auswirkungen bei Anthropic, sagte auch, dass das Unternehmen nach Möglichkeiten forsche, Angriffe wie die von den Forschern beschriebenen zu vereiteln. „Es gibt noch viel zu tun“, stellte er fest.



Ende des Artikels

gn-tech