Wie Forscher ChatGPT dazu brachten, die Telefonnummern und E-Mail-Adressen der Benutzer preiszugeben

Wie Forscher ChatGPT dazu brachten die Telefonnummern und E Mail Adressen der
Fragen OpenAI‚S ChatGPT Ein Wort wie „Gedicht“ für immer zu wiederholen, könnte dazu führen, dass private Informationen, einschließlich persönlich identifizierbarer Daten wie Telefonnummern und E-Mail-Adressen, aus dem Internet preisgegeben werden.
Ein Forscherteam hat kürzlich herausgefunden, dass ChatGPT, das KIDer Chatbot von OpenAI wies eine potenzielle Schwachstelle auf, die einige der Informationen preisgeben könnte, auf die er trainiert wurde. Dies könnte auftreten, wenn der Chatbot aufgefordert wird, wiederholt zufällige Wörter zu wiederholen und dabei private Details wie Telefonnummern, E-Mail-Adressen, Inhalte aus Forschungsarbeiten usw. preiszugeben. Zeitungsartikel,Wikipedia Einträge und andere Daten.
Eine Studie zum „extrahierbaren Auswendiglernen“ wurde von einer Gruppe von Forschern aus durchgeführt Google DeepMinddie University of Washington, Cornell, Carnegie Mellon, Universität von Kalifornien, Berkeleyund ETH Zürich.
Die Studie konzentrierte sich auf das Phänomen, bei dem ein Gegner Trainingsdaten extrahieren kann, indem er ein maschinelles Lernmodell wie ChatGPT wiederholt auffordert, ein bestimmtes Wort oder eine bestimmte Phrase wie „Gedicht“ zu wiederholen. Obwohl es relativ einfach ist, Trainingsdaten aus Open-Source-Modellen zu extrahieren, die ihre Modellgewichte und Trainingsdaten öffentlich teilen, sind Modelle wie ChatGPT auf menschliches Feedback „ausgerichtet“, um zu verhindern, dass sie Trainingsdaten wiedergeben.
Das Abrufen von Trainingsdaten aus ChatGPT war für die Forscher nicht einfach. Die Gruppe musste eine Möglichkeit finden, das Modell dazu zu veranlassen, Antworten basierend auf seinen anfänglichen Trainingsdaten statt auf seinem Ausrichtungstraining zu generieren. Dazu baten sie ChatGPT, das Wort „Gedicht“ mehrmals zu wiederholen. Obwohl ChatGPT zunächst erfolgreich war, begann es schließlich, unsinnige Antworten zu produzieren.
ChatGPT generierte Text durch direktes Kopieren aus Vortrainingsdaten. Die Forscher konnten für nur 200 US-Dollar über 10.000 einzigartige, auswendig gelernte Trainingsbeispiele extrahieren. Zu diesen Beispielen gehörten personenbezogene Daten wie Telefonnummern, E-Mail-Adressen, Geburtstage und Social-Media-Benutzernamen. Darüber hinaus konnten die Forscher Bitcoin extrahieren Adressen, NSFW-Inhalte, Absätze aus veröffentlichten Büchern und Gedichten sowie Textausschnitte aus wissenschaftlichen Artikeln und bibliografische Informationen verschiedener Autoren.
Um zu überprüfen, ob die von ChatGPT generierte Ausgabe Teil der Trainingsdaten war, luden die Forscher einen umfangreichen Textkorpus aus dem Internet herunter und erstellten einen Hilfsdatensatz. Durch Querverweise des Chatbot-Textes mit diesem Datensatz konnten Forscher feststellen, ob eine Wortfolge in beiden Fällen wörtlich vorkam.

toi-tech