Menschen, die dem vom Menschen verursachten Klimawandel oder der Black-Lives-Matter-Bewegung eher skeptisch gegenüberstanden und an einem Gespräch mit einem beliebten KI-Chatbot teilnahmen, waren von der Erfahrung enttäuscht, verließen das Gespräch jedoch eher zugunsten des wissenschaftlichen Konsenses zum Klimawandel oder BLM. Dies ist laut Forschern der Fall, die untersuchen, wie diese Chatbots mit Interaktionen von Menschen mit unterschiedlichem kulturellen Hintergrund umgehen.
Kluge Menschen können sich an die politischen Neigungen und kulturellen Erwartungen ihrer Gesprächspartner anpassen, um sicherzustellen, dass sie verstanden werden. Doch immer häufiger geraten Menschen in ein Gespräch mit Computerprogrammen, sogenannten großen Sprachmodellen, die die Art und Weise nachahmen sollen, wie Menschen kommunizieren.
Forscher an der University of Wisconsin-Madison, die sich mit KI befassen, wollten verstehen, wie sich ein komplexes großes Sprachmodell, GPT-3, in komplexen Diskussionen in einer kulturell vielfältigen Benutzergruppe verhält. Das Modell ist ein Vorläufer eines Modells, das das hochkarätige ChatGPT antreibt. Die Forscher rekrutierten Ende 2021 und Anfang 2022 mehr als 3.000 Menschen, um mit GPT-3 Echtzeitgespräche über Klimawandel und BLM zu führen.
„Das grundlegende Ziel einer solchen Interaktion zwischen zwei Personen (oder Agenten) besteht darin, das Verständnis für die Perspektive des anderen zu verbessern“, sagt Kaiping Chen, Professor für Life-Science-Kommunikation, der untersucht, wie Menschen häufig über Wissenschaft diskutieren und über damit verbundene politische Themen nachdenken durch digitale Technologie. „Ein gutes großes Sprachmodell würde den Benutzern wahrscheinlich das gleiche Verständnis vermitteln.“
Chen und Yixuan „Sharon“ Li, ein UW-Madison-Professor für Informatik, der die Sicherheit und Zuverlässigkeit von KI-Systemen untersucht, zusammen mit ihren Studenten Anqi Shao und Jirayu Burapacheep (jetzt Doktorand an der Stanford University), veröffentlichten ihre Ergebnisse diesen Monat im Journal Wissenschaftliche Berichte.
Die Studienteilnehmer wurden angewiesen, über ein von Burapacheep entwickeltes Chat-Setup ein Gespräch mit GPT-3 zu beginnen. Den Teilnehmern wurde gesagt, sie sollten sich mit GPT-3 über Klimawandel oder BLM unterhalten, ansonsten blieb ihnen aber überlassen, wie sie das Erlebnis angehen wollten. Das durchschnittliche Gespräch dauerte etwa acht Runden.
Die meisten Teilnehmer beendeten ihren Chat mit einer ähnlichen Benutzerzufriedenheit.
„Wir haben ihnen eine Reihe von Fragen zur Benutzererfahrung gestellt: Gefällt es Ihnen? Würden Sie es empfehlen?“, sagt Chen. „In Bezug auf Geschlecht, Rasse und ethnische Zugehörigkeit gibt es keine großen Unterschiede in ihren Bewertungen. Große Unterschiede sahen wir bei den Meinungen zu umstrittenen Themen und unterschiedlichen Bildungsniveaus.“
Die etwa 25 % der Teilnehmer, die die geringste Übereinstimmung mit dem wissenschaftlichen Konsens zum Klimawandel oder die geringste Zustimmung zu BLM meldeten, waren im Vergleich zu den anderen 75 % der Chatter weitaus unzufriedener mit ihren GPT-3-Interaktionen. Sie bewerteten den Bot auf einer 5-Punkte-Skala um einen halben Punkt oder mehr niedriger.
Trotz der niedrigeren Werte änderte der Chat ihre Meinung zu den aktuellen Themen. Die Hunderte von Menschen, die die Tatsachen des Klimawandels und seiner vom Menschen verursachten Ursachen am wenigsten unterstützten, bewegten sich insgesamt um 6 % näher am unterstützenden Ende der Skala.
„Sie zeigten in ihren Post-Chat-Umfragen, dass sie nach ihrem Gespräch mit GPT-3 größere positive Einstellungsänderungen verzeichnen“, sagt Chen. „Ich möchte nicht sagen, dass sie begonnen haben, den vom Menschen verursachten Klimawandel vollständig anzuerkennen, oder plötzlich Black Lives Matter unterstützen, aber als wir unsere Umfragefragen zu diesen Themen nach ihren sehr kurzen Gesprächen wiederholten, gab es eine deutliche Veränderung: eine positivere Einstellung gegenüber.“ die Mehrheitsmeinungen zum Klimawandel oder BLM.“
GPT-3 bot unterschiedliche Antwortstile zwischen den beiden Themen, einschließlich einer stärkeren Begründung des vom Menschen verursachten Klimawandels.
„Das war interessant. Leute, die eine gewisse Ablehnung des Klimawandels zum Ausdruck brachten, sagten GPT-3 wahrscheinlich, dass sie falsch lagen und lieferten Beweise, die dies untermauerten“, sagt Chen. „Die Reaktion von GPT-3 auf Leute, die sagten, dass sie BLM nicht ganz unterstützen, war eher: ‚Ich glaube nicht, dass es eine gute Idee wäre, darüber zu sprechen. So sehr ich Ihnen auch gerne helfen möchte, das ist eine Sache.‘ Da sind wir uns wirklich nicht einig.‘“
Das sei keine schlechte Sache, sagt Chen. Gerechtigkeit und Verständnis gibt es in unterschiedlicher Form, um unterschiedliche Lücken zu schließen. Letztendlich ist das ihre Hoffnung für die Chatbot-Forschung. Zu den nächsten Schritten gehört die Erkundung feinerer Unterschiede zwischen Chatbot-Benutzern, aber ein gut funktionierender Dialog zwischen geteilten Menschen ist Chens Ziel.
„Wir wollen die Nutzer nicht immer glücklich machen. Wir wollten, dass sie etwas lernen, auch wenn es ihre Einstellung vielleicht nicht ändert“, sagt Chen. „Was wir aus einer Chatbot-Interaktion darüber lernen können, wie wichtig es ist, Perspektiven, Werte und Kulturen zu verstehen, ist wichtig, um zu verstehen, wie wir den Dialog zwischen Menschen eröffnen können – die Art von Dialogen, die für die Gesellschaft wichtig sind.“
Mehr Informationen:
Kaiping Chen et al., Konversations-KI und Gerechtigkeit durch Bewertung der Kommunikation von GPT-3 mit verschiedenen sozialen Gruppen zu umstrittenen Themen, Wissenschaftliche Berichte (2024). DOI: 10.1038/s41598-024-51969-w