Große Sprachmodelle (LLMs) wie ChatGPT von OpenAI leiden alle unter dem gleichen Problem: Sie erfinden Dinge.
Die Fehler reichen von seltsam bis harmlos – wie die Behauptung, die Golden Gate Bridge sei eine gewesen transportiert in ganz Ägypten im Jahr 2016 – bis höchst problematisch, sogar gefährlich.
Ein Bürgermeister in Australien drohte kürzlich damit verklagen OpenAI, weil ChatGPT fälschlicherweise behauptete, er habe sich in einem großen Bestechungsskandal schuldig bekannt. Forscher haben herausgefunden, dass LLM-Halluzinationen ausgenutzt werden können, um bösartige Codepakete an ahnungslose Softwareentwickler zu verteilen. Und LLMs geben häufig schlechte Ratschläge zur psychischen Gesundheit und zu medizinischen Themen, wie zum Beispiel zum Weinkonsum dürfen „Krebs verhindern.“
Diese Tendenz, „Fakten“ zu erfinden, ist ein Phänomen, das als Halluzination bekannt ist und auf die Art und Weise zurückzuführen ist, wie heutige LLMs – und übrigens alle generativen KI-Modelle – entwickelt und trainiert werden.
Trainingsmodelle
Generative KI-Modelle verfügen über keine wirkliche Intelligenz – es handelt sich um statistische Systeme, die Wörter, Bilder, Sprache, Musik oder andere Daten vorhersagen. Anhand einer enormen Anzahl von Beispielen, die normalerweise aus dem öffentlichen Internet stammen, lernen KI-Modelle anhand von Mustern, einschließlich des Kontexts aller umgebenden Daten, wie wahrscheinlich es ist, dass Daten auftreten.
Wenn beispielsweise eine typische E-Mail mit dem Fragment „Ich freue mich auf …“ endet, könnte ein LLM sie mit „… auf eine Rückmeldung“ ergänzen – und folgt damit dem Muster der unzähligen E-Mails, an denen es trainiert wurde. Das bedeutet nicht, dass sich das LLM auf irgendetwas freut.
„Der aktuelle Rahmen für die Ausbildung von LLMs besteht darin, frühere Wörter für den Kontext zu verbergen oder zu ‚maskieren‘“ und das Modell vorhersagen zu lassen, welche Wörter die verborgenen ersetzen sollen, Sebastian Berns, ein Ph.D. Forscher der Queen Mary University of London sagten Tech in einem E-Mail-Interview. „Dies ähnelt konzeptionell der Verwendung von Texterkennung in iOS und dem kontinuierlichen Drücken eines der vorgeschlagenen nächsten Wörter.“
Dieser wahrscheinlichkeitsbasierte Ansatz funktioniert im großen Maßstab bemerkenswert gut – größtenteils. Aber während die Bandbreite der Wörter und ihre Wahrscheinlichkeiten sind wahrscheinlich Es ist alles andere als sicher, ob ein Text entsteht, der Sinn ergibt.
LLMs können beispielsweise etwas hervorbringen, das grammatikalisch korrekt, aber unsinnig ist – wie die Behauptung über das Golden Gate. Oder sie verbreiten Unwahrheiten und verbreiten Ungenauigkeiten in ihren Trainingsdaten. Oder sie können verschiedene Informationsquellen, einschließlich fiktiver Quellen, zusammenführen, selbst wenn diese Quellen einander eindeutig widersprechen.
Es ist nicht böswillig von Seiten der LLMs. Sie haben keine Bosheit und die Konzepte von wahr und falsch sind für sie bedeutungslos. Sie haben einfach gelernt, bestimmte Wörter oder Phrasen mit bestimmten Konzepten zu verknüpfen, auch wenn diese Assoziationen nicht korrekt sind.
„‚Halluzinationen‘ hängen mit der Unfähigkeit eines LLM zusammen, die Unsicherheit seiner eigenen Vorhersage einzuschätzen“, sagte Berns. „Ein LLM ist typischerweise darauf trainiert, immer eine Ausgabe zu erzeugen, auch wenn die Eingabe sich stark von den Trainingsdaten unterscheidet. Ein Standard-LLM hat keine Möglichkeit zu wissen, ob es in der Lage ist, eine Anfrage zuverlässig zu beantworten oder eine Vorhersage zu treffen.“
Halluzination lösen
Die Frage ist: Kann Halluzination gelöst werden? Es kommt darauf an, was Sie unter „gelöst“ verstehen.
Das behauptet Vu Ha, ein angewandter Forscher und Ingenieur am Allen Institute for Artificial Intelligence LLMs „halluzinieren und werden immer halluzinieren.“ Aber er glaubt auch, dass es konkrete Möglichkeiten gibt, Halluzinationen zu reduzieren – wenn auch nicht zu beseitigen – je nachdem, wie ein LLM ausgebildet und eingesetzt wird.
„Denken Sie über ein Frage-Antwort-System nach“, sagte Ha per E-Mail. „Es ist möglich, eine hohe Genauigkeit zu erreichen, indem eine hochwertige Wissensdatenbank mit Fragen und Antworten zusammengestellt und diese Wissensdatenbank mit einem LLM verbunden wird, um über einen abrufähnlichen Prozess genaue Antworten bereitzustellen.“
Ha veranschaulichte den Unterschied zwischen einem LLM mit einer „hochwertigen“ Wissensbasis und einem LLM mit weniger sorgfältiger Datenkuratierung. Er stellte die Frage „Wer sind die Autoren des Toolformer-Artikels?“ (Toolformer ist ein von Meta trainiertes KI-Modell) durch Microsofts LLM-gestützten Bing Chat und Googles Bard. Bing Chat listete alle acht Meta-Co-Autoren korrekt auf, während Bard das Papier fälschlicherweise den Forschern von Google und Hugging Face zuschrieb.
„Jedes eingesetzte LLM-basierte System wird halluzinieren. Die eigentliche Frage ist, ob die Vorteile die negativen Folgen der Halluzination überwiegen“, sagte Ha. Mit anderen Worten: Wenn ein Model keinen offensichtlichen Schaden anrichtet – das Model gibt zum Beispiel hin und wieder ein falsches Datum oder einen falschen Namen an –, es aber ansonsten hilfreich ist, dann könnte sich der Kompromiss lohnen. „Es geht darum, den erwarteten Nutzen der KI zu maximieren“, fügte er hinzu.
Berns wies auf eine andere Technik hin, die mit einigem Erfolg zur Reduzierung von Halluzinationen bei LLMs eingesetzt wurde: Reinforcement Learning from Human Feedback (RLHF). RLHF wurde 2017 von OpenAI eingeführt und umfasst das Training eines LLM, das anschließende Sammeln zusätzlicher Informationen zum Trainieren eines „Belohnungs“-Modells und die Feinabstimmung des LLM mit dem Belohnungsmodell über Verstärkungslernen.
In RLHF wird eine Reihe von Eingabeaufforderungen aus einem vordefinierten Datensatz durch ein LLM geleitet, um neuen Text zu generieren. Anschließend werden menschliche Annotatoren verwendet, um die Ergebnisse des LLM im Hinblick auf ihre allgemeine „Nützlichkeit“ zu ordnen – Daten, die zum Trainieren des Belohnungsmodells verwendet werden. Das Belohnungsmodell, das zu diesem Zeitpunkt jeden Text aufnehmen und ihm einen Wert dafür zuordnen kann, wie gut Menschen ihn wahrnehmen, wird dann zur Feinabstimmung der vom LLM generierten Antworten verwendet.
OpenAI nutzte RLHF, um mehrere seiner Modelle zu trainieren, darunter GPT-4. Aber auch RLHF sei nicht perfekt, warnte Berns.
„Ich glaube, dass der Spielraum an Möglichkeiten zu groß ist, um LLMs vollständig mit RLHF in Einklang zu bringen“, sagte Berns. „Im RLHF-Umfeld wird häufig ein Modell trainiert, um eine „Ich weiß nicht“-Antwort zu erzeugen [to a tricky question]Dabei stützt man sich in erster Linie auf menschliches Domänenwissen und hofft, dass das Modell es auf sein eigenes Domänenwissen verallgemeinert. Oft ist das der Fall, aber es kann etwas knifflig sein.“
Alternative Philosophien
Anzunehmen, dass Halluzinationen nicht lösbar sind, zumindest nicht mit den heutigen LLMs, ist das eine schlechte Sache? Berns glaubt das eigentlich nicht. Halluzinierende Modelle könnten die Kreativität anregen, indem sie als „co-kreativer Partner“ agieren, postuliert er – und Ergebnisse liefern, die vielleicht nicht ganz sachlich sind, aber dennoch einige nützliche Fäden zum Nachdenken enthalten. Der kreative Einsatz von Halluzinationen kann zu Ergebnissen oder Ideenkombinationen führen, die den meisten Menschen möglicherweise nicht in den Sinn kommen.
„‚Halluzinationen‘ sind ein Problem, wenn generierte Aussagen sachlich falsch sind oder allgemeine menschliche, soziale oder spezifische kulturelle Werte verletzen – in Szenarien, in denen sich eine Person darauf verlässt, dass der LLM ein Experte ist“, sagte er. „Aber bei kreativen oder künstlerischen Aufgaben kann die Fähigkeit, unerwartete Ergebnisse zu erzielen, wertvoll sein. Ein menschlicher Empfänger könnte von einer Antwort auf eine Frage überrascht sein und daher in eine bestimmte Gedankenrichtung gedrängt werden, die zu einer neuartigen Verbindung von Ideen führen könnte.“
Ha argumentierte, dass die LLMs von heute auf einem unangemessenen Niveau gehalten werden – Menschen „halluzinieren“ schließlich auch, wenn wir uns falsch an die Wahrheit erinnern oder sie auf andere Weise falsch darstellen. Aber er glaubt, dass wir bei LLMs eine kognitive Dissonanz erleben, weil die Modelle Ergebnisse liefern, die auf den ersten Blick gut aussehen, bei näherer Betrachtung jedoch Fehler enthalten.
„Einfach ausgedrückt sind LLMs, genau wie alle KI-Techniken, unvollkommen und machen daher Fehler“, sagte er. „Traditionell sind wir damit einverstanden, dass KI-Systeme Fehler machen, da wir Unvollkommenheiten erwarten und akzeptieren. Aber es ist nuancierter, wenn LLMs Fehler machen.“
Tatsächlich liegt die Antwort möglicherweise nicht darin, wie generative KI-Modelle auf technischer Ebene funktionieren. Soweit es heute eine „Lösung“ für Halluzinationen gibt, scheint es der beste Ansatz zu sein, die Vorhersagen der Modelle mit einem skeptischen Blick zu betrachten.