Alle generativen KI-Modelle halluzinieren, von Googles Gemini über Anthropics Claude bis hin zum neueste Stealth-Version von OpenAIs GPT-4o. Mit anderen Worten: Die Modelle sind unzuverlässige Erzähler – manchmal mit urkomischer Wirkung, manchmal problematisch so.
Aber nicht alle Modelle erfinden Dinge mit der gleichen Geschwindigkeit. Und die Art der Unwahrheiten, die sie verbreiten, hängt davon ab, welchen Informationsquellen sie ausgesetzt waren.
A aktuelle Studie von Forschern An der Cornell University, den Universitäten von Washington und Waterloo sowie dem gemeinnützigen Forschungsinstitut AI2 wurde versucht, Halluzinationen zu vergleichen, indem Modelle wie GPT-4o anhand von vertrauenswürdigen Quellen zu Themen von Recht und Gesundheit bis hin zu Geschichte und Geographie überprüft wurden. Dabei stellten sie fest, dass kein Modell bei allen Themen besonders gut funktionierte und dass die Modelle, die am wenigsten halluzinierten, dies teilweise deshalb taten, weil sie sich weigerten, Fragen zu beantworten, die sie sonst falsch beantworten würden.
„Die wichtigste Erkenntnis aus unserer Arbeit ist, dass wir den Ergebnissen der Modellgenerationen noch nicht vollständig vertrauen können“, sagte Wenting Zhao, Doktorand an der Cornell University und Co-Autor der Studie, gegenüber Tech. „Derzeit können selbst die besten Modelle nur in etwa 35 % der Fälle halluzinationsfreien Text generieren.“
Es gab andere akademische Versuche, die „Faktizität“ von Modellen zu untersuchen, einschließlich einer von einem separaten AI2-angeschlossenen Team. Aber Zhao merkt an, dass diese früheren Tests den Modellen Fragen stellten, deren Antworten leicht auf Wikipedia zu finden sind – nicht gerade die schwierigste Frage, wenn man bedenkt die meisten Modelle werden mit Wikipedia-Daten trainiert.
Um ihren Benchmark anspruchsvoller zu gestalten – und um die Arten von Fragen, die Menschen an Modelle stellen, genauer widerzuspiegeln – identifizierten die Forscher Themen im Internet, die nicht haben einen Wikipedia-Bezug. Etwas mehr als die Hälfte der Fragen in ihrem Test können nicht mit Wikipedia beantwortet werden (einige Fragen mit Wikipedia-Quellen wurden sicherheitshalber hinzugefügt) und berühren Themen wie Kultur, Geographie, Astronomie, Popkultur, Finanzen, Medizin, Informatik und Prominente.
Für ihre Studie untersuchten die Forscher über ein Dutzend verschiedene beliebte Modelle, von denen viele im vergangenen Jahr veröffentlicht wurden. Neben GPT-4o testeten sie „offene“ Modelle wie Metas Llama 3 70B, Mistrals Mixtral 8x22B und Coheres Command R+ sowie Gated-Behind-API-Modelle wie Perplexitys Sonar-Large (das auf Llama basiert), Googles Gemini 1.5 Pro und Anthropics Claude 3 Opus.
Die Ergebnisse deuten darauf hin, dass Models heutzutage nicht viel weniger halluzinieren, trotz gegenteiliger Behauptungen von OpenAI, Anthropisch und die anderen großen Akteure der generativen KI.
GPT-4o und OpenAIs viel älteres Flaggschiff GPT-3.5 schnitten im Benchmark hinsichtlich des Prozentsatzes der Fragen, die sie sachlich richtig beantworteten, etwa gleich ab. (GPT-4o war geringfügig besser.) Die Modelle von OpenAI waren insgesamt am wenigsten halluzinatorisch, gefolgt von Mixtral 8x22B, Command R und den Sonar-Modellen von Perplexity.
Fragen zu Prominenten und Finanzen machten den Modellen die größten Schwierigkeiten, aber Fragen zu Geographie und Informatik konnten die Modelle am einfachsten beantworten (vielleicht weil ihre Trainingsdaten mehr Verweise darauf enthielten). In Fällen, in denen die Quelle einer Antwort nicht Wikipedia war, antwortete jedes Modell im Durchschnitt weniger sachlich (aber insbesondere GPT-3.5 und GPT-4o), was darauf hindeutet, dass sie alle stark von Wikipedia-Inhalten beeinflusst sind.
Sogar Modelle, die im Internet nach Informationen suchen können, wie Command R und Perplexitys Sonar-Modelle, hatten im Benchmark mit „Nicht-Wiki“-Fragen Probleme. Die Modellgröße spielte keine große Rolle; kleinere Modelle (z. B. Anthropics Claude 3 Haiku) halluzinierten ungefähr so häufig wie größere, scheinbar leistungsfähigere Modelle (z. B. Claude 3 Opus).
Was also bedeutet das alles – und wo sind die Verbesserungen, die die Anbieter versprochen haben?
Nun, wir würden es den Anbietern durchaus zutrauen, ihre Behauptungen zu übertreiben. Aber eine wohlwollendere Sichtweise ist, dass die Benchmarks, die sie verwenden, für diesen Zweck nicht geeignet sind. Wie wir bereits zuvor geschrieben haben, sind viele, wenn nicht die meisten KI-Bewertungen flüchtig und ohne wichtigen Kontext und dazu verdammt, Opfer zu werden Goodharts Gesetz.
Ungeachtet dessen geht Zhao davon aus, dass das Problem der Halluzinationen „noch lange Zeit bestehen bleiben“ werde.
„Die empirischen Ergebnisse unserer Arbeit zeigen, dass trotz des Versprechens, dass bestimmte Methoden Halluzinationen reduzieren oder eliminieren, die tatsächliche Verbesserung, die mit diesen Methoden erreicht werden kann, begrenzt ist“, sagte sie. „Darüber hinaus zeigt unsere Analyse, dass selbst das im Internet gefundene Wissen oft widersprüchlich sein kann, teilweise weil die von Menschen erstellten Trainingsdaten ebenfalls Halluzinationen enthalten können.“
Eine Übergangslösung könnte darin bestehen, die Modelle einfach so zu programmieren, dass sie häufiger Antworten verweigern – das wäre das technische Äquivalent dazu, einem Besserwisser zu sagen, er solle damit aufhören.
Bei den Tests der Forscher beantwortete Claude 3 Haiku nur rund 72 % der gestellten Fragen und verzichtete auf die übrigen Antworten. Berücksichtigt man die Enthaltungen, war Claude 3 Haiku tatsächlich das faktentreueste Modell von allen – zumindest in dem Sinne, dass es am wenigsten log.
Aber werden die Leute ein Modell verwenden, das nicht viele Fragen beantwortet? Zhao glaubt das nicht und meint, die Anbieter sollten mehr Zeit und Mühe auf die Forschung zur Reduzierung von Halluzinationen verwenden. Halluzinationen völlig zu eliminieren, sei vielleicht nicht möglich, aber sie könnten durch menschliches Eingreifen bei der Faktenprüfung und Zitieren während der Entwicklung eines Modells gemildert werden, behauptet sie.
„Es müssen Richtlinien und Vorschriften entwickelt werden, um sicherzustellen, dass menschliche Experten immer in den Prozess eingebunden sind, um die von generativen KI-Modellen generierten Informationen zu überprüfen und zu validieren“, fügte Zhao hinzu. „Es gibt noch zahlreiche Möglichkeiten, in diesem Bereich bedeutende Auswirkungen zu erzielen, beispielsweise durch die Entwicklung fortschrittlicher Tools zur Faktenprüfung für beliebige freie Texte, die Bereitstellung von Zitaten für sachliche Inhalte und das Anbieten von Korrekturen für halluzinierte Texte.“