Warum RAG das Halluzinationsproblem der generativen KI nicht lösen wird

Halluzinationen – im Grunde die Lügen, die generative KI-Modelle verbreiten – sind ein großes Problem für Unternehmen, die die Technologie in ihre Abläufe integrieren möchten.

Da Modelle über keine wirkliche Intelligenz verfügen und lediglich Wörter, Bilder, Sprache, Musik und andere Daten nach einem privaten Schema vorhersagen, liegen sie manchmal falsch. Sehr falsch. In einem aktuellen Artikel im Wall Street Journal sagte a Quelle erzählt von einem Fall, in dem die generative KI von Microsoft Besprechungsteilnehmer erfand und andeutete, dass es bei Telefonkonferenzen um Themen ginge, die in der Telefonkonferenz eigentlich nicht besprochen wurden.

Wie ich vor einiger Zeit schrieb, könnten Halluzinationen ein unlösbares Problem mit den heutigen transformatorbasierten Modellarchitekturen sein. Aber eine Reihe generativer KI-Anbieter schlagen dies vor dürfen durch einen technischen Ansatz namens Retrieval Augmented Generation (RAG) mehr oder weniger beseitigt werden.

So hat ein Anbieter, Squirro, wirft es:

Im Mittelpunkt des Angebots steht das in die Lösung eingebettete Konzept der Retrieval Augmented LLMs oder Retrieval Augmented Generation (RAG) … [our generative AI] ist einzigartig in seinem Versprechen, keine Halluzinationen zu verursachen. Jede generierte Information lässt sich auf eine Quelle zurückführen, was die Glaubwürdigkeit gewährleistet.

Hier ist ein ähnliche Tonhöhe von SiftHub:

Mithilfe der RAG-Technologie und fein abgestimmter großer Sprachmodelle mit branchenspezifischem Wissenstraining ermöglicht SiftHub Unternehmen, personalisierte Antworten ohne Halluzinationen zu generieren. Dies garantiert eine erhöhte Transparenz und ein geringeres Risiko und weckt absolutes Vertrauen, KI für alle ihre Bedürfnisse einzusetzen.

RAG wurde vom Datenwissenschaftler Patrick Lewis, Forscher am Meta and University College London und Hauptautor des Jahres 2020, ins Leben gerufen Papier das hat den Begriff geprägt. Auf ein Modell angewendet, ruft RAG Dokumente ab, die für eine Frage möglicherweise relevant sind – zum Beispiel eine Wikipedia-Seite über den Super Bowl –, indem es im Wesentlichen eine Stichwortsuche verwendet und das Modell dann auffordert, anhand dieses zusätzlichen Kontexts Antworten zu generieren.

„Wenn Sie mit einem generativen KI-Modell wie ChatGPT oder Llama interagieren und eine Frage stellen, antwortet das Modell standardmäßig aus seinem ‚parametrischen Gedächtnis‘ – also aus dem Wissen, das als Ergebnis in seinen Parametern gespeichert ist.“ Training mit riesigen Datenmengen aus dem Internet“, erklärte David Wadden, Forschungswissenschaftler bei AI2, der KI-fokussierten Forschungsabteilung des gemeinnützigen Allen Institute. „Aber genau wie Sie wahrscheinlich genauere Antworten geben, wenn Sie eine Referenz haben [like a book or a file] Das Gleiche gilt in manchen Fällen auch für Models.“

RAG ist unbestreitbar nützlich – es ermöglicht die Zuordnung von Dingen, die ein Modell generiert, zu abgerufenen Dokumenten, um deren Faktizität zu überprüfen (und als zusätzlichen Vorteil potenziell urheberrechtsverletzendes Aufstoßen zu vermeiden). Mit RAG können auch Unternehmen, die nicht möchten, dass ihre Dokumente zum Trainieren eines Modells verwendet werden – beispielsweise Unternehmen in stark regulierten Branchen wie dem Gesundheitswesen und dem Recht –, Modellen den Zugriff auf diese Dokumente auf sicherere und temporärere Weise ermöglichen.

Aber RAG auf jeden Fall kippen Verhindern Sie, dass ein Model halluziniert. Und es gibt Einschränkungen, die viele Anbieter beschönigen.

Wadden sagt, dass RAG in „wissensintensiven“ Szenarien am effektivsten ist, in denen ein Benutzer ein Modell verwenden möchte, um einen „Informationsbedarf“ zu decken – zum Beispiel, um herauszufinden, wer letztes Jahr den Super Bowl gewonnen hat. In diesen Szenarien enthält das Dokument, das die Frage beantwortet, wahrscheinlich viele der gleichen Schlüsselwörter wie die Frage (z. B. „Super Bowl“, „letztes Jahr“), sodass es über die Schlüsselwortsuche relativ einfach zu finden ist.

Schwieriger wird es bei „begründungsintensiven“ Aufgaben wie Codierung und Mathematik, bei denen es schwieriger ist, in einer schlüsselwortbasierten Suchanfrage die Konzepte anzugeben, die zur Beantwortung einer Anfrage erforderlich sind – geschweige denn herauszufinden, welche Dokumente relevant sein könnten.

Selbst bei einfachen Fragen können Modelle durch irrelevante Inhalte in Dokumenten „abgelenkt“ werden, insbesondere bei langen Dokumenten, bei denen die Antwort nicht offensichtlich ist. Oder sie können – aus noch unbekannten Gründen – den Inhalt der abgerufenen Dokumente einfach ignorieren und sich stattdessen auf ihr parametrisches Gedächtnis verlassen.

RAG ist auch im Hinblick auf die Hardware, die für die Anwendung in großem Maßstab erforderlich ist, teuer.

Denn abgerufene Dokumente, sei es aus dem Internet, einer internen Datenbank oder anderswo, müssen – zumindest vorübergehend – im Speicher abgelegt werden, damit das Modell darauf zurückgreifen kann. Ein weiterer Aufwand ist die Berechnung des erweiterten Kontexts, den ein Modell verarbeiten muss, bevor es seine Antwort generiert. Für eine Technologie, die bereits dafür bekannt ist, dass sie selbst für grundlegende Vorgänge viel Rechenleistung und Strom benötigt, ist dies eine ernsthafte Überlegung.

Das heißt nicht, dass RAG nicht verbessert werden kann. Wadden verwies auf viele laufende Bemühungen, Modelle zu trainieren, um die von RAG abgerufenen Dokumente besser nutzen zu können.

Einige dieser Bemühungen umfassen Modelle, die „entscheiden“ können, wann sie die Dokumente verwenden, oder Modelle, die sich dafür entscheiden können, den Abruf gar nicht erst durchzuführen, wenn sie dies für unnötig halten. Andere konzentrieren sich auf Möglichkeiten zur effizienteren Indizierung umfangreicher Dokumentendatensätze und auf die Verbesserung der Suche durch bessere Darstellungen von Dokumenten – Darstellungen, die über Schlüsselwörter hinausgehen.

„Wir sind ziemlich gut darin, Dokumente basierend auf Schlüsselwörtern abzurufen, aber nicht so gut darin, Dokumente basierend auf abstrakteren Konzepten wie einer Beweistechnik, die zur Lösung eines mathematischen Problems erforderlich ist, abzurufen“, sagte Wadden. „Es sind Forschungsarbeiten erforderlich, um Dokumentdarstellungen und Suchtechniken zu entwickeln, mit denen relevante Dokumente für abstraktere Generierungsaufgaben identifiziert werden können. Ich denke, das ist zum jetzigen Zeitpunkt größtenteils eine offene Frage.“

RAG kann also dazu beitragen, die Halluzinationen eines Modells zu reduzieren – aber es ist nicht die Antwort auf alle halluzinatorischen Probleme der KI. Hüten Sie sich vor Anbietern, die etwas anderes behaupten wollen.

tch-1-tech