In der Vergangenheit und auch heute noch war ein schlechtes Gedächtnis ein Hindernis für den Nutzen textgenerierender KI. Wie ein aktueller Artikel in The Atlantic treffend setzt Selbst hochentwickelte generative Text-KI wie ChatGPT hat das Gedächtnis eines Goldfisches. Jedes Mal, wenn das Modell eine Antwort generiert, berücksichtigt es nur eine sehr begrenzte Textmenge – so kann es beispielsweise kein Buch zusammenfassen oder ein großes Codierungsprojekt rezensieren.
Aber Anthropic versucht das zu ändern.
Heute das KI-Forschungs-Startup angekündigt dass das Kontextfenster für Claude – sein Flaggschiff-Modell der textgenerierenden KI, das sich noch in der Vorschau befindet – von 9.000 Token auf 100.000 Token erweitert wurde. Das Kontextfenster bezieht sich auf den Text, den das Modell berücksichtigt, bevor es zusätzlichen Text generiert, während Token Rohtext darstellen (z. B. würde das Wort „fantastic“ in die Token „fan“, „tas“ und „tic“ aufgeteilt).
Was genau ist also die Bedeutung? Nun, wie bereits erwähnt, neigen Modelle mit kleinen Kontextfenstern dazu, den Inhalt selbst sehr aktueller Gespräche zu „vergessen“ – was dazu führt, dass sie vom Thema abschweifen. Nach etwa ein paar tausend Wörtern vergessen sie auch ihre ursprünglichen Anweisungen und extrapolieren ihr Verhalten stattdessen aus den letzten Informationen in ihrem Kontextfenster und nicht aus der ursprünglichen Anfrage.
Angesichts der Vorteile großer Kontextfenster ist es nicht verwunderlich, dass die Suche nach Möglichkeiten zu deren Erweiterung zu einem Hauptschwerpunkt von KI-Laboren wie OpenAI geworden ist, die ein ganzes Team diesem Thema gewidmet haben. GPT-4 von OpenAI hielt die bisherige Krone in Bezug auf die Größe der Kontextfenster und wog im oberen Preissegment 32.000 Token – aber die verbesserte Claude-API übertrifft das.
Mit einem größeren „Gedächtnis“ sollte Claude in der Lage sein, sich stunden- oder sogar mehrere Tage lang relativ zusammenhängend zu unterhalten, im Gegensatz zu Minuten. Und was vielleicht noch wichtiger ist: Es sollte weniger wahrscheinlich sein, dass es aus den Fugen gerät.
In einem Blogbeitrag weist Anthropic auf die weiteren Vorteile von Claudes erweitertem Kontextfenster hin, darunter die Fähigkeit des Modells, Hunderte von Seiten mit Materialien zu verarbeiten und zu analysieren. Über das Lesen langer Texte hinaus kann das verbesserte Claude dabei helfen, Informationen aus mehreren Dokumenten oder sogar einem Buch abzurufen, sagt Anthropic, und Fragen beantworten, die eine „Synthese von Wissen“ über viele Teile des Textes hinweg erfordern.
Anthropic listet einige mögliche Anwendungsfälle auf:
- Dokumente wie Jahresabschlüsse oder Forschungsarbeiten verdauen, zusammenfassen und erläutern
- Analyse der Risiken und Chancen eines Unternehmens anhand seiner Geschäftsberichte
- Abwägen der Vor- und Nachteile einer Rechtsvorschrift
- Identifizieren von Risiken, Themen und unterschiedlichen Argumentationsformen in juristischen Dokumenten.
- Lesen Sie Hunderte Seiten Entwicklerdokumentation durch und finden Sie Antworten auf technische Fragen
- Schnelles Prototyping, indem eine gesamte Codebasis in den Kontext eingefügt und intelligent darauf aufgebaut oder geändert wird
„Der durchschnittliche Mensch kann 100.000 Texteinheiten in etwa fünf Stunden lesen, und dann braucht er möglicherweise wesentlich länger, um diese Informationen zu verarbeiten, sich zu merken und zu analysieren“, fährt Anthropic fort. „Claude kann das jetzt in weniger als einer Minute erledigen. Zum Beispiel haben wir den gesamten Text von „Der große Gatsby“ in Claude geladen … und eine Zeile geändert, um zu sagen, dass Mr. Carraway „ein Software-Ingenieur war, der bei Anthropic an Werkzeugen für maschinelles Lernen arbeitet.“ Als wir das Modell aufforderten, den Unterschied zu erkennen, antwortete es innerhalb von 22 Sekunden mit der richtigen Antwort.“
Längere Kontextfenster lösen die anderen speicherbezogenen Herausforderungen bei großen Sprachmodellen nicht. Claude kann, wie die meisten Modelle seiner Klasse, Informationen nicht von einer Sitzung zur nächsten behalten. Und anders als das menschliche Gehirn behandelt es jede Information als gleich wichtig, was es zu einem nicht besonders zuverlässigen Erzähler macht. Einige Experten gehen davon aus, dass die Lösung dieser Probleme völlig neue Modellarchitekturen erfordert.
Im Moment scheint Anthropic jedoch im Vordergrund zu stehen.