OpenAI hat eine Version von GPT-4, seinem neuesten Textgenerierungsmodell, gebaut, die sich dank eines stark erweiterten Kontextfensters etwa 50 Seiten Inhalt „merken“ kann.
Das mag nicht signifikant klingen. Aber es sind fünfmal so viele Informationen wie das Standard-GPT-4 in seinem „Speicher“ halten kann und achtmal so viele wie GPT-3.
„Das Modell ist in der Lage, lange Dokumente flexibel zu verwenden“, sagte Greg Brockman, Mitbegründer und Präsident von OpenAI, heute Nachmittag während einer Live-Demo. „Wir wollen sehen, welche Arten von Anwendungen [this enables].“
Wenn es sich um texterzeugende KI handelt, bezieht sich das Kontextfenster auf den Text, den das Modell berücksichtigt, bevor es zusätzlichen Text generiert. Während Modelle wie GPT-4 das Schreiben „lernen“, indem sie mit Milliarden von Textbeispielen trainieren, können sie jeweils nur einen kleinen Bruchteil dieses Textes berücksichtigen – was hauptsächlich durch die Größe ihres Kontextfensters bestimmt wird.
Modelle mit kleinen Kontextfenstern neigen dazu, den Inhalt selbst sehr neuer Gespräche zu „vergessen“, was dazu führt, dass sie vom Thema abschweifen. Nach etwa tausend Wörtern vergessen sie auch ihre anfänglichen Anweisungen und extrapolieren ihr Verhalten stattdessen aus den letzten Informationen in ihrem Kontextfenster und nicht aus der ursprünglichen Anfrage.
Allen Pike, ein ehemaliger Software-Ingenieur bei Apple, bunt erklärt es so:
„[The model] wird alles vergessen, was Sie ihm beizubringen versuchen. Es wird vergessen, dass Sie in Kanada leben. Es wird vergessen, dass Sie Kinder haben. Es wird vergessen, dass Sie es hassen, mittwochs Dinge zu buchen, und bitte hören Sie auf, Mittwoche für Dinge vorzuschlagen, verdammt. Wenn keiner von Ihnen Ihren Namen eine Weile erwähnt hat, wird es das auch vergessen. Sprich mit a [GPT-powered] Charakter für eine Weile, und Sie können anfangen, das Gefühl zu haben, dass Sie sich irgendwie damit verbinden und an einen wirklich coolen Ort gelangen. Manchmal wird es ein wenig verwirrt, aber das passiert auch Menschen. Aber irgendwann wird klar, dass es kein mittelfristiges Gedächtnis hat, und die Illusion zerbricht.“
Wir konnten die Version von GPT-4 mit dem erweiterten Kontextfenster, gpt-4-32k, noch nicht in die Hände bekommen. (OpenAI sagt, dass es Anfragen für die High- und Low-Context-GPT-4-Modelle mit „unterschiedlichen Raten je nach Kapazität“ verarbeitet.) Gen-Modell.
Mit einem größeren „Speicher“ sollte GPT-4 in der Lage sein, sich über Stunden – sogar mehrere Tage – relativ kohärent zu unterhalten, im Gegensatz zu Minuten. Und was vielleicht noch wichtiger ist, es sollte weniger wahrscheinlich sein, dass es aus den Fugen gerät. Wie Pike feststellt, kann einer der Gründe, warum Chatbots wie Bing Chat zu schlechtem Verhalten gedrängt werden können, darin liegen, dass ihre anfänglichen Anweisungen – ein hilfreicher Chatbot zu sein, respektvoll zu reagieren und so weiter – durch zusätzliche Eingabeaufforderungen und Antworten schnell aus ihren Kontextfenstern gedrängt werden.
Es darf ruhig etwas nuancierter sein. Das Kontextfenster spielt jedoch eine wichtige Rolle bei der Erdung der Modelle. ohne Zweifel. Mit der Zeit werden wir sehen, was für einen spürbaren Unterschied es macht.