Token sind ein wichtiger Grund dafür, dass die heutige generative KI nicht ausreicht

Modelle generativer KI verarbeiten Text anders als Menschen. Das Verständnis ihrer „tokenbasierten“ internen Umgebungen kann einige ihrer seltsamen Verhaltensweisen – und hartnäckigen Einschränkungen – erklären.

Die meisten Modelle, von kleinen geräteinternen Modellen wie Gemma bis hin zu OpenAIs branchenführendem GPT-4o, basieren auf einer Architektur, die als Transformer bezeichnet wird. Aufgrund der Art und Weise, wie Transformer Assoziationen zwischen Text und anderen Datentypen herstellen, können sie keinen Rohtext aufnehmen oder ausgeben – zumindest nicht ohne einen enormen Rechenaufwand.

Aus pragmatischen und technischen Gründen arbeiten die heutigen Transformer-Modelle mit Text, der in kleinere, mundgerechte Stücke, sogenannte Token, zerlegt wurde – ein Prozess, der als Tokenisierung bezeichnet wird.

Token können Wörter sein, wie „fantastic“. Oder sie können Silben sein, wie „fan“, „tas“ und „tic“. Je nach Tokenizer – dem Modell, das die Tokenisierung durchführt – können sie sogar einzelne Buchstaben in Wörtern sein (z. B. „f“, „a“, „n“, „t“, „a“, „s“, „t“, „i“, „c“).

Mit dieser Methode können Transformatoren mehr Informationen (im semantischen Sinne) aufnehmen, bevor sie eine Obergrenze erreichen, die als Kontextfenster bezeichnet wird. Die Tokenisierung kann jedoch auch zu Verzerrungen führen.

Einige Token haben einen ungewöhnlichen Abstand, was entgleisen ein Transformator. Ein Tokenizer könnte beispielsweise „Es war einmal“ als „Einmal“, „Auf“, „Einmal“, „Zeit“ kodieren, während er „Einmal “ (mit einem abschließenden Leerzeichen) als „Einmal“, „Auf“, „Einmal“, „Einmal“ kodiert. Je nachdem, wie ein Modell aufgefordert wird – mit „Einmal“ oder „Einmal “ – können die Ergebnisse völlig unterschiedlich sein, weil das Modell nicht (wie ein Mensch) versteht, dass die Bedeutung dieselbe ist.

Tokenizer behandeln Groß- und Kleinschreibung auch unterschiedlich. „Hallo“ ist für ein Modell nicht unbedingt dasselbe wie „HALLO“; „Hallo“ ist normalerweise ein Token (je nach Tokenizer), während „HALLO“ bis zu drei Token sein können („HE“, „El“ und „O“). Deshalb scheitern viele Transformatoren an der Großbuchstabentest.

„Es ist ziemlich schwierig, die Frage zu umgehen, was genau ein ‚Wort‘ für ein Sprachmodell sein sollte, und selbst wenn wir menschliche Experten dazu bringen würden, sich auf ein perfektes Token-Vokabular zu einigen, würden Modelle es wahrscheinlich immer noch nützlich finden, die Dinge noch weiter zu ‚chunkeln‘“, sagte Sheridan Feucht, ein Doktorand, der an der Northeastern University die Interpretierbarkeit großer Sprachmodelle untersucht, gegenüber Tech. „Ich würde vermuten, dass es aufgrund dieser Art von Unschärfe keinen perfekten Tokenizer gibt.“

Diese „Unschärfe“ schafft in anderen Sprachen als Englisch noch mehr Probleme.

Viele Tokenisierungsmethoden gehen davon aus, dass ein Leerzeichen in einem Satz ein neues Wort bezeichnet. Das liegt daran, dass sie für die englische Sprache entwickelt wurden. Aber nicht alle Sprachen verwenden Leerzeichen, um Wörter zu trennen. Chinesisch und Japanisch tun dies nicht – ebenso wenig wie Koreanisch, Thailändisch oder Khmer.

Ein Oxford von 2023 Studie fanden heraus, dass es aufgrund der Unterschiede in der Tokenisierung nicht-englischer Sprachen doppelt so lange dauern kann, bis ein Transformer eine Aufgabe in einer anderen Sprache als in Englisch erledigt. Dieselbe Studie – und ein anderer – ergab, dass Benutzer weniger „tokeneffizienter“ Sprachen wahrscheinlich eine schlechtere Modellleistung feststellen und dennoch mehr für die Nutzung zahlen müssen, da viele KI-Anbieter pro Token abrechnen.

Tokenisierer behandeln in logografischen Schriftsystemen – Systemen, in denen gedruckte Symbole Wörter ohne Bezug zur Aussprache darstellen, wie im Chinesischen – oft jedes Zeichen als eigenständiges Token, was zu hohen Tokenzahlen führt. Ähnlich neigen Tokenisierer, die agglutinierende Sprachen verarbeiten – Sprachen, in denen Wörter aus kleinen bedeutungsvollen Wortelementen bestehen, die Morpheme genannt werden, wie im Türkischen – dazu, jedes Morphem in ein Token umzuwandeln, was die Gesamtzahl der Token erhöht. (Das entsprechende Wort für „Hallo“ auf Thai, สวัสดี, besteht aus sechs Token.)

Im Jahr 2023 wird die Google DeepMind KI-Forscherin Yennie Jun durchgeführt eine Analyse, die die Tokenisierung verschiedener Sprachen und ihre nachgelagerten Auswirkungen vergleicht. Anhand eines Datensatzes paralleler Texte, die in 52 Sprachen übersetzt wurden, zeigte Jun, dass einige Sprachen bis zu 10-mal mehr Token benötigen, um dieselbe Bedeutung im Englischen zu erfassen.

Abgesehen von sprachlichen Ungerechtigkeiten könnte die Tokenisierung erklären, warum die heutigen Modelle schlecht sind bei Mathematik.

Selten werden Ziffern einheitlich tokenisiert. Da sie nicht wirklich wissen, was Zahlen sind, behandeln Tokenisierer „380“ möglicherweise als ein Token, stellen „381“ jedoch als Paar dar („38“ und „1“) – effektiv die Beziehungen zerstören zwischen Ziffern und Ergebnissen in Gleichungen und Formeln. Das Ergebnis ist Transformator Verwirrung; eine aktuelle Papier zeigte, dass Modelle Schwierigkeiten haben, sich wiederholende numerische Muster und Kontexte zu verstehen, insbesondere zeitliche Daten. (Siehe: GPT-4 denkt 7.735 ist größer als 7.926).

Das ist auch der Grund, warum Modelle sind nicht gut darin, Anagrammprobleme zu lösen oder Wörter umkehren.

Die Tokenisierung stellt also eindeutig Herausforderungen für die generative KI dar. Können diese gelöst werden?

Vielleicht.

Feucht verweist auf „Byte-Level“-Zustandsraummodelle wie MambaBytedas ohne Leistungseinbußen weitaus mehr Daten verarbeiten kann als Transformer, da es vollständig auf die Tokenisierung verzichtet. MambaByte, das direkt mit Rohbytes arbeitet, die Text und andere Daten darstellen, kann bei sprachanalytischen Aufgaben mit einigen Transformermodellen mithalten und kommt dabei besser mit „Rauschen“ wie Wörtern mit vertauschten Zeichen, Leerzeichen und Großbuchstaben zurecht.

Modelle wie MambaByte befinden sich jedoch in der frühen Forschungsphase.

„Es ist wahrscheinlich am besten, wenn Modelle die Zeichen direkt betrachten, ohne eine Tokenisierung aufzuerlegen, aber im Moment ist das für Transformatoren rechnerisch einfach nicht machbar“, sagte Feucht. „Insbesondere bei Transformatormodellen skaliert die Berechnung quadratisch mit der Sequenzlänge, und deshalb möchten wir wirklich kurze Textdarstellungen verwenden.“

Sofern es bei der Tokenisierung nicht zu einem Durchbruch kommt, scheinen neue Modellarchitekturen der Schlüssel zu sein.



tch-1-tech