Warum KI „Erdbeere“ nicht buchstabieren kann

Warum KI „Erdbeere nicht buchstabieren kann

Wie oft kommt der Buchstabe R im Wort „Erdbeere“ vor? Laut beeindruckenden KI-Produkten wie GPT-4o und Claude lautet die Antwort: zweimal.

Große Sprachmodelle können in Sekundenschnelle Aufsätze schreiben und Gleichungen lösen. Sie können Terabyte an Daten schneller synthetisieren, als Menschen ein Buch aufschlagen können. Doch diese scheinbar allwissenden KIs versagen manchmal so spektakulär, dass das Missgeschick zu einem viralen Meme wird, und wir alle sind erleichtert, dass vielleicht noch Zeit ist, bevor wir uns unseren neuen KI-Oberherren beugen müssen.

Das Versagen großer Sprachmodelle beim Verständnis von Buchstaben und Silben ist ein Hinweis auf eine größere Wahrheit, die wir oft vergessen: Diese Dinge haben kein Gehirn. Sie denken nicht wie wir. Sie sind weder menschlich noch besonders menschenähnlich.

Die meisten LLMs basieren auf Transformatoren, einer Art Deep-Learning-Architektur. Transformer-Modelle zerlegen Text in Token, die je nach Modell ganze Wörter, Silben oder Buchstaben sein können.

„LLMs basieren auf dieser Transformer-Architektur, die nicht wirklich Text liest. Wenn Sie eine Eingabeaufforderung eingeben, wird sie in eine Kodierung übersetzt“, sagte Matthew Guzdial, KI-Forscher und Assistenzprofessor an der University of Alberta, gegenüber Tech. „Wenn es das Wort ‚the‘ sieht, hat es diese eine Kodierung dessen, was ‚the‘ bedeutet, aber es kennt ‚T‘, ‚H‘ und ‚E‘ nicht.“

Dies liegt daran, dass die Transformatoren nicht in der Lage sind, echten Text effizient aufzunehmen oder auszugeben. Stattdessen wird der Text in numerische Darstellungen seiner selbst umgewandelt, die dann kontextualisiert werden, um der KI zu helfen, eine logische Antwort zu finden. Mit anderen Worten: Die KI weiß vielleicht, dass die Token „straw“ und „berry“ „strawberry“ bilden, aber sie versteht möglicherweise nicht, dass „strawberry“ aus den Buchstaben „s“, „t“, „r“, „a“, „w“, „b“, „e“, „r“, „r“ und „y“ in dieser bestimmten Reihenfolge besteht. Daher kann sie Ihnen nicht sagen, wie viele Buchstaben – geschweige denn wie viele „r“s – im Wort „strawberry“ vorkommen.

Dieses Problem lässt sich nicht so leicht beheben, da es in die Architektur eingebettet ist, die diese LLMs zum Funktionieren bringt.

Kyle Wiggers von Tech hat sich letzten Monat mit diesem Problem befasst und mit Sheridan Feucht gesprochen, einem Doktoranden an der Northeastern University, der sich mit LLM-Interpretierbarkeit beschäftigt.

„Es ist ziemlich schwierig, die Frage zu umgehen, was genau ein ‚Wort‘ für ein Sprachmodell sein sollte, und selbst wenn wir menschliche Experten dazu bringen würden, sich auf ein perfektes Token-Vokabular zu einigen, würden Modelle es wahrscheinlich immer noch nützlich finden, die Dinge noch weiter zu ‚chunkeln‘“, sagte Feucht gegenüber Tech. „Ich würde vermuten, dass es aufgrund dieser Art von Unschärfe keinen perfekten Tokenizer gibt.“

Dieses Problem wird noch komplexer, wenn ein LLM mehrere Sprachen lernt. Einige Tokenisierungsmethoden gehen beispielsweise davon aus, dass in einem Satz immer ein Leerzeichen vor einem neuen Wort steht, aber viele Sprachen wie Chinesisch, Japanisch, Thailändisch, Laotisch, Koreanisch, Khmer und andere verwenden keine Leerzeichen, um Wörter zu trennen. Die Google DeepMind-KI-Forscherin Yennie Jun fand in einer Studie aus dem Jahr 2023 heraus, dass einige Sprachen bis zu zehnmal so viele Token wie Englisch benötigen, um dieselbe Bedeutung zu vermitteln.

„Wahrscheinlich ist es am besten, wenn Modelle die Zeichen direkt betrachten, ohne eine Tokenisierung aufzuerlegen, aber derzeit ist das für Transformatoren rechnerisch einfach nicht machbar“, sagte Feucht.

Bildgeneratoren wie Midjourney und DALL-E verwenden nicht die Transformer-Architektur, die Textgeneratoren wie ChatGPT zugrunde liegt. Stattdessen verwenden Bildgeneratoren normalerweise Diffusionsmodelle, die ein Bild aus Rauschen rekonstruieren. Diffusionsmodelle werden anhand großer Bilddatenbanken trainiert und sind motiviert, zu versuchen, etwas nachzubilden, das dem ähnelt, was sie aus den Trainingsdaten gelernt haben.

Bildnachweise: Adobe Firefly

Asmelash Teka Hadgu, Mitbegründer von Lesan und Fellow am DAIR Institutsagte gegenüber Tech: „Bildgeneratoren funktionieren tendenziell besser bei Artefakten wie Autos und Gesichtern von Menschen und weniger gut bei kleineren Dingen wie Fingern und Handschriften.“

Dies könnte daran liegen, dass diese kleineren Details in Trainingsdatensätzen nicht so deutlich auftauchen wie Konzepte wie etwa, dass Bäume normalerweise grüne Blätter haben. Die Probleme mit Diffusionsmodellen lassen sich jedoch möglicherweise leichter beheben als die, die Transformatoren plagen. Einige Bildgeneratoren haben beispielsweise die Darstellung von Händen verbessert, indem sie mit mehr Bildern echter, menschlicher Hände trainiert haben.

„Schon letztes Jahr waren all diese Modelle wirklich schlecht bei Fingern, und das ist genau das gleiche Problem wie bei Text“, erklärte Guzdial. „Sie werden lokal wirklich gut darin, also wenn Sie sich eine Hand mit sechs oder sieben Fingern ansehen, könnten Sie sagen: ‚Oh wow, das sieht aus wie ein Finger.‘ Ähnlich verhält es sich mit dem generierten Text. Sie könnten sagen, das sieht aus wie ein ‚H‘ und das sieht aus wie ein ‚P‘, aber sie sind wirklich schlecht darin, diese ganzen Dinge zusammenzustrukturieren.“

Warum KI „Erdbeere nicht buchstabieren kann.webp
Bildnachweise: Microsoft Designer (DALL-E 3)

Wenn Sie daher einen KI-Bildgenerator bitten, ein Menü für ein mexikanisches Restaurant zu erstellen, erhalten Sie möglicherweise normale Gerichte wie „Tacos“, wahrscheinlicher jedoch Angebote wie „Tamilos“, „Enchidaa“ und „Burhiltos“.

Während diese Memes über die Rechtschreibung von „Strawberry“ im Internet um sich greifen, arbeitet OpenAI an einem neuen KI-Produkt mit dem Codenamen Strawberry, das noch geschickter im Denken sein soll. Das Wachstum von LLMs wurde durch die Tatsache begrenzt, dass es einfach nicht genug Trainingsdaten auf der Welt gibt, um Produkte wie ChatGPT genauer zu machen. Aber Strawberry kann angeblich genaue synthetische Daten generieren, um die LLMs von OpenAI noch besser zu machen. Laut Die InformationenStrawberry kann die Connections-Worträtsel der New York Times lösen, deren Lösung kreatives Denken und Mustererkennung erfordert, und kann mathematische Gleichungen lösen, die es noch nie zuvor gesehen hat.

Google DeepMind hat kürzlich enthüllt AlphaProof und AlphaGeometry 2, KI-Systeme für formales mathematisches Denken. Google sagt, diese beiden Systeme hätten vier von sechs Aufgaben der Internationalen Mathematik-Olympiade gelöst, was eine ausreichend gute Leistung wäre, um bei dem prestigeträchtigen Wettbewerb eine Silbermedaille zu gewinnen.

Es ist ein bisschen trollig, dass Memes über KI, die nicht in der Lage ist, „Erdbeere“ zu buchstabieren, gleichzeitig mit Berichten über Erdbeere von OpenAI. Aber OpenAI-CEO Sam Altman ergriff die Gelegenheit, uns zu zeigen, dass er eine ziemlich beeindruckende Beerenernte in seinem Garten.

tch-1-tech