KIs sind leicht den SAT bestehen, Schachgroßmeister besiegen und Code debuggen, als wäre es nichts. Aber wenn man eine KI bei der Buchstabierprüfung gegen ein paar Mittelschüler antreten lässt, wird sie schneller ausgeschaltet, als man sagen kann, dass sie verbreitet ist.
Trotz aller Fortschritte, die wir in der KI gesehen haben, kann sie immer noch nicht buchstabieren. Wenn Sie Text-zu-Bild-Generatoren wie DALL-E bitten, ein Menü für ein mexikanisches Restaurant zu erstellen, entdecken Sie möglicherweise einige appetitliche Elemente wie „Taao“, „Burto“ und „Enchida“ inmitten einer Flut anderer Kauderwelsch.
Und obwohl ChatGPT möglicherweise in der Lage ist, Ihre Arbeiten für Sie zu schreiben, ist es komisch inkompetent, wenn Sie es auffordern, ein Wort mit 10 Buchstaben ohne die Buchstaben „A“ oder „E“ (mir wurde „Sturmhaube“ genannt) auszudenken. Als ein Freund unterdessen versuchte, die KI von Instagram zu nutzen, um einen Aufkleber mit der Aufschrift „Neuer Beitrag“ zu erstellen, entstand eine Grafik, die scheinbar etwas sagte, was wir auf Tech, einer Familienwebsite, nicht wiederholen dürfen.
„Bildgeneratoren schneiden bei Artefakten wie Autos und Gesichtern von Menschen tendenziell viel besser ab, bei kleineren Dingen wie Fingern und Handschriften jedoch weniger“, sagte Asmelash Teka Hadgu, Mitbegründer von Lesan und ein Kerl am DAIR-Institut.
Die den Bild- und Textgeneratoren zugrunde liegende Technologie ist unterschiedlich, dennoch haben beide Arten von Modellen ähnliche Probleme mit Details wie der Rechtschreibung. Bildgeneratoren verwenden im Allgemeinen Diffusionsmodelle, die ein Bild aus Rauschen rekonstruieren. Wenn es um Textgeneratoren geht, scheinen große Sprachmodelle (LLMs) so zu sein, als würden sie Ihre Eingabeaufforderungen wie ein menschliches Gehirn lesen und darauf reagieren – tatsächlich verwenden sie jedoch komplexe Mathematik, um das Muster der Eingabeaufforderung mit einem Muster in seinem latenten Raum abzugleichen. Lassen Sie es das Muster mit einer Antwort fortsetzen.
„Die Diffusionsmodelle, die neuesten Algorithmen zur Bilderzeugung, rekonstruieren eine gegebene Eingabe“, sagte Hagdu gegenüber Tech. „Wir können davon ausgehen, dass Schriften auf einem Bild einen sehr, sehr kleinen Teil ausmachen, sodass der Bildgenerator die Muster lernt, die mehr dieser Pixel abdecken.“
Die Algorithmen werden dazu angeregt, etwas nachzubilden, das so aussieht, wie es in seinen Trainingsdaten zu sehen ist, aber sie kennen nicht von Haus aus die Regeln, die wir für selbstverständlich halten – dass „Hallo“ nicht „heeelllooo“ geschrieben wird und dass dies normalerweise in menschlichen Händen der Fall ist fünf Finger.
„Schon letztes Jahr waren alle diese Modelle wirklich schlecht im Umgang mit Fingern, und das ist genau das gleiche Problem wie bei Text“, sagte Matthew Guzdial, ein KI-Forscher und Assistenzprofessor an der University of Alberta. „Sie machen es vor Ort wirklich gut. Wenn man sich also eine Hand mit sechs oder sieben Fingern ansieht, könnte man sagen: ‚Oh wow, das sieht aus wie ein Finger.‘ Ebenso könnte man beim generierten Text sagen, dass dieser wie ein „H“ und dieser wie ein „P“ aussieht, aber sie sind wirklich schlecht darin, diese ganzen Dinge zusammen zu strukturieren.“
Ingenieure können diese Probleme lindern, indem sie ihre Datensätze mit Trainingsmodellen ergänzen, die speziell darauf ausgelegt sind, der KI beizubringen, wie Hände aussehen sollten. Doch Experten gehen nicht davon aus, dass sich diese Rechtschreibprobleme so schnell lösen werden.
„Sie können sich vorstellen, etwas Ähnliches zu tun – wenn wir einfach eine ganze Reihe von Texten erstellen, können sie ein Modell trainieren, um zu versuchen, zu erkennen, was gut und was schlecht ist, und das könnte die Dinge ein wenig verbessern. Aber leider ist die englische Sprache wirklich kompliziert“, sagte Guzdial gegenüber Tech. Und das Problem wird noch komplexer, wenn man bedenkt, mit wie vielen verschiedenen Sprachen die KI lernen muss, zu arbeiten.
Einigen Modellen, wie etwa Adobe Firefly, wird beigebracht, überhaupt keinen Text zu generieren. Wenn Sie etwas Einfaches wie „Speisekarte in einem Restaurant“ oder „Werbetafel mit Werbung“ eingeben, erhalten Sie das Bild eines leeren Papiers auf einem Esstisch oder einer weißen Werbetafel auf der Autobahn. Wenn Sie Ihre Eingabeaufforderung jedoch ausreichend detailliert formulieren, können diese Leitplanken leicht umgangen werden.
„Man kann es sich fast so vorstellen, als würden sie Whac-A-Mole spielen, etwa: ‚Okay, viele Leute beschweren sich über unsere Hände – wir werden dem nächsten Modell eine neue Sache hinzufügen, die sich nur mit den Händen befasst‘, und so weiter.“ so weiter und so weiter“, sagte Guzdial. „Aber Text ist viel schwieriger. Aus diesem Grund kann selbst ChatGPT nicht richtig buchstabieren.“
Auf Reddit, YouTube und X haben einige Leute Videos hochgeladen, die zeigen, wie ChatGPT bei der Rechtschreibung versagt ASCII-Kunst, eine frühe Internet-Kunstform, die Textzeichen zum Erstellen von Bildern verwendet. In einem kürzlich Video, das als „schnelle Reise eines technischen Helden“ bezeichnet wurde, versucht jemand mühsam, ChatGPT durch die Erstellung von ASCII-Grafiken mit der Aufschrift „Honda“ zu führen. Am Ende gelingt es ihnen, aber nicht ohne Odyssee-Prüfungen und -Wirrungen.
„Eine Hypothese, die ich dort habe, ist, dass sie in ihrer Ausbildung nicht viel ASCII-Kunst hatten“, sagte Hagdu. „Das ist die einfachste Erklärung.“
Aber im Grunde verstehen LLMs einfach nicht, was Buchstaben sind, selbst wenn sie Sonette in Sekundenschnelle schreiben können.
„LLMs basieren auf dieser Transformer-Architektur, bei der es sich insbesondere nicht um das eigentliche Lesen von Text handelt. Wenn Sie eine Eingabeaufforderung eingeben, wird sie in eine Kodierung übersetzt“, sagte Guzdial. „Wenn es das Wort „das“ sieht, hat es diese eine Kodierung dessen, was „das“ bedeutet, aber es weiß nichts über ‚T‘, ‚H‘, ‚E‘.“
Deshalb ist es in etwa der Hälfte der Fälle falsch, wenn Sie ChatGPT bitten, eine Liste mit Wörtern mit acht Buchstaben ohne „O“ oder „S“ zu erstellen. Es weiß eigentlich nicht, was ein „O“ oder „S“ ist (obwohl es Ihnen wahrscheinlich die Wikipedia-Geschichte des Buchstabens zitieren könnte).
Obwohl diese DALL-E-Bilder von schlechten Restaurantmenüs lustig sind, sind die Mängel der KI nützlich, wenn es darum geht, Fehlinformationen zu erkennen. Wenn wir herausfinden wollen, ob ein zweifelhaftes Bild echt ist oder von der KI erzeugt wurde, können wir viel lernen, indem wir uns Straßenschilder, T-Shirts mit Text, Buchseiten oder alles andere ansehen, wo eine Reihe zufälliger Buchstaben die Synthese eines Bildes verraten könnte Ursprünge. Und bevor diese Modelle besser darin wurden, Hände herzustellen, könnte auch ein sechster (oder siebter oder achter) Finger ein Geschenk sein.
Aber, sagt Guzdial, wenn wir genau hinsehen, sind es nicht nur die Finger und die Rechtschreibung, bei denen die KI Fehler macht.
„Diese Modelle verursachen ständig diese kleinen, lokalen Probleme – wir sind nur besonders gut darauf eingestellt, einige davon zu erkennen“, sagte er.
Für einen Durchschnittsmenschen könnte beispielsweise ein KI-generiertes Bild eines Musikgeschäfts leicht glaubwürdig sein. Aber jemand, der sich ein bisschen mit Musik auskennt, könnte das gleiche Bild sehen und bemerken, dass einige Gitarren sieben Saiten haben oder dass die schwarzen und weißen Tasten eines Klaviers falsch verteilt sind.
Obwohl sich diese KI-Modelle in einem besorgniserregenden Tempo verbessern, werden diese Tools immer noch auf solche Probleme stoßen, was die Kapazität der Technologie einschränkt.
„Das ist ein konkreter Fortschritt, daran besteht kein Zweifel“, sagte Hagdu. „Aber der Hype, den diese Technologie auslöst, ist einfach wahnsinnig.“