TTT-Modelle könnten die nächste Grenze der generativen KI sein

Nach Jahren der Dominanz der als „Transformer“ bekannten Form der KI beginnt nun die Jagd nach neuen Architekturen.

Transformer bilden die Grundlage für OpenAIs Videogenerierungsmodell Sora und sind das Herzstück von Textgenerierungsmodellen wie Anthropics Claude, Googles Gemini und GPT-4o. Doch sie stoßen zunehmend auf technische Hindernisse – insbesondere auf rechnerische Hindernisse.

Transformatoren sind nicht besonders effizient bei der Verarbeitung und Analyse großer Datenmengen, zumindest nicht auf handelsüblicher Hardware. Und das führt zu steilen und möglicherweise nicht nachhaltig Der Strombedarf steigt, da Unternehmen ihre Infrastruktur aufbauen und erweitern, um den Bedarf der Transformatoren zu decken.

Eine vielversprechende Architektur, die in diesem Monat vorgeschlagen wurde, ist Testzeittraining (TTT)das im Laufe von anderthalb Jahren von Forschern in Stanford, UC San Diego, UC Berkeley und Meta entwickelt wurde. Das Forschungsteam behauptet, dass TTT-Modelle nicht nur weitaus mehr Daten verarbeiten können als Transformatoren, sondern dass sie dies auch tun können, ohne annähernd so viel Rechenleistung zu verbrauchen.

Der verborgene Zustand in Transformatoren

Eine grundlegende Komponente von Transformatoren ist der „versteckte Zustand“, der im Wesentlichen eine lange Liste von Daten ist. Wenn ein Transformator etwas verarbeitet, fügt er dem versteckten Zustand Einträge hinzu, um sich zu „merken“, was er gerade verarbeitet hat. Wenn das Modell beispielsweise ein Buch durcharbeitet, sind die versteckten Zustandswerte Dinge wie Darstellungen von Wörtern (oder Wortteilen).

„Wenn man sich einen Transformator als intelligentes Wesen vorstellt, dann ist die Nachschlagetabelle – ihr verborgener Zustand – das Gehirn des Transformators“, sagte Yu Sun, Postdoktorand in Stanford und Mitautor der TTT-Forschung, gegenüber Tech. „Dieses spezialisierte Gehirn ermöglicht die bekannten Fähigkeiten von Transformatoren wie kontextbezogenes Lernen.“

Der verborgene Zustand ist Teil dessen, was Transformatoren so leistungsstark macht. Aber er behindert sie auch. Um auch nur ein einziges Wort über ein Buch zu „sagen“, das ein Transformator gerade gelesen hat, müsste das Modell seine gesamte Nachschlagetabelle durchsuchen – eine Aufgabe, die genauso rechenintensiv ist wie das erneute Lesen des gesamten Buches.

Daher kamen Sun und sein Team auf die Idee, den verborgenen Zustand durch ein Modell des maschinellen Lernens zu ersetzen – sozusagen eine Art KI-Matrosen, ein Modell innerhalb eines Modells.

Es ist ein bisschen technisch, aber der Kerngedanke ist, dass das interne maschinelle Lernmodell des TTT-Modells im Gegensatz zur Nachschlagetabelle eines Transformators nicht immer weiter wächst, wenn es zusätzliche Daten verarbeitet. Stattdessen kodiert es die Daten, die es verarbeitet, in repräsentative Variablen, sogenannte Gewichte, was TTT-Modelle so leistungsstark macht. Unabhängig davon, wie viele Daten ein TTT-Modell verarbeitet, ändert sich die Größe seines internen Modells nicht.

Sun glaubt, dass zukünftige TTT-Modelle Milliarden von Daten effizient verarbeiten könnten, von Wörtern über Bilder und Audioaufnahmen bis hin zu Videos. Das übersteigt die Fähigkeiten heutiger Modelle bei weitem.

„Unser System kann X Wörter über ein Buch sagen, ohne dass man das Buch X-mal erneut lesen muss“, sagte Sun. „Große Videomodelle auf Basis von Transformatoren wie Sora können nur 10 Sekunden Video verarbeiten, da sie nur über ein ‚Gehirn‘ mit Nachschlagetabellen verfügen. Unser letztendliches Ziel ist die Entwicklung eines Systems, das ein langes Video verarbeiten kann, das der visuellen Erfahrung eines menschlichen Lebens ähnelt.“

Skepsis gegenüber den TTT-Modellen

Werden TTT-Modelle also irgendwann Transformatoren ersetzen? Das könnten sie. Aber es ist noch zu früh, um das mit Sicherheit sagen zu können.

TTT-Modelle sind kein Ersatz für Transformatoren. Und die Forscher haben nur zwei kleine Modelle für ihre Studien entwickelt, sodass TTT als Methode derzeit schwer mit einigen der größeren Transformatorimplementierungen zu vergleichen ist.

„Ich halte es für eine absolut interessante Innovation, und wenn die Daten die Behauptungen bestätigen, dass sie Effizienzgewinne bringt, dann sind das großartige Neuigkeiten, aber ich könnte Ihnen nicht sagen, ob sie besser ist als bestehende Architekturen oder nicht“, sagte Mike Cook, Dozent an der Informatikabteilung des King’s College London, der nicht an der TTT-Forschung beteiligt war. „Ein alter Professor von mir erzählte mir immer einen Witz, als ich noch Student war: Wie löst man ein beliebiges Problem in der Informatik? Indem man eine weitere Abstraktionsebene hinzufügt. Das Hinzufügen eines neuronalen Netzwerks innerhalb eines neuronalen Netzwerks erinnert mich definitiv daran.“

Ungeachtet dessen deutet die zunehmende Geschwindigkeit der Forschung nach Transformatoralternativen auf ein wachsendes Bewusstsein für die Notwendigkeit eines Durchbruchs hin.

Diese Woche hat das KI-Startup Mistral ein Modell namens Codestral Mamba veröffentlicht, das auf einer anderen Alternative zum Transformator basiert, den sogenannten State Space Models (SSMs). SSMs scheinen wie TTT-Modelle rechnerisch effizienter zu sein als Transformatoren und können auf größere Datenmengen skaliert werden.

AI21 Labs erforscht auch SSMs. Kartesiadas einige der ersten SSMs und die Namensgeber von Codestral Mamba, Mamba und Mamba-2, entwickelte.

Sollten diese Bemühungen erfolgreich sein, könnte generative KI noch zugänglicher und weiter verbreitet sein als jetzt – im Guten wie im Schlechten.

tch-1-tech