KI-Labore auf dem Weg zu superintelligenten Systemen erkennen, dass sie möglicherweise einen Umweg machen müssen.
Laut mehreren KI-Investoren, Gründern und CEOs, die mit Tech gesprochen haben, zeigen „KI-Skalierungsgesetze“, die Methoden und Erwartungen, die Labore in den letzten fünf Jahren verwendet haben, um die Fähigkeiten ihrer Modelle zu verbessern, jetzt Anzeichen sinkender Erträge. Ihre Gefühle hallen wider jüngste Berichte Dies deutet darauf hin, dass sich Modelle in führenden KI-Laboren langsamer verbessern als früher.
Mittlerweile scheint jeder zuzugeben, dass man beim Vortraining großer Sprachmodelle nicht einfach mehr Rechenleistung und mehr Daten nutzen und erwarten kann, dass sie sich in eine Art allwissenden digitalen Gott verwandeln. Vielleicht klingt das offensichtlich, aber diese Skalierungsgesetze waren ein Schlüsselfaktor bei der Entwicklung von ChatGPT, machten es besser und haben wahrscheinlich viele CEOs dazu beeinflusst kühne Vorhersagen, dass AGI in nur wenigen Jahren eintreffen wird.
Der Mitbegründer von OpenAI und Safe Super Intelligence, Ilya Sutskever, sagte Reuters letzte Woche: „Jeder sucht nach dem nächsten Ding” um ihre KI-Modelle zu skalieren. Anfang dieses Monats sagte Marc Andreessen, Mitbegründer von a16z, in einem Podcast, dass KI-Modelle derzeit scheinbar auf dem gleichen Niveau konvergieren gleiche Obergrenze für Fähigkeiten.
Aber jetzt, fast unmittelbar nachdem sich diese besorgniserregenden Trends abzeichneten, erklären KI-CEOs, Forscher und Investoren bereits, dass wir uns in einer neuen Ära der Skalierungsgesetze befinden. „Testzeitberechnung“, die KI-Modellen mehr Zeit und Rechenleistung zum „Nachdenken“ gibt, bevor sie eine Frage beantwortet, ist ein besonders vielversprechender Anwärter auf das nächste große Ding.
„Wir erleben die Entstehung eines neuen Skalierungsgesetzes“, sagte Satya Nadella, CEO von Microsoft auf der Bühne bei Microsoft Ignite am Dienstag und bezog sich dabei auf die Testzeit-Rechenforschung, die dem o1-Modell von OpenAI zugrunde liegt.
Er ist nicht der Einzige, der jetzt auf o1 als die Zukunft hinweist.
„Wir befinden uns jetzt in der zweiten Ära der Skalierungsgesetze, nämlich der Testzeit-Skalierung“, sagte Andreessen Horowitz-Partnerin Anjney Midha, die auch im Vorstand von Mistral sitzt und Angel-Investor bei Anthropic war, kürzlich in einem Interview mit Tech .
Wenn uns der unerwartete Erfolg – und jetzt die plötzliche Verlangsamung – der bisherigen KI-Skalierungsgesetze etwas sagt, dann ist es, dass es sehr schwer vorherzusagen ist, wie und wann sich KI-Modelle verbessern werden.
Unabhängig davon scheint ein Paradigmenwechsel im Gange zu sein: Die Art und Weise, wie KI-Labore versuchen, ihre Modelle in den nächsten fünf Jahren weiterzuentwickeln, wird wahrscheinlich nicht mit den letzten fünf Jahren vergleichbar sein.
Was sind KI-Skalierungsgesetze?
Die schnellen Verbesserungen des KI-Modells, die OpenAI, Google, Meta und Anthropic seit 2020 erzielt haben, lassen sich größtenteils auf eine wichtige Erkenntnis zurückführen: den Einsatz von mehr Rechenleistung und mehr Daten während der Vortrainingsphase eines KI-Modells.
Wenn Forscher maschinellen Lernsystemen in dieser Phase – in der die KI Muster in großen Datensätzen identifiziert und speichert – reichlich Ressourcen zur Verfügung stellen, schneiden die Modelle tendenziell besser bei der Vorhersage des nächsten Wortes oder Satzes ab.
Diese erste Generation von KI-Skalierungsgesetzen hat die Grenzen dessen, was Computer leisten können, erweitert, da Ingenieure die Anzahl der verwendeten GPUs und die ihnen zugeführte Datenmenge erhöht haben. Auch wenn diese spezielle Methode ausgedient hat, hat sie die Karte bereits neu gezeichnet. Alle Big-Tech-Unternehmen haben sich im Grunde voll auf KI konzentriert, während Nvidia, das die GPUs liefert, auf denen all diese Unternehmen ihre Modelle trainieren, jetzt der Vorreiter ist wertvollstes börsennotiertes Unternehmen der Welt.
Allerdings wurden diese Investitionen auch in der Erwartung getätigt, dass die Skalierung wie erwartet weitergehen würde.
Es ist wichtig zu beachten, dass Skalierungsgesetze keine Gesetze der Natur, der Physik, der Mathematik oder der Regierung sind. Ihnen wird von nichts und niemandem garantiert, dass sie im gleichen Tempo weitermachen. Sogar Moores Gesetz, ein weiteres berühmtes Skalierungsgesetz, scheiterte schließlich – obwohl es sicherlich eine längere Laufzeit hatte.
„Wenn man einfach mehr Rechenleistung investiert, mehr Daten eingibt, vergrößert man das Modell – die Erträge sinken“, sagte Robert Nishihara, Mitbegründer und ehemaliger CEO von Anyscale, in einem Interview mit Tech. „Um die Skalierungsgesetze aufrechtzuerhalten, um das Tempo des Fortschritts weiter zu erhöhen, brauchen wir auch neue Ideen.“
Nishihara ist mit den Gesetzen zur KI-Skalierung bestens vertraut. Anyscale erreichte einen Milliardenwert durch die Entwicklung von Software, die OpenAI und anderen KI-Modellentwicklern dabei hilft, ihre KI-Trainings-Workloads auf Zehntausende GPUs zu skalieren. Anyscale war einer der größten Nutznießer der Pre-Training-Skalierungsgesetze rund um die Datenverarbeitung, aber selbst sein Mitbegründer erkennt, dass sich die Saison ändert.
„Wenn Sie eine Million Bewertungen auf Yelp gelesen haben, geben Ihnen die nächsten Bewertungen auf Yelp vielleicht nicht mehr so viel“, sagte Nishihara und verwies auf die Einschränkungen der Datenskalierung. „Aber das ist Vortraining. Die Methodik rund um das Post-Training ist meiner Meinung nach noch recht unausgereift und bietet noch viel Raum für Verbesserungen.“
Um es klar auszudrücken: Entwickler von KI-Modellen werden wahrscheinlich weiterhin nach größeren Rechenclustern und größeren Datensätzen für das Vortraining suchen, und es gibt wahrscheinlich noch weitere Verbesserungen, die diese Methoden mit sich bringen werden. Elon Musk hat kürzlich den Bau eines abgeschlossen Supercomputer mit 100.000 GPUs, genannt Colossus, um die nächsten Modelle von xAI zu trainieren. Es wird noch mehr und größere Cluster geben.
Trends deuten jedoch darauf hin, dass ein exponentielles Wachstum nicht durch den einfachen Einsatz von mehr GPUs mit bestehenden Strategien möglich ist, sodass neuen Methoden plötzlich mehr Aufmerksamkeit geschenkt wird.
Testzeitberechnung: die nächste große Herausforderung der KI-Branche
Als OpenAI eine Vorschau seines o1-Modells veröffentlichte, gab das Startup bekannt, dass es Teil einer neuen, von GPT unabhängigen Modellreihe sei.
OpenAI hat seine GPT-Modelle weitgehend durch traditionelle Skalierungsgesetze verbessert: mehr Daten, mehr Leistung beim Vortraining. Aber jetzt bringt ihnen diese Methode Berichten zufolge nicht viel. Das o1-Modellgerüst basiert auf einem neuen Konzept, der Testzeitberechnung, die so genannt wird, weil die Rechenressourcen nach einer Eingabeaufforderung und nicht vorher verwendet werden. Die Technik wurde im Zusammenhang mit neuronalen Netzen noch nicht umfassend erforscht, zeigt aber bereits vielversprechende Ergebnisse.
Einige weisen bereits auf Testzeitberechnungen als nächste Methode zur Skalierung von KI-Systemen hin.
„Eine Reihe von Experimenten zeigt, dass sich die Skalierungsgesetze vor dem Training zwar verlangsamen, die Testzeit-Skalierungsgesetze – bei denen man dem Modell bei der Inferenz mehr Rechenleistung gibt – jedoch zu zunehmenden Leistungssteigerungen führen können“, sagte Midha von a16z.
„Die neue ‚o‘-Serie von OpenAI treibt voran [chain-of-thought] weiter und erfordert dafür weitaus mehr Rechenressourcen und damit Energie“, sagte der berühmte KI-Forscher Yoshua Benjio in einem op-ed am Dienstag. „Wir sehen also, dass eine neue Form der rechnerischen Skalierung entsteht. Nicht nur mehr Trainingsdaten und größere Modelle, sondern auch mehr Zeit für das „Nachdenken“ über Antworten.“
Über einen Zeitraum von 10 bis 30 Sekunden fordert sich das o1-Modell von OpenAI mehrmals selbst auf und zerlegt dabei ein großes Problem in eine Reihe kleinerer Probleme. Obwohl ChatGPT sagt, es sei „Denken“, tut es nicht das, was Menschen tun – obwohl unsere internen Problemlösungsmethoden, die von einer klaren Darstellung eines Problems und schrittweisen Lösungen profitieren, die Hauptinspiration für die Methode waren.
Vor etwa einem Jahrzehnt versuchte Noam Brown, der jetzt die Arbeit von OpenAI an o1 leitet, KI-Systeme zu entwickeln, die Menschen beim Poker schlagen könnten. Während eines aktuelles GesprächBrown sagt, er habe damals bemerkt, wie menschliche Pokerspieler sich die Zeit nahmen, verschiedene Szenarien zu überdenken, bevor sie eine Hand spielten. Im Jahr 2017 er führte eine Methode ein um ein Modell 30 Sekunden lang „denken“ zu lassen, bevor es spielt. In dieser Zeit spielte die KI verschiedene Teilspiele und überlegte, wie verschiedene Szenarien ablaufen würden, um den besten Zug zu bestimmen.
Letztendlich schnitt die KI siebenmal besser ab als seine bisherigen Versuche.
Zugegebenermaßen nutzte Browns Forschung im Jahr 2017 keine neuronalen Netze, die damals nicht so beliebt waren. Allerdings haben MIT-Forscher letzte Woche ein Papier veröffentlicht, das dies zeigt Die Testzeitberechnung verbessert die Leistung eines KI-Modells erheblich zu Denkaufgaben.
Es ist nicht sofort klar, wie sich die Testzeitberechnung skalieren würde. Es könnte bedeuten, dass KI-Systeme sehr lange brauchen, um über schwierige Fragen nachzudenken. vielleicht Stunden oder sogar Tage. Ein anderer Ansatz könnte darin bestehen, ein KI-Modell eine Frage auf vielen Chips gleichzeitig „durchdenken“ zu lassen.
Wenn sich die Testzeitberechnung als nächster Ort zur Skalierung von KI-Systemen durchsetzt, könnte die Nachfrage nach KI-Chips, die auf Hochgeschwindigkeitsinferenz spezialisiert sind, laut Midha dramatisch steigen. Dies könnte eine gute Nachricht für Startups wie Groq oder Cerebras sein, die sich auf schnelle KI-Inferenzchips spezialisiert haben. Wenn das Finden der Antwort genauso rechenintensiv ist wie das Trainieren des Modells, gewinnen die „pick and shovel“-Anbieter in der KI erneut.
Die KI-Welt gerät noch nicht in Panik
Der Großteil der KI-Welt scheint angesichts der Verlangsamung dieser alten Skalierungsgesetze nicht die Fassung zu verlieren. Auch wenn sich die Testzeitberechnung nicht als die nächste Skalierungswelle erweist, sind einige der Meinung, dass wir nur an der Oberfläche der Anwendungen für aktuelle KI-Modelle kratzen.
Neue beliebte Produkte könnten den Entwicklern von KI-Modellen etwas Zeit verschaffen, um neue Wege zur Verbesserung der zugrunde liegenden Modelle zu finden.
„Ich bin völlig davon überzeugt, dass wir allein durch reine Arbeit auf Anwendungsebene eine mindestens 10- bis 20-fache Steigerung der Modellleistung erleben werden, indem wir den Modellen einfach ermöglichen, durch intelligente Eingabeaufforderungen, UX-Entscheidungen und die Weitergabe von Kontext zum richtigen Zeitpunkt zu glänzen.“ die Modelle“, sagte Midha.
Beispielsweise ist der Advanced Voice Mode von ChatGPT eine der beeindruckenderen Anwendungen aktueller KI-Modelle. Dabei handelte es sich jedoch größtenteils um eine Neuerung im Hinblick auf die Benutzererfahrung, nicht unbedingt auf die zugrunde liegende Technologie. Sie können sehen, wie weitere UX-Innovationen, wie z. B. die Gewährung des Zugriffs auf das Web oder auf Anwendungen auf Ihrem Telefon, das Produkt noch besser machen würden.
Kian Katanforoosh, CEO des KI-Startups Workera und außerordentlicher Dozent für Deep Learning an der Stanford University, erklärt gegenüber Tech, dass Unternehmen, die wie er KI-Anwendungen entwickeln, nicht unbedingt exponentiell intelligentere Modelle benötigen, um bessere Produkte zu entwickeln. Er sagt auch, dass die Produkte rund um aktuelle Modelle noch viel Luft nach oben haben.
„Nehmen wir an, Sie erstellen KI-Anwendungen und Ihre KI halluziniert bei einer bestimmten Aufgabe“, sagte Katanforoosh. „Es gibt zwei Möglichkeiten, das zu vermeiden. Entweder muss das LLM besser werden und es hört auf zu halluzinieren, oder die Werkzeuge um es herum müssen besser werden und Sie werden Möglichkeiten haben, das Problem zu beheben.“
Was auch immer der Fall für die Grenzen der KI-Forschung sein mag, die Benutzer werden die Auswirkungen dieser Veränderungen wahrscheinlich noch einige Zeit lang nicht spüren. Allerdings werden die KI-Labore alles Notwendige tun, um weiterhin im gleichen Tempo größere, intelligentere und schnellere Modelle zu liefern. Das bedeutet, dass mehrere führende Technologieunternehmen nun ihre Art und Weise ändern könnten, wie sie die Grenzen der KI erweitern.