„Argumentierende“ KI-Modelle sind im Guten wie im Schlechten zum Trend geworden

Nennen wir es eine Renaissance des Denkens.

Im Zuge der Veröffentlichung von OpenAIs o1, einem sogenannten Reasoning-Modell, kam es zu einer Explosion von Reasoning-Modellen konkurrierender KI-Labore. Anfang November veröffentlichte DeepSeek, ein von quantitativen Händlern finanziertes KI-Forschungsunternehmen, eine Vorschau seines ersten Argumentationsalgorithmus, DeepSeek-R1. Im selben Monat stellte das Qwen-Team von Alibaba den angeblich ersten „offenen“ Herausforderer von o1 vor.

Was hat also die Schleusen geöffnet? Nun, zum einen die Suche nach neuartigen Ansätzen zur Weiterentwicklung der generativen KI-Technologie. Wie mein Kollege Max Zeff kürzlich berichtete, bringen „Brute-Force“-Techniken zur Skalierung von Modellen nicht mehr die Verbesserungen, die sie früher erzielten.

Es besteht ein starker Wettbewerbsdruck auf KI-Unternehmen, das aktuelle Innovationstempo beizubehalten. Nach Einer Schätzung zufolge erreichte der globale KI-Markt im Jahr 2023 ein Volumen von 196,63 Milliarden US-Dollar und könnte bis 2030 einen Wert von 1,81 Billionen US-Dollar haben.

OpenAI hat beispielsweise behauptet, dass Argumentationsmodelle „schwierigere Probleme lösen“ können als frühere Modelle und einen Schritt in der generativen KI-Entwicklung darstellen. Aber nicht jeder ist davon überzeugt, dass Argumentationsmodelle der beste Weg nach vorne sind.

Ameet Talwalkar, außerordentlicher Professor für maschinelles Lernen an der Carnegie Mellon sagt, dass er die ersten Argumentationsmodelle „ziemlich beeindruckend“ findet. Im gleichen Atemzug sagte er mir jedoch, dass er „die Motive“ von jedem in Frage stellen würde, der mit Sicherheit behauptet, er wisse, wie weit Argumentationsmodelle die Branche bringen werden.

„KI-Unternehmen haben finanzielle Anreize, rosige Prognosen über die Fähigkeiten zukünftiger Versionen ihrer Technologie abzugeben“, sagte Talwalkar. „Wir laufen Gefahr, uns kurzsichtig auf ein einzelnes Paradigma zu konzentrieren – deshalb ist es für die breitere KI-Forschungsgemeinschaft von entscheidender Bedeutung, dem Hype und den Marketingbemühungen dieser Unternehmen nicht blind zu glauben und sich stattdessen auf konkrete Ergebnisse zu konzentrieren.“

Zwei Nachteile von Argumentationsmodellen bestehen darin, dass sie (1) teuer und (2) energiehungrig sind.

Beispielsweise berechnet das Unternehmen in der OpenAI-API 15 US-Dollar für jeweils ca. 750.000 Wörter in Analysen und 60 US-Dollar für jeweils ca. 750.000 Wörter, die das Modell generiert. Das ist zwischen dem Drei- und Vierfachen der Kosten des neuesten „Non-Reareaning“-Modells von OpenAI, GPT-4o.

O1 ist auf der KI-gestützten Chatbot-Plattform ChatGPT von OpenAI kostenlos verfügbar – mit Einschränkungen. Aber Anfang dieses Monats führte OpenAI einen fortgeschritteneren o1-Tier ein, den o1 Pro-Modus, der stolze 2.400 US-Dollar pro Jahr kostet.

„Die Gesamtkosten von [large language model] Die Argumentation geht sicherlich nicht unter“, sagte Guy Van Den Broeck, Professor für Informatik an der UCLA, gegenüber Tech.

Einer der Gründe, warum Reasoning-Modelle so teuer sind, liegt darin, dass ihre Ausführung viele Rechenressourcen erfordert. Im Gegensatz zu den meisten KI-Modellen versuchen o1 und andere Argumentationsmodelle, ihre eigene Arbeit zu überprüfen, während sie sie ausführen. Dies hilft ihnen, einige der Fallstricke zu vermeiden, die Modelle normalerweise zum Stolpern bringen, mit dem Nachteil, dass sie oft länger brauchen, um zu Lösungen zu gelangen.

OpenAI stellt sich zukünftige Argumentationsmodelle vor, die stunden-, tage- oder sogar wochenlang „denken“. Die Nutzungskosten werden höher sein, räumt das Unternehmen ein, aber die Vorteile – von bahnbrechende Batterien für neue Krebsmedikamente – kann sich durchaus lohnen.

Das Wertversprechen heutiger Argumentationsmodelle ist weniger offensichtlich. Costa Huang, Forscher und Ingenieur für maschinelles Lernen bei der gemeinnützigen Organisation Ai2, stellt fest, dass o1 ist kein sehr zuverlässiger Rechner. Und oberflächliche Suchanfragen in den sozialen Medien bringen eine Reihe von o1-Pro-Modi zum Vorschein Fehler.

„Diese Argumentationsmodelle sind spezialisiert und können in allgemeinen Bereichen leistungsschwach sein“, sagte Huang gegenüber Tech. „Manche Einschränkungen werden früher überwunden als andere.“

Van den Broeck behauptet, dass Argumentationsmodelle nicht funktionieren tatsächlich Denkvermögen und sind daher in der Art der Aufgaben, die sie erfolgreich bewältigen können, begrenzt. „Wahres Denken funktioniert bei allen Problemen, nicht nur bei denen, die wahrscheinlich sind [in a model’s training data]“, sagte er. „Das ist die größte Herausforderung, die es noch zu meistern gilt.“

Angesichts des starken Marktanreizes, Argumentationsmodelle zu verbessern, ist es sicher, dass sie mit der Zeit besser werden. Schließlich investieren nicht nur OpenAI, DeepSeek und Alibaba in diesen neueren Bereich der KI-Forschung. VCs und Gründer benachbarter Branchen schließen sich der Idee einer Zukunft an, die von intelligenter KI dominiert wird.

Allerdings befürchtet Talwalkar, dass große Labore diese Verbesserungen hüten werden.

„Die großen Labore haben verständlicherweise Wettbewerbsgründe, um geheim zu bleiben, aber dieser Mangel an Transparenz behindert die Fähigkeit der Forschungsgemeinschaft erheblich, sich mit diesen Ideen auseinanderzusetzen“, sagte er. „Ich gehe davon aus, dass immer mehr Menschen in diese Richtung arbeiten [reasoning models to] schnell vorankommen. Aber obwohl einige der Ideen aus der Wissenschaft kommen werden, gehe ich angesichts der finanziellen Anreize hier davon aus, dass die meisten – wenn nicht alle – Modelle von großen Industrielabors wie OpenAI angeboten werden.“

tch-1-tech