OpenAI hat seine größte Ankündigung für den letzten Tag seiner 12-tägigen „Shipmas“-Veranstaltung gespeichert.
Am Freitag stellte das Unternehmen o3 vor, den Nachfolger des o1-„Reasoning“-Modells, das es Anfang des Jahres herausgebracht hatte. Genauer gesagt handelt es sich bei o3 um eine Modellfamilie – wie es auch bei o1 der Fall war. Es gibt o3 und o3-mini, ein kleineres, destilliertes Modell, das speziell auf bestimmte Aufgaben abgestimmt ist.
OpenAI erhebt die bemerkenswerte Behauptung, dass o3 zumindest unter bestimmten Bedingungen AGI nahe kommt – mit erheblichen Einschränkungen. Mehr dazu weiter unten.
o3, unser neuestes Argumentationsmodell, ist ein Durchbruch, mit einer Stufenfunktionsverbesserung gegenüber unseren härtesten Benchmarks. Wir beginnen jetzt mit Sicherheitstests und Red Teaming. https://t.co/4XlK1iHxFK
– Greg Brockman (@gdb) 20. Dezember 2024
Warum soll das neue Modell o3 und nicht o2 heißen? Nun, Marken könnten daran schuld sein. Nach Laut The Information hat OpenAI o2 übersprungen, um einen möglichen Konflikt mit dem britischen Telekommunikationsanbieter O2 zu vermeiden. CEO Sam Altman hat dies heute Morgen während eines Livestreams einigermaßen bestätigt. Eine seltsame Welt, in der wir leben, nicht wahr?
Weder o3 noch o3-mini sind bisher weit verbreitet, aber Sicherheitsforscher können sich ab heute für eine Vorschau von o3-mini anmelden. Eine o3-Vorschau wird irgendwann später eintreffen; OpenAI hat nicht angegeben, wann. Altman sagte, der Plan bestehe darin, o3-mini gegen Ende Januar auf den Markt zu bringen und o3 folgen zu lassen.
Das steht ein wenig im Widerspruch zu seinen jüngsten Aussagen. In einem Interview Diese Woche sagte Altman, dass er, bevor OpenAI neue Argumentationsmodelle veröffentlicht, einen bundesstaatlichen Testrahmen bevorzugen würde, der die Überwachung und Minderung der Risiken solcher Modelle steuert.
Und es gibt Risiken. KI-Sicherheitstester haben herausgefunden, dass o1 aufgrund seiner Denkfähigkeiten versucht, menschliche Benutzer häufiger zu täuschen als herkömmliche, „nicht-logische“ Modelle – oder, was das betrifft, führende KI-Modelle von Meta, Anthropic und Google. Es ist möglich, dass o3 noch häufiger als sein Vorgänger versucht zu täuschen; Wir werden es herausfinden, sobald die Red-Team-Partner von OpenAI ihre Testergebnisse veröffentlichen.
OpenAI gibt an, dass es eine neue Technik, die „deliberative Ausrichtung“, verwendet, um Modelle wie o3 an seinen Sicherheitsprinzipien auszurichten. (o1 wurde auf die gleiche Weise ausgerichtet.) Das Unternehmen hat seine Arbeit in a detailliert beschrieben neue Studie.
Argumentationsschritte
Im Gegensatz zu den meisten KI-Modellen überprüfen Argumentationsmodelle wie o3 die Fakten effektiv selbst und können so einige der Fallstricke vermeiden, die Modelle normalerweise zum Stolpern bringen.
Dieser Faktenprüfungsprozess verursacht eine gewisse Latenz. o3 braucht wie o1 zuvor etwas länger – normalerweise Sekunden bis Minuten länger – um zu Lösungen zu gelangen, verglichen mit einem typischen Nicht-Begründungsmodell. Der Vorteil? In Bereichen wie Physik, Naturwissenschaften und Mathematik ist es tendenziell zuverlässiger.
o3 wurde darauf trainiert, zu „denken“, bevor es über eine von OpenAI so genannte „private Gedankenkette“ reagiert. Das Modell kann eine Aufgabe durchdenken und vorausplanen, indem es über einen längeren Zeitraum eine Reihe von Aktionen ausführt, die ihm dabei helfen, eine Lösung zu finden.
In der Praxis macht o3 bei einer Aufforderung eine Pause, bevor es antwortet, berücksichtigt eine Reihe verwandter Aufforderungen und „erklärt“ dabei seine Argumentation. Nach einer Weile fasst das Modell die seiner Meinung nach genaueste Antwort zusammen.
Neu bei o3 ist die Möglichkeit, die Argumentationszeit „anzupassen“. Die Modelle können auf niedrige, mittlere oder hohe Rechenzeit (dh Denkzeit) eingestellt werden. Je höher die Rechenleistung, desto besser schneidet o3 bei Aufgaben ab.
Benchmarks und AGI
Eine große Frage bis heute war, ob OpenAI behaupten könnte, dass seine neuesten Modelle sich AGI nähern.
AGI, kurz für „künstliche allgemeine Intelligenz“, bezieht sich im Großen und Ganzen auf KI, die jede Aufgabe ausführen kann, die ein Mensch erledigen kann. OpenAI hat seine eigene Definition: „hochautonome Systeme, die den Menschen bei der wirtschaftlich wertvollsten Arbeit übertreffen.“
AGI zu erreichen wäre eine mutige Aussage. Und es hat auch für OpenAI vertragliche Bedeutung. Gemäß den Vertragsbedingungen mit dem engen Partner und Investor Microsoft ist OpenAI, sobald es AGI erreicht, nicht mehr verpflichtet, Microsoft Zugriff auf seine fortschrittlichsten Technologien zu gewähren (also diejenigen, die der AGI-Definition von OpenAI entsprechen).
Basierend auf einem Benchmark: OpenAI Ist langsam näher an AGI heran. Bei ARC-AGI, einem Test zur Bewertung, ob ein KI-System außerhalb der Daten, auf denen es trainiert wurde, effizient neue Fähigkeiten erwerben kann, erreichte o3 in der Einstellung „Hohe Rechenleistung“ eine Punktzahl von 87,5 %. Im schlimmsten Fall (bei niedriger Recheneinstellung) verdreifachte das Modell die Leistung von o1.
Zugegeben, die hohe Rechenleistung war außerordentlich teuer – laut ARC-AGI-Mitbegründer François Chollet in der Größenordnung von Tausenden von Dollar pro Aufgabe.
Heute hat OpenAI o3 angekündigt, sein Argumentationsmodell der nächsten Generation. Wir haben mit OpenAI zusammengearbeitet, um es auf ARC-AGI zu testen, und wir glauben, dass es einen bedeutenden Durchbruch bei der Anpassung der KI an neuartige Aufgaben darstellt.
Bei der halbprivaten Bewertung im Low-Computing-Modus erreicht es 75,7 % (für 20 $ pro Aufgabe …) pic.twitter.com/ESQ9CNVCEA
— François Chollet (@fchollet) 20. Dezember 2024
OpenAI sagt übrigens, dass es mit der Stiftung hinter ARC-AGI zusammenarbeiten wird, um die nächste Generation seines Benchmarks zu entwickeln.
Natürlich hat ARC-AGI seine Grenzen – und seine Definition von AGI ist nur eine von vielen.
Bei anderen Benchmarks lässt o3 die Konkurrenz hinter sich.
Das Modell übertrifft o1 bei SWE-Bench Verified, einem Benchmark, der sich auf Programmieraufgaben konzentriert, um 22,8 Prozentpunkte und erreicht eine Codeforces-Bewertung – ein weiteres Maß für Programmierfähigkeiten – von 2727. (Eine Bewertung von 2400 platziert einen Ingenieur im 99,2. Perzentil. ) o3 erreicht beim American Invitational Mathematics Exam 2024 eine Punktzahl von 96,7 %, fehlt nur eine Frage und erreicht 87,7 % zu GPQA Diamond, einer Reihe von Fragen für Biologie, Physik und Chemie für Hochschulabsolventen. Schließlich stellt o3 einen neuen Rekord im Frontier Math-Benchmark von EpochAI auf und löst 25,2 % der Probleme; kein anderes Modell überschreitet 2 %.
Wir haben o3-mini trainiert: beide leistungsfähiger als o1-mini und rund viermal schneller durchgängig bei der Berücksichtigung von Reasoning-Tokens
mit @ren_hongyu @shengjia_zhao & andere pic.twitter.com/3Cujxy6yCU
— Kevin Lu (@_kevinlu) 20. Dezember 2024
Diese Behauptungen sind natürlich mit Vorsicht zu genießen. Sie stammen aus den internen Auswertungen von OpenAI. Wir müssen abwarten, wie sich das Modell künftig im Benchmarking durch externe Kunden und Organisationen behaupten wird.
Ein Trend
Im Zuge der Veröffentlichung der ersten Reihe von Argumentationsmodellen von OpenAI kam es zu einer Explosion von Argumentationsmodellen konkurrierender KI-Unternehmen – darunter Google. Anfang November veröffentlichte DeepSeek, ein von Quant-Tradern finanziertes KI-Forschungsunternehmen, eine Vorschau seines ersten Argumentationsmodells, DeepSeek-R1. Im selben Monat stellte das Qwen-Team von Alibaba den angeblich ersten „offenen“ Herausforderer von o1 vor (in dem Sinne, dass er heruntergeladen, verfeinert und lokal ausgeführt werden konnte).
Was hat die Schleusen des Argumentationsmodells geöffnet? Nun, zum einen die Suche nach neuartigen Ansätzen zur Weiterentwicklung der generativen KI. Wie Tech kürzlich berichtete, bringen „Brute-Force“-Techniken zur Skalierung von Modellen nicht mehr die Verbesserungen, die sie früher erzielten.
Nicht jeder ist davon überzeugt, dass Argumentationsmodelle der beste Weg nach vorne sind. Zum einen sind sie aufgrund der großen Rechenleistung, die für ihren Betrieb erforderlich ist, tendenziell teuer. Und obwohl sie bisher bei Benchmarks gut abgeschnitten haben, ist nicht klar, ob Reasoning-Modelle dieses Fortschrittstempo beibehalten können.
Interessanterweise erfolgt die Veröffentlichung von o3 zu einem Zeitpunkt, an dem einer der erfahrensten Wissenschaftler von OpenAI das Unternehmen verlässt. Alec Radford, der Hauptautor der wissenschaftlichen Arbeit, die den Auftakt der „GPT-Serie“ generativer KI-Modelle (also GPT-3, GPT-4 usw.) von OpenAI bildete, gab diese Woche bekannt, dass er es ist verlassen unabhängige Forschung zu betreiben.
Tech hat einen KI-fokussierten Newsletter! Melden Sie sich hier an um es jeden Mittwoch in Ihrem Posteingang zu erhalten.