Openai hat am Freitag ein neues KI-Modell „Argumenting“, O3-Mini, gestartet, das neueste in der o-Argumentationsfamilie des Unternehmens.
OpenAI hat das Modell im Dezember erstmals zusammen mit einem fähigeren System namens O3 vorgestellt, aber der Start kommt zu einem entscheidenden Zeitpunkt für das Unternehmen, dessen Ambitionen – und Herausforderungen – von Tag zu Tag wachsen.
OpenAI kämpft gegen die Wahrnehmung, dass es im KI -Rennen an chinesischen Unternehmen wie Deepseek, das OpenAI behauptet, möglicherweise seine IP gestohlen hat. Es hat versucht stützt seine Beziehung zu Washington Da es gleichzeitig ein ehrgeiziges Rechenzentrumsprojekt verfolgt und Berichten zufolge die Grundlage für eine der größten Finanzierungsrunden in der Geschichte legt.
Das bringt uns zu O3-Mini. Openai setzt sein neues Modell als „mächtig“ und „erschwinglich“ an.
„Die heutigen Startmarken […] Ein wichtiger Schritt zur Erweiterung der Zugänglichkeit zu fortgeschrittener KI im Dienst unserer Mission “, sagte ein OpenAI -Sprecher gegenüber Tech.
Effizientere Argumentation
Im Gegensatz zu den meisten großen Sprachmodellen überprüfen sich Argumentationsmodelle wie O3-mini, bevor sie Ergebnisse liefern. Dies hilft ihnen, einige der Fallstricke zu vermeiden, die normalerweise Modelle stolpern. Diese Argumentationsmodelle dauern etwas länger, um zu Lösungen zu gelangen, aber der Kompromiss ist, dass sie in Bereichen wie Physik zuverlässiger-wenn auch nicht perfekt-sind.
O3-mini ist für STEM-Probleme, insbesondere für Programmierung, Mathematik und Naturwissenschaften, gut abgestimmt. OpenAI behauptet, dass das Modell in Bezug auf die Fähigkeiten die O1-Familie O1 und O1-Mini hauptsächlich mit der O1-Familie entspricht, aber schneller läuft und weniger kostet.
Das Unternehmen behauptete, dass externe Tester die Antworten von O3-Mini gegenüber den O1-Mini-O1-Mini mehr als die Hälfte der Zeit bevorzugten. O3-mini machte offenbar auch 39% weniger „große Fehler“ bei „schwierigen realen Fragen“ in A/B -Tests gegen O1-mini und produzierte „klarere“ Antworten und lieferte Antworten etwa 24% schneller.
O3-Mini steht allen Benutzern ab ChatGPT ab Freitag zur Verfügung, aber Benutzer, die für OpenAIs Chatgpt Plus und Teampläne bezahlen, erhalten ein höheres Zinslimit von 150 Abfragen pro Tag. Chatgpt Pro-Abonnenten erhalten unbegrenzten Zugriff, und O3-Mini werden in einer Woche zu Chatgpt Enterprise- und Chatgpt EDU-Kunden geliefert. (Noch kein Wort in Chatgpt Gov).
Benutzer mit Premium-Plänen können O3-Mini mit dem Dropdown-Menü ChatGPT auswählen. Kostenlose Benutzer können in der Chat-Leiste auf die neue Schaltfläche „Grund“ klicken oder tippen oder Chatgpt „Wiedererfertigung“ eine Antwort haben.
Ab Freitag wird O3-Mini auch über die OpenAI-API zur Auswahl von Entwicklern erhältlich sein, aber es wird zunächst keine Unterstützung für die Analyse von Bildern haben. Entwickler können die Ebene der „Argumentationsanstrengungen“ (niedrig, mittel oder hoch) auswählen, um O3-Mini zu erhalten, um aufgrund ihres Anwendungsfalls und ihrer Latenzanforderungen härter zu denken.
O3-Mini kostet 0,55 USD pro Million zwischengespeicherte Input-Token und 4,40 USD pro Million Output-Token, wobei eine Million Token ungefähr 750.000 Wörter entspricht. Das sind 63% billiger als O1-Mini und wettbewerbsfähig mit Deepseeks R1-Argumentationsmodellpreisen. Deepseek berechnet 0,14 USD pro Million zwischengespeicherte Input -Token und 2,19 USD pro Million Output -Token für R1 -Zugriff über seine API.
In ChatGPT ist O3-Mini auf mittlere Argumentationsanstrengungen eingestellt, was laut OpenAI „einen ausgewogenen Kompromiss zwischen Geschwindigkeit und Genauigkeit“ bietet. Bezahlte Benutzer haben die Möglichkeit, im Model Picker „O3-Mini-High“ auszuwählen, wodurch OpenAI „höhere Intelligenz“ als Gegenleistung für langsamere Antworten liefert.
Unabhängig davon, welche Version von O3-Mini-Chatgpt-Benutzern wählen, funktioniert das Modell mit der Suche, um aktuelle Antworten mit Links zu relevanten Webquellen zu finden. OpenAI warnt davor, dass die Funktionalität ein „Prototyp“ ist, da sie die Suche in ihren Argumentationsmodellen integriert.
„Während O1 unser breiteres Modell für allgemeines Wissen bleibt, bietet O3-Mini eine spezielle Alternative für technische Bereiche, die Präzision und Geschwindigkeit erfordern“, schrieb Openai am Freitag in einem Blog-Beitrag. „Die Veröffentlichung von O3-Mini markiert einen weiteren Schritt in OpenAs Mission, um die Grenzen der kostengünstigen Intelligenz zu überschreiten.“
Vorbehalte gibt es zuhauf
O3-Mini ist bisher weder das mächtigste Modell von Openai noch überspringt es in jedem Benchmark Deepseeks R1-Argumentationsmodell.
O3-mini schlägt R1 auf Aime 2024, ein Test, der misst, wie gut Modelle komplexe Anweisungen verstehen und auf reagieren-jedoch nur mit hoher Argumentation. Es überträgt auch R1 auf dem programmierorientierten Test SWE-Bench verifiziert (von 0,1 Punkt), aber nur mit hohen Argumentationsanstrengungen. O3-mini lag R1 auf GPQA Diamond, das Modelle mit Physik-, Biologie- und Chemiefragen testet.
Um fair zu sein, beantwortet O3-Mini viele Fragen zu wettbewerbsfähigen Kosten und Latenz. In der Post vergleicht Openai seine Leistung mit der O1 -Familie:
„Mit geringer Begründung erzielt O3-Mini eine vergleichbare Leistung mit O1-Mini, während O3-mini mit mittelgroßer Anstrengungen eine vergleichbare Leistung mit O1 erzielt“, schreibt Openai. „O3-mini mit mittlerer Begründung entspricht der Leistung von O1 in Mathematik, Codierung und Naturwissenschaften und gleichzeitig schnellere Antworten. In der Zwischenzeit übertrifft O3-Mini mit hoher Argumentation sowohl O1-Mini als auch O1. “
Es ist erwähnenswert, dass der Leistungsvorteil von O3-Mini gegenüber O1 in einigen Bereichen schlank ist. Bei Aime 2024 schlägt O3-mini O1 um nur 0,3 Prozentpunkte, wenn sie auf hohe Argumentationsanstrengungen eingestellt sind. Und auf GPQA Diamond übertrifft O3-Mini die Punktzahl von O1 auch bei hohen Argumentationsanstrengungen.
OpenAI behauptet, dass O3-Mini so „sicher“ oder sicherer ist als die O1-Familie, dank der rot-Team-Bemühungen und der Methodik „Abrechnungsprüfung“, wodurch die Modelle „nach OpenAIs Sicherheitsrichtlinien“ nachdenken, während sie darauf reagieren Abfragen. Nach Angaben des Unternehmens übertrifft O3-Mini eines der Flaggschiff-Modelle von OpenAI, GPT-4O, auf „herausfordernde Sicherheits- und Jailbreak-Bewertungen“.
Tech hat einen AI-ausgerichteten Newsletter! Melden Sie sich hier an, um es jeden Mittwoch in Ihren Posteingang zu bringen.