DeepSeek behauptet, dass sein Argumentationsmodell bei bestimmten Benchmarks das o1 von OpenAI übertrifft

DeepSeek behauptet dass sein Argumentationsmodell bei bestimmten Benchmarks das o1

Das chinesische KI-Labor DeepSeek hat eine offene Version von DeepSeek-R1 veröffentlicht, seinem sogenannten Reasoning-Modell, das nach eigenen Angaben bei bestimmten KI-Benchmarks genauso gut abschneidet wie OpenAIs o1.

R1 ist auf der KI-Entwicklungsplattform Hugging Face unter einer MIT-Lizenz erhältlich und kann daher ohne Einschränkungen kommerziell genutzt werden. Laut DeepSeek übertrifft R1 o1 bei den Benchmarks AIME, MATH-500 und SWE-bench Verified. AIME verwendet andere Modelle, um die Leistung eines Modells zu bewerten, während MATH-500 eine Sammlung von Textaufgaben ist. SWE-bench Verified hingegen konzentriert sich auf Programmieraufgaben.

Da es sich um ein Argumentationsmodell handelt, überprüft R1 die Fakten effektiv selbst und vermeidet so einige der Fallstricke, die Modelle normalerweise zum Stolpern bringen. Reasoning-Modelle brauchen im Vergleich zu einem typischen Non-Reasoning-Modell etwas länger – in der Regel Sekunden bis Minuten länger –, um zu Lösungen zu gelangen. Der Vorteil besteht darin, dass sie in Bereichen wie Physik, Naturwissenschaften und Mathematik tendenziell zuverlässiger sind.

R1 enthält 671 Milliarden Parameter, enthüllte DeepSeek in einem Technischer Bericht. Parameter entsprechen in etwa den Problemlösungsfähigkeiten eines Modells, und Modelle mit mehr Parametern schneiden im Allgemeinen besser ab als solche mit weniger Parametern.

671 Milliarden Parameter sind gewaltig, aber DeepSeek hat auch „destillierte“ Versionen von R1 veröffentlicht, deren Größe von 1,5 Milliarden Parametern bis zu 70 Milliarden Parametern reicht. Die Kleinsten können auf einem Laptop laufen. Was das vollständige R1 betrifft, erfordert es leistungsfähigere Hardware, aber es Ist Verfügbar über die API von DeepSeek zu Preisen, die 90–95 % günstiger sind als die o1 von OpenAI.

R1 hat einen Nachteil. Da es sich um ein chinesisches Modell handelt, unterliegt es dem Benchmarking von Chinas Internetregulierungsbehörde, um sicherzustellen, dass ihre Antworten „grundlegende sozialistische Werte verkörpern“. R1 beantwortet beispielsweise keine Fragen zum Platz des Himmlischen Friedens oder zur Autonomie Taiwans.

R1 filtert in Aktion. Bildnachweis:DeepSeek

Viele Chinesische KI-Systeme, einschließlich anderer Argumentationsmodelle, weigern sich, auf Themen zu reagieren, die den Zorn der Regulierungsbehörden im Land erregen könnten, wie etwa Spekulationen darüber Xi Jinping Regime.

R1 kommt Tage nach dem Vorschlag der scheidenden Biden-Regierung an härter Exportregeln und Beschränkungen für KI-Technologien für chinesische Unternehmen. Unternehmen in China waren bereits daran gehindert, fortschrittliche KI-Chips zu kaufen, aber wenn die neuen Regeln wie geschrieben in Kraft treten, werden Unternehmen mit strengeren Obergrenzen sowohl für die Halbleitertechnologie als auch für die Modelle konfrontiert, die zum Starten hochentwickelter KI-Systeme erforderlich sind.

In einem Grundsatzdokument forderte OpenAI letzte Woche die US-Regierung auf, die Entwicklung der US-amerikanischen KI zu unterstützen, damit chinesische Modelle diese nicht in ihrer Leistungsfähigkeit erreichen oder übertreffen. In einem Interview Mit „The Information“ hob Chris Lehane, Vizepräsident für Politik bei OpenAI, High Flyer Capital Management, die Muttergesellschaft von DeepSeek, als eine besonders besorgniserregende Organisation hervor.

Bisher haben mindestens drei chinesische Labore – DeepSeek, Alibaba und Kimidas dem chinesischen Einhorn Moonshot AI gehört, hat Modelle produziert, die ihrer Meinung nach mit o1 konkurrieren. (Bemerkenswert ist, dass DeepSeek das erste war – es kündigte Ende November eine Vorschau auf R1 an.) In a Post Auf X sagte Dean Ball, ein KI-Forscher an der George Mason University, dass der Trend darauf hindeutet, dass chinesische KI-Labore weiterhin „Fast Followers“ sein werden.

„Die beeindruckende Leistung der destillierten Modelle von DeepSeek […] „Das bedeutet, dass sich sehr fähige Denker weiterhin stark verbreiten und auf lokaler Hardware ausgeführt werden können“, schrieb Ball, „weit entfernt von den Augen eines Kontrollregimes von oben.“

tch-1-tech