Das neue KI-Modell von DeepSeek scheint einer der bisher besten „offenen“ Herausforderer zu sein

Ein chinesisches Labor hat eines der bislang leistungsstärksten „offenen“ KI-Modelle entwickelt.

Das Modell, DeepSeek V3wurde von der KI-Firma DeepSeek entwickelt und am Mittwoch unter einer freizügigen Lizenz veröffentlicht, die es Entwicklern erlaubt, es für die meisten Anwendungen, einschließlich kommerzieller, herunterzuladen und zu modifizieren.

DeepSeek V3 kann eine Reihe textbasierter Arbeitslasten und Aufgaben bewältigen, wie etwa Codieren, Übersetzen und das Schreiben von Aufsätzen und E-Mails über eine beschreibende Eingabeaufforderung.

Laut den internen Benchmark-Tests von DeepSeek übertrifft DeepSeek V3 sowohl herunterladbare, „offen“ verfügbare Modelle als auch „geschlossene“ KI-Modelle, auf die nur über eine API zugegriffen werden kann. In einer Untergruppe von Codierungswettbewerben, die auf Codeforces, einer Plattform für Programmierwettbewerbe, veranstaltet werden, übertrifft DeepSeek Modelle wie Metas Llama 3.1 405B, OpenAIs GPT-4o und Alibabas Qwen 2.5 72B.

DeepSeek V3 übertrifft die Konkurrenz auch beim Aider Polgyglot, einem Test, der unter anderem messen soll, ob ein Modell erfolgreich neuen Code schreiben kann, der sich in vorhandenen Code integriert.

DeepSeek-V3!

60 Token/Sekunde (3x schneller als V2!)
API-Kompatibilität intakt
Vollständig Open-Source-Modelle und -Papiere
671B MoE-Parameter
37B aktivierte Parameter
Trainiert mit hochwertigen 14,8T-Token

Schlägt Llama 3.1 405b in fast jedem Benchmark https://t.co/OiHu17hBSI pic.twitter.com/jVwJU07dqf

— Chubby♨️ (@kimmonismus) 26. Dezember 2024

DeepSeek behauptet, dass DeepSeek V3 auf einem Datensatz von 14,8 Billionen Token trainiert wurde. In der Datenwissenschaft werden Token zur Darstellung von Rohdatenbits verwendet; 1 Million Token entsprechen etwa 750.000 Wörtern.

Es ist nicht nur das Trainingsset, das riesig ist. DeepSeek V3 ist enorm groß: 685 Milliarden Parameter. (Parameter sind die internen Variablenmodelle, die zum Treffen von Vorhersagen oder Entscheidungen verwendet werden.) Das ist etwa das 1,6-fache der Größe von Llama 3.1 405B, das über 405 Milliarden Parameter verfügt.

DeepSeek (chinesisches KI-Unternehmen) macht es heute einfach, mit einer Open-Weight-Veröffentlichung eines LLM der Spitzenklasse, das mit einem witzigen Budget trainiert wurde (2048 GPUs für 2 Monate, 6 Millionen US-Dollar).

Zur Veranschaulichung: Dieses Leistungsniveau dürfte Cluster von GPUs mit einer Kapazität von etwa 16.000 erfordern, und zwar … https://t.co/EW7q2pQ94B

— Andrej Karpathy (@karpathy) 26. Dezember 2024

Die Parameteranzahl korreliert oft (aber nicht immer) mit dem Können; Modelle mit mehr Parametern übertreffen tendenziell Modelle mit weniger Parametern. Aber große Modelle benötigen zum Betrieb auch leistungsfähigere Hardware. Eine nicht optimierte Version von DeepSeek V3 würde eine Reihe von High-End-GPUs benötigen, um Fragen mit angemessener Geschwindigkeit zu beantworten.

Obwohl es nicht das praktischste Modell ist, ist DeepSeek V3 in mancher Hinsicht eine Errungenschaft. DeepSeek konnte das Modell mithilfe eines Rechenzentrums mit Nvidia H800-GPUs in nur etwa zwei Monaten trainieren – GPUs, die chinesische Unternehmen kürzlich nutzten eingeschränkt vom US-Handelsministerium von der Beschaffung ausgeschlossen. Das Unternehmen gibt außerdem an, nur 5,5 Millionen US-Dollar für die Schulung von DeepSeek V3 ausgegeben zu haben, ein Bruchteil der Entwicklungskosten von Modellen wie GPT-4 von OpenAI.

Der Nachteil ist, dass die politischen Ansichten des Models etwas gefiltert sind. Wenn Sie beispielsweise DeepSeek V3 nach dem Platz des Himmlischen Friedens fragen, erhalten Sie keine Antwort.

Da DeepSeek ein chinesisches Unternehmen ist, unterliegt es dieser Regelung Benchmarking von Chinas Internet-Regulierungsbehörde, um sicherzustellen, dass die Antworten ihrer Modelle „grundlegende sozialistische Werte verkörpern“. Viele Chinesische KI-Systeme weigern sich, auf Themen zu reagieren, die den Zorn der Regulierungsbehörden erregen könnten, wie etwa Spekulationen darüber Xi Jinping Regime.

DeepSeek, das kürzlich DeepSeek-R1 vorgestellt hat, eine Antwort auf das o1-„Reasoning“-Modell von OpenAI, ist eine merkwürdige Organisation. Es wird von High-Flyer Capital Management unterstützt, einem chinesischen quantitativen Hedgefonds, der KI als Grundlage für seine Handelsentscheidungen nutzt.

Die Modelle von DeepSeek haben Konkurrenten wie ByteDance, Baidu und Alibaba dazu gezwungen, die Nutzungspreise für einige ihrer Modelle zu senken – und andere völlig kostenlos zu machen.

High-Flyer baut eigene Servercluster für das Modelltraining auf, eines der jüngsten davon angeblich verfügt über 10.000 Nvidia A100-GPUs und kostet 1 Milliarde Yen (~138 Millionen US-Dollar). High-Flyer wurde von Liang Wenfeng, einem Informatik-Absolventen, gegründet und möchte mit seiner DeepSeek-Organisation eine „superintelligente“ KI erreichen.

In einem Interview Anfang des Jahres beschrieb Liang Open Sourcing als „kulturellen Akt“ und bezeichnete Closed-Source-KI wie OpenAI als „vorübergehenden“ Burggraben. „Selbst der Closed-Source-Ansatz von OpenAI hat andere nicht davon abgehalten, aufzuholen“, bemerkte er.

In der Tat.

tch-1-tech

Japan kämpft gegen Waldbrand, das Dutzende von Häusern beschädigte, Hunderte zum Evakuieren

TSMC verspricht, 100 Mrd. USD für US -Chip -Einrichtungen auszugeben

Der massive Sturm ‚Lola‘, um uns zu fegen, bringt Tornados, Schneesturmbedingungen und Störungen

Einen Augenblick…

Das neue KI-Modell von DeepSeek scheint einer der bisher besten „offenen“ Herausforderer zu sein