Mischung von Experten: Die Methode hinter Deepseeks sparsamem Erfolg |

Mischung von Experten Die Methode hinter Deepseeks sparsamem Erfolg

Chinas Deepseek hat ein KI-Wunder ausgeschöpft-ein oberster Tier bauen künstliche Intelligenz Modell, während Sie weit weniger als seine amerikanischen Rivalen ausgeben. Zu einer Zeit, wenn KI -Riesen Verbrennen in Milliarden an GPUs und potenziellen Rechenzentren, dieses Start-up hat einen Weg herausgefunden, um mehr mit weniger zu tun.
Das Geheimnis? Eine Mischung aus Smart Engineering, eine kluge Neurales Netzwerkdesignund einige gute altmodische mathematische Effizienz.
Big Ai, kleines Budget
Die meisten KI -Firmen stapeln ihre Rechenzentren mit Tausenden von GPUs – den neuesten Meta AI -Modell Berichten zufolge kosteten 16.000 spezielle Chips, jeweils rund 40.000 US -Dollar. Deepseek? Nur 2.000. Ihre Gesamtförderkosten? Nur 6 Millionen US -Dollar, fast ein Zehntel dessen, was Meta ausgegeben hat.
Der ‚Mischung von Experten‚Trick
Der Schlüssel zu Deepseeks sparsamem Erfolg? Eine Methode namens „Mischung von Experten“. Traditionelle KI -Modelle versuchen, alles in einem riesigen neuronalen Netzwerk zu lernen. Das ist wie das Füllen aller Wissen in ein einzelnes Gehirn-unabhängig und kraftvoll.
Deepseek teilt stattdessen das System in spezialisierte Mini-Netzwerke auf-eine für Poesie, eine für die Codierung, eine andere für Biologie und so weiter. Jeder „Experte“ konzentrierte sich auf seine Domäne, während ein „Generalist“ -Netzwerk als Brücke fungierte und sie koordinierte.
Stellen Sie sich das wie einen Newsroom vor: Fachreporter decken bestimmte Beats ab, während ein Redakteur die Punkte verbindet.
Das Dezimalspiel
Wenn das nicht genug war, drückte Deepseek auch die Effizienz aus reiner Mathematik heraus. KI-Modelle verlassen sich auf umwerfende Anzahl von Zahlen, die in der Regel 16-Bit-Präzision unterscheiden. Deepseek? Sie haben es auf 8 Bit gesenkt – den Speichergebrauch und beschleunigte Berechnungen.
Präzision zu verlieren klingt riskant, oder? Nicht wirklich. Genau wie bei der Rundung von π auf 3.14 Arbeiten für die meisten praktischen Verwendungen schadete Trimmdezimalstellen die Leistung der KI nicht. Und bei Bedarf streckte Deepseek die endgültigen Ergebnisse auf die 32-Bit-Genauigkeit zurück-und gab ihnen das Beste aus beiden Welten.
Warum haben andere es nicht getan?
KI -Giants wie Openai und Googles Deepmind haben das Gehirn und das Budget. Warum haben sie diesen Code nicht zuerst geknackt? Einfach: Risiko.
Das Aufbau von KI -Modellen ist teuer, und das Experimentieren mit neuen Techniken kann Millionen ohne Erfolgsgarantie verbrennen. Deepseek nahm dieses Glücksspiel – und es zahlte sich aus.
Nachdem sie ihre Ergebnisse veröffentlicht haben, nimmt die Branche zur Kenntnis. Die KI -Entwicklung wurde gerade viel billiger. Die Frage ist: Wer wird der nächste sein, der dem Beispiel folgt?

toi-allgemeines