Tout après le «bombardement» de Deepseek

Tout apres le bombardement de Deepseek

À la fois technologiquement et en ce qui concerne la perception générale, Chatgpt a été le principal outil d’intelligence artificielle. Ce n’est pas pour moins; Quelques jours après l’arrivée de Donald Trump à la Maison Blanche, le magnat a annoncé Stargate, un projet qui impliquait le développeur OpenAI et d’autres entités pour investir certains 500 000 millions de dollars En intelligence artificielle. Par conséquent, surprise qu’un chatbot chinois ait réussi à se relever parmi les applications les plus téléchargées de l’App Store en quelques heures en quelques heures pour démontrer un générateur potentiel au plus fort des meilleurs.

Deepseek, la société avec son intelligence artificielle homonyme, arrive pour promettre un chatbot conversationnel plus efficace et parier sur Un modèle source ouvert et totalement gratuit qui a ébranlé l’industrie cimentée en fonction de l’utilisation de l’IA. Et il convient de tenir compte du fait que la société chinoise ne dépend pas des grands investisseurs et que son ambition est de rechercher l’idée longuement attendue de l’intelligence artificielle générale (AGI) Mais sans la précipitation pour se démarquer au niveau commercial Que d’autres aiment Google, Goal ou Openai.

D’où vient Deepseek?

Très probablement, le nom Depseek ne sonne pas. C’est normal depuis qu’il y a quelques jours, ce n’était rien de plus qu’une entreprise chinoise avec une faible reconnaissance publique qui n’avait publié un modèle open source que le 20 janvier. Ceci, appelé Deepseek-R1, a donné beaucoup de choses à parler pour ses capacités dans la communauté de l’IA, car il visait à résoudre des problèmes complexes en utilisant des chaînes de raisonnement.

Mais pour comprendre votre ascension, vous devez connaître votre passé. Deepseek, une entreprise située en Chine et totalement orientée vers l’intelligence artificielle – dont le nom partage avec son chatbot-Il a commencé son voyage en tant que Fire-Flyer, une division de recherche du Fonds de couverture quantitative à haut vol, le plus grand en Chine. Ces fonds valent la valeur des modèles mathématiques et des algorithmes de calcul pour soutenir leurs décisions d’investissement, d’où l’existence de Fire-Flyer, comme indiqué une enquête sur Câblé.

Deepseek Omicrono Omicrono

L’actuel directeur exécutif de Deepseek, Liang Wenfeng, était le même que le High-Flyer co-fondé alors qu’il était à l’université. Bientôt, il a été pertinent, allant à obtenir environ 15 000 millions de dollars, Ce qui l’a fait se démarquer parmi les spécialisés. Le succès a permis à Wenfeng Trouvé Deepseek en 2023, L’actuel laboratoire d’intelligence artificielle pour construire ses propres modèles d’IA. Une partie de cela a été possible grâce au fait que le haut-voleur avait déjà des équipements spécialisés à ces fins, avec des GPU et des ordinateurs pour analyser les données financières.

L’approche Wenfeng pour la fondation Deepseek était diamétralement contraire à ce qu’une entreprise d’IA normale aurait, qui, dans les cas normaux, aurait cherché à positionner son produit pour le consommateur, en utilisant du personnel spécialisé dans l’informatique. Rien de tel; Équipe de recherche principale de Deepseek Il était composé d’étudiants doctoraux de renom dans la communauté, Et qu’ils avaient déjà une gloire dans les cercles académiques, même en remportant des prix.

Le fait est que Wenfeng était le seul à avoir eu de l’expérience dans l’industrie de l’intelligence artificielle; En fait, le PDG lui-même a admis en 2023 que les techniciens qui gonflent Deepseek au début Ils avaient obtenu leur diplôme la même année ou au cours des deux dernières années. L’idée de Wenfeng n’était pas d’appliquer une hiérarchie de pouvoir pour développer le meilleur produit possible, mais d’établir une culture collaborative qui a donné la liberté à ses employés.

Quelque chose qui, d’autre part, se brise totalement avec les normes et les environnements de travail imposés en Chine, en particulier ceux faisant référence à ceux technologiques du pays. Selon les mots de Wenfeng, Son projet a connu une rentabilité assez faible, mais a connu un investissement élevé. « La plupart des gens, lorsqu’ils sont jeunes, peuvent être complètement dédiés à une mission sans considérations utilitaires »,  » Wenfeng a déclaré en 36 kr.

Liang Wenfeng, PDG et co-fondateur de Deepseek. Liang wenfeng omicrono

Cette vision curieuse a également aidé à définir la philosophie et les caractéristiques des modèles d’IA qui ont provoqué une fureur cette semaine. Et Deepseek n’était pas un manque de problèmes, en raison de la dépendance des signatures de certains composants clés pour la formation et le développement de ces modèles. L’exemple le plus clair s’est produit en octobre 2022, lorsque les États-Unis ont appliqué des contrôles d’exportation importants Cela a empêché la Chine d’accéder à des puces d’avant-garde spécialisées dans l’intelligence artificielle.

L’idée était simple; Le fait que ces limites de l’administration américaine empêche la Chine puisse avoir une capacité suffisante pour produire leur propre État-des puces-art et empêcher les entreprises du pays d’obtenir le matériel le plus le plus important de Qualcomm, Intel, AMD et bien sûr Nvidia. En fait, Depseek avait déjà 10 000 nvidia H100, graphiques Avec jusqu’à 175 000 millions de paramètres appropriés pour l’inférence de grands modèles linguistiques ou LLM.

Compte tenu de cette perspective et selon l’enquête de Wired, DePseek a dû affirmer un ensemble important de méthodes alternatives pour pouvoir former leurs modèles et qu’ils pourraient vous battre avec les plus importants du marché, soutenus par des entreprises avec un capital beaucoup plus élevé. Ces méthodes d’ingénierie comprenaient l’utilisation de schémas de communication personnalisés entre les puces ou une réduction de la taille des champs pour enregistrer la mémoire.

Toute cette idéologie se reflète dans les modèles Depseek. Par exemple, le modèle Deepseek-R1 est un code gratuit et bien que son utilisation soit gratuite, elle ne coûte que 2,10 euros pour l’utilisation d’un million de jetons de départ Si l’utilisateur souhaite connecter ses propres applications au modèle et à l’infrastructure informatique Deepseek. En comparaison, Openai Demandez 57,80 euros.

Comparaison entre Depseek et Openai O1 Deepseek Omicrono

Ils sont loin de leurs seuls avantages; Deepseek-R1 a été appris pendant 55 jours Avec un budget de 5,57 millions de dollars (environ 5,33 millions d’euros au changement actuel) en utilisant 2 048 unités de processeurs graphiques Nvidia H800. Selon le portail papier, cela implique que le coût du modèle représente moins d’un dixième des dépenses dans la formation du modèle OpenAI.

Loin de ce que cela peut sembler, même avec tout cepseek-r1 Obtenir son rival, le modèle OpenA-O1 dans une bonne partie des repères et les tests de performance du marché. Depuis la présentation de Deepseek V3 en décembre de l’année dernière, la startup chinoise a réussi à améliorer ses modèles afin qu’ils soient plus efficaces et capables que les modèles les plus importants avec une fraction d’entraînement. Tout cela, rappelez-vous, avec 671 000 millions de paramètres.

Même Deepseek V3, le modèle LLM (modèle de grande langue) avant ceux récemment présentés par la startup chinoise, a dépassé ses rivaux directs, tels que GPT-4O ou l’appel 3.1 de la finition. Ce modèle avait besoin de 2 788 millions d’heures pour s’entraîner à un processus qui a coûté 5,5 millions de dollars à l’entreprise. En revanche, nous avons GPT-4, le modèle rival Openai en capacités dont la formation Cela coûte 80 millions de dollars.

Puissance open source

Cependant, l’aspect qui reflète le plus la philosophie de Wenfeng et Deepseek lui-même est que ses modèles, y compris bien sûr Deepseek-R1— Ils sont open source. L’ensemble de la communauté des développeurs, ainsi que d’autres sociétés, peuvent utiliser le code de ces modèles et le télécharger à volonté. De plus, grâce à cette condition, la propre opération du modèle Il peut être vu clairement et transparent, sans secret.

🚀 Introduction Deepseek-V3!

Le plus grand bond en avant à ce jour:
⚡ 60 jetons / seconde (3x plus vite que V2!)
💪 Capacités améliorées
🛠 Compatibilité de l’API intacte
🌍 Modèles et papiers entièrement open-source

🐋 1 / N pic.twitter.com/p1dv9gj2sd

– Deepseek (@deepseek_ai) 26 décembre 2024

Tout développeur, entreprise ou même utilisateur conventionnel Vous pouvez télécharger le code dans github et le modifier au plaisir, même s’il est utilisé à des fins commerciales. OpenAI, objectif ou Google adoptent une approche directement opposée, dans ce cas, optant pour le secret et pour cacher principalement des avantages internes qui rendent leurs modèles respectifs possibles. Les entreprises qui ci-dessus Ils parlent très économiquement en profondeur.

Deepseek a continué de surprendre même après le succès brutal que R1 a eu ces derniers jours, blessant des Titans comme Google ou Nvidia. 27 janvier dernier DePseek a présenté Janus Pro 7b, un modèle de génération d’images multimodal que «comprend» son contenu. Sans saisir des problèmes techniques, ce modèle qui vous combat avec d’autres modèles tels que la diffusion stable ou Dall-E3 dépasse ses adversaires dans la plupart des repères, créant une nouvelle norme de performance d’intelligence artificielle.

Janus Pro 7b a collecté le témoin de ses modèles de prédécesseurs et s’est démarqué de sa grande efficacité et n’a pas eu besoin d’une quantité importante de ressources pour fonctionner. À l’intérieur, il met en évidence son système à double piste pour traiter les images, le modèle est capable de séparer le codage pour la génération d’images et l’autre L’identification de l’image pour les loisirs. Il n’a besoin que de 7 000 millions de paramètres, en plus. Et si, Il est également open source.

Toutes ces avancées sont un précédent que les États-Unis tentaient d’éviter par tous les moyens possibles avec ses limites dans l’exportation de semi-conducteurs vers la Chine – qui ont également été intensifiés en janvier de cette année – que Les ingénieurs chinois surmontent ces restrictions en se concentrant sur une plus grande efficacité pour résoudre la pénurie de ressources dont ils souffrent.

Deepseek, au niveau de l’entreprise, se souligne car, contrairement à OpenAI et à d’autres sociétés, il ne nécessite pas le soutien des titans technologiques et des grands investisseurs en capital tels que Bytedance ou Baidu, pour donner des exemples locaux de Chine. S’il est vrai que la création de Liang Wenfeng a été renforcée par la société d’investissement quantitative Huanfang Quant, le laboratoire est une rébellion contre le stablage technologique qui a été généré autour de la montée de l’intelligence artificielle; Un nouveau joueur qui a installé Nvidia, Google, déjà d’autres sociétés du secteur.



fr-02