DeepSeek est-il vraiment open source ?

CometAPI
AnnaJun 2, 2025
DeepSeek est-il vraiment open source ?

DeepSeek, une start-up chinoise d'IA qui a fait parler d'elle avec son modèle de raisonnement R1 début 2025, a suscité un vif débat sur l'état de l'IA open source et ses implications plus larges. Si l'attention s'est principalement portée sur ses performances impressionnantes – rivalisant avec des modèles d'entreprises américaines comme OpenAI et Alibaba –, des questions subsistent quant à la véritable « open source » de DeepSeek, dans son esprit comme dans sa pratique. Cet article se penche sur les derniers développements concernant DeepSeek, explore ses références open source, le compare à des modèles comme GPT-4.1 et évalue ses répercussions sur le paysage mondial de l'IA.

Qu'est-ce que DeepSeek et comment est-il apparu ?

Origine et ambition de DeepSeek

DeepSeek a été fondée sous le nom de Hangzhou DeepSeek Artificial Intelligence Basic Technology Research Co., Ltd., avec Liang Wenfeng (également appelé Wenfeng Liang) comme principal visionnaire. Son éthique divergeait de celle de nombreuses startups de la Silicon Valley : plutôt que de privilégier une commercialisation rapide, DeepSeek privilégiait l'efficacité de la recherche et la rentabilité. Début 2025, le modèle R1 de DeepSeek avait déjà attiré l'attention en égalant, voire en dépassant, les principaux critères de référence en matière de raisonnement mathématique et de génération de code, malgré son développement sous les contraintes des contrôles américains à l'exportation des puces d'IA haut de gamme.

Percée dans les modèles de raisonnement

En janvier 2025, DeepSeek a dévoilé R1 sous licence MIT (une licence open source permissive), affirmant que R1 avait obtenu « 79.8 % de réussite à la première tentative à l'AIME 1, surpassant légèrement OpenAI-o2024-1 » et un score de « 1217 % à MATH-97.3, à égalité avec o500 et surpassant les autres modèles publics ». Pour les tâches de codage, R1 a obtenu un score Elo de 1 2,029 sur Codeforces, surpassant 96.3 % des participants humains, indiquant que le modèle n'était pas simplement un exercice théorique, mais un outil hautement performant adapté aux applications du monde réel.

En exploitant des techniques telles que les couches mixtes d'experts (MoE) et l'entraînement sur des puces d'IA plus faibles, rendues nécessaires par les restrictions commerciales, DeepSeek a considérablement réduit les coûts de formation. Les observateurs ont souligné que son approche remettait non seulement en cause la dépendance supposée à l'égard du matériel haut de gamme, mais qu'elle avait également provoqué une onde de choc dans le secteur, entraînant une chute de la valeur boursière de Nvidia d'environ 600 milliards de dollars en une seule séance – « la plus forte baisse jamais enregistrée par une seule entreprise dans l'histoire de la bourse américaine ».

DeepSeek est-il vraiment open source ?

Licence et disponibilité

Le modèle R1 de DeepSeek a été publié sous licence MIT sur Hugging Face en janvier 2025, autorisant une utilisation commerciale, une modification et une redistribution sans restriction des pondérations du modèle et du code associé. Ce choix de licence classe techniquement R1 comme un projet open source, mais en pratique, des nuances apparaissent. Bien que les pondérations du modèle et le code d'inférence soient accessibles au public, l'ensemble des données d'entraînement ni les pipelines d'entraînement précis n'ont pas été publiés. Cette omission soulève des questions quant à sa qualification comme « entièrement » open source, au même titre que les projets partageant des détails de reproductibilité de bout en bout. Par exemple, si chacun peut télécharger et peaufiner R1, il est impossible de reproduire la procédure d'entraînement originale de DeepSeek sans accéder aux données propriétaires et aux configurations de cluster (par exemple, les clusters Fire-Flyer utilisant 5,000 100 GPU AXNUMX).

Transparence des données de formation

Les puristes de l'open source insistent souvent non seulement sur la disponibilité des pondérations et du code des modèles, mais aussi sur la transparence des données d'entraînement, des scripts de prétraitement et des benchmarks d'évaluation. Dans son cas, l'entreprise a partagé des détails importants – comme l'utilisation de « données synthétiques générées par R1 » pour affiner les variantes distillées et l'intégration de fonctions de récompense basées sur des règles pour R1-Zero – mais a omis de préciser la provenance des données et les processus de curation. Sans ces informations, les chercheurs externes ne peuvent pas auditer pleinement les biais potentiels, la contamination des données ou les fuites de données involontaires, ce qui laisse planer des questions sur les implications éthiques et sécuritaires du modèle.

Engagement communautaire et fourches

Depuis sa sortie en open source, DeepSeek-R1 a suscité des forks et des expérimentations communautaires sur des plateformes comme Hugging Face. Les développeurs ont signalé avoir adapté des variantes plus petites (allant de 1.5 à 70 milliards de paramètres) pour les faire fonctionner sur du matériel standard, comme les GPU grand public, élargissant ainsi l'accès. Cependant, il n'existe pas encore de défi totalement indépendant pour reproduire R1 de zéro, en partie en raison des énormes ressources de calcul requises et de l'absence de données brutes partagées publiquement. Contrairement à LLaMA, qui a donné lieu à de multiples tentatives de reproduction officielles et communautaires, la revendication « open source » de DeepSeek repose principalement sur la mise à disposition des pondérations plutôt que sur la transparence totale de la recherche menée par la communauté.

Comment DeepSeek se compare-t-il aux autres modèles d’IA ?

Analyse comparative avec OpenAI o1, o3 et GPT-4.1

Les indicateurs de performance de DeepSeek-R1 le positionnent parmi les meilleurs modèles de raisonnement. Selon les benchmarks internes sur LiveCodeBench (développé par l'UC Berkeley, le MIT et Cornell), la version R1-0528 mise à jour de DeepSeek se classe juste derrière les o4-mini et o3 d'OpenAI en termes de génération de code, mais surpasse Grok 3-mini de xAI et Qwen 3 mini d'Alibaba. Parallèlement, GPT-4.1 d'OpenAI, sorti le 14 avril 2025, offre une fenêtre contextuelle d'un million de jetons et excelle dans le codage, le suivi d'instructions et les tâches à contexte long par rapport à son prédécesseur GPT-4o.

Lorsque l'on compare R1 à GPT-4.1, plusieurs facteurs émergent :

  • Performances aux tests de référence en code et en mathématiques:R1 obtient 79.8 % de réussite à la première place sur AIME 1 et un score de 2024 % sur MATH-97.3, dépassant légèrement o500. GPT-1, à son tour, obtient environ 4.1 % de réussite au codage (SWE-bench Verified) et 54.6 % de réussite aux tâches à contexte long, des mesures qui, bien qu'impressionnantes, ne sont pas directement comparables aux critères de raisonnement spécialisés de R72.
  • Fenêtre contextuelleGPT-4.1 prend en charge jusqu'à un million de jetons, ce qui lui permet de traiter des livres entiers ou de longues bases de code en une seule passe. La version R1 de DeepSeek ne correspond pas à cette longueur de contexte, se concentrant plutôt sur l'efficacité du raisonnement et de l'inférence sur des entrées plus courtes.
  • Efficacité des coûts:Sur Hugging Face, l'accès à l'API de R1 coûte jusqu'à 95 % de moins que celui d'o1 d'OpenAI, ce qui le rend attractif pour les startups et les chercheurs aux budgets limités. Le prix de base de GPT-4.1 est de 2 $ par million de jetons d'entrée et de 8 $ par million de jetons de sortie, les variantes mini et nano étant encore plus basses (0.40 $/1.60 $ et 0.10 $/0.40 $, respectivement). Les modèles distillés de DeepSeek peuvent fonctionner sur des ordinateurs portables, offrant un niveau supplémentaire d'économies au stade des exigences matérielles.

Différences architecturales

Le modèle R1 de DeepSeek s'appuie sur une architecture mixte d'experts (MoE), dans laquelle de larges portions du réseau sont activées uniquement en cas de besoin, réduisant ainsi considérablement les coûts de calcul d'inférence. Ces couches MoE, combinées à des bibliothèques de communication asynchrone (par exemple, hfreduce) et le framework Fire-Flyer DDP, permettent à DeepSeek de faire évoluer les tâches de raisonnement sur des clusters matériels plus faibles sous des restrictions commerciales.

En revanche, GPT-4.1 utilise des couches de transformation denses sur l'ensemble de son réseau pour gérer la fenêtre contextuelle d'un million de jetons. Si cela permet d'obtenir des performances supérieures sur les tâches à contexte long, cela nécessite également des ressources de calcul importantes pour l'entraînement et l'inférence, d'où le positionnement tarifaire de GPT-4.1 par rapport aux modèles plus petits comme GPT-4.1 mini et nano.

Quelles sont les implications de l’approche Open Source de DeepSeek ?

Impact sur la concurrence mondiale en matière d'IA

La publication open source de DeepSeek remet en cause le modèle propriétaire et les embargos sur les données, une pratique traditionnelle de la Silicon Valley. En rendant R1 accessible au public sous licence MIT, DeepSeek a remis en question l'idée selon laquelle l'IA haute performance doit rester fermée ou sous licence exclusive. Les conséquences immédiates ont été palpables : les géants technologiques américains ont ajusté leurs prix (par exemple, OpenAI a déployé GPT-4.1 mini et nano à moindre coût) et accéléré le développement de leurs propres modèles centrés sur le raisonnement, comme o4-mini, pour conserver leurs parts de marché. Les commentateurs du secteur ont qualifié l'émergence de DeepSeek de possible « moment Spoutnik » pour l'IA américaine, signalant un changement de contrôle hégémonique sur les capacités fondamentales de l'IA.

La stratégie open source de DeepSeek a également influencé le sentiment des investisseurs en capital-risque. Si certains investisseurs craignaient que le soutien aux entreprises américaines d'IA ne génère une baisse de rendement si les alternatives open source chinoises proliféraient, d'autres y voyaient une opportunité de diversifier les collaborations mondiales en matière de recherche en IA. Le capital-risqueur Marc Andreessen a salué R1 comme « l'une des avancées les plus étonnantes et impressionnantes » et « un don précieux au monde ». Parallèlement, la sortie de GPT-4.1 d'OpenAI en avril 2025 peut être considérée en partie comme une contre-mesure au modèle open source rentable de DeepSeek, démontrant que l'accès libre ne doit pas nécessairement sacrifier les performances de pointe.

Problèmes de sécurité et de confidentialité

Malgré l'enthousiasme suscité par la démocratisation de l'IA open source, l'origine de DeepSeek a suscité l'inquiétude des défenseurs de la vie privée et des agences gouvernementales. En janvier 2025, la Commission sud-coréenne de protection des informations personnelles (PIPC) a confirmé que son service en ligne envoyait les données des utilisateurs sud-coréens aux serveurs de ByteDance en Chine, ce qui a entraîné l'interdiction des téléchargements de nouvelles applications jusqu'à ce que les problèmes de conformité soient résolus. Une violation de données ultérieure, fin janvier 2025, a exposé plus d'un million d'entrées sensibles (messages de chat, clés API et journaux système) en raison d'une base de données de stockage cloud mal configurée, exacerbant les inquiétudes concernant les pratiques de DeepSeek en matière de sécurité des données.

Compte tenu de la réglementation chinoise qui peut contraindre les entreprises à partager des données avec les autorités, certains gouvernements et entreprises occidentaux hésitent encore à intégrer DeepSeek à leurs flux de travail critiques. Bien que DeepSeek ait pris des mesures pour sécuriser son infrastructure (par exemple, en corrigeant la base de données exposée en moins d'une heure), le scepticisme persiste quant à d'éventuelles portes dérobées ou à une utilisation abusive à des fins d'influence. Wired a rapporté que le service en ligne DeepSeek envoyant des données vers son pays d'origine « pourrait ouvrir la voie à une surveillance accrue », et les organismes de réglementation européens et américains ont laissé entendre qu'un examen plus approfondi serait effectué dans le cadre du RGPD et du CCPA.

Influence sur les coûts du matériel et de l'infrastructure

La capacité de DeepSeek à entraîner et déployer des modèles de raisonnement performants sur du matériel sous-optimal a des répercussions sur le marché plus large des infrastructures d'IA. En démontrant l'efficacité des couches MoE et du parallélisme optimisé (par exemple, HaiScale DDP) peut offrir une précision de raisonnement comparable à celle des modèles entièrement denses, DeepSeek a contraint les principaux fournisseurs de cloud (Microsoft Azure, AWS et Google Cloud) à évaluer l'intégration des techniques d'optimisation de DeepSeek. Microsoft et Amazon auraient commencé à proposer DeepSeek-R1 dans le cadre de leurs catalogues de services d'IA, répondant ainsi aux besoins des clients recherchant des alternatives moins coûteuses aux API GPT-4.1 ou o1.

De plus, NVIDIA, historiquement le principal fournisseur de GPU, a réagi à l'efficacité de ses processeurs MoE en privilégiant le matériel spécialisé (par exemple, les GPU compatibles HBM3 et les topologies NVLink) afin de maintenir son avantage concurrentiel. La volatilité du cours de l'action NVIDIA suite à son ascension souligne l'impact des avancées en matière d'efficacité algorithmique sur les prévisions de demande de matériel. Ainsi, même sans dévoiler de matériel propriétaire, DeepSeek a indirectement influencé la feuille de route des futurs accélérateurs d'IA.

Que révèle la dernière mise à jour R1-0528 sur l'engagement de DeepSeek en matière d'ouverture ?

Améliorations techniques dans R1-0528

Annoncée le 28 mai 2025, la mise à jour R1-0528 de DeepSeek promet des améliorations significatives du raisonnement mathématique, des tâches de programmation et la réduction des hallucinations (erreurs dans les informations générées par l'IA). Bien que DeepSeek ait décrit cette version comme une « mise à niveau d'essai mineure », des analyses comparatives sur LiveCodeBench de l'UC Berkeley, du MIT et de Cornell indiquent que les performances de R1-0528 sont comparables à celles des modèles o3 et o4-mini d'OpenAI. La mise à jour réitère également sa politique open source transparente en publiant les nouveaux poids et le code d'inférence sur Hugging Face peu après l'annonce, renforçant ainsi son engagement en faveur du développement communautaire et de l'optimisation collaborative.

Accueil et retour de la communauté

La communauté des développeurs a réagi positivement à la recommandation R1-0528, citant une réduction des taux d'hallucinations et une amélioration de la cohérence logique des résultats. Les discussions sur des forums tels que Hugging Face et GitHub indiquent que les chercheurs apprécient les gains de performance tangibles sans sacrifier la permissivité de la licence MIT. Cependant, certains contributeurs ont exprimé des inquiétudes quant à l'opacité des données d'entraînement et à l'influence potentielle des directives des États sur les ajustements, soulignant que les licences open source ne garantissent pas à elles seules une transparence totale. Ces échanges soulignent la nécessité d'un engagement continu de la communauté pour garantir que son éthique open source se traduise par des systèmes d'IA vérifiables et fiables.

Conclusions

L'incursion de DeepSeek dans l'IA open source a redéfini les attentes en matière d'accessibilité, de performances et de rentabilité. Bien que son modèle R1 soit techniquement open source sous licence MIT, l'absence de données d'entraînement complètes et de transparence du pipeline complique sa classification comme « entièrement » ouverte. Néanmoins, ses réalisations – l'entraînement de puissants modèles de raisonnement sous contraintes matérielles et leur large diffusion – ont suscité à la fois enthousiasme et attention au sein de la communauté mondiale de l'IA.

Les comparaisons avec GPT-4.1 d'OpenAI révèlent un paysage nuancé : DeepSeek excelle dans les tâches de raisonnement ciblées et les environnements sensibles aux coûts, tandis que la vaste fenêtre contextuelle de GPT-4.1 et sa supériorité considérable en matière de benchmarks en font le choix idéal pour les applications d'entreprise haut de gamme. À mesure que DeepSeek développe son modèle R2 et étend ses collaborations avec les fournisseurs de cloud, son avenir dépendra de la prise en compte des préoccupations en matière de confidentialité des données, de la garantie de la conformité réglementaire et, potentiellement, d'une transparence accrue dans son processus de recherche.

En définitive, l'essor de DeepSeek souligne que l'IA open source n'est plus un idéal théorique, mais une force concrète qui remodèle la concurrence. En défiant les acteurs bien établis, DeepSeek a accéléré le cycle d'innovation, incitant les entreprises établies comme les nouveaux entrants à repenser leurs méthodes de développement, d'octroi de licences et de déploiement des systèmes d'IA. Dans cet environnement dynamique, où GPT-4.1 établit une référence et DeepSeek-R1 une autre, l'avenir de l'IA open source apparaît plus prometteur et plus turbulent que jamais.

Pour commencer

CometAPI fournit une interface REST unifiée qui regroupe des centaines de modèles d'IA sous un point de terminaison cohérent, avec gestion intégrée des clés API, des quotas d'utilisation et des tableaux de bord de facturation. Au lieu de jongler avec plusieurs URL et identifiants de fournisseurs, vous dirigez votre client vers l'URL de base et spécifiez le modèle cible dans chaque requête.

Les développeurs peuvent accéder à l'API de DeepSeek telle que DeepSeek-V3 (nom du modèle : deepseek-v3-250324) et Deepseek R1 (nom du modèle : deepseek-r1-0528) À travers API CometPour commencer, explorez les capacités du modèle dans le cour de récréation et consultez le Guide de l'API Pour des instructions détaillées, veuillez vous connecter à CometAPI et obtenir la clé API avant d'y accéder.

Nouveau sur CometAPI ? Commencez un essai gratuit à 1$ et libérez Sora dans vos tâches les plus difficiles.

Nous avons hâte de voir ce que vous construisez. Si quelque chose ne va pas, n'hésitez pas à laisser un commentaire : nous indiquer ce qui ne va pas est le moyen le plus rapide d'améliorer la situation.

En savoir plus

500+ Modèles en Une API

Jusqu'à 20% de réduction