Qu’est-ce que DeepSeek v3.2 ?
DeepSeek v3.2 est la dernière version de production de la famille DeepSeek V3 : une famille de grands modèles de langage open-weight, axée en priorité sur le raisonnement, conçue pour la compréhension de longs contextes, l’utilisation robuste d’agents/outils, le raisonnement avancé, le code et les mathématiques. La version regroupe plusieurs variantes (la V3.2 de production et une V3.2-Speciale haute performance). Le projet met l’accent sur une inférence long-contexte rentable grâce à un nouveau mécanisme d’attention creuse appelé DeepSeek Sparse Attention (DSA), ainsi que sur les workflows d’agents / de « réflexion » (« Thinking in Tool-Use »).
Principales fonctionnalités (vue d’ensemble)
- DeepSeek Sparse Attention (DSA) : un mécanisme d’attention creuse destiné à réduire fortement le calcul dans les scénarios à long contexte tout en préservant le raisonnement à longue portée. (Affirmation centrale de recherche ; utilisé dans
V3.2-Exp.) - Réflexion agentique + intégration de l’usage d’outils : V3.2 met l’accent sur l’intégration de la « réflexion » dans l’usage d’outils : le modèle peut fonctionner en modes de raisonnement/réflexion et en modes sans réflexion (normaux) lors de l’appel d’outils, améliorant ainsi la prise de décision dans les tâches en plusieurs étapes et l’orchestration d’outils.
- Pipeline de synthèse de données agentiques à grande échelle : DeepSeek indique disposer d’un corpus d’entraînement et d’un pipeline de synthèse d’agents couvrant des milliers d’environnements et des dizaines de milliers d’instructions complexes afin d’améliorer la robustesse pour les tâches interactives.
- DeepSeek Sparse Attention (DSA) : DSA est une méthode d’attention creuse fine introduite dans la gamme V3.2 (d’abord dans V3.2-Exp) qui réduit la complexité de l’attention (de l’O(L²) naïf vers un style O(L·k) avec k ≪ L), en sélectionnant un ensemble plus restreint de tokens clé/valeur pour chaque token de requête. Le résultat est une mémoire/un calcul nettement inférieurs pour les très longs contextes (128K), rendant l’inférence long-contexte sensiblement moins coûteuse.
- Backbone Mixture-of-Experts (MoE) et Multi-head Latent Attention (MLA) : la famille V3 utilise le MoE pour augmenter efficacement la capacité (grands nombres nominaux de paramètres avec une activation limitée par token), ainsi que des méthodes MLA pour maintenir la qualité et maîtriser le calcul.
Spécifications techniques (tableau concis)
- Plage nominale de paramètres : ~671B – 685B (selon la variante).
- Fenêtre de contexte (référence documentée) : 128 000 tokens (128K) dans les configurations vLLM/de référence.
- Attention : DeepSeek Sparse Attention (DSA) + MLA ; complexité d’attention réduite pour les longs contextes.
- Précision numérique et d’entraînement : BF16 / F32 et formats quantifiés compressés (F8_E4M3, etc.) disponibles pour la distribution.
- Famille architecturale : backbone MoE (mixture-of-experts) avec économie d’activation par token.
- Entrée / sortie : entrée texte tokenisée standard (formats chat/message pris en charge) ; prend en charge les appels d’outils (primitives d’API tool-use) ainsi que les appels interactifs de style chat et les complétions programmatiques via API.
- Variantes proposées :
v3.2,v3.2-Exp(expérimental, première apparition de DSA),v3.2-Speciale(priorité au raisonnement, API uniquement à court terme).
Performances sur les benchmarks
La version V3.2-Speciale à fort budget de calcul atteint la parité ou dépasse des modèles haut de gamme contemporains sur plusieurs benchmarks de raisonnement/mathématiques/code, et obtient des scores de premier plan sur certains ensembles d’élite de problèmes mathématiques. Le préprint met en avant une parité avec des modèles tels que GPT-5 / Kimi K2 sur certains benchmarks de raisonnement, ainsi que des améliorations spécifiques par rapport aux précédentes bases DeepSeek R1/V3 :
- AIME : amélioration de 70.0 à 87.5 (Δ +17.5).
- GPQA : 71.5 → 81.0 (Δ +9.5).
- LCB_v6 : 63.5 → 73.3 (Δ +9.8).
- Aider : 57.0 → 71.6 (Δ +14.6).
Comparaison avec d’autres modèles (vue d’ensemble)
- Vs GPT-5 / Gemini 3 Pro (affirmations publiques) : les auteurs de DeepSeek et plusieurs médias affirment une parité ou une supériorité sur certaines tâches de raisonnement et de code pour la variante Speciale, tout en mettant en avant l’efficacité en coût et la licence ouverte comme éléments différenciateurs.
- Vs modèles ouverts (Olmo, Nemotron, Moonshot, etc.) : DeepSeek met en avant l’entraînement agentique et DSA comme principaux différenciateurs pour l’efficacité en long contexte.
Cas d’usage représentatifs
- Systèmes agentiques / orchestration : agents multi-outils (API, extracteurs web, connecteurs d’exécution de code) bénéficiant d’une « réflexion » au niveau du modèle + de primitives explicites d’appel d’outils.
- Raisonnement / analyse sur de longs documents : documents juridiques, grands corpus de recherche, transcriptions de réunions — les variantes à long contexte (128k tokens) permettent de conserver de très grands contextes dans un seul appel.
- Assistance avancée en mathématiques et en code :
V3.2-Specialeest promu pour le raisonnement mathématique avancé et les tâches étendues de débogage de code selon les benchmarks du fournisseur. - Déploiements de production sensibles aux coûts : DSA + les changements tarifaires visent à réduire les coûts d’inférence pour les charges de travail à fort contexte.
Comment commencer à utiliser l’API DeepSeek v3.2
Tarification de l’API DeepSeek v3.2 sur CometAPI, 20 % moins chère que le prix officiel :
| Input Tokens | $0.22 |
|---|---|
| Output Tokens | $0.35 |
Étapes requises
- Connectez-vous à cometapi.com. Si vous n’êtes pas encore utilisateur, veuillez d’abord vous inscrire
- Obtenez la clé API d’accès à l’interface. Cliquez sur « Add Token » dans la section API token du centre personnel, obtenez la clé de token : sk-xxxxx, puis soumettez-la.
- Obtenez l’URL de ce site : https://api.cometapi.com/
Méthode d’utilisation
- Sélectionnez le endpoint «
deepseek-v3.2» pour envoyer la requête API et définissez le corps de la requête. La méthode de requête et le corps de requête sont disponibles dans la documentation API de notre site web. Notre site web propose également un test Apifox pour votre commodité. - Remplacez <YOUR_API_KEY> par votre véritable clé CometAPI issue de votre compte.
- Sélectionnez le format Chat : insérez votre question ou votre demande dans le champ content — c’est à cela que le modèle répondra.
- Traitez la réponse de l’API pour obtenir la réponse générée.