DeepSeek-V3.2

DeepSeek
deepseek-v3.2
Entrée:$0.22/M
Sortie:$0.35/M
Contexte:128K
Sortie maximale:4K
DeepSeek v3.2 est la dernière version de production de la famille DeepSeek V3 : une famille de grands modèles de langage à poids ouverts, axée en priorité sur le raisonnement, conçue pour la compréhension de contextes longs, l'utilisation robuste d'agents/outils, un raisonnement avancé, la programmation et les mathématiques.

Qu’est-ce que DeepSeek v3.2 ?

DeepSeek v3.2 est la dernière version de production de la famille DeepSeek V3 : une famille de modèles de langage à poids ouverts, axée d’abord sur le raisonnement, conçue pour la compréhension de contextes longs, l’utilisation robuste d’agents/outils, le raisonnement avancé, le code et les mathématiques. La version regroupe plusieurs variantes (V3.2 de production et une V3.2-Speciale haute performance). Le projet met l’accent sur une inférence à long contexte rentable grâce à un nouveau mécanisme d’attention clairsemée appelé DeepSeek Sparse Attention (DSA) et sur des workflows d’agents/« pensée » (« Thinking in Tool-Use »).

Principales fonctionnalités (haut niveau)

  • DeepSeek Sparse Attention (DSA) : un mécanisme d’attention clairsemée destiné à réduire considérablement le calcul dans des scénarios à contexte long tout en préservant le raisonnement à longue portée. (Revendication de recherche centrale ; utilisé dans V3.2-Exp.)
  • Pensée agentique + intégration de l’utilisation d’outils : V3.2 met l’accent sur l’intégration de la « pensée » dans l’utilisation d’outils : le modèle peut fonctionner en modes raisonnement-pensée et en modes sans pensée (normaux) lors des appels d’outils, améliorant la prise de décision dans les tâches multi-étapes et l’orchestration d’outils.
  • Pipeline de synthèse de données d’agents à grande échelle : DeepSeek indique un corpus d’entraînement et un pipeline de synthèse d’agents couvrant des milliers d’environnements et des dizaines de milliers d’instructions complexes afin d’améliorer la robustesse pour les tâches interactives.
  • DeepSeek Sparse Attention (DSA) : DSA est une méthode d’attention clairsemée fine introduite dans la lignée V3.2 (d’abord dans V3.2-Exp) qui réduit la complexité de l’attention (de la naïve O(L²) vers un style O(L·k) avec k ≪ L), en sélectionnant un plus petit ensemble de jetons clé/valeur par jeton requête. Le résultat est une mémoire/un calcul substantiellement réduits pour des contextes très longs (128K), rendant l’inférence à long contexte sensiblement moins coûteuse.
  • Ossature Mixture-of-Experts (MoE) et Multi-head Latent Attention (MLA) : la famille V3 utilise MoE pour augmenter efficacement la capacité (grands nombres de paramètres nominaux avec une activation limitée par jeton) ainsi que des méthodes MLA pour maintenir la qualité et contrôler le calcul.

Spécifications techniques (récapitulatif concis)

  • Plage nominale de paramètres : ~671B – 685B (selon la variante).
  • Fenêtre de contexte (référence documentée) : 128,000 jetons (128K) dans les configurations vLLM/référence.
  • Attention : DeepSeek Sparse Attention (DSA) + MLA ; complexité d’attention réduite pour les contextes longs.
  • Précision numérique et d’entraînement : BF16 / F32 et formats quantifiés compressés (F8_E4M3 etc.) disponibles pour la distribution.
  • Famille architecturale : ossature MoE (mélange d’experts) avec économie d’activation par jeton.
  • Entrée/sortie : entrée texte tokenisée standard (formats chat/message pris en charge) ; prend en charge les appels d’outils (primitives d’API d’utilisation d’outils) ainsi que les appels interactifs de type chat et les complétions programmatiques via API.
  • Variantes proposées : v3.2, v3.2-Exp (expérimentale, début de DSA), v3.2-Speciale (priorité au raisonnement, uniquement via API à court terme).

Performances de référence

La variante à calcul intensif V3.2-Speciale atteint la parité ou dépasse des modèles haut de gamme contemporains sur plusieurs benchmarks de raisonnement/math/codage, et obtient des résultats de premier plan sur certains ensembles d’élite de problèmes mathématiques. Le préprint met en évidence une parité avec des modèles tels que GPT-5 / Kimi K2 sur des benchmarks de raisonnement sélectionnés, avec des améliorations spécifiques par rapport aux bases DeepSeek R1/V3 antérieures :

  • AIME : amélioré de 70.0 à 87.5 (Δ +17.5).
  • GPQA : 71.5 → 81.0 (Δ +9.5).
  • LCB_v6 : 63.5 → 73.3 (Δ +9.8).
  • Aider : 57.0 → 71.6 (Δ +14.6).

Comparaison avec d’autres modèles (haut niveau)

  • Vs GPT-5 / Gemini 3 Pro (déclarations publiques) : les auteurs de DeepSeek et plusieurs médias revendiquent une parité ou une supériorité sur certaines tâches de raisonnement et de codage pour la variante Speciale, tout en mettant en avant l’efficacité coût/performance et des licences ouvertes comme différenciateurs.
  • Vs modèles ouverts (Olmo, Nemotron, Moonshot, etc.) : DeepSeek met en avant l’entraînement agentique et DSA comme différenciateurs clés pour l’efficacité en contexte long.

Cas d’utilisation représentatifs

  • Systèmes agentiques / orchestration : agents multi-outils (API, scrapers web, connecteurs d’exécution de code) qui bénéficient d’une « pensée » au niveau du modèle + primitives explicites d’appels d’outils.
  • Raisonnement / analyse sur documents longs : documents juridiques, grands corpus de recherche, transcriptions de réunions — les variantes à long contexte (128k jetons) permettent de conserver de très grands contextes en un seul appel.
  • Assistance en mathématiques complexes et en codage : V3.2-Speciale est promue pour le raisonnement mathématique avancé et le débogage de code étendu selon les benchmarks du fournisseur.
  • Déploiements en production sensibles aux coûts : DSA + changements de tarification visent à réduire les coûts d’inférence pour les charges de travail à grand contexte.

Comment commencer à utiliser l’API DeepSeek v3.2

Tarification de l’API DeepSeek v3.2 dans CometAPI, 20 % de réduction par rapport au prix officiel :

Jetons en entrée$0.22
Jetons en sortie$0.35

Étapes requises

  • Connectez-vous à cometapi.com. Si vous n’êtes pas encore utilisateur, veuillez d’abord vous inscrire.
  • Obtenez la clé API d’authentification de l’interface. Cliquez sur « Add Token » dans la section API token du centre personnel, récupérez la clé du jeton : sk-xxxxx et soumettez.
  • Récupérez l’URL de ce site : https://api.cometapi.com/

Méthode d’utilisation

  1. Sélectionnez le point de terminaison « deepseek-v3.2 » pour envoyer la requête API et définir le corps de la requête. La méthode et le corps de la requête sont disponibles dans la documentation API de notre site Web. Notre site fournit également un test Apifox pour votre commodité.
  2. Remplacez <YOUR_API_KEY> par votre clé CometAPI réelle depuis votre compte.
  3. Sélectionnez le format Chat : insérez votre question ou votre demande dans le champ content — c’est ce à quoi le modèle répondra.
  4. .Traitez la réponse de l’API pour obtenir la réponse générée.

Plus de modèles