Spécifications techniques
| Élément | DeepSeek-V4-Pro |
|---|---|
| Fournisseur | DeepSeek |
| Nom du modèle d’API | deepseek-v4-pro |
| URL de base | https://api.deepseek.com and https://api.deepseek.com/anthropic |
| Type d’entrée | Texte |
| Type de sortie | Texte, appels d’outils, sortie de raisonnement |
| Longueur de contexte | 1,000,000 tokens |
| Sortie maximale | 384,000 tokens |
| Modes de raisonnement | Non-thinking, thinking (par défaut) |
| Paramètres agents/codage | reasoning_effort peut être réglé sur high ; des requêtes d’agent complexes peuvent utiliser max |
| Fonctionnalités prises en charge | Sortie JSON, Appels d’outils, Complétion de préfixe de chat (bêta), Complétion FIM (bêta en mode non-thinking) |
| Publication locale/poids ouverts | 1.6T total parameters, 49B activated parameters, FP4 + FP8 mixed precision |
| Licence (fiche du modèle) | MIT |
| Fiche du modèle de référence | DeepSeek-V4-Pro preview on Hugging Face |
Qu’est-ce que DeepSeek-V4-Pro ?
DeepSeek-V4-Pro est le membre le plus puissant de la famille V4 preview de DeepSeek. La fiche officielle du modèle le décrit comme un modèle MoE à 1,6T de paramètres avec 49B de paramètres activés et une fenêtre de contexte d’un million de tokens, destiné au travail de connaissance de longue haleine, à la génération de code et aux tâches d’agent. Les documents d’API l’exposent via l’interface standard des chat-completions DeepSeek et prennent en charge les styles SDK OpenAI et Anthropic.
Fonctionnalités principales
- Contexte d’un million de tokens : DeepSeek documente une longueur de contexte de 1M tokens, ce qui rend le modèle adapté à des ensembles de documents très volumineux, des dépôts et des sessions d’agent multi-étapes.
- Deux modes de raisonnement : L’API prend en charge les modes non-thinking et thinking ; thinking est le mode par défaut, et la documentation indique que des requêtes d’agents complexes telles que Claude Code ou OpenCode peuvent automatiquement utiliser
max. - Capable d’appeler des outils : Le mode thinking de DeepSeek prend en charge les appels d’outils, ce qui est important pour les agents ayant besoin de recherche, d’opérations sur fichiers ou de fonctions externes.
- Efficacité long-contexte : La fiche du modèle indique que V4 utilise une conception d’attention hybride avec Compressed Sparse Attention et Heavily Compressed Attention afin de réduire le calcul long-contexte et le coût du cache KV par rapport à V3.2. citeturn980363view2
- Accent sur le code et le raisonnement : DeepSeek affirme que le mode de raisonnement V4-Pro-Max améliore les benchmarks de codage et comble une large part de l’écart avec les principaux modèles propriétaires sur les tâches de raisonnement et d’agent. citeturn980363view2
- Flexibilité du SDK : Il est accessible via des complétions de chat compatibles OpenAI standard ou via l’endpoint compatible Anthropic de DeepSeek pour des flux de travail orientés outils.
Performances sur benchmarks
La fiche officielle de DeepSeek rapporte les résultats d’évaluation suivants pour la famille de modèles de base et pour l’ensemble de comparaison V4-Pro-Max. Dans le tableau du modèle de base, V4-Pro obtient un score supérieur à V3.2-Base sur plusieurs benchmarks de connaissance et long-contexte, notamment MMLU-Pro (73.5 vs. 65.5), FACTS Parametric (62.6 vs. 27.1) et LongBench-V2 (51.5 vs. 40.2).
| Benchmark | V3.2-Base | V4-Flash-Base | V4-Pro-Base |
|---|---|---|---|
| MMLU-Pro (EM) | 65.5 | 68.3 | 73.5 |
| FACTS Parametric (EM) | 27.1 | 33.9 | 62.6 |
| HumanEval (Pass@1) | 62.8 | 69.5 | 76.8 |
| LongBench-V2 (EM) | 40.2 | 44.7 | 51.5 |
La même fiche de modèle montre également que V4-Pro-Max reste compétitif face aux modèles de pointe sur certaines tâches. Par exemple, il affiche 87.5 sur MMLU-Pro, 57.9 sur SimpleQA-Verified, 90.1 sur GPQA Diamond et 67.9 sur Terminal Bench 2.0 dans le tableau comparatif publié.
DeepSeek-V4-Pro vs DeepSeek-V4-Flash vs DeepSeek-V3.2
| Modèle | Meilleur usage | Contexte | Notes |
|---|---|---|---|
| DeepSeek-V4-Pro | Raisonnement intensif, codage, agents, grands documents | 1M | Plus grand modèle V4, 49B de paramètres activés, plus forte capacité globale de la série. citeturn980363view2turn980363view0 |
| DeepSeek-V4-Flash | Usage général plus rapide et léger | 1M | Modèle plus petit 284B/13B, prend tout de même en charge thinking et les appels d’outils. citeturn980363view2turn980363view0 |
| DeepSeek-V3.2 | Référence long-contexte de génération précédente | 128K dans les anciennes docs API ; V4 utilise une conception 1M différente | Utile comme point de référence pour les gains d’efficacité ; la fiche de V4-Pro rapporte de fortes réductions de FLOPs long-contexte et de cache KV par rapport à V3.2. citeturn321011view1turn980363view2 |
Meilleurs cas d’usage
- Assistants de codage à l’échelle d’un dépôt et outils de refactorisation
- Analyse et synthèse de documents longs
- Agents utilisant des outils et nécessitant un raisonnement multi-tours
- Flux de support technique bénéficiant d’une longue mémoire et de sorties structurées
- Tâches de connaissance en chinois et multilingues où la fiche du modèle montre de solides performances
Comment accéder et utiliser l’API Deepseek v4 pro
Étape 1 : S’inscrire pour obtenir une clé API
Connectez-vous à cometapi.com. Si vous n’êtes pas encore utilisateur, veuillez d’abord vous inscrire. Connectez-vous à votre CometAPI console. Obtenez la clé API d’accès de l’interface. Cliquez sur “Add Token” dans la section API token du centre personnel, récupérez la clé de jeton : sk-xxxxx, puis soumettez.
Étape 2 : Envoyer des requêtes à l’API Deepseek v4 pro
Sélectionnez l’endpoint “deepseek-v4-pro” pour envoyer la requête d’API et définissez le corps de la requête. La méthode et le corps de la requête sont disponibles dans la documentation API de notre site web. Notre site propose également des tests Apifox pour votre commodité. Remplacez <YOUR_API_KEY> par votre clé CometAPI réelle provenant de votre compte. Où l’appeler : format Anthropic Messages et format Chat.
Insérez votre question ou votre demande dans le champ content — c’est à cela que le modèle répondra. Traitez la réponse de l’API pour obtenir la réponse générée.
Étape 3 : Récupérer et vérifier les résultats
Traitez la réponse de l’API pour obtenir la réponse générée. Après traitement, l’API répond avec l’état de la tâche et les données de sortie. Activez des fonctionnalités telles que le streaming, la mise en cache des invites ou la gestion du long contexte via les paramètres standard.