Spécifications techniques de DeepSeek-V4-Flash
| Élément | Détails |
|---|---|
| Modèle | DeepSeek-V4-Flash |
| Fournisseur | DeepSeek |
| Famille | Série de préversion DeepSeek-V4 |
| Architecture | Mélange d’experts (MoE) |
| Paramètres totaux | 284B |
| Paramètres activés | 13B |
| Longueur de contexte | 1,000,000 tokens |
| Précision | FP4 + FP8 mixtes |
| Modes de raisonnement | Non-think, Think, Think Max |
| Statut de publication | Modèle en préversion |
| Licence | Licence MIT |
Qu'est-ce que DeepSeek-V4-Flash ?
DeepSeek-V4-Flash est le modèle en préversion de DeepSeek axé sur l’efficacité dans la série V4. Il est conçu comme un modèle de langage en mélange d’experts, avec une empreinte active relativement réduite pour sa taille, ce qui l’aide à rester réactif tout en prenant en charge une très grande fenêtre de contexte de 1M tokens.
Principales fonctionnalités de DeepSeek-V4-Flash
- Contexte d’un million de tokens : Le modèle prend en charge une fenêtre de contexte de 1,000,000 tokens, ce qui le rend adapté aux documents très longs, aux grandes bases de code et aux sessions d’agent multi-étapes.
- Conception MoE axée sur l’efficacité : Il utilise 284B de paramètres totaux mais seulement 13B de paramètres activés par requête, une configuration visant une inférence plus rapide et plus efficiente.
- Trois modes de raisonnement : Non-think, Think et Think Max vous permettent d’échanger de la vitesse contre un raisonnement plus poussé lorsque la tâche se complique.
- Architecture robuste pour le long contexte : DeepSeek indique que la série V4 combine Compressed Sparse Attention et Heavily Compressed Attention pour améliorer l’efficacité sur les longs contextes.
- Performances compétitives en code et en comportement d’agent : La fiche du modèle rapporte de bons résultats sur des benchmarks de codage et d’agents, notamment HumanEval, SWE Verified, Terminal Bench 2.0 et BrowseComp.
- Poids ouverts et déploiement local : La version inclut les poids du modèle, des instructions d’inférence locale et une licence MIT, ce qui rend l’auto-hébergement et l’expérimentation pratiques.
Performances de DeepSeek-V4-Flash sur les benchmarks
Des résultats sélectionnés de la fiche officielle du modèle montrent que DeepSeek-V4-Flash s’améliore par rapport à DeepSeek-V3.2-Base sur plusieurs benchmarks clés :
| Benchmark | DeepSeek-V3.2-Base | DeepSeek-V4-Flash-Base | DeepSeek-V4-Pro-Base |
|---|---|---|---|
| AGIEval (EM) | 80.1 | 82.6 | 83.1 |
| MMLU (EM) | 87.8 | 88.7 | 90.1 |
| MMLU-Pro (EM) | 65.5 | 68.3 | 73.5 |
| HumanEval (Pass@1) | 62.8 | 69.5 | 76.8 |
| LongBench-V2 (EM) | 40.2 | 44.7 | 51.5 |
Dans le tableau consacré au raisonnement et aux agents, la variante Flash affiche également de bons résultats sur les tâches terminal et logiciel, avec Flash Max atteignant 56.9 sur Terminal Bench 2.0 et 79.0 sur SWE Verified, tout en restant derrière le modèle Pro plus grand sur les tâches les plus difficiles, riches en connaissance et orientées agents.
DeepSeek-V4-Flash vs DeepSeek-V4-Pro vs DeepSeek-V3.2
| Modèle | Meilleur usage | Compromis |
|---|---|---|
| DeepSeek-V4-Flash | Rapide, travail sur long contexte, assistants de codage et flux d’agents à haut débit | Légèrement derrière Pro sur la connaissance pure et les tâches agentiques les plus complexes |
| DeepSeek-V4-Pro | Tâches de plus haute capacité, raisonnement plus profond et workflows d’agents plus difficiles | Plus lourd et moins orienté efficacité que Flash |
| DeepSeek-V3.2 | Ancienne ligne de base pour la comparaison et la planification de migration | Performances de benchmark inférieures à V4-Flash dans les tableaux officiels |
Cas d’usage typiques de DeepSeek-V4-Flash
- Analyse de documents longs pour les contrats, les packs de recherche, les bases de connaissances support et les wikis internes.
- Assistants de codage qui doivent inspecter de grands dépôts, suivre des instructions sur de nombreux fichiers et conserver le contexte.
- Workflows d’agent où le modèle doit raisonner, appeler des outils et itérer sans perdre le fil.
- Systèmes de chat d’entreprise qui bénéficient d’une très grande fenêtre de contexte et d’un déploiement à faible friction.
- Déploiements locaux prototypes pour les équipes qui veulent évaluer le comportement de DeepSeek-V4 avant le durcissement en production.
Comment accéder et utiliser l’API Deepseek v4 Flash
Étape 1 : Inscrivez-vous pour obtenir une clé API
Connectez-vous à cometapi.com. Si vous n’êtes pas encore utilisateur, veuillez vous inscrire d’abord. Connectez-vous à votre CometAPI console. Obtenez la clé API d’identification d’accès de l’interface. Cliquez sur “Add Token” au niveau du jeton API dans le centre personnel, obtenez la clé de jeton : sk-xxxxx et soumettez.
Étape 2 : Envoyez des requêtes à l’API deepseek v4 flash
Sélectionnez l’endpoint “deepseek-v4-flash” pour envoyer la requête API et définissez le corps de requête. La méthode et le corps de la requête sont disponibles dans la documentation API de notre site. Notre site propose également des tests Apifox pour votre commodité. Remplacez <YOUR_API_KEY> par votre clé CometAPI réelle issue de votre compte. Où l’appeler : Anthropic Messages format et Chat format.
Insérez votre question ou votre demande dans le champ content — c’est à cela que le modèle répondra. Traitez la réponse API pour obtenir la réponse générée.
Étape 3 : Récupérez et vérifiez les résultats
Traitez la réponse API pour obtenir la réponse générée. Après traitement, l’API renvoie le statut de la tâche et les données de sortie. Activez des fonctionnalités telles que le streaming, la mise en cache des prompts ou la gestion du long contexte via des paramètres standard.