Spécifications techniques de DeepSeek-V4-Flash
| Élément | Détails |
|---|---|
| Modèle | DeepSeek-V4-Flash |
| Fournisseur | DeepSeek |
| Famille | Série de préversion DeepSeek-V4 |
| Architecture | Mélange d’experts (MoE) |
| Nombre total de paramètres | 284B |
| Paramètres activés | 13B |
| Longueur de contexte | 1 000 000 tokens |
| Précision | FP4 + FP8 mixte |
| Modes de raisonnement | Non-think, Think, Think Max |
| Statut de publication | Modèle de préversion |
| Licence | Licence MIT |
Qu’est-ce que DeepSeek-V4-Flash ?
DeepSeek-V4-Flash est le modèle de préversion de la série V4 axé sur l’efficacité de DeepSeek. Il est conçu comme un modèle de langage en Mélange d’experts avec une empreinte active relativement réduite pour sa taille, ce qui l’aide à rester réactif tout en prenant en charge une très grande fenêtre de contexte de 1 M de tokens.
Principales fonctionnalités de DeepSeek-V4-Flash
- Contexte d’un million de jetons : le modèle prend en charge une fenêtre de contexte de 1 000 000 de jetons, ce qui le rend adapté aux documents très longs, aux grands bases de code et aux sessions d’agent multi-étapes.
- Conception MoE priorisant l’efficacité : il utilise 284B de paramètres au total mais seulement 13B de paramètres activés par requête, une configuration visant une inférence plus rapide et plus efficace.
- Trois modes de raisonnement : Non-think, Think et Think Max permettent d’échanger de la vitesse contre un raisonnement plus profond lorsque la tâche se complique.
- Architecture robuste pour le long contexte : DeepSeek indique que la série V4 combine Compressed Sparse Attention et Heavily Compressed Attention pour améliorer l’efficacité sur long contexte.
- Programmation et comportement d’agent compétitifs : la fiche de modèle rapporte de solides résultats sur les benchmarks de programmation et d’agents, notamment HumanEval, SWE Verified, Terminal Bench 2.0 et BrowseComp.
- Poids ouverts et déploiement local : la publication inclut les poids du modèle, un guide d’inférence locale et une Licence MIT, ce qui rend l’auto-hébergement et l’expérimentation pratiques.
Performances de benchmark de DeepSeek-V4-Flash
Des résultats sélectionnés de la fiche officielle montrent que DeepSeek-V4-Flash s’améliore par rapport à DeepSeek-V3.2-Base sur plusieurs benchmarks clés :
| Benchmark | DeepSeek-V3.2-Base | DeepSeek-V4-Flash-Base | DeepSeek-V4-Pro-Base |
|---|---|---|---|
| AGIEval (EM) | 80.1 | 82.6 | 83.1 |
| MMLU (EM) | 87.8 | 88.7 | 90.1 |
| MMLU-Pro (EM) | 65.5 | 68.3 | 73.5 |
| HumanEval (Pass@1) | 62.8 | 69.5 | 76.8 |
| LongBench-V2 (EM) | 40.2 | 44.7 | 51.5 |
Dans le tableau « raisonnement et agents », la variante Flash affiche également de solides résultats sur les tâches terminal et logicielles, avec Flash Max atteignant 56.9 sur Terminal Bench 2.0 et 79.0 sur SWE Verified, tout en restant derrière le modèle Pro plus grand sur les tâches les plus lourdes en connaissances et en agentique.
DeepSeek-V4-Flash vs DeepSeek-V4-Pro vs DeepSeek-V3.2
| Modèle | Meilleure adéquation | Compromis |
|---|---|---|
| DeepSeek-V4-Flash | Travail rapide à long contexte, assistants de programmation et flux d’agents à haut débit | Légèrement derrière Pro sur la connaissance pure et les tâches agentiques les plus complexes |
| DeepSeek-V4-Pro | Tâches à plus haute capacité, raisonnement plus approfondi et workflows d’agents plus difficiles | Plus lourd et moins axé sur l’efficacité que Flash |
| DeepSeek-V3.2 | Ligne de base plus ancienne pour la comparaison et la planification de migration | Performances de benchmark inférieures à V4-Flash dans les tableaux officiels |
Cas d’usage typiques de DeepSeek-V4-Flash
- Analyse de documents longs pour des contrats, des dossiers de recherche, des bases de connaissances de support et des wikis internes.
- Assistants de programmation qui doivent inspecter de grands dépôts, suivre des instructions à travers de nombreux fichiers et conserver le contexte.
- Workflows d’agents où le modèle doit raisonner, appeler des outils et itérer sans perdre le fil.
- Systèmes de chat d’entreprise qui bénéficient d’une très grande fenêtre de contexte et d’un déploiement à faible friction.
- Déploiements locaux de prototypes pour les équipes souhaitant évaluer le comportement de DeepSeek-V4 avant la mise en production.
Comment accéder et utiliser l’API Deepseek v4 Flash
Étape 1 : S’inscrire pour obtenir une clé API
Connectez-vous à cometapi.com. Si vous n’êtes pas encore utilisateur, veuillez d’abord vous inscrire. Connectez-vous à votre CometAPI console. Obtenez la clé API d’identification d’accès de l’interface. Cliquez sur « Add Token » dans la section des jetons API du centre personnel, obtenez la clé de jeton : sk-xxxxx et soumettez.
Étape 2 : Envoyer des requêtes à deepseek v4 flash API
Sélectionnez l’endpoint « deepseek-v4-flash » pour envoyer la requête API et définissez le corps de la requête. La méthode et le corps de la requête sont obtenus depuis la documentation de notre site. Notre site propose également un test Apifox pour votre commodité. Remplacez <YOUR_API_KEY> par votre clé CometAPI réelle depuis votre compte. Où l’appeler : format Anthropic Messages et format Chat.
Insérez votre question ou demande dans le champ content — c’est à cela que le modèle répondra. Traitez la réponse de l’API pour obtenir la réponse générée.
Étape 3 : Récupérer et vérifier les résultats
Traitez la réponse de l’API pour obtenir la réponse générée. Après traitement, l’API répond avec le statut de la tâche et les données de sortie. Activez des fonctionnalités telles que le streaming, la mise en cache de prompts ou la gestion du long contexte via des paramètres standard.