ModèlesTarificationEntreprise
500+ API de modèles IA, toutes en une seule API. Simplement avec CometAPI
API des modèles
Développeur
Démarrage rapideDocumentationTableau de bord API
Entreprise
À proposEntreprise
Ressources
Modèles d'IABlogJournal des modificationsSupport
Conditions d'utilisationPolitique de confidentialité
© 2026 CometAPI · All rights reserved
Home/Models/DeepSeek/DeepSeek V4 Flash
D

DeepSeek V4 Flash

Entrée:$0.24/M
Sortie:$0.48/M
DeepSeek V4 Flash est un modèle à mélange d’experts optimisé pour l’efficacité de DeepSeek, avec 284B de paramètres au total et 13B de paramètres activés, prenant en charge une fenêtre de contexte de 1M de tokens. Il est conçu pour une inférence rapide et des charges de travail à haut débit, tout en conservant de solides performances en raisonnement et en programmation.
Nouveau
Usage commercial
Playground
Aperçu
Fonctionnalités
Tarification
API

Spécifications techniques de DeepSeek-V4-Flash

ÉlémentDétails
ModèleDeepSeek-V4-Flash
FournisseurDeepSeek
FamilleSérie de préversion DeepSeek-V4
ArchitectureMélange d’experts (MoE)
Paramètres totaux284B
Paramètres activés13B
Longueur de contexte1,000,000 tokens
PrécisionFP4 + FP8 mixtes
Modes de raisonnementNon-think, Think, Think Max
Statut de publicationModèle en préversion
LicenceLicence MIT

Qu'est-ce que DeepSeek-V4-Flash ?

DeepSeek-V4-Flash est le modèle en préversion de DeepSeek axé sur l’efficacité dans la série V4. Il est conçu comme un modèle de langage en mélange d’experts, avec une empreinte active relativement réduite pour sa taille, ce qui l’aide à rester réactif tout en prenant en charge une très grande fenêtre de contexte de 1M tokens.

Principales fonctionnalités de DeepSeek-V4-Flash

  • Contexte d’un million de tokens : Le modèle prend en charge une fenêtre de contexte de 1,000,000 tokens, ce qui le rend adapté aux documents très longs, aux grandes bases de code et aux sessions d’agent multi-étapes.
  • Conception MoE axée sur l’efficacité : Il utilise 284B de paramètres totaux mais seulement 13B de paramètres activés par requête, une configuration visant une inférence plus rapide et plus efficiente.
  • Trois modes de raisonnement : Non-think, Think et Think Max vous permettent d’échanger de la vitesse contre un raisonnement plus poussé lorsque la tâche se complique.
  • Architecture robuste pour le long contexte : DeepSeek indique que la série V4 combine Compressed Sparse Attention et Heavily Compressed Attention pour améliorer l’efficacité sur les longs contextes.
  • Performances compétitives en code et en comportement d’agent : La fiche du modèle rapporte de bons résultats sur des benchmarks de codage et d’agents, notamment HumanEval, SWE Verified, Terminal Bench 2.0 et BrowseComp.
  • Poids ouverts et déploiement local : La version inclut les poids du modèle, des instructions d’inférence locale et une licence MIT, ce qui rend l’auto-hébergement et l’expérimentation pratiques.

Performances de DeepSeek-V4-Flash sur les benchmarks

Des résultats sélectionnés de la fiche officielle du modèle montrent que DeepSeek-V4-Flash s’améliore par rapport à DeepSeek-V3.2-Base sur plusieurs benchmarks clés :

BenchmarkDeepSeek-V3.2-BaseDeepSeek-V4-Flash-BaseDeepSeek-V4-Pro-Base
AGIEval (EM)80.182.683.1
MMLU (EM)87.888.790.1
MMLU-Pro (EM)65.568.373.5
HumanEval (Pass@1)62.869.576.8
LongBench-V2 (EM)40.244.751.5

Dans le tableau consacré au raisonnement et aux agents, la variante Flash affiche également de bons résultats sur les tâches terminal et logiciel, avec Flash Max atteignant 56.9 sur Terminal Bench 2.0 et 79.0 sur SWE Verified, tout en restant derrière le modèle Pro plus grand sur les tâches les plus difficiles, riches en connaissance et orientées agents.

DeepSeek-V4-Flash vs DeepSeek-V4-Pro vs DeepSeek-V3.2

ModèleMeilleur usageCompromis
DeepSeek-V4-FlashRapide, travail sur long contexte, assistants de codage et flux d’agents à haut débitLégèrement derrière Pro sur la connaissance pure et les tâches agentiques les plus complexes
DeepSeek-V4-ProTâches de plus haute capacité, raisonnement plus profond et workflows d’agents plus difficilesPlus lourd et moins orienté efficacité que Flash
DeepSeek-V3.2Ancienne ligne de base pour la comparaison et la planification de migrationPerformances de benchmark inférieures à V4-Flash dans les tableaux officiels

Cas d’usage typiques de DeepSeek-V4-Flash

  1. Analyse de documents longs pour les contrats, les packs de recherche, les bases de connaissances support et les wikis internes.
  2. Assistants de codage qui doivent inspecter de grands dépôts, suivre des instructions sur de nombreux fichiers et conserver le contexte.
  3. Workflows d’agent où le modèle doit raisonner, appeler des outils et itérer sans perdre le fil.
  4. Systèmes de chat d’entreprise qui bénéficient d’une très grande fenêtre de contexte et d’un déploiement à faible friction.
  5. Déploiements locaux prototypes pour les équipes qui veulent évaluer le comportement de DeepSeek-V4 avant le durcissement en production.

Comment accéder et utiliser l’API Deepseek v4 Flash

Étape 1 : Inscrivez-vous pour obtenir une clé API

Connectez-vous à cometapi.com. Si vous n’êtes pas encore utilisateur, veuillez vous inscrire d’abord. Connectez-vous à votre CometAPI console. Obtenez la clé API d’identification d’accès de l’interface. Cliquez sur “Add Token” au niveau du jeton API dans le centre personnel, obtenez la clé de jeton : sk-xxxxx et soumettez.

Étape 2 : Envoyez des requêtes à l’API deepseek v4 flash

Sélectionnez l’endpoint “deepseek-v4-flash” pour envoyer la requête API et définissez le corps de requête. La méthode et le corps de la requête sont disponibles dans la documentation API de notre site. Notre site propose également des tests Apifox pour votre commodité. Remplacez <YOUR_API_KEY> par votre clé CometAPI réelle issue de votre compte. Où l’appeler : Anthropic Messages format et Chat format.

Insérez votre question ou votre demande dans le champ content — c’est à cela que le modèle répondra. Traitez la réponse API pour obtenir la réponse générée.

Étape 3 : Récupérez et vérifiez les résultats

Traitez la réponse API pour obtenir la réponse générée. Après traitement, l’API renvoie le statut de la tâche et les données de sortie. Activez des fonctionnalités telles que le streaming, la mise en cache des prompts ou la gestion du long contexte via des paramètres standard.

FAQ

Can DeepSeek-V4-Flash API handle 1M-token prompts?

Oui. DeepSeek-V4-Flash dispose d’une longueur de contexte de 1M tokens ; il est donc conçu pour des prompts, des documents et des bases de code très longs.

Does DeepSeek-V4-Flash API support thinking mode and non-thinking mode?

Oui. DeepSeek-V4-Flash prend en charge les modes sans raisonnement et avec raisonnement, avec le raisonnement activé par défaut.

Does DeepSeek-V4-Flash API support JSON output and tool calls?

Oui. DeepSeek indique que Sortie JSON et Appels d’outils sont des fonctionnalités prises en charge pour DeepSeek-V4-Flash.

When should I use DeepSeek-V4-Flash API instead of DeepSeek-V4-Pro?

Utilisez V4-Flash lorsque vous souhaitez la fenêtre de contexte de la série V4 et des fonctionnalités d’agent sans avoir besoin du modèle Pro plus grand. Le rapport officiel montre que V4-Pro est plus performant sur plusieurs benchmarks exigeants en connaissances ; Pro est donc mieux adapté pour une capacité maximale.

How do I integrate DeepSeek-V4-Flash API with OpenAI SDKs via CometAPI?

Utilisez l’URL de base compatible OpenAI https://api.cometapi.com et définissez le modèle sur deepseek-v4-flash. DeepSeek documente également un point de terminaison compatible Anthropic, vous pouvez donc réutiliser les schémas courants des SDK OpenAI/Anthropic avec la même surface d’API.

Is DeepSeek-V4-Flash API suitable for coding agents like Claude Code or OpenCode?

Oui, et la famille V4 est conçue pour la même surface d’API de type agent et des contrôles de raisonnement.

What are DeepSeek-V4-Flash API's known limitations?

Elle est plus petite que DeepSeek-V4-Pro, elle est donc à la traîne par rapport à Pro sur certaines tâches exigeantes en connaissances et sur des tâches pilotées par agent complexes. DeepSeek qualifie également la série V4 de version en aperçu ; les équipes devraient donc la tester sur leurs propres charges de travail.

Fonctionnalités pour DeepSeek V4 Flash

Découvrez les fonctionnalités clés de DeepSeek V4 Flash, conçues pour améliorer les performances et la facilité d'utilisation. Explorez comment ces capacités peuvent bénéficier à vos projets et améliorer l'expérience utilisateur.

Tarification pour DeepSeek V4 Flash

Découvrez des tarifs compétitifs pour DeepSeek V4 Flash, conçus pour s'adapter à différents budgets et besoins d'utilisation. Nos formules flexibles garantissent que vous ne payez que ce que vous utilisez, ce qui facilite l'adaptation à mesure que vos besoins évoluent. Découvrez comment DeepSeek V4 Flash peut améliorer vos projets tout en maîtrisant les coûts.
Prix de Comet (USD / M Tokens)Prix officiel (USD / M Tokens)Remise
Entrée:$0.24/M
Sortie:$0.48/M
Entrée:$0.3/M
Sortie:$0.6/M
-20%

Exemple de code et API pour DeepSeek V4 Flash

Accédez à des exemples de code complets et aux ressources API pour DeepSeek V4 Flash afin de simplifier votre processus d'intégration. Notre documentation détaillée fournit des instructions étape par étape pour vous aider à exploiter tout le potentiel de DeepSeek V4 Flash dans vos projets.
POST
/v1/chat/completions
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://www.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="deepseek-v4-flash",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello!"},
    ],
    stream=False,
    extra_body={
        "thinking": {"type": "enabled"},
        "reasoning_effort": "high",
    },
)

print(completion.choices[0].message.content)

Python Code Example

from openai import OpenAI
import os

# Get your CometAPI key from https://www.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="deepseek-v4-flash",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello!"},
    ],
    stream=False,
    extra_body={
        "thinking": {"type": "enabled"},
        "reasoning_effort": "high",
    },
)

print(completion.choices[0].message.content)

JavaScript Code Example

import OpenAI from "openai";

// Get your CometAPI key from https://www.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY || "<YOUR_COMETAPI_KEY>";
const base_url = "https://api.cometapi.com/v1";

const client = new OpenAI({
  apiKey: api_key,
  baseURL: base_url,
});

const completion = await client.chat.completions.create({
  model: "deepseek-v4-flash",
  messages: [
    { role: "system", content: "You are a helpful assistant." },
    { role: "user", content: "Hello!" },
  ],
  thinking: { type: "enabled" },
  reasoning_effort: "high",
  stream: false,
});

console.log(completion.choices[0].message.content);

Curl Code Example

curl https://api.cometapi.com/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $COMETAPI_KEY" \
  -d '{
    "model": "deepseek-v4-flash",
    "messages": [
      {
        "role": "system",
        "content": "You are a helpful assistant."
      },
      {
        "role": "user",
        "content": "Hello!"
      }
    ],
    "thinking": {
      "type": "enabled"
    },
    "reasoning_effort": "high",
    "stream": false
  }'

Plus de modèles

C

Claude Opus 4.7

Entrée:$3/M
Sortie:$15/M
Le modèle le plus intelligent pour les agents et la programmation
A

Claude Sonnet 4.6

Entrée:$2.4/M
Sortie:$12/M
Claude Sonnet 4.6 est notre modèle Sonnet le plus performant à ce jour. Il s’agit d’une mise à niveau complète des capacités du modèle dans la programmation, l’usage de l’ordinateur, le raisonnement sur des contextes étendus, la planification d’agents, le travail intellectuel et la conception. Sonnet 4.6 propose également une fenêtre de contexte de 1M de jetons en bêta.
O

GPT-5.4 nano

Entrée:$0.16/M
Sortie:$1/M
GPT-5.4 nano est conçu pour des tâches où la vitesse et le coût comptent le plus, comme la classification, l’extraction de données, le classement et les sous-agents.
O

GPT-5.4 mini

Entrée:$0.6/M
Sortie:$3.6/M
GPT-5.4 mini apporte les atouts de GPT-5.4 dans un modèle plus rapide et plus efficace, conçu pour des charges de travail à grande échelle.
X

MiMo-V2.5-Pro

Bientôt disponible
Entrée:$60/M
Sortie:$240/M
MiMo-V2.5-Pro est le modèle phare de Xiaomi, excellant en matière de capacités d’agent polyvalentes et d’ingénierie logicielle complexe.
X

MiMo-V2.5

Bientôt disponible
Entrée:$60/M
Sortie:$240/M
MiMo-V2.5 est le modèle multimodal natif de Xiaomi. Il offre des performances d’agent de niveau professionnel pour un coût d’inférence environ divisé par deux, tout en surpassant MiMo-V2-Omni en perception multimodale sur les tâches de compréhension d’images et de vidéos.