模型定价企业
500+ AI 模型 API,一次搞定,就在 CometAPI
模型 API
开发者
快速入门文档API 仪表板
公司
关于我们企业
资源
AI 模型博客更新日志支持
服务条款隐私政策
© 2026 CometAPI · All rights reserved
Home/Models/DeepSeek/DeepSeek V4 Flash
D

DeepSeek V4 Flash

输入:$0.24/M
输出:$0.48/M
DeepSeek V4 Flash 是 DeepSeek 推出的、面向效率优化的混合专家模型,具有 284B 总参数和 13B 激活参数,支持 1M-token 上下文窗口。其设计面向快速推理和高吞吐量工作负载,同时保持强大的推理与编码性能。
新
商用
Playground
概览
功能亮点
定价
API

DeepSeek-V4-Flash 的技术规格

项目详情
模型DeepSeek-V4-Flash
提供方DeepSeek
系列DeepSeek-V4 预览系列
架构专家混合(MoE)
总参数量284B
激活参数量13B
上下文长度1,000,000 tokens
精度FP4 + FP8 混合
推理模式非思考、思考、最大思考
发布状态预览模型
许可证MIT License

什么是 DeepSeek-V4-Flash?

DeepSeek-V4-Flash 是 DeepSeek 在 V4 系列中面向效率的预览模型。它采用专家混合语言模型架构,在保持相对较小的激活开销的同时支持超大的 100 万 token 上下文窗口,从而在规模不变的情况下兼顾响应速度与长上下文能力。

DeepSeek-V4-Flash 的主要特性

  • 百万级上下文:支持 1,000,000-token 上下文窗口,适用于超长文档、大型代码库以及多步智能体会话。
  • 优先效率的 MoE 设计:总参数量为 284B,但每次请求仅激活 13B 参数,以实现更快、更高效的推理。
  • 三种推理模式:非思考、思考、最大思考,可在任务更困难时以速度换取更深的推理。
  • 强大的长上下文架构:DeepSeek 表示 V4 系列结合了 Compressed Sparse Attention 与 Heavily Compressed Attention,以提升长上下文效率。
  • 具有竞争力的编码与智能体行为:模型卡显示在人类评测、人类验证、终端基准 2.0 与 BrowseComp 等编码与智能体相关基准上表现强劲。
  • 开放权重与本地部署:发布包含模型权重、本地推理指南与 MIT 许可,使自托管与实验更为可行。

DeepSeek-V4-Flash 的基准表现

来自官方模型卡的部分结果显示,DeepSeek-V4-Flash 在多个核心基准上较 DeepSeek-V3.2-Base 有所提升:

基准DeepSeek-V3.2-BaseDeepSeek-V4-Flash-BaseDeepSeek-V4-Pro-Base
AGIEval (EM)80.182.683.1
MMLU (EM)87.888.790.1
MMLU-Pro (EM)65.568.373.5
HumanEval (Pass@1)62.869.576.8
LongBench-V2 (EM)40.244.751.5

在推理与智能体评测表中,Flash 变体在终端与软件任务上同样取得稳健结果,Flash Max 在 Terminal Bench 2.0 上达到 56.9、在 SWE Verified 上达到 79.0,但在最困难、知识密集与智能体相关任务上仍落后于更大的 Pro 模型。

DeepSeek-V4-Flash vs DeepSeek-V4-Pro vs DeepSeek-V3.2

模型最适用场景权衡
DeepSeek-V4-Flash快速、长上下文工作、编码助手与高吞吐智能体流程在纯知识与最复杂的智能体任务上略逊于 Pro
DeepSeek-V4-Pro最高能力任务、更深推理与更难的智能体工作流相比 Flash 更重,效率取向较弱
DeepSeek-V3.2供比较与迁移规划的较旧基线官方表格中的基准表现低于 V4-Flash

DeepSeek-V4-Flash 的典型用例

  1. 长文档分析:用于合同、研究资料包、支持知识库与内部 wiki。
  2. 编码助手:需要检查大型仓库、跨多文件遵循指令并保持上下文。
  3. 智能体工作流:模型需要推理、调用工具并迭代且不丢失上下文。
  4. 企业聊天系统:受益于超大上下文窗口与低摩擦部署。
  5. 原型级本地部署:适合团队在生产加固前评估 DeepSeek-V4 的行为。

如何访问并使用 Deepseek v4 Flash API

第一步:注册获取 API 密钥

登录 cometapi.com。若尚未成为我们的用户,请先注册。登录你的 CometAPI console。获取接口的访问凭证 API Key。在个人中心的 API token 处点击 “Add Token”,获得令牌密钥:sk-xxxxx 并提交。

第二步:向 deepseek v4 flash API 发送请求

选择 “deepseek-v4-flash” 端点发送 API 请求并设置请求体。请求方法与请求体可从我们网站的 API 文档获取。我们的网站也提供 Apifox 测试以供使用。将 <YOUR_API_KEY> 替换为你账户中的实际 CometAPI 密钥。可调用位置:Anthropic Messages 格式和 Chat 格式。

将你的问题或请求插入 content 字段——模型将对此作出响应。处理 API 响应以获取生成的答案。

第三步:获取并验证结果

处理 API 响应以获取生成的答案。处理完成后,API 会返回任务状态与输出数据。可通过标准参数启用流式输出、提示缓存或长上下文处理等功能。

常见问题

Can DeepSeek-V4-Flash API handle 1M-token prompts?

是的。DeepSeek-V4-Flash 具有 1M-token 的上下文长度,因此专为超长提示、文档和代码库而设计。

Does DeepSeek-V4-Flash API support thinking mode and non-thinking mode?

是的。DeepSeek-V4-Flash 同时支持非思考模式和思考模式,且默认启用思考模式。

Does DeepSeek-V4-Flash API support JSON output and tool calls?

是的。DeepSeek 将 JSON 输出和工具调用都列为 DeepSeek-V4-Flash 支持的功能。

When should I use DeepSeek-V4-Flash API instead of DeepSeek-V4-Pro?

当你需要 V4 系列的上下文窗口和代理功能,但不需要更大的 Pro 模型时,请使用 V4-Flash。官方报告显示,V4-Pro 在若干知识密集型基准上更强,因此若追求最大能力,Pro 更适合。

How do I integrate DeepSeek-V4-Flash API with OpenAI SDKs via CometAPI?

使用与 OpenAI 兼容的基础 URL https://api.cometapi.com,并将模型设为 deepseek-v4-flash。DeepSeek 还提供了与 Anthropic 兼容的端点,因此你可以在相同的 API 接口上复用常见的 OpenAI/Anthropic SDK 模式。

Is DeepSeek-V4-Flash API suitable for coding agents like Claude Code or OpenCode?

是的,而且 V4 系列面向相同的代理式 API 接口与推理控制而设计。

What are DeepSeek-V4-Flash API's known limitations?

它比 DeepSeek-V4-Pro 更小,因此在一些知识密集型和复杂的代理式任务上落后于 Pro。DeepSeek 也将 V4 系列标注为预览版,因此团队应在各自的工作负载上进行测试。

DeepSeek V4 Flash 的功能

了解 DeepSeek V4 Flash 的核心能力,帮助提升性能与可用性,并改善整体体验。

DeepSeek V4 Flash 的定价

查看 DeepSeek V4 Flash 的竞争性定价,满足不同预算与使用需求,灵活方案确保随需求扩展。
Comet 价格 (USD / M Tokens)官方定价 (USD / M Tokens)折扣
输入:$0.24/M
输出:$0.48/M
输入:$0.3/M
输出:$0.6/M
-20%

DeepSeek V4 Flash 的示例代码与 API

获取完整示例代码与 API 资源,简化 DeepSeek V4 Flash 的集成流程,我们提供逐步指导,助你发挥模型潜能。
POST
/v1/chat/completions
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://www.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="deepseek-v4-flash",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello!"},
    ],
    stream=False,
    extra_body={
        "thinking": {"type": "enabled"},
        "reasoning_effort": "high",
    },
)

print(completion.choices[0].message.content)

Python Code Example

from openai import OpenAI
import os

# Get your CometAPI key from https://www.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="deepseek-v4-flash",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello!"},
    ],
    stream=False,
    extra_body={
        "thinking": {"type": "enabled"},
        "reasoning_effort": "high",
    },
)

print(completion.choices[0].message.content)

JavaScript Code Example

import OpenAI from "openai";

// Get your CometAPI key from https://www.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY || "<YOUR_COMETAPI_KEY>";
const base_url = "https://api.cometapi.com/v1";

const client = new OpenAI({
  apiKey: api_key,
  baseURL: base_url,
});

const completion = await client.chat.completions.create({
  model: "deepseek-v4-flash",
  messages: [
    { role: "system", content: "You are a helpful assistant." },
    { role: "user", content: "Hello!" },
  ],
  thinking: { type: "enabled" },
  reasoning_effort: "high",
  stream: false,
});

console.log(completion.choices[0].message.content);

Curl Code Example

curl https://api.cometapi.com/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $COMETAPI_KEY" \
  -d '{
    "model": "deepseek-v4-flash",
    "messages": [
      {
        "role": "system",
        "content": "You are a helpful assistant."
      },
      {
        "role": "user",
        "content": "Hello!"
      }
    ],
    "thinking": {
      "type": "enabled"
    },
    "reasoning_effort": "high",
    "stream": false
  }'

更多模型

C

Claude Opus 4.7

输入:$3/M
输出:$15/M
用于智能体和编程的最智能模型
A

Claude Sonnet 4.6

输入:$2.4/M
输出:$12/M
Claude Sonnet 4.6 是迄今为止我们最强大的 Sonnet 模型。它对模型在编码、计算机使用、长上下文推理、智能体规划、知识工作和设计等方面的能力进行了全面升级。Sonnet 4.6 还在 beta 阶段提供 1M token 上下文窗口。
O

GPT-5.4 nano

输入:$0.16/M
输出:$1/M
GPT-5.4 nano 专为速度和成本最为关键的任务而设计,例如分类、数据提取、排序以及子智能体。
O

GPT-5.4 mini

输入:$0.6/M
输出:$3.6/M
GPT-5.4 mini 将 GPT-5.4 的优势融入到一款更快速、更高效、专为大规模工作负载设计的模型中。
X

MiMo-V2.5-Pro

即将推出
输入:$60/M
输出:$240/M
MiMo-V2.5-Pro 是小米的旗舰模型,在通用智能体能力和复杂软件工程方面表现出色。
X

MiMo-V2.5

即将推出
输入:$60/M
输出:$240/M
MiMo-V2.5 是小米的原生全模态模型。它以约一半的推理成本实现专业级智能体性能,同时在图像和视频理解任务的多模态感知上优于 MiMo-V2-Omni。