ModelosPreçosEmpresarial
500+ APIs de Modelos de IA, Tudo em Uma API. Apenas na CometAPI
API de Modelos
Desenvolvedor
Início RápidoDocumentaçãoPainel de API
Empresa
Sobre nósEmpresarial
Recursos
Modelos de IABlogRegistro de AlteraçõesSuporte
Termos de ServiçoPolítica de Privacidade
© 2026 CometAPI · All rights reserved
Home/Models/DeepSeek/DeepSeek V4 Flash
D

DeepSeek V4 Flash

Entrada:$0.24/M
Saída:$0.48/M
DeepSeek V4 Flash é um modelo Mixture-of-Experts da DeepSeek, otimizado para eficiência, com 284B de parâmetros no total e 13B de parâmetros ativados, com suporte a uma janela de contexto de 1M tokens. Ele foi projetado para inferência rápida e cargas de trabalho de alto rendimento, mantendo um desempenho sólido em raciocínio e programação.
Novo
Uso comercial
Playground
Visão Geral
Recursos
Preços
API

Especificações técnicas do DeepSeek-V4-Flash

ItemDetalhes
ModeloDeepSeek-V4-Flash
FornecedorDeepSeek
Famíliasérie de prévia DeepSeek-V4
ArquiteturaMistura de Especialistas (MoE)
Parâmetros totais284B
Parâmetros ativados13B
Comprimento do contexto1,000,000 tokens
PrecisãoFP4 + FP8 mistos
Modos de raciocínioNon-think, Think, Think Max
Status de lançamentoModelo de prévia
LicençaLicença MIT

O que é o DeepSeek-V4-Flash?

O DeepSeek-V4-Flash é o modelo de prévia da DeepSeek focado em eficiência na série V4. Ele é construído como um modelo de linguagem de Mistura de Especialistas (MoE), com uma pegada ativa relativamente pequena para seu tamanho, o que o ajuda a manter-se responsivo ao mesmo tempo em que oferece uma janela de contexto muito grande de 1M tokens.

Principais recursos do DeepSeek-V4-Flash

  • Contexto de um milhão de tokens: O modelo suporta uma janela de contexto de 1,000,000 tokens, o que o torna adequado para documentos muito longos, grandes bases de código e sessões de agentes em múltiplas etapas.
  • Design MoE com foco em eficiência: Ele usa 284B de parâmetros totais, mas apenas 13B de parâmetros ativados por requisição, uma configuração voltada para inferência mais rápida e eficiente.
  • Três modos de raciocínio: Non-think, Think e Think Max permitem trocar velocidade por raciocínio mais profundo quando a tarefa fica mais difícil.
  • Arquitetura robusta para longos contextos: A DeepSeek afirma que a série V4 combina Compressed Sparse Attention e Heavily Compressed Attention para melhorar a eficiência em longos contextos.
  • Programação e comportamento de agentes competitivos: A ficha técnica do modelo reporta resultados fortes em benchmarks de programação e agentes, incluindo HumanEval, SWE Verified, Terminal Bench 2.0 e BrowseComp.
  • Pesos abertos e implantação local: O lançamento inclui os pesos do modelo, orientação para inferência local e uma Licença MIT, o que torna viável a auto-hospedagem e a experimentação.

Desempenho em benchmarks do DeepSeek-V4-Flash

Resultados selecionados da ficha técnica oficial do modelo mostram que o DeepSeek-V4-Flash supera o DeepSeek-V3.2-Base em vários benchmarks centrais:

BenchmarkDeepSeek-V3.2-BaseDeepSeek-V4-Flash-BaseDeepSeek-V4-Pro-Base
AGIEval (EM)80.182.683.1
MMLU (EM)87.888.790.1
MMLU-Pro (EM)65.568.373.5
HumanEval (Pass@1)62.869.576.8
LongBench-V2 (EM)40.244.751.5

Na tabela de raciocínio e agentes, a variante Flash também apresenta resultados sólidos em tarefas de terminal e software, com o Flash Max atingindo 56.9 no Terminal Bench 2.0 e 79.0 no SWE Verified, embora ainda fique atrás do modelo Pro maior nas tarefas mais difíceis, intensivas em conhecimento e de agentes.

DeepSeek-V4-Flash vs DeepSeek-V4-Pro vs DeepSeek-V3.2

ModeloMelhor aplicaçãoTrade-off
DeepSeek-V4-FlashTrabalho rápido com longos contextos, assistentes de programação e fluxos de agentes de alto rendimentoFica ligeiramente atrás do Pro em conhecimento puro e nas tarefas de agentes mais complexas
DeepSeek-V4-ProTarefas de maior capacidade, raciocínio mais profundo e fluxos de trabalho de agentes mais difíceisMais pesado e menos voltado à eficiência do que o Flash
DeepSeek-V3.2Linha de base mais antiga para comparação e planejamento de migraçãoDesempenho inferior em benchmarks em relação ao V4-Flash nas tabelas oficiais

Casos de uso típicos para o DeepSeek-V4-Flash

  1. Análise de documentos longos para contratos, pacotes de pesquisa, bases de conhecimento de suporte e wikis internas.
  2. Assistentes de programação que precisam inspecionar repositórios grandes, seguir instruções em muitos arquivos e manter o contexto ativo.
  3. Fluxos de trabalho de agentes em que o modelo precisa raciocinar, chamar ferramentas e iterar sem perder a linha de raciocínio.
  4. Sistemas de chat corporativos que se beneficiam de uma janela de contexto muito grande e implantação de baixa fricção.
  5. Implantações locais de protótipo para equipes que desejam avaliar o comportamento do DeepSeek-V4 antes da preparação para produção.

Como acessar e usar a API Deepseek v4 Flash

Etapa 1: Cadastre-se para obter a chave da API

Faça login em cometapi.com. Se você ainda não é nosso usuário, registre-se primeiro. Acesse seu console CometAPI. Obtenha a credencial de acesso (API key) da interface. Clique em “Add Token” no token da API no centro pessoal, obtenha a chave do token: sk-xxxxx e envie.

Etapa 2: Envie requisições para a deepseek v4 flash API

Selecione o endpoint “deepseek-v4-flash” para enviar a requisição à API e defina o corpo da requisição. O método e o corpo da requisição são obtidos na documentação de nossa API no site. Nosso site também fornece teste via Apifox para sua conveniência. Substitua <YOUR_API_KEY> pela sua chave CometAPI real da sua conta. Onde chamar: formato Anthropic Messages e formato Chat.

Insira sua pergunta ou solicitação no campo content — é isso que o modelo responderá. Processe a resposta da API para obter a resposta gerada.

Etapa 3: Recupere e verifique os resultados

Processe a resposta da API para obter a resposta gerada. Após o processamento, a API responde com o status da tarefa e os dados de saída. Ative recursos como streaming, cache de prompt ou tratamento de longos contextos por meio de parâmetros padrão.

FAQ

Can DeepSeek-V4-Flash API handle 1M-token prompts?

Sim. O DeepSeek-V4-Flash tem um comprimento de contexto de 1M tokens, portanto foi projetado para prompts, documentos e bases de código muito longos.

Does DeepSeek-V4-Flash API support thinking mode and non-thinking mode?

Sim. O DeepSeek-V4-Flash oferece suporte tanto ao modo sem raciocínio quanto ao modo de raciocínio, com o raciocínio habilitado por padrão.

Does DeepSeek-V4-Flash API support JSON output and tool calls?

Sim. A DeepSeek lista tanto JSON Output quanto Tool Calls como recursos com suporte para o DeepSeek-V4-Flash.

When should I use DeepSeek-V4-Flash API instead of DeepSeek-V4-Pro?

Use o V4-Flash quando você quiser a janela de contexto da série V4 e recursos de agente, mas não precisar do modelo Pro maior. O relatório oficial mostra que o V4-Pro é mais forte em vários benchmarks intensivos em conhecimento, portanto o Pro é o mais adequado para capacidade máxima.

How do I integrate DeepSeek-V4-Flash API with OpenAI SDKs via CometAPI?

Use a URL base compatível com OpenAI https://api.cometapi.com e defina o modelo como deepseek-v4-flash. A DeepSeek também documenta um endpoint compatível com Anthropic, para que você possa reutilizar padrões comuns de SDK do OpenAI/Anthropic com a mesma superfície de API.

Is DeepSeek-V4-Flash API suitable for coding agents like Claude Code or OpenCode?

Sim, e a família V4 foi projetada para a mesma superfície de API no estilo de agente e controles de raciocínio.

What are DeepSeek-V4-Flash API's known limitations?

É menor que o DeepSeek-V4-Pro, por isso fica atrás do Pro em algumas tarefas orientadas a agentes que são complexas e intensivas em conhecimento. A DeepSeek também classifica a série V4 como uma versão preliminar, portanto as equipes devem testá-la em suas próprias cargas de trabalho.

Recursos para DeepSeek V4 Flash

Explore os principais recursos do DeepSeek V4 Flash, projetado para aprimorar o desempenho e a usabilidade. Descubra como essas capacidades podem beneficiar seus projetos e melhorar a experiência do usuário.

Preços para DeepSeek V4 Flash

Explore preços competitivos para DeepSeek V4 Flash, projetado para atender diversos orçamentos e necessidades de uso. Nossos planos flexíveis garantem que você pague apenas pelo que usar, facilitando o dimensionamento conforme suas necessidades crescem. Descubra como DeepSeek V4 Flash pode aprimorar seus projetos mantendo os custos gerenciáveis.
Preço do Comet (USD / M Tokens)Preço Oficial (USD / M Tokens)Desconto
Entrada:$0.24/M
Saída:$0.48/M
Entrada:$0.3/M
Saída:$0.6/M
-20%

Código de exemplo e API para DeepSeek V4 Flash

Acesse código de exemplo abrangente e recursos de API para DeepSeek V4 Flash para otimizar seu processo de integração. Nossa documentação detalhada fornece orientação passo a passo, ajudando você a aproveitar todo o potencial do DeepSeek V4 Flash em seus projetos.
POST
/v1/chat/completions
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://www.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="deepseek-v4-flash",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello!"},
    ],
    stream=False,
    extra_body={
        "thinking": {"type": "enabled"},
        "reasoning_effort": "high",
    },
)

print(completion.choices[0].message.content)

Python Code Example

from openai import OpenAI
import os

# Get your CometAPI key from https://www.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="deepseek-v4-flash",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello!"},
    ],
    stream=False,
    extra_body={
        "thinking": {"type": "enabled"},
        "reasoning_effort": "high",
    },
)

print(completion.choices[0].message.content)

JavaScript Code Example

import OpenAI from "openai";

// Get your CometAPI key from https://www.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY || "<YOUR_COMETAPI_KEY>";
const base_url = "https://api.cometapi.com/v1";

const client = new OpenAI({
  apiKey: api_key,
  baseURL: base_url,
});

const completion = await client.chat.completions.create({
  model: "deepseek-v4-flash",
  messages: [
    { role: "system", content: "You are a helpful assistant." },
    { role: "user", content: "Hello!" },
  ],
  thinking: { type: "enabled" },
  reasoning_effort: "high",
  stream: false,
});

console.log(completion.choices[0].message.content);

Curl Code Example

curl https://api.cometapi.com/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $COMETAPI_KEY" \
  -d '{
    "model": "deepseek-v4-flash",
    "messages": [
      {
        "role": "system",
        "content": "You are a helpful assistant."
      },
      {
        "role": "user",
        "content": "Hello!"
      }
    ],
    "thinking": {
      "type": "enabled"
    },
    "reasoning_effort": "high",
    "stream": false
  }'

Mais modelos

C

Claude Opus 4.7

Entrada:$3/M
Saída:$15/M
O modelo mais inteligente para agentes e programação
A

Claude Sonnet 4.6

Entrada:$2.4/M
Saída:$12/M
Claude Sonnet 4.6 é o nosso modelo Sonnet mais capaz até agora. É uma atualização completa das capacidades do modelo em programação, uso do computador, raciocínio de longo contexto, planejamento de agentes, trabalho de conhecimento e design. Sonnet 4.6 também apresenta uma janela de contexto de 1M tokens em beta.
O

GPT-5.4 nano

Entrada:$0.16/M
Saída:$1/M
O GPT-5.4 nano foi projetado para tarefas em que a velocidade e o custo são os que mais importam, como classificação, extração de dados, ranqueamento e subagentes.
O

GPT-5.4 mini

Entrada:$0.6/M
Saída:$3.6/M
GPT-5.4 mini traz os pontos fortes do GPT-5.4 para um modelo mais rápido e mais eficiente, projetado para cargas de trabalho de alto volume.
X

MiMo-V2.5-Pro

Em breve
Entrada:$60/M
Saída:$240/M
MiMo-V2.5-Pro é o modelo principal da Xiaomi, destacando-se em capacidades de agentes de propósito geral e em engenharia de software complexa.
X

MiMo-V2.5

Em breve
Entrada:$60/M
Saída:$240/M
MiMo-V2.5 é o modelo nativo totalmente multimodal da Xiaomi. Ele atinge desempenho de agente de nível profissional a aproximadamente metade do custo de inferência, enquanto supera o MiMo-V2-Omni em percepção multimodal em tarefas de compreensão de imagens e vídeos.