Especificações técnicas
| Item | DeepSeek-V4-Pro |
|---|---|
| Provedor | DeepSeek |
| Nome do modelo da API | deepseek-v4-pro |
| URLs base | https://api.deepseek.com and https://api.deepseek.com/anthropic |
| Tipo de entrada | Text |
| Tipo de saída | Text, tool calls, reasoning output |
| Comprimento de contexto | 1,000,000 tokens |
| Saída máxima | 384,000 tokens |
| Modos de raciocínio | Non-thinking, thinking (padrão) |
| Padrões de agente/codificação | reasoning_effort pode ser definido como high; solicitações complexas de agentes podem usar max |
| Recursos compatíveis | JSON Output, Tool Calls, Chat Prefix Completion (beta), FIM Completion (beta in non-thinking mode) |
| Versão local/pesos abertos | 1.6T total parameters, 49B activated parameters, FP4 + FP8 mixed precision |
| Licença (cartão do modelo) | MIT |
| Cartão de modelo de referência | DeepSeek-V4-Pro preview on Hugging Face |
O que é o DeepSeek-V4-Pro?
O DeepSeek-V4-Pro é o membro mais robusto da família V4 em prévia da DeepSeek. O cartão oficial do modelo o descreve como um modelo MoE com 1,6T de parâmetros e 49B de parâmetros ativados, com uma janela de contexto de um milhão de tokens, voltado para trabalho de conhecimento de longo horizonte, geração de código e tarefas de agentes. A documentação da API o expõe por meio da superfície padrão de chat-completions da DeepSeek e oferece suporte aos estilos de SDK da OpenAI e da Anthropic.
Principais recursos
- Contexto de um milhão de tokens: A DeepSeek documenta um comprimento de contexto de 1M tokens, o que torna o modelo adequado para conjuntos de documentos muito grandes, repositórios e sessões de agente em múltiplas etapas.
- Dois modos de raciocínio: A API oferece suporte aos modos non-thinking e thinking; thinking é o padrão, e a documentação observa que solicitações de agente complexas, como Claude Code ou OpenCode, podem usar automaticamente esforço
max. - Capaz de chamadas de ferramentas: O modo thinking da DeepSeek oferece suporte a chamadas de ferramentas, o que é importante para agentes que precisam de busca, operações de arquivo ou funções externas.
- Eficiência em contextos longos: O cartão do modelo diz que a V4 usa um design de atenção híbrido com Compressed Sparse Attention e Heavily Compressed Attention para reduzir o custo de computação de contexto longo e de cache KV em relação à V3.2. citeturn980363view2
- Foco em programação e raciocínio: A DeepSeek diz que o modo de raciocínio V4-Pro-Max avança nos benchmarks de programação e fecha grande parte da lacuna com os principais modelos de código fechado em tarefas de raciocínio e agentes. citeturn980363view2
- Flexibilidade do SDK: Ele pode ser acessado por meio de chat completions compatíveis com o padrão OpenAI ou via endpoint compatível com a Anthropic para fluxos de trabalho orientados a ferramentas.
Desempenho em benchmarks
O cartão oficial do modelo DeepSeek relata os seguintes resultados de avaliação para a família de modelos base e para o conjunto de comparação V4-Pro-Max. Na tabela do modelo base, o V4-Pro pontua mais alto que o V3.2-Base em vários benchmarks de conhecimento e de longo contexto, incluindo MMLU-Pro (73,5 vs. 65,5), FACTS Parametric (62,6 vs. 27,1) e LongBench-V2 (51,5 vs. 40,2).
| Benchmark | V3.2-Base | V4-Flash-Base | V4-Pro-Base |
|---|---|---|---|
| MMLU-Pro (EM) | 65.5 | 68.3 | 73.5 |
| FACTS Parametric (EM) | 27.1 | 33.9 | 62.6 |
| HumanEval (Pass@1) | 62.8 | 69.5 | 76.8 |
| LongBench-V2 (EM) | 40.2 | 44.7 | 51.5 |
O mesmo cartão do modelo também mostra o V4-Pro-Max permanecendo competitivo com os modelos de fronteira em tarefas selecionadas. Por exemplo, registra 87,5 no MMLU-Pro, 57,9 no SimpleQA-Verified, 90,1 no GPQA Diamond e 67,9 no Terminal Bench 2.0 na tabela de comparação publicada.
DeepSeek-V4-Pro vs DeepSeek-V4-Flash vs DeepSeek-V3.2
| Modelo | Melhor aplicação | Contexto | Observações |
|---|---|---|---|
| DeepSeek-V4-Pro | Raciocínio pesado, programação, agentes, documentos grandes | 1M | Maior modelo da V4, 49B de parâmetros ativados, capacidade geral mais robusta da série. citeturn980363view2turn980363view0 |
| DeepSeek-V4-Flash | Uso geral mais rápido e leve | 1M | Modelo menor de 284B/13B, ainda oferece suporte a thinking e a chamadas de ferramentas. citeturn980363view2turn980363view0 |
| DeepSeek-V3.2 | Linha de base de longo contexto da geração anterior | 128K em documentações anteriores da API; a V4 usa um design de contexto de 1M diferente | Útil como ponto de referência para ganhos de eficiência; o cartão do modelo do V4-Pro relata grandes reduções em FLOPs de contexto longo e cache KV em relação ao V3.2. citeturn321011view1turn980363view2 |
Melhores casos de uso
- Assistentes de programação e ferramentas de refatoração em escala de repositório
- Análise e síntese de documentos longos
- Agentes que usam ferramentas e precisam de raciocínio multi-etapas
- Fluxos de trabalho de suporte técnico que se beneficiam de memória longa e saídas estruturadas
- Tarefas de conhecimento em chinês e multilíngues nas quais o cartão do modelo mostra forte desempenho em benchmarks
Como acessar e usar a API do Deepseek v4 pro
Etapa 1: Cadastre-se para obter a chave de API
Faça login em cometapi.com. Se você ainda não é nosso usuário, registre-se primeiro. Faça login no console CometAPI. Obtenha a chave de API de credenciais de acesso da interface. Clique em “Add Token” no token de API no centro pessoal, obtenha a chave do token: sk-xxxxx e envie.
Etapa 2: Envie solicitações para a Deepseek v4 proAPI
Selecione o endpoint “deepseek-v4-pro” para enviar a solicitação de API e defina o corpo da solicitação. O método e o corpo da solicitação são obtidos na nossa documentação de API do site. Nosso site também fornece teste Apifox para sua conveniência. Substitua <YOUR_API_KEY> pela sua chave CometAPI real da sua conta. Onde chamá-lo: formato Anthropic Messages e formato Chat.
Insira sua pergunta ou solicitação no campo de conteúdo — é isso que o modelo responderá. Processe a resposta da API para obter a resposta gerada.
Etapa 3: Recupere e verifique os resultados
Processe a resposta da API para obter a resposta gerada. Após o processamento, a API responde com o status da tarefa e os dados de saída. Habilite recursos como streaming, cache de prompt ou tratamento de contexto longo por meio de parâmetros padrão.