O que é o DeepSeek v3.2?
DeepSeek v3.2 é a versão de produção mais recente da família V3 da DeepSeek: uma família de modelos de linguagem de pesos abertos, de grande porte e com prioridade ao raciocínio, projetada para compreensão de contextos longos, uso robusto de agentes/ferramentas, raciocínio avançado, programação e matemática. Esta versão reúne múltiplas variantes (V3.2 de produção e uma V3.2-Speciale de alto desempenho). O projeto enfatiza inferência em contexto longo com custo eficiente por meio de um novo mecanismo de atenção esparsa chamado DeepSeek Sparse Attention (DSA) e fluxos de trabalho de agentes/“pensamento” (“Thinking in Tool-Use”).
Principais recursos (alto nível)
- DeepSeek Sparse Attention (DSA): um mecanismo de atenção esparsa concebido para reduzir drasticamente o custo computacional em cenários de contexto longo, preservando o raciocínio de longo alcance. (Alegação de pesquisa central; usado em
V3.2-Exp.) - Pensamento agentivo + integração com uso de ferramentas: o V3.2 enfatiza incorporar o “pensamento” ao uso de ferramentas: o modelo pode operar em modos de raciocínio/pensamento e em modos sem pensamento (normais) ao chamar ferramentas, aprimorando a tomada de decisão em tarefas de múltiplas etapas e a orquestração de ferramentas.
- Pipeline de síntese de dados de agentes em grande escala: a DeepSeek relata um corpus de treinamento e um pipeline de síntese de agentes que abrangem milhares de ambientes e dezenas de milhares de instruções complexas, para melhorar a robustez em tarefas interativas.
- DeepSeek Sparse Attention (DSA): DSA é um método de atenção esparsa de granularidade fina introduzido na linha V3.2 (primeiro em V3.2-Exp) que reduz a complexidade da atenção (do ingênuo O(L²) para um estilo O(L·k) com k ≪ L), selecionando um conjunto menor de tokens de chave/valor por token de consulta. O resultado é um uso substancialmente menor de memória/cálculo para contextos muito longos (128K), tornando a inferência em contexto longo materialmente mais barata.
- Backbone de Mixture-of-Experts (MoE) e Atenção Latente Multicabeças (MLA): a família V3 usa MoE para aumentar a capacidade de forma eficiente (grandes contagens nominais de parâmetros com ativação limitada por token), juntamente com métodos MLA para manter a qualidade e controlar o custo computacional.
Especificações técnicas (resumo conciso)
- Faixa nominal de parâmetros: ~671B – 685B (dependente da variante).
- Janela de contexto (referência documentada): 128,000 tokens (128K) em vLLM/reference configs.
- Atenção: DeepSeek Sparse Attention (DSA) + MLA; complexidade de atenção reduzida para contextos longos.
- Precisão numérica e de treinamento: BF16 / F32 e formatos quantizados compactados (F8_E4M3 etc.) disponíveis para distribuição.
- Família arquitetural: backbone MoE (mixture-of-experts) com economia de ativação por token.
- Entrada/saída: entrada de texto tokenizada padrão (formatos de chat/mensagem suportados); suporta chamadas de ferramenta (primitivas de API de uso de ferramentas) e tanto chamadas interativas no estilo chat quanto completações programáticas via API.
- Variantes oferecidas:
v3.2,v3.2-Exp(experimental, estreia do DSA),v3.2-Speciale(prioriza raciocínio, apenas via API no curto prazo).
Desempenho em benchmarks
O V3.2-Speciale de alto orçamento computacional atinge paridade ou supera modelos contemporâneos de ponta em diversos benchmarks de raciocínio/matemática/código, e obtém marcas de nível superior em conjuntos de problemas matemáticos de elite selecionados. O preprint destaca paridade com modelos como GPT-5 / Kimi K2 em benchmarks de raciocínio selecionados, com melhorias específicas em relação às linhas de base DeepSeek R1/V3 anteriores:
- AIME: de 70.0 para 87.5 (Δ +17.5).
- GPQA: 71.5 → 81.0 (Δ +9.5).
- LCB_v6: 63.5 → 73.3 (Δ +9.8).
- Aider: 57.0 → 71.6 (Δ +14.6).
Comparação com outros modelos (alto nível)
- Em comparação com GPT-5 / Gemini 3 Pro (alegações públicas): os autores da DeepSeek e diversas publicações afirmam paridade ou superioridade em tarefas selecionadas de raciocínio e codificação para a variante Speciale, ao mesmo tempo enfatizando eficiência de custo e licenciamento aberto como diferenciais.
- Em comparação com modelos abertos (Olmo, Nemotron, Moonshot, etc.): a DeepSeek destaca o treinamento agentivo e o DSA como diferenciais-chave para eficiência em contextos longos.
Casos de uso representativos
- Sistemas agentivos/orquestração: agentes com várias ferramentas (APIs, web scrapers, conectores de execução de código) que se beneficiam de “pensamento” em nível de modelo + primitivas explícitas de chamadas de ferramentas.
- Raciocínio/análise de documentos longos: documentos jurídicos, grandes corpora de pesquisa, transcrições de reuniões — variantes de contexto longo (128k tokens) permitem manter contextos muito grandes em uma única chamada.
- Assistência em matemática complexa e programação: o
V3.2-Specialeé promovido para raciocínio matemático avançado e tarefas extensas de depuração de código, conforme benchmarks do fornecedor. - Implantações de produção sensíveis a custos: DSA + ajustes de preço visam reduzir os custos de inferência para cargas de trabalho com contexto amplo.
Como começar a usar a API do DeepSeek v3.2
Preços da API do DeepSeek v3.2 na CometAPI, 20% abaixo do preço oficial:
| Tokens de entrada | $0.22 |
|---|---|
| Tokens de saída | $0.35 |
Etapas necessárias
- Faça login em cometapi.com. Se ainda não é nosso usuário, registre-se primeiro
- Obtenha a chave de API de credenciais de acesso da interface. Clique em “Add Token” em API token no centro pessoal, obtenha a chave de token: sk-xxxxx e envie.
- Obtenha a URL deste site: https://api.cometapi.com/
Método de uso
- Selecione o endpoint “
deepseek-v3.2” para enviar a solicitação de API e defina o corpo da solicitação. O método e o corpo da solicitação são obtidos na documentação de API do nosso site. Nosso site também fornece teste via Apifox para sua conveniência. - Substitua <YOUR_API_KEY> pela sua chave CometAPI real da sua conta.
- Selecione o formato Chat: Insira sua pergunta ou solicitação no campo content — é isso que o modelo responderá.
- .Processe a resposta da API para obter a resposta gerada.