O que é o DeepSeek v3.2?
O DeepSeek v3.2 é a versão de produção mais recente da família DeepSeek V3: uma família de modelos de linguagem de pesos abertos, com prioridade ao raciocínio, projetada para compreensão de contexto longo, uso robusto de agentes/ferramentas, raciocínio avançado, programação e matemática. O lançamento reúne múltiplas variantes (V3.2 de produção e uma V3.2-Speciale de alto desempenho). O projeto enfatiza inferência de longo contexto com custo eficiente por meio de um novo mecanismo de atenção esparsa chamado DeepSeek Sparse Attention (DSA) e fluxos de trabalho de agentes/“pensamento” (“Thinking in Tool-Use”).
Principais recursos (alto nível)
- DeepSeek Sparse Attention (DSA): um mecanismo de atenção esparsa destinado a reduzir drasticamente o custo computacional em cenários de contexto longo enquanto preserva o raciocínio de longo alcance. (Reivindicação central de pesquisa; usado em
V3.2-Exp.) - Raciocínio agentivo + integração com uso de ferramentas: o V3.2 enfatiza incorporar “pensamento” no uso de ferramentas: o modelo pode operar em modos de raciocínio/pensamento e em modos sem pensamento (normais) ao chamar ferramentas, melhorando a tomada de decisão em tarefas de múltiplas etapas e na orquestração de ferramentas.
- Pipeline de síntese de dados de agentes em larga escala: a DeepSeek relata um corpus de treinamento e um pipeline de síntese de agentes abrangendo milhares de ambientes e dezenas de milhares de instruções complexas para melhorar a robustez em tarefas interativas.
- DeepSeek Sparse Attention (DSA): a DSA é um método de atenção esparsa de granularidade fina introduzido na linha V3.2 (primeiro em V3.2-Exp) que reduz a complexidade da atenção (do ingênuo O(L²) para um estilo O(L·k) com k ≪ L), selecionando um conjunto menor de tokens chave/valor por token de consulta. O resultado é uso substancialmente menor de memória/cálculo para contextos muito longos (128K), tornando a inferência de longo contexto materialmente mais barata.
- Backbone Mixture-of-Experts (MoE) e Multi-head Latent Attention (MLA): a família V3 usa MoE para aumentar a capacidade de forma eficiente (contagens nominais de parâmetros grandes com ativação limitada por token) juntamente com métodos MLA para manter a qualidade e controlar o custo computacional.
Especificações técnicas (resumo conciso)
- Intervalo nominal de parâmetros: ~671B – 685B (dependente da variante).
- Janela de contexto (referência documentada): 128.000 tokens (128K) nas configs vLLM/reference.
- Atenção: DeepSeek Sparse Attention (DSA) + MLA; complexidade de atenção reduzida para contextos longos.
- Precisão numérica e de treinamento: BF16 / F32 e formatos quantizados comprimidos (F8_E4M3 etc.) disponíveis para distribuição.
- Família arquitetural: backbone MoE (mixture-of-experts) com economia de ativação por token.
- Entrada/saída: entrada de texto tokenizado padrão (formatos de chat/mensagem suportados); suporta tool-calls (primitivas de API de tool-use) e chamadas interativas no estilo chat e completações programáticas via API.
- Variantes oferecidas:
v3.2,v3.2-Exp(experimental, estreia da DSA),v3.2-Speciale(prioridade ao raciocínio, apenas via API no curto prazo).
Desempenho em benchmarks
O V3.2-Speciale de alto custo computacional atinge paridade ou supera modelos topo de linha contemporâneos em diversos benchmarks de raciocínio/matemática/codificação, e alcança marcas de nível máximo em conjuntos de problemas de matemática de elite selecionados. O preprint destaca paridade com modelos como GPT-5 / Kimi K2 em benchmarks de raciocínio selecionados, com melhorias específicas em relação às bases DeepSeek R1/V3 anteriores:
- AIME: de 70,0 para 87,5 (Δ +17,5).
- GPQA: 71,5 → 81,0 (Δ +9,5).
- LCB_v6: 63,5 → 73,3 (Δ +9,8).
- Aider: 57,0 → 71,6 (Δ +14,6).
Comparação com outros modelos (alto nível)
- Vs GPT-5 / Gemini 3 Pro (declarações públicas): os autores da DeepSeek e vários veículos afirmam paridade ou superioridade em tarefas selecionadas de raciocínio e codificação para a variante Speciale, enquanto enfatizam eficiência de custo e licenciamento aberto como diferenciais.
- Vs modelos abertos (Olmo, Nemotron, Moonshot, etc.): a DeepSeek destaca o treinamento agentivo e a DSA como diferenciais-chave para eficiência em contexto longo.
Casos de uso representativos
- Sistemas agentivos / orquestração: agentes com múltiplas ferramentas (APIs, raspadores web, conectores de execução de código) que se beneficiam de “pensamento” em nível de modelo + primitivas explícitas de chamadas de ferramentas.
- Raciocínio/análise de documentos longos: documentos legais, grandes corpora de pesquisa, transcrições de reuniões — variantes de longo contexto (128k tokens) permitem manter contextos muito grandes em uma única chamada.
- Assistência em matemática complexa e programação: o
V3.2-Specialeé promovido para raciocínio matemático avançado e depuração extensa de código, segundo benchmarks do fornecedor. - Implantações de produção sensíveis a custo: DSA + mudanças de preços visam reduzir os custos de inferência para cargas de trabalho de alto contexto.
Como começar a usar a API do DeepSeek v3.2
Preços da API do DeepSeek v3.2 no CometAPI, 20% abaixo do preço oficial:
| Tokens de entrada | $0.22 |
|---|---|
| Tokens de saída | $0.35 |
Passos necessários
- Faça login em cometapi.com. Se ainda não for nosso usuário, registre-se primeiro
- Obtenha a chave de API de credencial de acesso da interface. Clique em “Add Token” no token de API no centro pessoal, obtenha a chave do token: sk-xxxxx e envie.
- Obtenha a URL deste site: https://api.cometapi.com/
Método de uso
- Selecione o endpoint “
deepseek-v3.2” para enviar a solicitação de API e defina o corpo da requisição. O método de solicitação e o corpo da requisição são obtidos na documentação de API do nosso site. Nosso site também fornece teste no Apifox para sua conveniência. - Substitua <YOUR_API_KEY> pela sua chave CometAPI real da sua conta.
- Selecione o formato Chat: insira sua pergunta ou solicitação no campo content — é isso que o modelo responderá.
- .Processe a resposta da API para obter a resposta gerada.