DeepSeek-V3.2

DeepSeek
deepseek-v3.2
Entrada:$0.22/M
Saída:$0.35/M
Contexto:128K
Saída Máxima:4K
DeepSeek v3.2 é a versão de produção mais recente da família DeepSeek V3: uma família de modelos de linguagem de grande porte, de pesos abertos e com prioridade ao raciocínio, projetada para compreensão de contextos longos, uso robusto de agentes e ferramentas, raciocínio avançado, programação e matemática.

O que é o DeepSeek v3.2?

O DeepSeek v3.2 é a versão de produção mais recente da família DeepSeek V3: uma família de modelos de linguagem de pesos abertos, com prioridade ao raciocínio, projetada para compreensão de contexto longo, uso robusto de agentes/ferramentas, raciocínio avançado, programação e matemática. O lançamento reúne múltiplas variantes (V3.2 de produção e uma V3.2-Speciale de alto desempenho). O projeto enfatiza inferência de longo contexto com custo eficiente por meio de um novo mecanismo de atenção esparsa chamado DeepSeek Sparse Attention (DSA) e fluxos de trabalho de agentes/“pensamento” (“Thinking in Tool-Use”).

Principais recursos (alto nível)

  • DeepSeek Sparse Attention (DSA): um mecanismo de atenção esparsa destinado a reduzir drasticamente o custo computacional em cenários de contexto longo enquanto preserva o raciocínio de longo alcance. (Reivindicação central de pesquisa; usado em V3.2-Exp.)
  • Raciocínio agentivo + integração com uso de ferramentas: o V3.2 enfatiza incorporar “pensamento” no uso de ferramentas: o modelo pode operar em modos de raciocínio/pensamento e em modos sem pensamento (normais) ao chamar ferramentas, melhorando a tomada de decisão em tarefas de múltiplas etapas e na orquestração de ferramentas.
  • Pipeline de síntese de dados de agentes em larga escala: a DeepSeek relata um corpus de treinamento e um pipeline de síntese de agentes abrangendo milhares de ambientes e dezenas de milhares de instruções complexas para melhorar a robustez em tarefas interativas.
  • DeepSeek Sparse Attention (DSA): a DSA é um método de atenção esparsa de granularidade fina introduzido na linha V3.2 (primeiro em V3.2-Exp) que reduz a complexidade da atenção (do ingênuo O(L²) para um estilo O(L·k) com k ≪ L), selecionando um conjunto menor de tokens chave/valor por token de consulta. O resultado é uso substancialmente menor de memória/cálculo para contextos muito longos (128K), tornando a inferência de longo contexto materialmente mais barata.
  • Backbone Mixture-of-Experts (MoE) e Multi-head Latent Attention (MLA): a família V3 usa MoE para aumentar a capacidade de forma eficiente (contagens nominais de parâmetros grandes com ativação limitada por token) juntamente com métodos MLA para manter a qualidade e controlar o custo computacional.

Especificações técnicas (resumo conciso)

  • Intervalo nominal de parâmetros: ~671B – 685B (dependente da variante).
  • Janela de contexto (referência documentada): 128.000 tokens (128K) nas configs vLLM/reference.
  • Atenção: DeepSeek Sparse Attention (DSA) + MLA; complexidade de atenção reduzida para contextos longos.
  • Precisão numérica e de treinamento: BF16 / F32 e formatos quantizados comprimidos (F8_E4M3 etc.) disponíveis para distribuição.
  • Família arquitetural: backbone MoE (mixture-of-experts) com economia de ativação por token.
  • Entrada/saída: entrada de texto tokenizado padrão (formatos de chat/mensagem suportados); suporta tool-calls (primitivas de API de tool-use) e chamadas interativas no estilo chat e completações programáticas via API.
  • Variantes oferecidas: v3.2, v3.2-Exp (experimental, estreia da DSA), v3.2-Speciale (prioridade ao raciocínio, apenas via API no curto prazo).

Desempenho em benchmarks

O V3.2-Speciale de alto custo computacional atinge paridade ou supera modelos topo de linha contemporâneos em diversos benchmarks de raciocínio/matemática/codificação, e alcança marcas de nível máximo em conjuntos de problemas de matemática de elite selecionados. O preprint destaca paridade com modelos como GPT-5 / Kimi K2 em benchmarks de raciocínio selecionados, com melhorias específicas em relação às bases DeepSeek R1/V3 anteriores:

  • AIME: de 70,0 para 87,5 (Δ +17,5).
  • GPQA: 71,5 → 81,0 (Δ +9,5).
  • LCB_v6: 63,5 → 73,3 (Δ +9,8).
  • Aider: 57,0 → 71,6 (Δ +14,6).

Comparação com outros modelos (alto nível)

  • Vs GPT-5 / Gemini 3 Pro (declarações públicas): os autores da DeepSeek e vários veículos afirmam paridade ou superioridade em tarefas selecionadas de raciocínio e codificação para a variante Speciale, enquanto enfatizam eficiência de custo e licenciamento aberto como diferenciais.
  • Vs modelos abertos (Olmo, Nemotron, Moonshot, etc.): a DeepSeek destaca o treinamento agentivo e a DSA como diferenciais-chave para eficiência em contexto longo.

Casos de uso representativos

  • Sistemas agentivos / orquestração: agentes com múltiplas ferramentas (APIs, raspadores web, conectores de execução de código) que se beneficiam de “pensamento” em nível de modelo + primitivas explícitas de chamadas de ferramentas.
  • Raciocínio/análise de documentos longos: documentos legais, grandes corpora de pesquisa, transcrições de reuniões — variantes de longo contexto (128k tokens) permitem manter contextos muito grandes em uma única chamada.
  • Assistência em matemática complexa e programação: o V3.2-Speciale é promovido para raciocínio matemático avançado e depuração extensa de código, segundo benchmarks do fornecedor.
  • Implantações de produção sensíveis a custo: DSA + mudanças de preços visam reduzir os custos de inferência para cargas de trabalho de alto contexto.

Como começar a usar a API do DeepSeek v3.2

Preços da API do DeepSeek v3.2 no CometAPI, 20% abaixo do preço oficial:

Tokens de entrada$0.22
Tokens de saída$0.35

Passos necessários

  • Faça login em cometapi.com. Se ainda não for nosso usuário, registre-se primeiro
  • Obtenha a chave de API de credencial de acesso da interface. Clique em “Add Token” no token de API no centro pessoal, obtenha a chave do token: sk-xxxxx e envie.
  • Obtenha a URL deste site: https://api.cometapi.com/

Método de uso

  1. Selecione o endpoint “deepseek-v3.2” para enviar a solicitação de API e defina o corpo da requisição. O método de solicitação e o corpo da requisição são obtidos na documentação de API do nosso site. Nosso site também fornece teste no Apifox para sua conveniência.
  2. Substitua <YOUR_API_KEY> pela sua chave CometAPI real da sua conta.
  3. Selecione o formato Chat: insira sua pergunta ou solicitação no campo content — é isso que o modelo responderá.
  4. .Processe a resposta da API para obter a resposta gerada.

Mais modelos