DeepSeek-V3.2

DeepSeek
deepseek-v3.2
Ingresso:$0.22/M
Uscita:$0.35/M
Contesto:128K
Uscita Massima:4K
DeepSeek v3.2 è l'ultima release di produzione della famiglia DeepSeek V3: una famiglia di grandi modelli linguistici a pesi aperti, incentrata sul ragionamento, progettata per la comprensione di contesti lunghi, l'uso robusto di agenti/strumenti, il ragionamento avanzato, la programmazione e la matematica.

Che cos’è DeepSeek v3.2?

DeepSeek v3.2 è l’ultima release di produzione della famiglia DeepSeek V3: una famiglia di modelli linguistici open-weight, con priorità al ragionamento, progettata per la comprensione di contesti lunghi, l’uso robusto di agenti/strumenti, il ragionamento avanzato, il coding e la matematica. La release include più varianti (V3.2 di produzione e una V3.2-Speciale ad alte prestazioni). Il progetto enfatizza l’inferenza a lungo contesto economicamente efficiente tramite un nuovo meccanismo di attenzione sparsa chiamato DeepSeek Sparse Attention (DSA) e workflow di agenti/“thinking” (“Thinking in Tool-Use”).

Caratteristiche principali (alto livello)

  • DeepSeek Sparse Attention (DSA): un meccanismo di attenzione sparsa pensato per ridurre drasticamente il calcolo in scenari a lungo contesto preservando il ragionamento a lungo raggio. (Affermazione di ricerca centrale; usato in V3.2-Exp.)
  • Pensiero agentico + integrazione dell’uso di strumenti: V3.2 enfatizza l’integrazione del “thinking” nell’uso degli strumenti: il modello può operare in modalità di ragionamento/pensiero e in modalità non-pensiero (normali) quando chiama strumenti, migliorando il decision-making in task multi-step e l’orchestrazione degli strumenti.
  • Pipeline di sintesi dati agentici su larga scala: DeepSeek riporta un corpus di training e una pipeline di sintesi agentica che coprono migliaia di ambienti e decine di migliaia di istruzioni complesse per migliorare la robustezza nei task interattivi.
  • DeepSeek Sparse Attention (DSA): DSA è un metodo di attenzione sparsa fine-grained introdotto nella linea V3.2 (prima in V3.2-Exp) che riduce la complessità dell’attenzione (da una O(L²) ingenua a uno stile O(L·k) con k ≪ L), selezionando un sottoinsieme più piccolo di token chiave/valore per ogni token query. Il risultato è una riduzione sostanziale di memoria/calcolo per contesti molto lunghi (128K), rendendo l’inferenza a lungo contesto materialmente più economica.
  • Backbone Mixture-of-Experts (MoE) e Multi-head Latent Attention (MLA): la famiglia V3 utilizza MoE per aumentare la capacità in modo efficiente (conteggi nominali di parametri elevati con attivazione per token limitata) insieme a metodi MLA per mantenere la qualità e controllare il calcolo.

Specifiche tecniche (riepilogo conciso)

  • Intervallo di parametri nominale: ~671B – 685B (in base alla variante).
  • Finestra di contesto (riferimento documentato): 128.000 token (128K) in vLLM/config di riferimento.
  • Attenzione: DeepSeek Sparse Attention (DSA) + MLA; complessità dell’attenzione ridotta per contesti lunghi.
  • Precisione numerica e di addestramento: BF16 / F32 e formati quantizzati compressi (F8_E4M3 ecc.) disponibili per la distribuzione.
  • Famiglia architetturale: backbone MoE (mixture-of-experts) con economia di attivazione per token.
  • Input/output: input testuale tokenizzato standard (supporto formati chat/messaggi); supporta chiamate a strumenti (primitive API di tool-use) e sia chiamate interattive in stile chat sia completamenti programmatici via API.
  • Varianti offerte: v3.2, v3.2-Exp (sperimentale, debutto DSA), v3.2-Speciale (priorità al ragionamento, solo API a breve termine).

Prestazioni ai benchmark

La variante ad alto compute V3.2-Speciale raggiunge la parità o supera modelli contemporanei di fascia alta su diversi benchmark di ragionamento/matematica/coding, e ottiene risultati di vertice su selezionati set di problemi matematici d’élite. Il preprint evidenzia la parità con modelli come GPT-5 / Kimi K2 su benchmark di ragionamento selezionati, con miglioramenti specifici rispetto alle baseline DeepSeek R1/V3 precedenti:

  • AIME: da 70.0 a 87.5 (Δ +17.5).
  • GPQA: 71.5 → 81.0 (Δ +9.5).
  • LCB_v6: 63.5 → 73.3 (Δ +9.8).
  • Aider: 57.0 → 71.6 (Δ +14.6).

Confronto con altri modelli (alto livello)

  • Vs GPT-5 / Gemini 3 Pro (dichiarazioni pubbliche): gli autori di DeepSeek e diverse testate affermano parità o superiorità su task selezionati di ragionamento e coding per la variante Speciale, evidenziando al contempo l’efficienza dei costi e la licenza aperta come elementi distintivi.
  • Vs modelli open (Olmo, Nemotron, Moonshot, ecc.): DeepSeek evidenzia l’addestramento agentico e DSA come differenziatori chiave per l’efficienza su contesti lunghi.

Casi d’uso rappresentativi

  • Sistemi agentici / orchestrazione: agenti multi-strumento (API, web scraper, connettori per l’esecuzione di codice) che beneficiano del “thinking” a livello di modello + primitive di chiamata agli strumenti esplicite.
  • Ragionamento/analisi su documenti lunghi: documenti legali, ampi corpora di ricerca, trascrizioni di meeting — le varianti a lungo contesto (128k token) consentono di mantenere contesti molto ampi in una singola chiamata.
  • Assistenza per matematica complessa e coding: V3.2-Speciale è promossa per il ragionamento matematico avanzato e l’ampio debugging di codice secondo i benchmark del vendor.
  • Distribuzioni di produzione sensibili ai costi: DSA + modifiche di pricing mirano a ridurre i costi di inferenza per carichi a lungo contesto.

Come iniziare a usare DeepSeek v3.2 API

Prezzi dell’API DeepSeek v3.2 in CometAPI, sconto del 20% rispetto al prezzo ufficiale:

Token di input$0.22
Token di output$0.35

Passaggi richiesti

  • Accedi a cometapi.com. Se non sei ancora nostro utente, registrati prima
  • Ottieni la chiave API di credenziale di accesso dell’interfaccia. Fai clic su “Add Token” nella sezione API token nel centro personale, ottieni la chiave del token: sk-xxxxx e invia.
  • Ottieni l’URL di questo sito: https://api.cometapi.com/

Metodo d’uso

  1. Seleziona l’endpoint “deepseek-v3.2” per inviare la richiesta API e imposta il body della richiesta. Il metodo e il body della richiesta sono ottenibili dalla documentazione API del nostro sito. Il nostro sito fornisce anche test Apifox per tua comodità.
  2. Sostituisci <YOUR_API_KEY> con la tua chiave CometAPI effettiva del tuo account.
  3. Seleziona il formato Chat: inserisci la tua domanda o richiesta nel campo content—è a questo che il modello risponderà.
  4. .Elabora la risposta dell’API per ottenere la risposta generata.

Altri modelli