DeepSeek-V3.1: funzionalità, architettura e benchmark

Nell'agosto 2025, la startup cinese di intelligenza artificiale DeepSeek ha annunciato il rilascio di Versione DeepSeek-V3.1, un aggiornamento di metà generazione che l'azienda definisce come il primo passo "verso l'era degli agenti". L'aggiornamento introduce una modalità di inferenza ibrida (un singolo modello che può essere eseguito in modalità "pensante" o "non pensante"), una finestra di contesto sostanzialmente più lunga e miglioramenti post-addestramento mirati alle chiamate degli strumenti e al comportamento degli agenti in più fasi.

Che cos'è DeepSeek-V3.1 e perché è importante?

DeepSeek-V3.1 è l'ultimo aggiornamento di livello produttivo della serie V3 di DeepSeek. Ad alto livello, si tratta di una famiglia di modelli linguistici MoE ibridi (la linea V3) che DeepSeek ha post-addestrato ed esteso per supportare due modalità operative visibili all'utente. Sono disponibili due varianti principali: DeepSeek-V3.1-Base e la versione completa DeepSeek-V3.1:

Non-pensiero (deepseek-chat): una modalità di completamento della chat standard ottimizzata per la velocità e l'uso conversazionale.
Pensiero (ragionamento profondo): una modalità di ragionamento agentico che dà priorità al ragionamento strutturato e multi-step e all'orchestrazione di strumenti/agenti.

La versione si concentra su tre miglioramenti visibili: una pipeline di inferenza ibrida che bilancia latenza e capacità, un'orchestrazione più intelligente degli agenti/chiamate degli strumenti e una finestra di contesto notevolmente estesa (pubblicizzata come token da 128K).

Perché è importante: DeepSeek-V3.1 prosegue la più ampia tendenza del settore a combinare efficienti architetture MoE su larga scala con primitive di tooling e finestre di contesto molto lunghe. Questa combinazione è importante per gli agenti aziendali, i flussi di lavoro di ricerca e ragionamento, la sintesi di documenti di grandi dimensioni e l'automazione basata su tool, dove sono necessari sia la produttività che la capacità di "chiamare" strumenti esterni in modo deterministico.

Cosa differenzia DeepSeek-V3.1 dalle precedenti versioni di DeepSeek?

Inferenza ibrida: un modello, due modalità operative

Il cambiamento architettonico principale è inferenza ibridaDeepSeek descrive la versione 3.1 come un modello che supporta sia una modalità "think" che una modalità "non-think" all'interno della stessa istanza del modello, selezionabili modificando il modello di chat o un pulsante di attivazione/disattivazione dell'interfaccia utente (il pulsante "DeepThink" di DeepSeek). In pratica, ciò significa che il modello può essere istruito a produrre tracce di ragionamento interne (utili per flussi di lavoro di agenti in stile catena di pensiero) o a rispondere direttamente senza esporre token di ragionamento intermedi, a seconda delle esigenze dello sviluppatore. DeepSeek presenta questo come un percorso verso flussi di lavoro più agentici, consentendo alle applicazioni di scegliere i compromessi tra latenza e verbosità.

Finestra di contesto più ampia e primitive token

Le note di rilascio ufficiali riportano un finestra di contesto molto più grande nella versione V3.1; i test della comunità e i post aziendali mettono il contesto esteso a 128 gettoni per alcune varianti ospitate, consentendo conversazioni sostanzialmente più lunghe, ragionamenti multi-documento o lunghe basi di codice da inserire in un'unica sessione. A complemento di ciò, DeepSeek introduce alcuni token di controllo speciali (ad esempio <｜search_begin｜>/<｜search_end｜>, <think> / </think>) destinato a strutturare le chiamate degli strumenti e a delineare internamente i segmenti "pensanti", un modello di progettazione che semplifica il coordinamento con strumenti esterni.

Miglioramenti delle capacità degli agenti/strumenti e della latenza

DeepSeek afferma che la versione V3.1 trae vantaggio da ottimizzazione post-allenamento focalizzato sulla chiamata di strumenti e sulle attività degli agenti multi-step: si dice che il modello fornisca risposte più velocemente in modalità "pensa" rispetto alle precedenti build di DeepSeek R1 e che sia più affidabile quando si richiamano API esterne o si eseguono piani multi-step. Questo posizionamento – inferenza più rapida ma con maggiore capacità di analisi degli agenti – rappresenta un chiaro elemento di differenziazione del prodotto per i team che sviluppano assistenti, automazioni o flussi di lavoro degli agenti.

Qual è l'architettura alla base di DeepSeek-V3.1?

DeepSeek-V3.1 si basa sulla ricerca fondamentale della famiglia DeepSeek-V3: un Mix di esperti (MoE) Struttura portante con una serie di innovazioni architetturali progettate per garantire efficienza e scalabilità. Il rapporto tecnico pubblico per DeepSeek-V3 (la famiglia di processori sottostante) descrive:

Un grande progetto MoE con centinaia di miliardi di parametri totali e un attivato conteggio dei parametri per token (la scheda modello elenca 671B di parametri totali con circa 37B attivati per token).
Attenzione latente multi-testa (MLA) e approcci di routing e ridimensionamento DeepSeekMoE personalizzati che riducono i costi di inferenza preservando al contempo la capacità.
Obiettivi di formazione e strategie di bilanciamento del carico che eliminano la necessità di termini di perdita di bilanciamento del carico ausiliari e adottano obiettivi di previsione multi-token per migliorare la modellazione della sequenza e della produttività.

Perché MoE + MLA?

La modalità Mixture-of-Experts consente al modello di mantenere un elevato numero di parametri teorici attivando solo un sottoinsieme di esperti per token, riducendo così il calcolo per token. MLA è la variante di attenzione di DeepSeek che aiuta il modello a scalare in modo efficiente le operazioni di attenzione su più esperti e contesti estesi. Queste scelte combinate rendono possibile l'addestramento e la gestione di checkpoint molto ampi, mantenendo costi di inferenza accettabili per molte distribuzioni.

Come si comporta DeepSeek-V3.1 nei benchmark e nei test reali?

Come si confronta V3.1, in parole

Oltre V3 (0324): La versione V3.1 rappresenta un chiaro miglioramento a tutti i livelli, in particolare per quanto riguarda la codifica e le attività agentiche. Esempio: LiveCodeBench salta da 43.0 → 56.4 (non-pensiero) e → 74.8 (pensiero); Aider-Polyglot da 55.1 → 68.4 / 76.3.
Contro R1-0528: R1 rimane un forte punto di confronto "sintonizzato sul ragionamento", ma V3.1-Il pensiero è spesso uguale o superiore a R1-0528 (AIME/HMMT, LiveCodeBench), offrendo al contempo un percorso non riflessivo per l'utilizzo a bassa latenza.
Conoscenze generali (varianti MMLU): La V3.1 si colloca appena sotto la R1-0528 quando si considera la "riflessione", ma sopra la precedente V3.

Conoscenze generali e accademiche

Benchmark (metrico)	V3.1-Non-pensiero	V3 (0324)	V3.1-Pensare	R1-0528
MMLU-Redux (Corrispondenza esatta)	91.8	90.5	93.7	93.4
MMLU-Pro (Corrispondenza esatta)	83.7	81.2	84.8	85.0
GPQA-Diamante (Pass@1)	74.9	68.4	80.1	81.0

Cosa implica: La versione V3.1 migliora rispetto alla versione V3 nelle attività di conoscenza/accademiche; il "pensiero" riduce il divario con la versione R1 nelle domande scientifiche difficili (GPQA-Diamond).

Codifica (non agente)

Benchmark (metrico)	V3.1-Non-pensiero	V3 (0324)	V3.1-Pensare	R1-0528
LiveCodeBench (2408–2505) (Pass@1)	56.4	43.0	74.8	73.3
Aider-Polyglot (Precisione)	68.4	55.1	76.3	71.6
Codeforces-Div1 (Valutazione)	-	-	2091	1930

Note:

LiveCodeBench (2408–2505) indica una finestra aggregata (agosto 2024→maggio 2025). Un punteggio Pass@1 più alto riflette una maggiore correttezza al primo tentativo su diverse attività di codifica.
Aider-Polyglot simula la modifica del codice in stile assistente in molti linguaggi; V3.1-Thinking è in testa alla serie, V3.1-NonThinking rappresenta un notevole passo avanti rispetto a V3 (0324).
La scheda modello mostra V3 (0324) al 55.1% su Aider, in linea con la classifica pubblica di Aider per quell'annata. (I punteggi più alti della versione V3.1 sono una novità nella scheda modello.)

Codifica (attività dell'agente)

Benchmark (metrico)	V3.1-Non-pensiero	V3 (0324)	V3.1-Pensare	R1-0528
SWE verificato (Modalità agente)	66.0	45.4	-	44.6
SWE-bench Multilingue (Modalità agente)	54.5	29.3	-	30.5
Terminale-banco (Quadro terminale 1)	31.3	13.3	-	5.7

Avvertenza importante: È prodotto in valutazioni degli agenti utilizzando i framework interni di DeepSeek (strumenti, esecuzione multi-step), non test di decodifica del token successivo puro. Catturano la capacità di "LLM + orchestrazione". Trattateli come sistema risultati (la riproducibilità può dipendere dall'esatto stack di agenti e dalle impostazioni).

Ragionamento matematico e competitivo

Benchmark (metrico)	V3.1-Non-pensiero	V3 (0324)	V3.1-Pensare	R1-0528
AIME 2024 (Pass@1)	66.3	59.4	93.1	91.4
AIME 2025 (Pass@1)	49.8	51.3	88.4	87.5
HMMT 2025 (Pass@1)	33.5	29.2	84.2	79.4

Takeaway: La modalità "pensiero" guida molto largo sollevamenti sui set di gare di matematica—V3.1-Thinking supera R1-0528 su AIME/HMMT nelle esecuzioni segnalate.

QA "agentico"/aumentato dalla ricerca

Benchmark (metrico)	V3.1-Non-pensiero	V3 (0324)	V3.1-Pensare	R1-0528
BrowseComp	-	-	30.0	8.9
BrowseComp_zh	-	-	49.2	35.7
L'ultimo esame dell'umanità (Python + Ricerca)	-	-	29.8	24.8
SempliceQA	-	-	93.4	92.3
L'ultimo esame dell'umanità (solo testo)	-	-	15.9	17.7

Nota: DeepSeek afferma che i risultati dell'agente di ricerca utilizzano il suo framework di ricerca interno (API di ricerca commerciale + filtraggio delle pagine, contesto 128K). In questo caso, la metodologia è importante; la riproduzione richiede strumenti simili.

Quali sono i limiti e la strada da percorrere?

DeepSeek-V3.1 rappresenta un importante passo avanti in ambito ingegneristico e di prodotto: unisce addestramento a lungo contesto, modelli ibridi e architettura MoE in un unico checkpoint ampiamente utilizzabile. Tuttavia, permangono alcune limitazioni:

La sicurezza agente nel mondo reale, l'allucinazione nella sintesi di contesti lunghi e il comportamento tempestivo avversario richiedono ancora mitigazioni a livello di sistema.
I parametri di riferimento sono incoraggianti ma non uniformi: le prestazioni variano in base al dominio, al linguaggio e alla suite di valutazione; è necessaria una convalida indipendente.
Fattori geopolitici e della catena di fornitura (disponibilità dell'hardware e compatibilità dei chip) hanno in precedenza influenzato i tempi di DeepSeek e potrebbero influenzare il modo in cui i clienti implementano su larga scala.

Per iniziare tramite CometAPI

CometAPI è una piattaforma API unificata che aggrega oltre 500 modelli di intelligenza artificiale (IA) di provider leader, come la serie GPT di OpenAI, Gemini di Google, Claude di Anthropic, Midjourney, Suno e altri, in un'unica interfaccia intuitiva per gli sviluppatori. Offrendo autenticazione, formattazione delle richieste e gestione delle risposte coerenti, CometAPI semplifica notevolmente l'integrazione delle funzionalità di IA nelle tue applicazioni. Che tu stia sviluppando chatbot, generatori di immagini, compositori musicali o pipeline di analisi basate sui dati, CometAPI ti consente di iterare più velocemente, controllare i costi e rimanere indipendente dal fornitore, il tutto sfruttando le più recenti innovazioni nell'ecosistema dell'IA.

Gli sviluppatori possono accedere DeepSeek R1(deepseek-r1-0528) e DeepSeek-V3.1 tramite CometaAPI, le ultime versioni dei modelli elencate sono quelle aggiornate alla data di pubblicazione dell'articolo. Per iniziare, esplora le capacità del modello in Parco giochi e consultare il Guida API per istruzioni dettagliate. Prima di accedere, assicurati di aver effettuato l'accesso a CometAPI e di aver ottenuto la chiave API. CometaAPI offrire un prezzo molto più basso rispetto al prezzo ufficiale per aiutarti a integrarti.

Conclusione

DeepSeek-V3.1 rappresenta un aggiornamento pragmatico e ingegneristico: una finestra di contesto più ampia, un'inferenza ibrida think/non-think, interazioni migliorate con gli strumenti e un'API compatibile con OpenAI lo rendono un'opzione interessante per i team che creano assistenti agenti, applicazioni a contesto lungo e flussi di lavoro orientati al codice a basso costo.