Deepseek v4 rilasciato: che cos'è e come accedervi

DeepSeek ha presentato ufficialmente V4 come una famiglia di modelli open source, e la notizia non è semplicemente “un altro aggiornamento del modello”. L’azienda posiziona V4 come un sistema a lungo contesto, adatto agli agenti e pensato per carichi reali: analisi pesanti su documenti, assistenti di coding, agent di ricerca e automazione multi-step. Il rilascio è disponibile su web, app e API, e la linea V4 introduce una conveniente finestra di contesto da 1M token attraverso i suoi servizi ufficiali.

Ciò che rende questo lancio particolarmente degno di nota è la combinazione di scala ed efficienza. DeepSeek afferma che V4-Pro ha 1,6T parametri totali con 49B attivi, mentre V4-Flash ha 284B parametri totali con 13B attivi. Nel report tecnico, DeepSeek dichiara inoltre che l’architettura V4 usa attenzione ibrida, instradamento MoE e post-training progettati per migliorare il comportamento agentico riducendo al contempo l’onere computazionale del contesto ultra-lungo.

Che cos’è DeepSeek V4?

DeepSeek-V4 è l’ultima famiglia di punta in anteprima dell’azienda, e il rilascio include due varianti pubbliche: V4-Pro e V4-Flash. DeepSeek descrive V4-Pro come il modello più forte per conoscenza del mondo, matematica, STEM, coding e coding agentico, mentre V4-Flash è l’opzione più reattiva ed economica che mantiene gran parte della qualità di ragionamento e la capacità di lungo contesto. V4-Pro guida i modelli open attuali nel coding agentico e nella conoscenza del mondo, mentre V4-Flash è progettato per velocità e distribuzione economica.

V4 utilizza un’architettura di attenzione ibrida che combina Compressed Sparse Attention (CSA) e Heavily Compressed Attention (HCA), oltre a Manifold-Constrained Hyper-Connections e all’ottimizzatore Muon. L’azienda afferma anche che i modelli sono stati pre-addestrati su oltre 32T token e che, su contesto da 1M, V4-Pro richiede solo il 27% dei FLOPs di inferenza per token singolo e il 10% della KV cache rispetto a DeepSeek-V3.2. Questa efficienza è il vero titolo del rilascio.

DeepSeek-V4-Pro vs DeepSeek-V4-Flash

DeepSeek-V4-Pro

V4-Pro è il modello di punta per gli utenti che danno priorità alla qualità. DeepSeek-V4-Pro offre prestazioni superiori nel coding agentico, una conoscenza del mondo più ricca e un ragionamento di livello mondiale, e guida i modelli open attuali rimanendo dietro solo a Gemini-3.1-Pro per la conoscenza del mondo secondo la pagina di lancio. Nel report tecnico, V4-Pro è il modello più grande della famiglia ed è disponibile tramite le stesse interfacce compatibili con OpenAI e Anthropic di V4-Flash.

DeepSeek-V4-Flash

V4-Flash è il modello orientato all’efficienza: le sue capacità di ragionamento si avvicinano a quelle di V4-Pro, e ottiene prestazioni alla pari con V4-Pro sui task agent semplici, pur utilizzando un numero di parametri attivi inferiore e tempi di risposta più rapidi. Supporta sia le modalità thinking sia non-thinking, con la stessa lunghezza di contesto da 1M e le stesse funzionalità di base del Pro, ma a un costo molto più basso.

Quale scegliere?

Usa V4-Pro quando il compito è ad alto impatto, ricco di conoscenza o difficile da verificare: ricerca enterprise, coding complesso, supporto decisionale multi-step o attività in cui desideri la risposta più solida possibile. Usa V4-Flash quando throughput, latenza o costo dei token contano più che spremere gli ultimi punti di performance nei benchmark. Questa scelta è coerente con il posizionamento ufficiale e con i gap riportati nei benchmark tra i due modelli.

Item	DeepSeek-V4-Flash	DeepSeek-V4-Pro
Total parameters	284B	1.6T
Active parameters	13B	49B
Context length	1M	1M
Reasoning modes	Non-think + think	Non-think + think
Best fit	Inferenza rapida, app ad alto throughput, agent sensibili al costo	Ragionamento alla massima capacità, coding e compiti di conoscenza più difficili
Official API pricing	Cache hit $0.028 / cache miss $0.14 / output $0.28 per 1M tokens	Cache hit $0.145 / cache miss $1.74 / output $3.48 per 1M tokens
Max output	384K	384K

CometAPI offre accesso a Deepseek v4 Pro e V4 Flash, —20% più economico rispetto all’ufficiale— oltre a uno switching senza attriti tra oltre 500 modelli (GPT-5.4, Gemini 3.1, ecc.) tramite un singolo endpoint compatibile con OpenAI o Anthropic Messages.

Benchmark delle prestazioni

DeepSeek-V3.2 vs V4-Flash vs V4-Pro

Nella tabella di confronto dei modelli base, V4-Flash e V4-Pro superano entrambi DeepSeek-V3.2 sui benchmark principali, con V4-Pro generalmente in testa. Ad esempio, il report elenca i seguenti punteggi: AGIEval 82,6 / 83,1 vs 80,1 di V3.2; MMLU 88,7 / 90,1 vs 87,8; MMLU-Pro 68,3 / 73,5 vs 65,5; HumanEval 69,5 / 76,8 vs 62,8; e LongBench-V2 44,7 / 51,5 vs 40,2 per V3.2, dove il numero centrale è V4-Flash e l’ultimo è V4-Pro.

Benchmark	DeepSeek-V3.2-Base	DeepSeek-V4-Flash-Base	DeepSeek-V4-Pro-Base
AGIEval (EM)	80.1	82.6	83.1
MMLU (EM)	87.8	88.7	90.1
MMLU-Pro (EM)	65.5	68.3	73.5
HumanEval (Pass@1)	62.8	69.5	76.8
LongBench-V2 (EM)	40.2	44.7	51.5

Fonte: Report tecnico DeepSeek-V4, Tabella 1.

Il pattern è semplice: Flash riduce il divario con Pro, ma Pro resta il modello generale più forte. Questo rende V4-Flash la scelta pratica per molti sistemi in produzione, mentre V4-Pro è il modello a cui ricorrere quando la qualità della risposta è più importante di costo o latenza.

Confronti con modelli occidentali: dove si colloca V4

In una valutazione umana su compiti da impiegato in cinese, il report afferma che DeepSeek-V4-Pro-Max ha superato Claude Opus 4.6-Max, con un tasso di non-perdita del 63%. DeepSeek-V4-Pro “supera significativamente” Claude Sonnet 4.5 e si avvicina a Claude Opus 4.5 in un benchmark di coding R&D.

Area di valutazione	Risultato DeepSeek	Confronto con modelli occidentali	Cosa suggerisce
Compiti white-collar cinesi	V4-Pro-Max, tasso di non-perdita 63%	vs Claude Opus 4.6-Max	Ottima prova in compiti pratici in ambito business
Benchmark di coding R&D	V4-Pro-Max tasso di superamento 67	vs Claude Sonnet 4.5 a 47; Opus 4.5 a 70; Opus 4.6 Thinking a 80	Competitivo con i modelli di frontiera leader, soprattutto rispetto ai sistemi di livello Sonnet

Non è “il numero uno in ogni aspetto”, ma è già a un livello che “va valutato seriamente”.

Il report tecnico di DeepSeek confronta V4-Pro-Max con Claude Opus 4.6 Max, GPT-5.4 xHigh e Gemini 3.1 Pro High nella stessa tabella. I risultati non sono semplicistici: i modelli occidentali closed-source restano molto forti in alcuni aspetti di conoscenza e inferenza; tuttavia, V4-Pro-Max ha una presenza molto forte nel codice, nei contesti lunghi e in alcuni task da agente. In altre parole, non è più una narrativa unidimensionale di “alternative domestiche”, ma si è passati alla fase del “quale è più adatto al tuo scenario”.

In termini di conoscenza e capacità di ragionamento, è alla pari con Opus 4.6 Max, GPT-5.4 xHigh e Gemini 3.1 Pro High. Tuttavia, è leggermente indietro nelle capacità agentiche, anche se la differenza non è significativa.

Deepseek v4 rilasciato: che cos'è e come accedervi

DeepSeek-V4-Pro-Max è altamente competitivo negli scenari orientati al codice e a lungo contesto, mentre i modelli occidentali restano estremamente forti in diversi benchmark di puro ragionamento e conoscenza. È così che va letto il rilascio: DeepSeek V4 è saldamente nella conversazione di frontiera, ma la leadership nei benchmark dipende dal task.

Come accedere a DeepSeek V4

1) Usa il web e l’app ufficiali

DeepSeek afferma che V4 Preview è disponibile subito su web, app e API. Per gli utenti normali, il percorso più semplice resta l’interfaccia chat ufficiale, dove il modello è accessibile tramite Expert Mode o Instant Mode.

2) Usa le API

Consiglio vivamente CometAPI per accedere a deepseek V4, perché offre il miglior prezzo e vantaggi di aggregazione.

I nomi dei modelli sono:

deepseek-v4-flash
deepseek-v4-pro

DeepSeek afferma anche che i nomi legacy deepseek-chat e deepseek-reasoner saranno deprecati e attualmente mappano alle modalità non-thinking e thinking di V4-Flash fino al 2026-07-24. Questo è importante per la pianificazione della migrazione se hai già integrazioni più vecchie in produzione.

Registrati su CometAPI e ottieni la tua chiave API.
Usa l’SDK Python standard di OpenAI (o qualsiasi client compatibile) con un base URL personalizzato:

Ecco un esempio pulito usando il formato compatibile con OpenAI ufficiale:

import os
from openai import OpenAIclient = OpenAI(
    api_key=os.environ["cometapi_API_KEY"],
    base_url="https://api.cometapi.com"
)response = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[
        {"role": "system", "content": "Sei un assistente disponibile."},
        {"role": "user", "content": "Riassumi i vantaggi del contesto da un milione di token."}
    ],
    extra_body={"thinking": {"type": "enabled"}},
    reasoning_effort="high"
)print(response.choices[0].message.content)

Questo schema di richiesta segue le linee guida del quick-start: imposta l’URL di base, scegli deepseek-v4-pro o deepseek-v4-flash e abilita il thinking quando serve un ragionamento più profondo.

Come usare DeepSeek V4 in modo efficace

Per i workflow su documenti lunghi, il pattern più solido è mantenere il contesto pulito e strutturato. La finestra da 1M token di V4 è un grande vantaggio, ma il modello funziona ancora meglio quando l’input è organizzato in sezioni, estratti di sorgente, istruzioni di task e vincoli espliciti di output. È il modo più naturale per sfruttare la capacità di lungo contesto che DeepSeek sta evidenziando.

Per i workflow di codice e agent, parti con V4-Flash per iterazioni rapide, quindi passa a V4-Pro per l’esecuzione finale o i passaggi più difficili. Questo approccio è in linea con il posizionamento ufficiale: Flash è l’opzione efficiente, Pro è il modello più forte, e entrambi condividono la stessa superficie API e la stessa lunghezza di contesto.

Considerazione finale

DeepSeek-V4 è notevole perché combina quattro elementi richiesti dal mercato nello stesso momento: lungo contesto, forte ragionamento, disponibilità open e prezzi aggressivi. La storia vera non è solo che DeepSeek ha rilasciato un altro modello. È che l’azienda sta cercando di rendere l’AI di frontiera economicamente utilizzabile in produzione. Per i team che valutano dove puntare la prossima scommessa sull’AI, è un segnale da testare, non da ignorare.

Per i team che costruiscono su più provider, questo è esattamente il tipo di rilascio da benchmarkare nel proprio stack. CometAPI può essere lo strato pratico per confrontare DeepSeek-V4 accanto ad altri modelli di frontiera senza costringere il team di prodotto a ricostruire l’integrazione ogni volta che il mercato cambia.