Confronto dei prezzi delle API LLM del 2026: GPT-5.5, Claude Sonnet 4.6, Gemini 3.5 Flash e DeepSeek V4

La determinazione dei prezzi è la singola decisione più determinante nella scelta di un LLM di frontiera, ed è anche la dimensione in cui la maggior parte dei confronti pubblicati risulta obsoleta nell’arco di un trimestre. Questo articolo fa chiarezza. Di seguito trovi una panoramica attuale, con fonti, dei prezzi dei token di input e di output per i quattro modelli che rappresentano la maggior parte del traffico di modelli di frontiera in produzione nel 2026 (GPT-5.5 di OpenAI, Claude Sonnet 4.6 di Anthropic, Gemini 3.5 Flash di Google e V4 di DeepSeek), insieme alle leve che cambiano in modo sostanziale la bolletta su larga scala: caching dei prompt, elaborazione in batch e sovrapprezzi per contesti lunghi.

Il pezzo si basa su due domande. Primo: a prezzo di listino, quanto costa ciascun modello per milione di token, e come si confrontano le tariffe quotate sugli input e gli output che effettivamente determinano il conto in produzione? Secondo: applicando un carico di lavoro rappresentativo (100 milioni di token al mese, 80% input e 20% output, con tassi di hit della cache realistici), qual è la spesa mensile in dollari su ciascun modello? La prima risposta stabilisce il listino; la seconda indica cosa diventa quel listino quando incontra un pattern reale di produzione.

Lettura rapida: Tra i quattro modelli di frontiera, i prezzi di listino coprono circa due ordini di grandezza. DeepSeek V4 è il più economico a $0.435 per milione di token di input; Claude Opus 4.7 è il più costoso a $5.00. La forma del tuo carico di lavoro, in particolare il tasso di hit della cache e il rapporto input/output, cambia quale modello è più economico in pratica, spesso più di quanto il listino suggerisca.

Perché un confronto di prezzi “alla pari” è più difficile di quanto sembri

Le pagine prezzi dei fornitori sono scritte per i clienti di quel fornitore, non per chi valuta quattro opzioni affiancate. Il risultato è che il confronto produce tre trappole ricorrenti:

I token non sono uguali tra fornitori. Claude Opus 4.7 introduce un nuovo tokenizer che può generare fino al 35% di token in più per lo stesso testo di input rispetto a Opus 4.6. Il tokenizer di Gemini differisce da quello di OpenAI. Il listino è per milione di token, ma il conteggio dei token per il prompt identico varia tra fornitori, il che significa che la tariffa in evidenza è solo una prima approssimazione del costo relativo.
I livelli di prezzo per contesti lunghi creano “cliff” di costo. La famiglia GPT-5.5 di OpenAI ha tariffe separate per contesto breve e lungo che scattano attorno ai 270.000 token. Anthropic, al contrario, mantiene la stessa tariffa per token sull’intera finestra di contesto da 1M. I carichi di lavoro che si collocano vicino a queste soglie sono prezzati in modo molto diverso rispetto a quelli che ci stanno comodamente dentro.
Gli sconti si sommano, non sono separati. Prompt caching, elaborazione in batch e scaglioni di volume specifici del fornitore possono ciascuno ridurre drasticamente il costo effettivo, e si sommano. Una richiesta batch in cache su Anthropic può costare fino al 5% di una richiesta standard non in cache. Un confronto che ignora queste leve sovrastima il prezzo di listino, talvolta di un ordine di grandezza.

Il confronto seguente normalizza queste trappole dove possibile, e le evidenzia esplicitamente dove non lo è.

Il confronto prezzi dei modelli di frontiera 2026

Tutte le cifre sono in dollari USA per milione di token. Fonte: documentazione prezzi ufficiale di ciascun fornitore a maggio 2026.

Modello	Input	Output	Input in cache	Batch (50% off)	Finestra di contesto	Maggiorazione per contesto lungo
GPT-5.5	$5.00	$30.00	$0.50	$2.50 / $15.00	1M	Sì (~270K)
Claude Sonnet 4.6	$3.00	$15.00	$0.30	$1.50 / $7.50	1M	No
Claude Opus 4.7	$5.00	$25.00	$0.50	$2.50 / $12.50	1M	No
Gemini 3.5 Flash	$1.50	$9.00	$0.15	$1.00 / $6.00	1M	Sì (200K)
DeepSeek V4	$0.435	$0.87	$0.0028	Non disponibile	384K	No

Lettura della tabella: L’input in cache è la tariffa pagata sui token serviti dalla cache dei prompt (tipicamente system prompt, esempi few-shot o prefissi di documenti ricorrenti tra le richieste). Batch è la tariffa pagata per carichi asincroni con latenza fino a 24 ore. La colonna “Maggiorazione per contesto lungo” indica se il fornitore aumenta le tariffe oltre una certa lunghezza del contesto; per chi lo fa, la soglia è indicata tra parentesi.

Dove ciascun modello eccelle

GPT-5.5: il default con capacità più elevate per ragionamento difficile e lavoro “agentico”

GPT-5.5 è il modello di frontiera di OpenAI per carichi professionali complessi: agenti di coding, pianificazione multi-step, uso di strumenti di lunga durata e analisi documentale in cui la profondità di ragionamento è il requisito dominante. È anche il più costoso tra i principali modelli di frontiera statunitensi sull’input ($5.00 per milione) e il più alto sull’output ($30.00 per milione), il che significa che si guadagna il posto su carichi in cui l’alternativa è pagare un prezzo “flagship” a un modello diverso che risolve il problema in modo meno affidabile. GPT-5.5 supporta caching con sconto del 90%, elaborazione batch con sconto del 50% e la tariffazione per contesti lunghi scatta intorno alla soglia di 270K token, rilevante per codebase molto estese o contesti da intero repository, ma non per tipici carichi RAG.

Claude Sonnet 4.6: il default consigliato per la maggior parte del traffico in produzione

Sonnet 4.6 è il modello consigliato da Anthropic per la maggioranza dei carichi in produzione, e il rapporto prezzo/capacità è il motivo. A $3 per input e $15 per output per milione di token, sta sotto GPT-5.5 su entrambe le tariffe offrendo qualità vicina a Opus sui carichi che dominano la maggior parte dei sistemi in produzione: coding, analisi, pipeline RAG, chat verso clienti e generazione di output strutturati. La caratteristica distintiva di prezzo di Sonnet è che l’intera finestra di contesto da 1M token è disponibile alle tariffe standard (non c’è maggiorazione per contesti lunghi), il che lo rende l’opzione credibile più economica per carichi che occasionalmente devono ingerire documenti molto lunghi o interi repository. Il prompt caching riduce l’input in cache al 10% dello standard, decisivo per qualsiasi carico con system prompt stabile.

Gemini 3.5 Flash: il modello di punta con il prezzo più aggressivo per lavori a contesto breve

Gemini 3.5 Flash è il modello di classe flagship più economico tra i principali fornitori statunitensi sul pricing raw dell’API, a $1.50 per input e $9.00 per output per milione di token. Per la maggior parte del traffico in produzione, questo è il livello di prezzo rilevante, e sottocosta in modo sostanziale sia GPT-5.5 sia Claude Opus 4.7. Un prezzo più alto rispetto ai precedenti modelli Flash porta a costi complessivi maggiori negli scenari agentici a forte uso di token (costo su Intelligence Index 5.5x rispetto a Gemini 3 Flash a causa di prezzo + utilizzo). L’altra caratteristica distintiva di Gemini è il tier gratuito effettivo in Google AI Studio, utile per il prototyping ma non rilevante per i modelli di costo in produzione.

DeepSeek V4: drasticamente più economico, con caveat da comprendere

DeepSeek V4 è listato a $0.435 per milione di token di input e $0.87 per milione di token di output, ovvero tra cinque e settanta volte meno dei modelli di frontiera statunitensi a seconda del confronto. Il modello è competitivo su molti benchmark, in particolare ragionamento e codice. I caveat vanno esplicitati: i dati sono elaborati in Cina, cosa inaccettabile per alcuni carichi regolamentati; la qualità in inglese è elevata ma il modello è ottimizzato diversamente rispetto ai modelli USA, e test testa‑a‑testa sul tuo carico specifico sono essenziali, non opzionali. Per carichi in cui questi caveat sono accettabili, DeepSeek cambia davvero l’equazione dei costi.

Nota su Claude Opus 4.7 vs Sonnet 4.6. Opus è incluso in tabella per completezza, ma per la grande maggioranza del traffico in produzione Sonnet 4.6 è la scelta economicamente migliore. Opus costa 1,67x Sonnet sia su input sia su output e, per carichi in cui Sonnet è sufficiente (che sono la maggior parte), quel premium non ha un beneficio compensativo. Scegli Opus quando le valutazioni mostrano che Sonnet fallisce su una classe specifica di task: agenti di coding altamente autonomi, workflow professionali di lungo periodo e compiti in cui l’aderenza alle istruzioni al margine è decisiva.

Esempio concreto: quanto costano davvero 100 milioni di token al mese

Prezzi per milione di token dicono poco finché non toccano un carico rappresentativo. L’esempio seguente usa un profilo che approssima un sistema di produzione non banale: 100 milioni di token totali al mese, suddivisi 80% input (80M) e 20% output (20M), con un tasso di hit della cache del 30% sulla parte di input. Questo pattern è ampiamente rappresentativo di una chat verso clienti o un carico RAG con system prompt e contesto documentale stabili.

La formula per ciascun modello: costo dell’input in cache + costo dell’input non in cache + costo dell’output. L’input in cache è fatturato al 10% dello standard per i fornitori che offrono caching.

Modello	Input in cache (24M)	Input non in cache (56M)	Output (20M)	Totale fattura mensile
GPT-5.5	$12.00	$280.00	$600.00	$892.00
Claude Sonnet 4.6	$7.20	$168.00	$300.00	$475.20
Claude Opus 4.7	$12.00	$280.00	$500.00	$792.00

Cosa ti dice questo. Su un carico rappresentativo, Sonnet 4.6 costa circa la metà di GPT-5.5. DeepSeek è in un universo di costo completamente diverso. Questi sono prezzi di listino; applicare l’elaborazione batch dove ammessa dimezza ulteriormente input e output (ma non gli hit della cache).

Due osservazioni da portare avanti. Primo: il caching è la leva singola più impattante che controlli. L’esempio sopra assume un tasso di hit della cache del 30%; portalo al 60% (del tutto raggiungibile per carichi con system prompt stabile) e il costo totale cala di circa un altro 25%. Secondo: il rapporto input/output conta molto. Carichi orientati all’output (sintesi, scrittura long-form) favoriscono fornitori con tariffe output più basse, mentre carichi orientati all’input (analisi a contesto lungo, grandi retrieval RAG) favoriscono fornitori con input più economico e nessuna maggiorazione per contesto lungo.

I costi nascosti che non compaiono nella pagina prezzi

Il listino è il pavimento, non il soffitto. Cinque costi aggiuntivi meritano un budget esplicito, perché sorprendono spesso i team che passano dal prototipo alla produzione:

Token di ragionamento. I modelli con modalità di ragionamento estese (GPT-5.5 Thinking, DeepSeek V4 thinking mode) generano contenuti di ragionamento interni che contano come token di output. Una singola chiamata di ragionamento ad alto sforzo su un prompt lungo può generare 20.000 token di ragionamento, pari a $0.60 di costo di output su GPT-5.5 prima ancora che venga prodotto il responso visibile. Fai budget per carico, non per richiesta.
Maggiorazioni per contesto lungo. Sia Gemini 3.5 Flash sia GPT-5.5 aumentano le tariffe oltre una soglia di lunghezza del contesto. Pipeline RAG con documenti grandi possono spingere silenziosamente ogni richiesta nella fascia più alta senza che nessuno se ne accorga finché non arriva la fattura. Misura le lunghezze dei prompt in produzione e verifica se stai superando la soglia.
Moltiplicatori per residenza dei dati. Anthropic applica un 10% di premium per inferenza limitata agli USA su Opus 4.7 e Sonnet 4.6. OpenAI applica un aumento del 10% sugli endpoint con residenza dei dati per la famiglia GPT-5.4. Per carichi regolamentati in cui conta, includilo nel listino fin dal primo giorno.
Deriva della verbosità dell’output. Quando una nuova versione è più “scrupolosa” di default (come si riporta per Opus 4.7 rispetto a Opus 4.6), i token di output per risposta possono aumentare anche a input costante. Su Anthropic l’output costa 5x l’input, quindi un +20% nella verbosità dell’output è un +20% nel driver di costo dominante.
Richieste fallite e ritentate. La maggior parte dei fornitori non addebita per errori 4xx e 5xx, ma addebita per generazioni parziali e retry che riescono al secondo tentativo. In sistemi di produzione con logica di retry attiva, questo può aggiungere qualche punto percentuale alla fattura. Vale la pena saperlo quando si riconciliano le fatture del fornitore con i costi attesi.

Come si inserisce CometAPI

Tutti e quattro questi modelli, più oltre 500 altri, sono disponibili tramite CometAPI su un unico endpoint compatibile con OpenAI, con una sola credenziale, fatturazione unificata e senza configurazione per singolo fornitore. Su CometAPI la tariffazione è misurata per token alle stesse tariffe per modello pubblicate dai fornitori sottostanti, con crediti acquistati in anticipo e applicati a qualsiasi modello in catalogo. Il valore del passare per CometAPI è operativo più che per-token: una sola credenziale da gestire, una sola fattura da riconciliare e la possibilità di passare da GPT-5.5 a Claude Sonnet 4.6 a Gemini 3.5 Flash cambiando una singola stringa nel codice.

Ci sono carichi per cui l’accesso diretto al fornitore è la scelta giusta. Se esegui un carico mono‑modello a volumi molto elevati su un fornitore, con un contratto enterprise negoziato, l’economia unitaria dell’andare diretto è migliore. Se la tua postura di conformità richiede una specifica relazione con un fornitore di riferimento, un aggregatore complica invece di semplificare la conversazione. Per la maggior parte dei team che eseguono carichi multi‑modello in produzione, però, l’attrito operativo di gestire tre o quattro relazioni dirette con fornitori è esso stesso un costo significativo, che il listino non cattura.

Prova il confronto sul tuo carico. Il tier gratuito su CometAPI ti consente di inviare lo stesso prompt a GPT-5.5, Sonnet 4.6, Gemini 3.5 Flash e DeepSeek V4 da un unico endpoint, senza registrazioni separate. Per una decisione di costo specifica al carico, quell’esercizio di un’ora vale più di qualsiasi confronto prezzi mai pubblicato.

Come usare questo confronto

Il modello giusto per il tuo carico dipende da quale dimensione del listino conta di più per la forma del tuo traffico. Un framework decisionale pratico:

Se la profondità di ragionamento è il collo di bottiglia (workflow agentici, pianificazione multi‑step complessa, i compiti di coding più difficili), parti da GPT-5.5 o Claude Opus 4.7. Il premium è reale ma meritato su questi carichi.
Se vuoi il miglior rapporto prezzo/capacità per il traffico generale in produzione, Claude Sonnet 4.6 è il default consigliato. Capacità quasi di frontiera, finestra da 1M a tariffe standard e forte supporto al caching.
Se sei sensibile al costo e il tuo carico sta sotto i 200K di contesto, Gemini 3.5 Flash è l’opzione di punta più credibile ed economica tra i principali fornitori statunitensi.
Se il tuo carico è ad alto volume e dominato dal prezzo, e la postura di residenza dei dati di DeepSeek è accettabile, V4 cambia l’equazione dei costi a sufficienza da meritare una valutazione seria, in particolare per carichi a forma di batch.

Vuoi andare oltre sull’ottimizzazione dei costi? I dati di prezzo sopra sono la base per il routing: la pratica di inviare query diverse a modelli diversi in base a quale può gestirle al costo più basso. L’articolo complementare, Cutting LLM API Costs in Half: A Model Routing Guide for Production Workloads in 2026, illustra i pattern di routing che trasformano questo listino in risparmi reali sulla tua fattura mensile.