Confronto dei prezzi delle API LLM 2026: GPT-5.5, Claude Sonnet 4.6, Gemini 3.5 Flash e DeepSeek V4

CometAPI
AnnaMay 21, 2026
Confronto dei prezzi delle API LLM 2026: GPT-5.5, Claude Sonnet 4.6, Gemini 3.5 Flash e DeepSeek V4

La definizione dei prezzi è la decisione singola più determinante nella scelta di un LLM di frontiera, ed è anche la dimensione in cui la maggior parte dei confronti pubblicati diventa obsoleta entro un trimestre. Questo articolo fa chiarezza. Di seguito una panoramica attuale, con fonti, dei prezzi per token di input e di output per i quattro modelli che rappresentano la maggior parte del traffico di modelli di frontiera in produzione nel 2026 (GPT-5.5 di OpenAI, Claude Sonnet 4.6 di Anthropic, Gemini 3.5 Flash di Google e DeepSeek V4), insieme alle leve che modificano significativamente la bolletta su larga scala: cache del prompt, elaborazione batch e sovrapprezzi per contesti lunghi.

Il pezzo ruota attorno a due domande. Primo: al prezzo di listino, quanto costa ciascun modello per milione di token, e come si confrontano le tariffe indicate sugli input e sugli output che effettivamente determinano una bolletta di produzione? Secondo: quando si applica un carico di lavoro rappresentativo (100 milioni di token al mese, 80% input e 20% output, con tassi di hit della cache realistici), qual è la bolletta mensile in dollari su ciascun modello? La prima risposta stabilisce il tariffario; la seconda dice cosa diventa quel tariffario una volta che tocca un modello di utilizzo reale in produzione.

Lettura rapida: Tra i quattro modelli di frontiera, i prezzi di listino coprono circa due ordini di grandezza. DeepSeek V4 è il più economico con $0.435 per milione di token di input; Claude Opus 4.7 è il più caro con $5.00. La forma del tuo carico di lavoro, in particolare il tasso di hit della cache e il rapporto input/output, cambia quale modello è il più economico in pratica, spesso più di quanto suggerisca il tariffario.

Perché un confronto prezzi "pari a pari" è più difficile di quanto sembri

Le pagine di prezzo dei fornitori sono scritte per i clienti di quel fornitore, non per chi valuta quattro opzioni affiancate. Il risultato è che metterle a confronto produce tre trappole persistenti:

  • I token non sono gli stessi tra i fornitori. Claude Opus 4.7 è fornito con un nuovo tokenizer che può produrre fino al 35% di token in più per lo stesso testo di input rispetto a Opus 4.6. Il tokenizer di Gemini differisce da quello di OpenAI. Il tariffario è per milione di token, ma il conteggio dei token per lo stesso prompt varia tra fornitori, il che significa che la tariffa in evidenza è solo una prima approssimazione del costo relativo.
  • I livelli di prezzo per contesti lunghi creano salti di costo. La famiglia GPT-5.5 di OpenAI ha tariffe separate per contesti brevi e lunghi che scattano intorno ai 270.000 token. Anthropic, invece, mantiene la stessa tariffa per token sull’intera finestra di contesto da 1M. I carichi di lavoro che si collocano vicino a queste soglie sono prezzati molto diversamente rispetto a quelli che restano comodamente al loro interno.
  • Gli sconti si accumulano, non sono separati. Cache del prompt, elaborazione batch e scaglioni di volume specifici del fornitore possono ciascuno ridurre drasticamente il costo effettivo, e si sommano. Una richiesta batch memorizzata in cache su Anthropic può costare appena il 5% di una richiesta standard non memorizzata in cache. Un confronto prezzi che ignora queste leve sovrastima il costo di listino, talvolta di un ordine di grandezza.

Il confronto qui sotto normalizza queste trappole dove possibile e le segnala esplicitamente dove non può.

Il confronto prezzi dei LLM di frontiera nel 2026

Tutte le cifre in dollari USA per milione di token. Fonte: documentazione ufficiale dei fornitori a maggio 2026.

ModelInputOutputCached inputBatch (50% off)Context windowLong-context surcharge
GPT-5.5$5.00$30.00$0.50$2.50 / $15.001MSì (~270K)
Claude Sonnet 4.6$3.00$15.00$0.30$1.50 / $7.501MNessuno
Claude Opus 4.7$5.00$25.00$0.50$2.50 / $12.501MNessuno
Gemini 3.5 Flash$1.50$9.00$0.15$1.00 / $6.001MSì (200K)
DeepSeek V4$0.435$0.87$0.0028Non offerto384KNessuno

Lettura della tabella: L’input memorizzato in cache è la tariffa pagata sui token serviti dalla cache del prompt (in genere prompt di sistema, esempi few-shot o prefissi di documenti che si ripetono tra le richieste). Batch è la tariffa pagata per carichi di lavoro asincroni con latenza fino a 24 ore. Il sovrapprezzo per contesto lungo indica se il fornitore alza le tariffe oltre una soglia di lunghezza del contesto; per chi lo fa, la soglia è indicata tra parentesi.

Dove ciascun modello eccelle

GPT-5.5: il default di massima capacità per ragionamento difficile e lavoro agentico

GPT-5.5 è il modello di frontiera di OpenAI per carichi di lavoro professionali complessi: agenti di coding, pianificazione multi-step, uso di strumenti a lungo termine e analisi di documenti in cui la profondità del ragionamento è il requisito dominante. È anche il più costoso tra i principali modelli di frontiera statunitensi sull’input ($5.00 per milione) e il più alto sull’output ($30.00 per milione), il che significa che si guadagna la posizione su carichi di lavoro in cui l’alternativa è pagare una tariffa di punta a un modello diverso che risolve il problema in modo meno affidabile. GPT-5.5 supporta la cache con uno sconto del 90%, l’elaborazione batch con il 50% di sconto, e la tariffazione per contesti lunghi scatta intorno alla soglia dei 270.000 token, rilevante per codebase molto estese o contesti di repository completi ma non per tipici carichi RAG.

Claude Sonnet 4.6: il default consigliato per la maggior parte del traffico in produzione

Sonnet 4.6 è il modello consigliato da Anthropic per la maggior parte dei carichi di lavoro in produzione, e il rapporto prezzo/capacità è il motivo. A $3 di input e $15 di output per milione di token, si posiziona sotto GPT-5.5 su entrambe le tariffe pur offrendo qualità quasi-Opus sui carichi di lavoro che dominano la maggior parte dei sistemi di produzione: coding, analisi, pipeline RAG, chat per clienti e generazione di output strutturato. La caratteristica distintiva di prezzo di Sonnet è che l’intera finestra di contesto da 1M token è disponibile alle tariffe standard (non c’è sovrapprezzo per contesto lungo), il che lo rende l’opzione credibile più economica per carichi di lavoro che occasionalmente devono ingerire documenti molto lunghi o repository completi. La cache del prompt riduce l’input memorizzato in cache al 10% dello standard, decisivo per qualsiasi carico con prompt di sistema stabile.

Gemini 3.5 Flash: il flagship con il prezzo più aggressivo per lavori a contesto breve

Gemini 3.5 Flash è il modello di classe flagship più economico di un grande fornitore statunitense sul pricing API grezzo, a $1.50 di input e $9.00 di output per milione di token. Per la maggior parte del traffico in produzione, quello è il livello di prezzo rilevante, e sottotaglia materialmente sia GPT-5.5 che Claude Opus 4.7. Prezzo più alto rispetto ai precedenti modelli Flash porta a costi complessivi maggiori in scenari agentici ad alta densità di token (5.5x Intelligence Index cost vs. Gemini 3 Flash due to pricing + usage).. L’altra caratteristica distintiva di Gemini è il livello davvero gratuito in Google AI Studio, utile per il prototyping ma non rilevante per modelli di costo di produzione.

DeepSeek V4: drasticamente più economico, con avvertenze da comprendere

DeepSeek V4 elenca $0.435 per milione di token di input e $0.87 per milione di token di output, che è tra cinque e settanta volte più economico rispetto ai modelli di frontiera statunitensi a seconda di quale si confronti. Il modello in sé è competitivo su molti benchmark, in particolare ragionamento e codice. Le avvertenze meritano di essere esplicitate: i dati sono elaborati in Cina, il che è un non-starter per alcuni carichi regolamentati; la qualità in lingua inglese è forte ma il modello è ottimizzato diversamente rispetto ai modelli di frontiera statunitensi, e i test testa-a-testa sul tuo carico specifico sono essenziali piuttosto che opzionali. Per carichi in cui queste avvertenze sono accettabili, DeepSeek cambia davvero l’equazione dei costi.

Nota su Claude Opus 4.7 vs Sonnet 4.6. Opus è incluso nella tabella per completezza, ma per la grande maggioranza del traffico di produzione, Sonnet 4.6 è la scelta economica migliore. Opus costa 1,67x rispetto a Sonnet sia su input che su output, e per carichi in cui Sonnet è sufficiente (che sono la maggior parte), quel premium non ha benefici compensativi. Scegli Opus quando le valutazioni mostrano che Sonnet fallisce su una classe di compiti specifica: agenti di coding altamente autonomi, flussi di lavoro professionali di lungo orizzonte e compiti in cui l’aderenza alle istruzioni al margine è decisiva.

Esempio pratico: quanto costano realmente 100 milioni di token al mese

Il prezzo per milione di token significa poco finché non tocca un carico rappresentativo. L’esempio sotto usa un profilo che approssima un sistema di produzione non banale: 100 milioni di token totali al mese, divisi 80% input (80M) e 20% output (20M), con un tasso di hit della cache del 30% sulla porzione di input. Questo schema è ampiamente rappresentativo di una chat per clienti o di un carico RAG con prompt di sistema e contesto documento stabili.

La matematica per ciascun modello: costo degli input memorizzati in cache + costo degli input non memorizzati in cache + costo dell’output. L’input memorizzato in cache è fatturato al 10% della tariffa standard per i fornitori che offrono cache.

ModelCached input (24M)Uncached input (56M)Output (20M)Total monthly bill
GPT-5.5$12.00$280.00$600.00$892.00
Claude Sonnet 4.6$7.20$168.00$300.00$475.20
Claude Opus 4.7$12.00$280.00$500.00$792.00

Cosa ti dice questo. Su un carico di lavoro rappresentativo, Sonnet 4.6 è circa la metà del costo di GPT-5.5. DeepSeek si colloca in un universo di costi completamente diverso. Questi sono numeri a prezzo di listino; applicando l’elaborazione batch dove ammessa si riduce ulteriormente ciascun totale del 50% su input e output (anche se non sugli hit di cache).

Due osservazioni da portare avanti. Primo: la cache è la leva singola più impattante che controlli. L’esempio sopra presume un tasso di hit della cache del 30%; portalo al 60% (del tutto raggiungibile per carichi con prompt di sistema stabile), e il costo totale scende di circa un altro 25%. Secondo: il rapporto input/output conta molto. I carichi che sono pesanti di output (riassunti, scrittura long-form) tendono verso fornitori con tariffe di output più economiche, mentre i carichi pesanti di input (analisi a contesto lungo, grandi retrieval RAG) tendono verso fornitori con tariffe di input più economiche e senza sovrapprezzo per contesti lunghi.

I costi nascosti non presenti nella pagina prezzi

Il prezzo di listino è il pavimento, non il soffitto. Cinque costi aggiuntivi meritano un budget esplicito, perché sorprendono regolarmente i team che scalano dal prototipo alla produzione:

  1. Token di ragionamento. I modelli con modalità di ragionamento estesa (GPT-5.5 Thinking, modalità di ragionamento di DeepSeek V4) generano contenuto di ragionamento interno che conta come token di output. Una singola chiamata di ragionamento ad alto sforzo su un prompt lungo può generare 20.000 token di ragionamento, che è $0.60 di costo di output su GPT-5.5 prima ancora che venga prodotto il contenuto visibile. Fai budget per carico di lavoro, non per richiesta.
  2. Sovrapprezzi per contesto lungo. Sia Gemini 3.5 Flash che GPT-5.5 alzano le tariffe oltre una soglia di lunghezza del contesto. Le pipeline RAG che includono documenti grandi possono spingere silenziosamente ogni richiesta nella fascia più alta senza che nessuno se ne accorga fino all’arrivo della bolletta. Misura le lunghezze effettive dei prompt in produzione e verifica se stai superando la soglia.
  3. Moltiplicatori di residenza dei dati. Anthropic applica un premium del 10% per inferenza solo negli Stati Uniti su Opus 4.7 e Sonnet 4.6. OpenAI applica un aumento del 10% sugli endpoint di residenza dei dati per la famiglia GPT-5.4. Per carichi regolamentati in cui questo conta, includilo nel tariffario fin dal primo giorno.
  4. Deriva della verbosità dell’output. Quando una nuova versione del modello è più approfondita di default (come si dice sia Opus 4.7 rispetto a Opus 4.6), i token di output per risposta possono aumentare anche se la lunghezza dell’input è costante. L’output è prezzato 5x rispetto all’input sulla linea Anthropic, quindi un aumento del 20% della verbosità dell’output è un +20% sul driver di costo dominante.
  5. Richieste fallite e ritentate. La maggior parte dei fornitori non fattura per errori 4xx e 5xx, ma fattura per generazioni parziali e retry che hanno successo al secondo tentativo. Nei sistemi di produzione con logica di retry attiva, questo può aggiungere qualche punto percentuale alla bolletta. Vale la pena saperlo quando si riconciliano le fatture dei fornitori rispetto al costo atteso.

Come si inserisce CometAPI

Tutti e quattro questi modelli, più oltre 500 altri, sono disponibili tramite CometAPI su un singolo endpoint compatibile con OpenAI, con una sola credenziale, fatturazione unificata e senza setup di account per fornitore. La tariffazione su CometAPI è misurata per token alle stesse tariffe per modello pubblicate dai fornitori sottostanti, con crediti acquistati in anticipo e applicati a qualsiasi modello nel catalogo. Il valore di instradare tramite CometAPI è operativo più che per-token: una sola credenziale da gestire, una sola fattura da riconciliare e la possibilità di passare da GPT-5.5 a Claude Sonnet 4.6 a Gemini 3.5 Flash cambiando una sola stringa nel tuo codice.

Ci sono carichi di lavoro in cui l’accesso diretto al fornitore è la scelta giusta. Se esegui un carico a singolo modello ad altissimo volume su un fornitore, con un contratto enterprise negoziato, l’economia unitaria dell’andare diretto è migliore. Se la tua postura di compliance richiede una specifica relazione vendor-of-record, un aggregatore complica piuttosto che semplificare quella conversazione. Per la maggior parte dei team che eseguono carichi di lavoro di produzione multi-modello, però, l’attrito operativo di gestire tre o quattro relazioni dirette con fornitori è di per sé un costo significativo, uno che il tariffario non cattura.

Prova il confronto sul tuo carico di lavoro. Il livello gratuito su CometAPI ti permette di eseguire lo stesso prompt contro GPT-5.5, Sonnet 4.6, Gemini 3.5 Flash e DeepSeek V4 da un singolo endpoint, senza iscrizioni separate. Per una decisione di costo specifica per il carico, quell’esercizio di un’ora vale più di qualsiasi confronto prezzi mai pubblicato.

Come usare questo confronto

Il modello giusto per il tuo carico dipende da quale dimensione del tariffario conta di più per la forma del tuo traffico. Un quadro decisionale pratico:

  • Se la profondità di ragionamento è il collo di bottiglia (agentic workflows, pianificazione complessa multi-step, i compiti di coding più difficili), inizia con GPT-5.5 o Claude Opus 4.7. Il premium è reale ma meritato su questi carichi.
  • Se vuoi il miglior rapporto prezzo/capacità per il traffico di produzione generale, Claude Sonnet 4.6 è il default consigliato. Capacità vicino alla frontiera, finestra di contesto 1M completa a tariffe standard e forte supporto per la cache.
  • Se sei sensibile ai costi e il tuo carico sta sotto i 200K di contesto, Gemini 3.5 Flash è l’opzione di classe flagship più economica di un grande fornitore statunitense.
  • Se il tuo carico è ad alto volume e dominato dal prezzo, e la postura di residenza dei dati di DeepSeek è accettabile, V4 cambia l’equazione dei costi abbastanza da meritare una valutazione seria, in particolare per carichi di lavoro batch.

Vuoi andare oltre nell’ottimizzazione dei costi? I dati di prezzo sopra sono la base per il routing: la pratica di inviare diverse query a modelli diversi in base a quale può gestirle al costo più basso. Il pezzo di accompagnamento, Ridurre a metà i costi delle API LLM: una guida al routing dei modelli per carichi di lavoro di produzione nel 2026, illustra i pattern di routing che trasformano questo tariffario in risparmi reali sulla tua bolletta mensile.

Pronto a ridurre i costi di sviluppo AI del 20%?

Inizia gratuitamente in pochi minuti. Crediti di prova gratuiti inclusi. Nessuna carta di credito richiesta.

Leggi di più