OpenAI rilascia la serie GPT-5.4: cosa cambia con GPT-5.4

L’ultimo rilascio di OpenAI, GPT-5.4, arriva come una famiglia di modelli mirata al “lavoro professionale” con due varianti principali — GPT-5.4 Thinking e GPT-5.4 Pro — e un forte accento sul lavoro con documenti a lungo contesto, capacità native di uso del computer (agenti) e migliore fattualità e performance sui task nei flussi di lavoro d’ufficio, legali e finanziari. Il rilascio segue gli aggiornamenti precedenti della linea GPT-5 (in particolare GPT-5.3 Instant e GPT-5.3-Codex) e porta miglioramenti misurabili su benchmark interni e pubblici, un’integrazione più profonda con gli strumenti (incluso un plug-in ChatGPT per Excel) e un contesto supportato più ampio ( cita fino a 1 million tokens).

Ora CometAPI supporta GPT-5.4 e GPT-5.4 Pro, e li offre con sconti.

Che cos’è GPT-5.4?

Posizionamento e varianti

GPT-5.4 è presentato da OpenAI come il modello più capace della serie GPT-5 ottimizzato per flussi di lavoro professionali, ad alta intensità di documenti e di tipo agentico. È offerto in almeno due varianti pubblicate:

GPT-5.4 Thinking — una variante focalizzata sul ragionamento che espone maggiormente il processo di pensiero del modello ed è ottimizzata per ragionamenti multi-step e task agentici (disponibile in ChatGPT come modalità “Thinking”).
GPT-5.4 Pro — un livello di inferenza a priorità/compute più elevati per carichi di lavoro enterprise ad alto throughput o sensibili alla latenza, con prezzi API più alti (a riflettere l’extra compute).

OpenAI evidenzia le capacità native di computer-use di GPT-5.4 — che consentono ai modelli di operare software tramite azioni programmatiche di mouse/tastiera e di orchestrare sequenze multi-strumento — posizionandole come un salto di qualità nella costruzione di agenti che completano task reali.

Nuove capacità e aspetti evidenziati

Supporto per contesto lungo: si riporta che GPT-5.4 supporta contesti molto grandi (fino a 1,000,000 tokens in contesti ChatGPT e Codex), consentendo al modello di mantenere “in memoria” durante una sessione progetti enormi, libri, codebase o dataset. Questo è trasformativo per revisione documentale, contratti legali e progetti ingegneristici multi-file.
Uso nativo del computer / capacità agentiche: GPT-5.4 è il primo modello general-purpose di OpenAI con capacità native di uso del computer — può generare sequenze di azioni UI e codice per operare software (ad es. via Playwright o emettendo comandi di mouse/tastiera informati da screenshot). Questa capacità è pensata per permettere agli sviluppatori di costruire agenti che portano a termine task su app web e desktop.
Miglioramenti nelle competenze d’ufficio: forte enfasi su fogli di calcolo, presentazioni e documenti — con benchmark interni che mostrano grandi progressi nel modeling su spreadsheet, nell’estetica delle presentazioni e nella qualità di redazione dei documenti.
Fattualità e riduzione delle allucinazioni: OpenAI riporta riduzioni degli errori fattuali rispetto ai modelli precedenti su set di valutazione curati internamente (vedi benchmark sotto).

Rispetto a modelli precedenti come GPT-5.2 Thinking e GPT-5.3 Codex, GPT-5.4 fonde queste capacità in un unico modello progettato per gestire task di lunga durata e flussi complessi con minima interazione dell’utente.

Caratteristiche chiave e aspetti tecnici salienti di GPT-5.4

1) Finestre di contesto massicce (fino a 1,000,000 tokens)

La capacità più immediatamente visibile è il supporto per finestre di contesto fino a 1,000,000 tokens via API. Questo amplia ciò che una singola sessione di modello può contenere: interi libri, codebase lunghe o dossier multi-documento senza suddivisione in più chiamate. Per flussi di lavoro enterprise intensivi di conoscenza (discovery legale, sintesi di ricerca, analisi di codice su larga scala), la possibilità di mantenere un contesto da un milione di token riduce il “collante” ingegneristico e migliora la coerenza.

Implicazione: i flussi che prima richiedevano orchestrazione (retrieval, chunking, memoria esterna) possono ora mantenere più contesto grezzo nella memoria di lavoro del modello — semplificando le pipeline e riducendo i compromessi tra latenza e coerenza.

2. Uso nativo del computer e degli strumenti

OpenAI mette in evidenza una maggiore capacità di operare strumenti e connettori software (ad es. fogli di calcolo, editor di documenti, ambienti di esecuzione del codice) in modo più robusto rispetto ai modelli precedenti. GPT-5.4 estende il lavoro precedente sul “tool-using” con:

Migliore selezione degli strumenti e parametrizzazione.
Pianificazione delle sequenze più affidabile quando si chiamano API esterne o si attraversano azioni in stile UI.
Riduzione dell’overhead di token per flussi agentici tramite un’architettura di chiamata agli strumenti più intelligente.

Capacità per agenti e sviluppatori:

Automazione desktop e web: con supporto esplicito per emettere azioni di mouse e tastiera informate da screenshot, GPT-5.4 può essere incorporato in agenti che operano workflow software reali (per esempio compilare moduli, navigare dashboard o eseguire procedure multi-step). OpenAI riporta risultati all’avanguardia su benchmark in stile OS.
Interfaccia agli strumenti e governabilità: GPT-5.4 è più governabile tramite messaggi dello sviluppatore e sa decidere meglio quando e come chiamare strumenti esterni, connettori e API — una capacità cruciale per costruire agenti multi-strumento affidabili che minimizzino azioni non necessarie o rischiose.

Impatto pratico: i task di automazione (ad es. “apri questo spreadsheet, calcola questi pivot, genera note per le slide”) richiedono meno cicli di errore/ritentativo e una supervisione umana inferiore.

3) Cinque livelli di sforzo di ragionamento, modalità estreme

OpenAI indica molteplici livelli di sforzo nel ragionamento — permettendo agli utenti di scambiare latenza/costo con una deliberazione interna più profonda (modalità talvolta indicate informalmente come xhigh o ragionamento estremo). Queste sono pensate per problemi in cui una maggiore deliberazione interna migliora materialmente la correttezza (prove complesse, trasformazioni di codice lunghe, analisi finanziarie multi-step). Il pricing e la fatturazione API riflettono il lavoro extra svolto dal modello in queste modalità.

Impatto pratico: questa separazione consente ai clienti di scegliere i compromessi appropriati ai propri carichi, invece di chiedere a un singolo modello di essere “onnicomprensivo”.

4) Produttività e creazione di contenuti

Modeling su spreadsheet: GPT-5.4 mostra forti miglioramenti sui task di fogli di calcolo tipici di audit, finanza e analisi. OpenAI riporta un punteggio medio di 87.3% su task in stile “investment banking modeling” per GPT-5.4 vs. 68.4% per GPT-5.2. È un aumento notevole dell’accuratezza a livello di task per il modeling numerico e la costruzione di formule.
Presentazioni e output visivo: i valutatori umani hanno preferito il 68.0% delle volte le presentazioni generate da GPT-5.4 rispetto a quelle di GPT-5.2 per via di estetica migliore, varietà e integrazione con la generazione di immagini. Ciò riflette miglioramenti sia di contenuto sia di forma nella produzione di slide deck.
Redazione documentale e scrittura lunga: GPT-5.4 è stato ottimizzato per mantenere coerenza su documenti lunghi, un comportamento di citazione migliore e meno contraddizioni interne nella gestione di contesti estesi, grazie alla finestra di contesto ampliata e a un tuning dedicato al ragionamento.

5) Sicurezza, mitigazioni e considerazioni cyber

Riduzione delle allucinazioni: OpenAI riporta che, su un set di prompt de-identificati in cui gli utenti hanno segnalato errori fattuali, le affermazioni individuali di GPT-5.4 sono il 33% meno propense a essere false, e le risposte complete sono il 18% meno propense a contenere errori, rispetto a GPT-5.2 — una metrica chiave per l’adozione enterprise dove l’accuratezza fattuale conta.
Mitigazioni di cybersecurity (variante Thinking): GPT-5.4 Thinking evidenzia un set ampliato di mitigazioni per rischi cyber, costruito sulle protezioni usate per i modelli Codex/5.3 precedenti. GPT-5.4 Thinking è stato progettato con ulteriori barriere per scenari di uso improprio ad alta capacità.

Benchmark delle prestazioni — cosa dicono i numeri

OpenAI e diverse testate hanno pubblicato risultati di benchmark iniziali come parte del rollout. Poiché benchmark diversi testano capacità diverse (navigazione web vs. conoscenza di dominio vs. sicurezza), è utile aggregare i numeri principali e cosa significano.

OpenAI rilascia la serie GPT-5.4: cosa cambia con GPT-5.4

I risultati riportati mostrano miglioramenti notevoli rispetto ai membri precedenti della famiglia GPT-5.x e una stretta competizione con altri modelli di fascia alta.

Benchmark di interazione web e desktop

WebArena-Verified (test di uso del browser): GPT-5.4 raggiunge un 67.3% di successo usando sia segnali DOM sia screenshot, rispetto al 65.4% di GPT-5.2 — un miglioramento visibile ma non travolgente. Misura task in cui il modello deve interagire con pagine live ed elementi UI.
Online-Mind2Web (task di browser basati su screenshot): GPT-5.4 ha raggiunto 92.8% di successo usando solo osservazioni da screenshot — un miglioramento particolarmente forte rispetto a baseline agentiche precedenti (OpenAI ha confrontato ciò con le performance della modalità Agent di ChatGPT Atlas).
OSWorld-Verified (navigazione desktop): report indipendenti indicano un punteggio di 75.0% su un benchmark che valuta la navigazione in ambienti desktop e il completamento dei task. Questo risultato ha posizionato 5.4 davanti a molte baseline pubbliche per task di automazione end-to-end.

Conclusione: i miglioramenti di 5.4 sono più pronunciati dove contano la comprensione del contesto visivo, le affordance di UI e le sequenze d’azione lunghe — cioè nei flussi agentici.

Benchmark su salute, sicurezza e conoscenza

Il reporting sulla sicurezza di deployment di OpenAI mostra segnali misti:

HealthBench: GPT-5.4 ha ottenuto 62.6% su HealthBench (un lieve calo rispetto al 63.3% di GPT-5.2), indicando sottili compromessi tra capacità e alcune metriche sanitarie nelle snapshot riportate da OpenAI.
Hard: GPT-5.4 ha ottenuto 40.1% su una suite di valutazione “Hard” (in leggero calo rispetto al 42.0%).
Consensus: GPT-5.4 ha registrato 96.6% su “Consensus”, una metrica che riflette l’accordo con risposte di consenso curate (un aumento di ~2.1 punti).

OpenAI ha anche osservato cambiamenti nella lunghezza media delle risposte nelle valutazioni sulla salute (GPT-5.4 ha mediato ~3,311 caratteri vs. 2,676 per GPT-5.2), che può influire su come un modello inquadra temi sensibili.

Interpretazione: le metriche di sicurezza e salute mostrano che 5.4 ha complessivamente aumentato l’allineamento al consenso e cambiato la verbosità delle risposte, pur con lievi cali in alcuni punteggi sanitari ristretti. Questo pattern spesso riflette un ribilanciamento degli obiettivi del modello — risposte più decise e lunghe possono aiutare utilità e consenso, pur richiedendo un monitoraggio attento nei domini sensibili.

Esempi e affermazioni specifici di dominio

Test iniziali hanno fornito affermazioni concrete e settoriali (OpenAI e fonti terze):

Legal reasoning benchmark (BigLaw Bench) — GPT-5.4 ha raggiunto ~91% su sezioni di ragionamento legale nei test iniziali, un forte segnale per i task di analisi documentale; si noti che sono cifre iniziali non peer-reviewed.
Riduzione delle allucinazioni: le risposte di GPT-5.4 sono ~33% meno propense a contenere affermazioni false e ~18% meno propense a contenere errori fattuali rispetto ad alcune baseline precedenti. Queste percentuali sono state evidenziate in report secondari e comunicazioni aziendali; come per ogni affermazione del genere, dipendono dalla suite di benchmark e dalla metodologia di campionamento.

Come ottenere e pagare GPT-5.4

Piani ChatGPT e accesso enterprise

Secondo OpenAI e resoconti di prodotto:

Gli utenti ChatGPT Plus / Team / Pro sono stati i primi a ricevere GPT-5.4 Thinking nel prodotto. Gli amministratori Enterprise ed Education possono abilitare l’accesso anticipato tramite i controlli admin. Gli utenti Free/Go non hanno garantito l’accesso immediato. Gli sviluppatori possono chiamare gli endpoint gpt-5.4 e gpt-5.4-pro tramite l’API.

Istanza dei prezzi API (pricing sviluppatori pubblicato)

Il pricing per sviluppatori di OpenAI elenca GPT-5.4 come un modello d’avanguardia con tariffe per token. Come pubblicato sulla pagina dei prezzi al momento dell’annuncio, tariffe campione per GPT-5.4 sono approssimativamente:

Modello	Input	Input in cache	Output
gpt-5.4 (<272K context length)	$2.50	$0.25	$15.00
gpt-5.4 (>272K context length)	$5.00	$0.50	$22.50
gpt-5.4-pro (<272K context length)	$30.00		$180.00
gpt-5.4-pro (>272K context length)	$60.00		$270.00

In CometAPI (una piattaforma one-stop di aggregazione per API di modelli di grandi dimensioni):

Modello	Prezzo Comet (USD / M token)	Prezzo ufficiale (USD / M token)	Sconto
gpt-5.4	Input:$2/M; Output:$16/M	Input:$2.5/M; Output:$20/M	-20%
gpt-5.4-pro	Input:$24/MOutput:$192/M	Input:$30/MOutput:$240/M	-20%

Pertanto, consiglio vivamente CometAPI, poiché può ridurre notevolmente i costi API.

Considerazioni sulla gestione dei costi

Se prevedi di usare il modello su larga scala, in particolare in contesti di documenti lunghi o ad alto throughput, considera:

Caching e deduplicazione degli input (per sfruttare i prezzi di input in cache quando possibile).
Prompt engineering per comprimere il contesto ed evitare token ridondanti.
Strategie di batching e post-elaborazione che minimizzino la generazione di output costosa.
Monitoraggio dell’uso delle modalità di ragionamento, poiché modalità di ragionamento più profonde possono comportare costi computazionali più alti.

Confronto: GPT-5.4 vs GPT-5.3

Dove GPT-5.4 migliora rispetto a GPT-5.3

Profondità di ragionamento e orchestrazione degli strumenti: 5.4 Thinking è stato esplicitamente ottimizzato per superare 5.3 nel ragionamento multi-step e negli use case agentici. Ciò emerge nei benchmark di interazione web/desktop e nelle metriche di successo degli agenti.
Capacità di contesto: l’offerta da 1M token di 5.4 è un chiaro passo tecnico oltre quanto fornito da 5.3 nella disponibilità API mainstream, abilitando nuove classi di task in singola sessione.
Miglioramenti di dominio: i numeri iniziali di OpenAI e i report terzi indicano miglioramenti su alcuni benchmark legali e documentali, dove il contesto più lungo e il tuning specializzato di 5.4 aiutano.

Compromessi e quando 5.3 potrebbe essere preferibile

Uso conversazionale leggero: GPT-5.3 Instant rimane ottimizzato per flussi conversazionali rapidi ed economici; le organizzazioni che cercano la minima latenza/costo per interazioni chat brevi potrebbero preferirlo.
Stabilità delle metriche di sicurezza: alcuni punteggi su valutazioni di salute e “hard” hanno mostrato lievi cali per 5.4 rispetto a 5.2 negli snapshot di OpenAI; le aziende in domini sensibili e regolamentati dovrebbero validare il modello sulle proprie suite di valutazione prima del rollout completo.

Casi d’uso e implicazioni per i settori

La combinazione di ragionamento profondo, memoria a lungo contesto e uso degli strumenti di GPT-5.4 apre diverse opportunità pratiche e strategiche.

1. Servizi professionali e consulenza

Le società che producono deliverable lunghi (ad es. memorie legali, report di consulenza multi-capitolo, pacchetti di due diligence M&A) possono mantenere l’intero set di documenti e dataset in contesto, consentendo sintesi coerenti cross-documento, QA automatizzato e generazione di executive summary senza stitching manuale. Le vittorie di benchmark su APEX-Agents sono in linea con questo posizionamento.

2. Ingegneria del software e ragionamento su codebase

Un contesto più lungo significa che una singola chiamata al modello può includere interi repository o lunghe tracce di log. I miglioramenti di GPT-5.4 nei benchmark SWE indicano prestazioni migliori per debugging, refactoring e code review — specialmente se abbinati a Pro per carichi sostenuti.

3. Agenti autonomi e automazione enterprise

I sistemi agentici che operano su strumenti (fogli di calcolo, sistemi di ticketing, interfacce web) beneficiano di una miglior selezione degli strumenti, di un overhead di token ridotto per i flussi agentici e di una migliore preservazione dello stato nel lungo periodo. Questo rende GPT-5.4 attraente per pipeline di automazione enterprise e “assistenti che agiscono” su più sistemi.

In sintesi — cosa cambia con GPT-5.4

GPT-5.4 rappresenta un avanzamento pragmatico e guidato dalle capacità verso modelli che possono gestire ragionamento lungo e multi-documento, eseguire flussi agentici con maggiore affidabilità e scalare in pipeline professionali tramite contratti Pro. Per le organizzazioni con flussi di lavoro di lungo orizzonte e dipendenti dagli strumenti, GPT-5.4 è un cambio di passo in termini di potenziale produttività.

Gli sviluppatori possono accedere a GPT-5.4, GPT-5.4-pro, e GPT 5.3 Chat tramite CometAPI ora. Per iniziare, esplora le capacità del modello nel Playground e consulta la guida API per istruzioni dettagliate. Prima dell’accesso, assicurati di aver effettuato l’accesso a CometAPI e di aver ottenuto la chiave API. CometAPI offre un prezzo molto inferiore a quello ufficiale per aiutarti con l’integrazione.

Pronto a iniziare?→ Iscriviti a GPT-5.4 oggi !

Se vuoi scoprire altri consigli, guide e notizie sull’IA, seguici su VK, X e Discord!