Dal 5 al 7 marzo 2026, OpenAI ha reso pubblico il rilascio di GPT-5.4, un modello d'avanguardia esplicitamente ottimizzato per flussi di lavoro professionali, ricchi di documenti e agentici. Il rilascio mette in evidenza tre progressi convergenti: (1) finestre di contesto sensibilmente più ampie (≈1.050.000 token), (2) una nuova funzionalità di “reasoning” che consente agli sviluppatori di controllare lo sforzo di ragionamento interno, e (3) funzionalità di primo livello per computer-use / orchestrazione di strumenti e una comprensione multimodale migliorata (testo + immagini + screenshot). Queste funzionalità rendono GPT-5.4 particolarmente adatto a compiti come modellazione di fogli di calcolo, revisione di contratti, creazione di slide, flussi agentici multi-step e scrittura di codice che opera su sistemi live.
Puoi provare GPT-5.4 in CometAPI, una variante con più compute — GPT-5.4 Pro — è disponibile per i carichi di lavoro di ragionamento più difficili e multi-turn.
Che cos'è GPT-5.4 (incluse le varianti Thinking e Pro)
La famiglia di modelli, in breve
GPT-5.4 è posizionato come il modello GPT-5 “frontier” per il lavoro professionale complesso: documenti long-form, codice, ragionamento multi-step e flussi di lavoro agentici. Il rilascio unifica capacità in precedenza divise tra Codex (coding) e la linea GPT — ottenendo così un unico modello che può programmare, ragionare, usare strumenti e gestire contesti lunghi. La guida ufficiale ai modelli elenca gpt-5.4 come predefinito per la maggior parte dei lavori e gpt-5.4-pro per i problemi più difficili.
Specifiche chiave (ufficiali):
- Context window: ~1.050.000 token (≈ 700–800k parole in inglese), consentendo input molto grandi come bozze di libri interi, codebase multi-file o lunghi documenti legali.
- Max output tokens: i report indicano output molto grandi supportati (ad es. fino a 128.000 token in alcune configurazioni Pro).
- Variants:
gpt-5.4(predefinito),gpt-5.4-pro(più compute, ragionamento più lungo) e modelli più leggeri/mini per un uso sensibile ai costi.
“Thinking” e “Pro” spiegati
- GPT-5.4 Thinking: una modalità ottimizzata per il ragionamento interattivo. Enfatizza flussi di lavoro “plan-first” — il modello può presentare un piano preliminare (un “upfront plan”) prima di generare i risultati completi, consentendo correzioni in corso d’opera e riducendo lo spreco di token su direzioni errate. Questa modalità migliora la visibilità sui passaggi previsti dal modello e rende i compiti lunghi più sicuri e controllabili.
- GPT-5.4 Pro: il gemello ad alto compute per i problemi più difficili — catene di pensiero più profonde, budget di compute interno maggiori e risultati più deterministici/stabili su benchmark complessi. È esposto nella Responses API ed è pensato per compiti multi-turn a ragionamento pesante (aspettati maggiore latenza e costi).
Miglioramenti chiave e nuove funzionalità in GPT-5.4
Finestre di contesto massicce (≈1.050.000 token)
Questo è uno dei miglioramenti di punta: un modello che può consumare e ragionare su interi libri, codebase multi-file o set di documenti enterprise senza doverli suddividere in stream. Praticamente, ciò semplifica compiti come revisione end-to-end di contratti, sintesi di documenti completi e Q&A su più documenti. Casi d’uso: due diligence legale, audit tecnici e log degli agenti.
Nota pratica: la finestra di contesto più grande cambia il design dei sistemi — invece di segmentare aggressivamente, ora puoi mantenere più stato “globale” nel contesto, ma è comunque consigliabile usare compattazione (vedi Parameter Control) per mantenere i costi ragionevoli.
Uso nativo del computer e integrazioni di strumenti
GPT-5.4 è il primo modello general-purpose con capabilità native di computer-use: generazione di sequenze di azioni del browser o dell’OS (script Playwright, eventi tastiera/mouse), lettura di screenshot, interazione con interfacce web e orchestrazione di workflow multi-strumento. Questo è un passo importante verso la costruzione di agenti autonomi che eseguono attività reali end-to-end.
GPT-5.4 include computer use integrato: il modello può interagire con agenti software locali/remoti, chiamare connettori, manipolare fogli di calcolo, fare screenshot e automatizzare workflow multi-step quando autorizzato. Ciò riduce il “glue code”: invece di creare wrapper d’istruzioni fragili, il modello può operare in un ciclo build-run-verify-fix (comportamento agentico) usando API di strumenti documentate. È un grande passo verso agenti autonomi sicuri e pratici.
Modalità di ragionamento e reasoning.effort
Un parametro reasoning.effort regolabile ti consente di controllare quanto compute interno il modello investe nella chain-of-thought e nella ricerca di soluzioni (opzioni: none, low, medium, high, xhigh). Uno sforzo maggiore produce risposte migliori per problemi complessi ma costa di più e aumenta la latenza — ideale per gpt-5.4-pro.
Pianificazione anticipata / piani interattivi
Gli “upfront plans” consentono al modello di fornire un breve piano prima di eseguire una generazione lunga. Il piano può essere ispezionato e modificato da sviluppatori o utenti, minimizzando output sprecati e abilitando correzioni di rotta a metà attività (ottimo per creazione di documenti lunghi o analisi multi-step).
Migliori capacità multimodali/documentali
I benchmark e le valutazioni interne rilasciate con il modello mostrano grandi miglioramenti sui compiti di fogli di calcolo (esempio di valutazione interna spreadsheet: media GPT-5.4 87,3% vs GPT-5.2 68,4%) e preferenza umana per gli output delle presentazioni (presentazioni da GPT-5.4 preferite al 68% rispetto a GPT-5.2 in test con utenti). L’azienda riporta anche riduzioni negli errori fattuali (tasso di falsità per singola affermazione in calo di ~33%, tasso di errore della risposta completa in calo di ~18% rispetto a GPT-5.2).
Come usare la GPT-5.4 API (Responses API / Chat API )
GPT-5.4 pro supporta solo l’accesso tramite Responses. GPT-5.4 (thinking) supporta chat e responses. CometAPI (una piattaforma di aggregazione one-stop per API di modelli di grandi dimensioni con sconti) offre la Serie GPT-5.4, due metodi di accesso e playground compatibili e utili).
Nota: la Responses API è l’integrazione consigliata per i modelli GPT-5.x perché supporta direttamente i parametri di reasoning, la registrazione degli strumenti e le dimensioni di contesto maggiori.
Python — Responses API (esemplificativo)
# pip install openai (or use the official package named in docs)
from openai import OpenAI
import os
api_key = os.environ.get("OPENAI_API_KEY") # or set env var
client = OpenAI(api_key=api_key)
resp = client.responses.create(
model="gpt-5.4-pro-2026-03-05",
input="How much gold would it take to coat the Statue of Liberty in a 1mm layer?",
reasoning={"effort": "high"}, # hidden internal reasoning tokens used
max_output_tokens=4096, # keep below max output limit for your use case
temperature=0.0, # deterministic for legal/technical tasks
tools=[ # optionally register tools the model can call
{
"name": "file_search",
"type": "file_search",
"config": {"root": "/mnt/data/contracts"}
}
],
response_format={"type":"json", "json_schema":{
"name":"redlines",
"schema":{"type":"object","properties":{"summary":{"type":"string"},"redlines":{"type":"array","items":{"type":"object"}}}}
}}
)
print(resp.output_text) # final model answer
Note: reasoning è un oggetto che controlla lo sforzo interno; tools registra le interfacce di strumenti disponibili che il modello può chiamare; response_format impone output strutturati. Le etichette disponibili per reasoning.effort vanno da none (più veloce) fino a xhigh (massimo sforzo interno) a seconda del supporto di SDK e provider. Usa sforzo basso per sintesi semplici; aumentalo per compiti complessi e multi-step.
Curl — Chat API (esemplificativo)
curl --location --request POST 'https://api.cometapi.com/v1/chat/completions' \
--header 'Authorization: Bearer ' \
--header 'Content-Type: application/json' \
--data-raw '{
"model": "gpt-5.2\4",
"messages": [
{
"role": "system",
"content": "You are a helpful assistant."
},
{
"role": "user",
"content": "Hello!"
}
]
}'
Utilizzo degli strumenti con GPT-5.4 (Computer Use, connettori e agenti)
Il salto più pratico di GPT-5.4 è il suo comportamento agentico e consapevole degli strumenti: può scoprire e chiamare lo strumento giusto, operare su fogli di calcolo e interfacce quando autorizzato, e ragionare sulle azioni che intraprenderà.
GPT-5.4 è progettato per lavorare con strumenti. Ci sono tre grandi classi di strumenti da considerare:
- Hosted tools (ad es.,
web_search,file_search) — il modello può chiamarli come parte del ciclo di risposta. Ideale per recuperare informazioni aggiornate o ricerche su DB vettoriali. - Custom tools / function calling — i tuoi endpoint server o schemi di funzioni. Dichiara funzioni (schemi) in modo che il modello restituisca output strutturati che il tuo codice esegue.
- Computer use — il modello emette azioni GUI e si aspetta un harness che le esegua (clic, digitazione, screenshot). È potente ma ad alto rischio.
Quando hai decine/centinaia di strumenti, passa tool_search e lascia che il modello scopra gli schemi degli strumenti pertinenti a runtime. Questo riduce l’uso di token e migliora prestazioni in cache tra i deployment.
Come funziona l’integrazione degli strumenti (concettuale)
- Scoperta degli strumenti: il modello trova connettori disponibili (ad es., Google Sheets, Salesforce, DB interni) basandosi su un catalogo.
- Piano & permesso: il modello produce un piano preliminare che descrive quali strumenti chiamerà e perché; questo viene revisionato e approvato.
- Chiamata & verifica: il modello chiama gli strumenti (tramite connettori o API di azioni), legge i risultati ed esegue controlli di verifica (o chiede conferma umana).
- Loop di fix: in caso di errori, il modello tenta riparazioni o chiede indicazioni.
Questo pattern riduce orchestrazioni custom fragili e centralizza la logica nel modello, ma richiede controlli di accesso rigorosi e log di audit.
Chiamata con tools (web_search / file_search / computer use)
La Responses API supporta il passaggio di un array tools. Il modello può scegliere strumenti (strumenti hosted come web_search, file_search), oppure puoi pre-dichiarare e limitare gli strumenti. Esempio: chiedi al modello di usare web search.
response = client.responses.create( model="gpt-5.4", input="What are the three most-cited 2025 papers on federated learning?", tools=[{"type": "web_search", "name": "web_search"}], tool_search={"enabled": True})
Se passi molte definizioni di strumenti, tool_search consente a GPT-5.4 di rinviare il caricamento della maggior parte degli strumenti e caricare solo quelli rilevanti — cruciale per ecosistemi con molti strumenti.
Guida alla compatibilità e al controllo dei parametri di GPT-5.4
I parametri LLM tradizionali esistono ancora ma sono limitati a seconda della modalità di reasoning.
Parametri core della GPT-5.4 API
reasoning.effort: I seguenti parametri sono pienamente supportati e raccomandati quando si chiama GPT-5.4. Controlla quanto ragionamento interno il modello esegue prima di generare l’output finale.
Valori supportati:
nonelowmediumhighxhigh
Esempio:
response = client.responses.create( model="gpt-5.4", reasoning={"effort": "high"}, input="Explain the Nash equilibrium in game theory.")
Effetti:
| Valore | Comportamento |
|---|---|
| none | Risposta più veloce |
| low | Ragionamento leggero |
| medium | Equilibrio predefinito |
| high | Ragionamento forte |
| xhigh | Massima profondità |
Uno sforzo di reasoning più alto generalmente aumenta:
- accuratezza della risposta
- token di ragionamento
- latenza
- costo
Il livello predefinito è tipicamente medium.
Strumenti
Definisce gli strumenti che il modello può chiamare. tools + tool_search
tool_searchrinvia il caricamento delle definizioni degli strumenti per efficienza; abilitalo per set di strumenti ampi.toolsdichiara le definizioni degli strumenti (web_search, file_search, RPC personalizzati).
Gli strumenti built-in supportati includono:
- web search
- file search
- code interpreter
- image generation
Esempio:
tools=[{
"name":"get_weather",
"description":"Get current weather",
"parameters":{
"type":"object",
"properties":{
"city":{"type":"string"}
}
}
}
Parametri di campionamento (controllo della casualità)
Regola di compatibilità importante: quando reasoning.effort ≠ none, alcuni parametri di campionamento potrebbero non essere supportati. Se reasoning.effort è high, la richiesta può fallire o ignorare temperature.
I modelli GPT-5.4 disabilitano parametri come:
temperaturetop_plogprobs
perché i modelli di reasoning controllano internamente il campionamento.
temperatureControlla la casualità nel campionamento dei token.
| Valore | Effetto |
|---|---|
| 0.0 | deterministico |
| 0.2–0.4 | stabile |
| 0.7 | bilanciato |
| 1.0 | altamente creativo |
Esempio:
{ "model": "gpt-5.4", "temperature": 0.2, "reasoning": { "effort": "none" }}
Se reasoning.effort è high, la richiesta può fallire o ignorare temperature.
top_p: parametro di nucleus sampling.
| Valore | Significato |
|---|---|
| 0.9 | considera il top 90% di probabilità |
| 0.5 | generazione conservativa |
| 1.0 | distribuzione completa |
3. stop: Interrompe la generazione quando incontra token specifici.
Utile per:
- generazione di codice
- pipeline di strumenti
- delimitatori di chat
Verbosity: controlla la lunghezza della risposta.
Diversi nuovi parametri sono apparsi a partire dai modelli GPT-5, incluso GPT-5.4.
Valori:
lowmediumhigh
Esempio:
verbosity="high"
Casi d’uso:
| Valore | Comportamento |
|---|---|
| low | risposte concise |
| medium | bilanciato |
| high | spiegazioni lunghe |
Questo parametro aiuta a controllare la lunghezza dell’output senza manipolare i limiti di token.
Differenze di parametro di GPT-5.4
Di seguito una tabella di compatibilità semplificata.
| Parametro | reasoning:none | reasoning:low+ |
|---|---|---|
| temperature | ✓ | ✗ / ignorato |
| top_p | ✓ | ✗ |
| logprobs | ✓ | ✗ |
| max_output_tokens | ✓ | ✓ |
| tools | ✓ | ✓ |
| tool_choice | ✓ | ✓ |
| verbosity | ✓ | ✓ |
| reasoning.effort | ✓ | ✓ |
Confronto tra parametri e capacità di GPT-5.4 e GPT-5.4-Pro
| Funzionalità | GPT-5.4 | GPT-5.4-Pro |
|---|---|---|
| Flessibilità di reasoning | Intero range da none → xhigh | Solo medium → xhigh |
| Latenza | Inferiore | Superiore (compiti complessi possono richiedere minuti) |
| Costo | Inferiore | Superiore per compute addizionale |
| Esecuzione in background | Opzionale | Raccomandata per compiti lunghi |
| Livelli di Reasoning supportati | none, low, medium, high, xhigh | medium, high, xhigh |
Best practice per adottare GPT-5.4 in produzione
1) Inizia in piccolo, poi aumenta il ragionamento
- Inizia con
reasoning.effort=none/low+text.verbosity=lowper endpoint sensibili alla latenza. - Per flussi complessi, passa a
mediumpoihighsolo dopo A/B test su costo vs accuratezza.
2) Preferisci output strutturati per compiti programmabili
Usa function schemas o schemi Pydantic/JSON affinché il modello restituisca output leggibili dalla macchina; riduce errori di parsing a valle.
3) Mantieni l’intervento umano nei processi ad alto impatto
Qualsiasi workflow che implica denaro, esiti legali o dati personali dovrebbe richiedere approvazione umana prima di effetti esterni.
4) Limita le capacità esposte
Usa liste allowed_tools (default deny) e permessi granulari sugli strumenti. Per il computer use, imposta una whitelist rigorosa di azioni.
5) Budgeting di costi e token
Usa max_output_tokens e text.verbosity per costi prevedibili. Per contesti molto grandi, pagina o comprimi dove opportuno — anche con 1M di token, strategie di compattazione/selezione aiutano a ridurre i costi.
Note finali — migrazione e prossimi passi
GPT-5.4 rappresenta un passo significativo verso la costruzione di sistemi AI che possono pensare di più, lavorare attraverso software e gestire contesti molto grandi. Per la maggior parte dei team, il percorso di migrazione consigliato è:
- Prototipa su un sottoinsieme ridotto di workflow (ad es., revisione di contratti, generazione di slide) usando l’alias
gpt-5.4in sandbox. - Misura accuratezza del compito, uso di token, latenza e costi rispetto ai modelli precedenti.
- Indurisci aggiungendo output strutturati, guardrail sugli strumenti e approvazioni umane per flussi rischiosi.
- Gli sconti API di CometAPI possono aiutare se i requisiti di costo o latenza spingono verso quella scelta.
Gli sviluppatori possono accedere a GPT-5.4, GPT-5.4-pro, via API su CometAPI ora. Per iniziare, esplora le capacità del modello nel Playground e consulta la API guide per istruzioni dettagliate. Prima di accedere, assicurati di aver effettuato l’accesso a CometAPI e di aver ottenuto la chiave API. CometAPI offre un prezzo molto inferiore a quello ufficiale per aiutarti nell’integrazione.
Pronto a iniziare?→ Iscriviti a GPT-5.4 oggi !
Se vuoi conoscere altri consigli, guide e novità sull’AI seguici su VK, X e Discord!
