Come utilizzare l'API GPT-5.4: guida ai parametri e all'utilizzo degli strumenti

Dal 5 al 7 marzo 2026, OpenAI ha reso pubblico il rilascio di GPT-5.4, un modello d'avanguardia esplicitamente ottimizzato per flussi di lavoro professionali, ricchi di documenti e agentici. Il rilascio mette in evidenza tre progressi convergenti: (1) finestre di contesto sensibilmente più ampie (≈1.050.000 token), (2) una nuova funzionalità di “reasoning” che consente agli sviluppatori di controllare lo sforzo di ragionamento interno, e (3) funzionalità di primo livello per computer-use / orchestrazione di strumenti e una comprensione multimodale migliorata (testo + immagini + screenshot). Queste funzionalità rendono GPT-5.4 particolarmente adatto a compiti come modellazione di fogli di calcolo, revisione di contratti, creazione di slide, flussi agentici multi-step e scrittura di codice che opera su sistemi live.

Puoi provare GPT-5.4 in CometAPI, una variante con più compute — GPT-5.4 Pro — è disponibile per i carichi di lavoro di ragionamento più difficili e multi-turn.

Che cos'è GPT-5.4 (incluse le varianti Thinking e Pro)

La famiglia di modelli, in breve

GPT-5.4 è posizionato come il modello GPT-5 “frontier” per il lavoro professionale complesso: documenti long-form, codice, ragionamento multi-step e flussi di lavoro agentici. Il rilascio unifica capacità in precedenza divise tra Codex (coding) e la linea GPT — ottenendo così un unico modello che può programmare, ragionare, usare strumenti e gestire contesti lunghi. La guida ufficiale ai modelli elenca gpt-5.4 come predefinito per la maggior parte dei lavori e gpt-5.4-pro per i problemi più difficili.

Specifiche chiave (ufficiali):

Context window: ~1.050.000 token (≈ 700–800k parole in inglese), consentendo input molto grandi come bozze di libri interi, codebase multi-file o lunghi documenti legali.
Max output tokens: i report indicano output molto grandi supportati (ad es. fino a 128.000 token in alcune configurazioni Pro).
Variants: gpt-5.4 (predefinito), gpt-5.4-pro (più compute, ragionamento più lungo) e modelli più leggeri/mini per un uso sensibile ai costi.

“Thinking” e “Pro” spiegati

GPT-5.4 Thinking: una modalità ottimizzata per il ragionamento interattivo. Enfatizza flussi di lavoro “plan-first” — il modello può presentare un piano preliminare (un “upfront plan”) prima di generare i risultati completi, consentendo correzioni in corso d’opera e riducendo lo spreco di token su direzioni errate. Questa modalità migliora la visibilità sui passaggi previsti dal modello e rende i compiti lunghi più sicuri e controllabili.
GPT-5.4 Pro: il gemello ad alto compute per i problemi più difficili — catene di pensiero più profonde, budget di compute interno maggiori e risultati più deterministici/stabili su benchmark complessi. È esposto nella Responses API ed è pensato per compiti multi-turn a ragionamento pesante (aspettati maggiore latenza e costi).

Miglioramenti chiave e nuove funzionalità in GPT-5.4

Finestre di contesto massicce (≈1.050.000 token)

Questo è uno dei miglioramenti di punta: un modello che può consumare e ragionare su interi libri, codebase multi-file o set di documenti enterprise senza doverli suddividere in stream. Praticamente, ciò semplifica compiti come revisione end-to-end di contratti, sintesi di documenti completi e Q&A su più documenti. Casi d’uso: due diligence legale, audit tecnici e log degli agenti.

Nota pratica: la finestra di contesto più grande cambia il design dei sistemi — invece di segmentare aggressivamente, ora puoi mantenere più stato “globale” nel contesto, ma è comunque consigliabile usare compattazione (vedi Parameter Control) per mantenere i costi ragionevoli.

Uso nativo del computer e integrazioni di strumenti

GPT-5.4 è il primo modello general-purpose con capabilità native di computer-use: generazione di sequenze di azioni del browser o dell’OS (script Playwright, eventi tastiera/mouse), lettura di screenshot, interazione con interfacce web e orchestrazione di workflow multi-strumento. Questo è un passo importante verso la costruzione di agenti autonomi che eseguono attività reali end-to-end.

GPT-5.4 include computer use integrato: il modello può interagire con agenti software locali/remoti, chiamare connettori, manipolare fogli di calcolo, fare screenshot e automatizzare workflow multi-step quando autorizzato. Ciò riduce il “glue code”: invece di creare wrapper d’istruzioni fragili, il modello può operare in un ciclo build-run-verify-fix (comportamento agentico) usando API di strumenti documentate. È un grande passo verso agenti autonomi sicuri e pratici.

Modalità di ragionamento e `reasoning.effort`

Un parametro reasoning.effort regolabile ti consente di controllare quanto compute interno il modello investe nella chain-of-thought e nella ricerca di soluzioni (opzioni: none, low, medium, high, xhigh). Uno sforzo maggiore produce risposte migliori per problemi complessi ma costa di più e aumenta la latenza — ideale per gpt-5.4-pro.

Pianificazione anticipata / piani interattivi

Gli “upfront plans” consentono al modello di fornire un breve piano prima di eseguire una generazione lunga. Il piano può essere ispezionato e modificato da sviluppatori o utenti, minimizzando output sprecati e abilitando correzioni di rotta a metà attività (ottimo per creazione di documenti lunghi o analisi multi-step).

Migliori capacità multimodali/documentali

I benchmark e le valutazioni interne rilasciate con il modello mostrano grandi miglioramenti sui compiti di fogli di calcolo (esempio di valutazione interna spreadsheet: media GPT-5.4 87,3% vs GPT-5.2 68,4%) e preferenza umana per gli output delle presentazioni (presentazioni da GPT-5.4 preferite al 68% rispetto a GPT-5.2 in test con utenti). L’azienda riporta anche riduzioni negli errori fattuali (tasso di falsità per singola affermazione in calo di ~33%, tasso di errore della risposta completa in calo di ~18% rispetto a GPT-5.2).

Come usare la GPT-5.4 API (Responses API / Chat API )

GPT-5.4 pro supporta solo l’accesso tramite Responses. GPT-5.4 (thinking) supporta chat e responses. CometAPI (una piattaforma di aggregazione one-stop per API di modelli di grandi dimensioni con sconti) offre la Serie GPT-5.4, due metodi di accesso e playground compatibili e utili).

Nota: la Responses API è l’integrazione consigliata per i modelli GPT-5.x perché supporta direttamente i parametri di reasoning, la registrazione degli strumenti e le dimensioni di contesto maggiori.

Python — Responses API (esemplificativo)

# pip install openai (or use the official package named in docs)
from openai import OpenAI
import os

api_key = os.environ.get("OPENAI_API_KEY")  # or set env var
client = OpenAI(api_key=api_key)

resp = client.responses.create(
     model="gpt-5.4-pro-2026-03-05",
    input="How much gold would it take to coat the Statue of Liberty in a 1mm layer?",
    reasoning={"effort": "high"},          # hidden internal reasoning tokens used
    max_output_tokens=4096,               # keep below max output limit for your use case
    temperature=0.0,                      # deterministic for legal/technical tasks
    tools=[                                # optionally register tools the model can call
        {
            "name": "file_search",
            "type": "file_search",
            "config": {"root": "/mnt/data/contracts"}
        }
    ],
    response_format={"type":"json", "json_schema":{
        "name":"redlines",
        "schema":{"type":"object","properties":{"summary":{"type":"string"},"redlines":{"type":"array","items":{"type":"object"}}}}
    }}
)

print(resp.output_text)  # final model answer

Note: reasoning è un oggetto che controlla lo sforzo interno; tools registra le interfacce di strumenti disponibili che il modello può chiamare; response_format impone output strutturati. Le etichette disponibili per reasoning.effort vanno da none (più veloce) fino a xhigh (massimo sforzo interno) a seconda del supporto di SDK e provider. Usa sforzo basso per sintesi semplici; aumentalo per compiti complessi e multi-step.

Curl — Chat API (esemplificativo)

curl --location --request POST 'https://api.cometapi.com/v1/chat/completions' \
--header 'Authorization: Bearer ' \
--header 'Content-Type: application/json' \
--data-raw '{
  "model": "gpt-5.2\4",
  "messages": [
    {
      "role": "system",
      "content": "You are a helpful assistant."
    },
    {
      "role": "user",
      "content": "Hello!"
    }
  ]
}'

Utilizzo degli strumenti con GPT-5.4 (Computer Use, connettori e agenti)

Il salto più pratico di GPT-5.4 è il suo comportamento agentico e consapevole degli strumenti: può scoprire e chiamare lo strumento giusto, operare su fogli di calcolo e interfacce quando autorizzato, e ragionare sulle azioni che intraprenderà.

GPT-5.4 è progettato per lavorare con strumenti. Ci sono tre grandi classi di strumenti da considerare:

Hosted tools (ad es., web_search, file_search) — il modello può chiamarli come parte del ciclo di risposta. Ideale per recuperare informazioni aggiornate o ricerche su DB vettoriali.
Custom tools / function calling — i tuoi endpoint server o schemi di funzioni. Dichiara funzioni (schemi) in modo che il modello restituisca output strutturati che il tuo codice esegue.
Computer use — il modello emette azioni GUI e si aspetta un harness che le esegua (clic, digitazione, screenshot). È potente ma ad alto rischio.

Quando hai decine/centinaia di strumenti, passa tool_search e lascia che il modello scopra gli schemi degli strumenti pertinenti a runtime. Questo riduce l’uso di token e migliora prestazioni in cache tra i deployment.

Come funziona l’integrazione degli strumenti (concettuale)

Scoperta degli strumenti: il modello trova connettori disponibili (ad es., Google Sheets, Salesforce, DB interni) basandosi su un catalogo.
Piano & permesso: il modello produce un piano preliminare che descrive quali strumenti chiamerà e perché; questo viene revisionato e approvato.
Chiamata & verifica: il modello chiama gli strumenti (tramite connettori o API di azioni), legge i risultati ed esegue controlli di verifica (o chiede conferma umana).
Loop di fix: in caso di errori, il modello tenta riparazioni o chiede indicazioni.

Questo pattern riduce orchestrazioni custom fragili e centralizza la logica nel modello, ma richiede controlli di accesso rigorosi e log di audit.

Chiamata con tools (web_search / file_search / computer use)

La Responses API supporta il passaggio di un array tools. Il modello può scegliere strumenti (strumenti hosted come web_search, file_search), oppure puoi pre-dichiarare e limitare gli strumenti. Esempio: chiedi al modello di usare web search.

response = client.responses.create(    model="gpt-5.4",    input="What are the three most-cited 2025 papers on federated learning?",    tools=[{"type": "web_search", "name": "web_search"}],    tool_search={"enabled": True})

Se passi molte definizioni di strumenti, tool_search consente a GPT-5.4 di rinviare il caricamento della maggior parte degli strumenti e caricare solo quelli rilevanti — cruciale per ecosistemi con molti strumenti.

Guida alla compatibilità e al controllo dei parametri di GPT-5.4

I parametri LLM tradizionali esistono ancora ma sono limitati a seconda della modalità di reasoning.

Parametri core della GPT-5.4 API

reasoning.effort: I seguenti parametri sono pienamente supportati e raccomandati quando si chiama GPT-5.4. Controlla quanto ragionamento interno il modello esegue prima di generare l’output finale.

Valori supportati:

nonelowmediumhighxhigh

Esempio:

response = client.responses.create(    model="gpt-5.4",    reasoning={"effort": "high"},    input="Explain the Nash equilibrium in game theory.")

Effetti:

Valore	Comportamento
none	Risposta più veloce
low	Ragionamento leggero
medium	Equilibrio predefinito
high	Ragionamento forte
xhigh	Massima profondità

Uno sforzo di reasoning più alto generalmente aumenta:

accuratezza della risposta
token di ragionamento
latenza
costo

Il livello predefinito è tipicamente medium.

Strumenti

Definisce gli strumenti che il modello può chiamare. tools + tool_search

tool_search rinvia il caricamento delle definizioni degli strumenti per efficienza; abilitalo per set di strumenti ampi.
tools dichiara le definizioni degli strumenti (web_search, file_search, RPC personalizzati).

Gli strumenti built-in supportati includono:

web search
file search
code interpreter
image generation

Esempio:

tools=[{
   "name":"get_weather",
   "description":"Get current weather",
   "parameters":{
      "type":"object",
      "properties":{
         "city":{"type":"string"}
      }
   }
}

Parametri di campionamento (controllo della casualità)

Regola di compatibilità importante: quando reasoning.effort ≠ none, alcuni parametri di campionamento potrebbero non essere supportati. Se reasoning.effort è high, la richiesta può fallire o ignorare temperature.

I modelli GPT-5.4 disabilitano parametri come:

temperature
top_p
logprobs

perché i modelli di reasoning controllano internamente il campionamento.

temperature Controlla la casualità nel campionamento dei token.

Valore	Effetto
0.0	deterministico
0.2–0.4	stabile
0.7	bilanciato
1.0	altamente creativo

Esempio:

{ "model": "gpt-5.4", "temperature": 0.2, "reasoning": { "effort": "none" }}

Se reasoning.effort è high, la richiesta può fallire o ignorare temperature.

top_p: parametro di nucleus sampling.

Valore	Significato
0.9	considera il top 90% di probabilità
0.5	generazione conservativa
1.0	distribuzione completa

3. stop: Interrompe la generazione quando incontra token specifici.

Utile per:

generazione di codice
pipeline di strumenti
delimitatori di chat

Verbosity: controlla la lunghezza della risposta.

Diversi nuovi parametri sono apparsi a partire dai modelli GPT-5, incluso GPT-5.4.

Valori:

lowmediumhigh

Esempio:

verbosity="high"

Casi d’uso:

Valore	Comportamento
low	risposte concise
medium	bilanciato
high	spiegazioni lunghe

Questo parametro aiuta a controllare la lunghezza dell’output senza manipolare i limiti di token.

Differenze di parametro di GPT-5.4

Di seguito una tabella di compatibilità semplificata.

Parametro	reasoning:none	reasoning:low+
temperature	✓	✗ / ignorato
top_p	✓	✗
logprobs	✓	✗
max_output_tokens	✓	✓
tools	✓	✓
tool_choice	✓	✓
verbosity	✓	✓
reasoning.effort	✓	✓

Confronto tra parametri e capacità di GPT-5.4 e GPT-5.4-Pro

Funzionalità	GPT-5.4	GPT-5.4-Pro
Flessibilità di reasoning	Intero range da none → xhigh	Solo medium → xhigh
Latenza	Inferiore	Superiore (compiti complessi possono richiedere minuti)
Costo	Inferiore	Superiore per compute addizionale
Esecuzione in background	Opzionale	Raccomandata per compiti lunghi
Livelli di Reasoning supportati	none, low, medium, high, xhigh	medium, high, xhigh

Best practice per adottare GPT-5.4 in produzione

1) Inizia in piccolo, poi aumenta il ragionamento

Inizia con reasoning.effort=none/low + text.verbosity=low per endpoint sensibili alla latenza.
Per flussi complessi, passa a medium poi high solo dopo A/B test su costo vs accuratezza.

2) Preferisci output strutturati per compiti programmabili

Usa function schemas o schemi Pydantic/JSON affinché il modello restituisca output leggibili dalla macchina; riduce errori di parsing a valle.

3) Mantieni l’intervento umano nei processi ad alto impatto

Qualsiasi workflow che implica denaro, esiti legali o dati personali dovrebbe richiedere approvazione umana prima di effetti esterni.

4) Limita le capacità esposte

Usa liste allowed_tools (default deny) e permessi granulari sugli strumenti. Per il computer use, imposta una whitelist rigorosa di azioni.

5) Budgeting di costi e token

Usa max_output_tokens e text.verbosity per costi prevedibili. Per contesti molto grandi, pagina o comprimi dove opportuno — anche con 1M di token, strategie di compattazione/selezione aiutano a ridurre i costi.

Note finali — migrazione e prossimi passi

GPT-5.4 rappresenta un passo significativo verso la costruzione di sistemi AI che possono pensare di più, lavorare attraverso software e gestire contesti molto grandi. Per la maggior parte dei team, il percorso di migrazione consigliato è:

Prototipa su un sottoinsieme ridotto di workflow (ad es., revisione di contratti, generazione di slide) usando l’alias gpt-5.4 in sandbox.
Misura accuratezza del compito, uso di token, latenza e costi rispetto ai modelli precedenti.
Indurisci aggiungendo output strutturati, guardrail sugli strumenti e approvazioni umane per flussi rischiosi.
Gli sconti API di CometAPI possono aiutare se i requisiti di costo o latenza spingono verso quella scelta.

Gli sviluppatori possono accedere a GPT-5.4, GPT-5.4-pro, via API su CometAPI ora. Per iniziare, esplora le capacità del modello nel Playground e consulta la API guide per istruzioni dettagliate. Prima di accedere, assicurati di aver effettuato l’accesso a CometAPI e di aver ottenuto la chiave API. CometAPI offre un prezzo molto inferiore a quello ufficiale per aiutarti nell’integrazione.

Pronto a iniziare?→ Iscriviti a GPT-5.4 oggi !

Se vuoi conoscere altri consigli, guide e novità sull’AI seguici su VK, X e Discord!

Che cos'è GPT-5.4 (incluse le varianti Thinking e Pro)

La famiglia di modelli, in breve

“Thinking” e “Pro” spiegati

Miglioramenti chiave e nuove funzionalità in GPT-5.4

Finestre di contesto massicce (≈1.050.000 token)

Uso nativo del computer e integrazioni di strumenti

Modalità di ragionamento e `reasoning.effort`

Pianificazione anticipata / piani interattivi

Migliori capacità multimodali/documentali

Come usare la GPT-5.4 API (Responses API / Chat API )

Python — Responses API (esemplificativo)

Curl — Chat API (esemplificativo)

Utilizzo degli strumenti con GPT-5.4 (Computer Use, connettori e agenti)

Come funziona l’integrazione degli strumenti (concettuale)

Chiamata con tools (web_search / file_search / computer use)

Guida alla compatibilità e al controllo dei parametri di GPT-5.4

Parametri core della GPT-5.4 API

Strumenti

Parametri di campionamento (controllo della casualità)

Verbosity: controlla la lunghezza della risposta.

Differenze di parametro di GPT-5.4

Confronto tra parametri e capacità di GPT-5.4 e GPT-5.4-Pro

Best practice per adottare GPT-5.4 in produzione

1) Inizia in piccolo, poi aumenta il ragionamento

2) Preferisci output strutturati per compiti programmabili

3) Mantieni l’intervento umano nei processi ad alto impatto

4) Limita le capacità esposte

5) Budgeting di costi e token

Note finali — migrazione e prossimi passi

Accesso ai Migliori Modelli a Basso Costo

Leggi di più

Come utilizzare l'API GPT-5.4: guida ai parametri e all'utilizzo degli strumenti

Che cos'è GPT-5.4 (incluse le varianti Thinking e Pro)

La famiglia di modelli, in breve

“Thinking” e “Pro” spiegati

Miglioramenti chiave e nuove funzionalità in GPT-5.4

Finestre di contesto massicce (≈1.050.000 token)

Uso nativo del computer e integrazioni di strumenti

Modalità di ragionamento e reasoning.effort

Pianificazione anticipata / piani interattivi

Migliori capacità multimodali/documentali

Come usare la GPT-5.4 API (Responses API / Chat API )

Python — Responses API (esemplificativo)

Curl — Chat API (esemplificativo)

Utilizzo degli strumenti con GPT-5.4 (Computer Use, connettori e agenti)

Come funziona l’integrazione degli strumenti (concettuale)

Chiamata con tools (web_search / file_search / computer use)

Guida alla compatibilità e al controllo dei parametri di GPT-5.4

Parametri core della GPT-5.4 API

Strumenti

Parametri di campionamento (controllo della casualità)

Verbosity: controlla la lunghezza della risposta.

Differenze di parametro di GPT-5.4

Confronto tra parametri e capacità di GPT-5.4 e GPT-5.4-Pro

Best practice per adottare GPT-5.4 in produzione

1) Inizia in piccolo, poi aumenta il ragionamento

2) Preferisci output strutturati per compiti programmabili

3) Mantieni l’intervento umano nei processi ad alto impatto

4) Limita le capacità esposte

5) Budgeting di costi e token

Note finali — migrazione e prossimi passi

Accesso ai Migliori Modelli a Basso Costo

Leggi di più

Modalità di ragionamento e `reasoning.effort`