Che cos'è l'API GPT-Image-1.5?
GPT-Image-1.5 è il più recente membro della famiglia GPT Image di OpenAI ed è il modello alla base della rinnovata esperienza Images di ChatGPT. È progettato per portare la generazione di immagini dagli esperimenti di novità a strumenti creativi di livello produttivo: maggiore fotorealismo, controllo più fine per modifiche iterative e inferenza più veloce per supportare flussi di lavoro interattivi e aziendali.
L'API gpt-image-1.5 è un endpoint di modello di immagini multimodale che accetta uno o più input immagine (identificatori di file o byte) insieme a un prompt testuale e restituisce immagini generate o modificate. Supporta:
- Generazione testo‑in‑immagine (creazione da prompt),
- Modifica delle immagini / in‑painting / compositing (applicare istruzioni a immagini esistenti, sono consentiti input immagine multipli), e
- Flussi di modifica iterativi multi‑turno tramite la Responses API (abilita interfacce “tweak & iterate”).
L'API tratta i prompt immagine in modo diverso rispetto ai vecchi limiti di DALL·E: i modelli di immagini GPT accettano prompt testuali significativamente più lunghi (la linea guida di 32k caratteri), rendendo possibili istruzioni complesse e ricche di vincoli.
Caratteristiche principali (pratiche)
- Migliore modificabilità / coerenza multi‑turno: preserva l'aspetto dei soggetti, l'illuminazione e gli attributi visivi chiave tra modifiche iterative. Ciò rende lo scenario “stesso modello, modifiche ripetute” più affidabile per flussi come cataloghi di prodotti o asset di brand.
- Maggiore throughput — miglioramenti di velocità pari a 4× rispetto a GPT Image 1, con l'obiettivo di ridurre la latenza nei flussi creativi iterativi.
- Ottimizzazioni dei costi — costi di input/output immagine ridotti di circa 20% rispetto a GPT Image 1, riducendo il costo per iterazione per immagine per gli utenti ad alto volume.
- Compositing multi‑immagine e riferimento di stile — accetta più immagini di riferimento per comporre scene o trasferire stile/illuminazione.
- Regolatori di qualità/fedeltà — parametri API che bilanciano velocità e fedeltà (usa qualità più bassa per generazioni bulk; qualità più alta per asset di produzione).
- Modifica multi‑turno / integrazione con la Responses API — abilita flussi step‑by‑step (chiedi modifiche, poi “apporta ritocchi” preservando lo stato).
Capacità tecniche
- Limite del prompt testuale (modelli di immagine): fino a 32,000 caratteri (nota: OpenAI documenta questo come la lunghezza di testo consentita per i modelli di immagini GPT). Usalo per prompt lunghi e ricchi di vincoli.
- Input immagine: accetta File IDs (preferiti per flussi multi‑turno) o byte grezzi; è possibile fornire più immagini per compositing e riferimento.
- Output: PNG/JPEG o artefatti immagine predefiniti della piattaforma restituiti dall'API (o come allegati all'interno di ChatGPT). Gli output possono includere più immagini candidate e supportare richieste iterative per affinare un risultato.
- Modalità di generazione: testo‑in‑immagine, modifica immagine (inpaint/estensione con istruzioni) e varianti. La modifica multi‑turno supporta istruzioni in stile “add/subtract/combine”.
- Modifica sensibile alle istruzioni: i modelli sono ottimizzati per la fedeltà alle istruzioni (preservando invarianti specificati come “non cambiare il logo”, “mantieni posa e illuminazione”). Pattern di prompt engineering (invarianti espliciti ripetuti a ogni iterazione) riducono la deriva semantica.
Prestazioni nei benchmark
- Posizionamento in classifica: Un report aggregato ha citato GPT Image 1.5 in testa alle classifiche text‑to‑image con ~1264 punti su una leaderboard di Artificial Analysis, davanti al modello successivo con un margine misurabile.
- Metriche a livello di task (modifica e preservazione): un riepilogo Microsoft Foundry delle metriche di valutazione mostra GPT‑Image‑1.5 ottenere un successo quasi perfetto nelle modifiche binarie (100% su un BinaryEval a singolo turno) e punteggi elevati di preservazione del volto (circa 90% sulle misure AuraFace) nella loro tabella di confronto rispetto ai concorrenti e ai precedenti modelli OpenAI. Tali metriche comparative collocano GPT‑Image‑1.5 davanti ad alcuni rivali per preservazione e fedeltà delle modifiche.

Come si confronta GPT-Image-1.5 con i pari
- Rispetto a GPT Image 1 (precedente generazione di OpenAI): più veloce (fino a 4×), più economico (~20% di costo IO immagine in meno) e con maggiore fedeltà nelle modifiche — mirato al passaggio da “prototype/demo” a flussi di lavoro di immagini “production‑friendly”.
- Rispetto ai modelli di immagine Nano Banana Pro / Gemini di Google: GPT‑Image‑1.5 e la famiglia Nano Banana Pro / Gemini 3 di Google sono rivali vicini — ciascuno ha punti di forza in diverse classi di prompt. La comunicazione di OpenAI enfatizza la fedeltà nelle modifiche e la velocità di iterazione; l'offerta di Google è stata lodata per un realismo di livello studio in alcuni esempi.
- Rispetto a Qwen Image e ad altri modelli open/closed: GPT‑Image‑1.5 supera Qwen Image su diverse metriche di modifica e preservazione nelle valutazioni a singolo turno, ma le differenze si riducono in scenari multi‑turno o in altri test specifici di dominio.
Dove GPT-Image-1.5 è forte
- Imaging di prodotto per e‑commerce: varianti in bulk, sostituzioni di sfondo, cataloghi prodotto coerenti da una singola foto (preservazione di brand/logo).
- Produzione di asset creativi e marketing: iterazioni rapide di concept, mockup fotorealistici, trasferimenti di stile controllati.
- Ritocco fotografico e flussi editoriali: prove realistiche di abbigliamento/acconciature, ritocchi selettivi che preservano identità e illuminazione.
- Integrazione con strumenti di design: collegamento a piattaforme di design o CMS per varianti di immagine on‑demand (i regolatori di fedeltà aiutano a controllare i costi).
- Pipeline di compositing multi‑step: input multi‑immagine consentono compositing e generazione basata su riferimenti per scene complesse.
Come accedere all'API GPT Image 1.5
Passaggio 1: registrati per ottenere la Chiave API
Accedi a cometapi.com. Se non sei ancora nostro utente, registrati prima. Accedi alla tua console CometAPI. Ottieni la chiave API di credenziali di accesso dell'interfaccia. Fai clic su “Add Token” nella sezione del token API nel centro personale, ottieni la chiave del token: sk-xxxxx e invia.
Step 2: Send Requests to GPT Image 1.5 API
Seleziona l'endpoint “gpt-image-1.5” per inviare la richiesta API e imposta il body della richiesta. Il metodo e il body della richiesta sono disponibili nella documentazione API sul nostro sito web. Il nostro sito fornisce anche test Apifox per comodità. Sostituisci <YOUR_API_KEY> con la tua chiave CometAPI effettiva del tuo account. L'URL di base è Images (https://api.cometapi.com/v1/images/generations) e [Image Editing]
Inserisci la tua domanda o richiesta nel campo content — è ciò a cui il modello risponderà. Elabora la risposta dell'API per ottenere la risposta generata.
Passaggio 3: recupera e verifica i risultati
Elabora la risposta dell'API per ottenere il risultato generato. Dopo l'elaborazione, l'API risponde con lo stato del task e i dati di output.
Vedi anche Gemini 3 Pro Preview API