Che cos'è l'API GPT-Image-1.5?
GPT-Image-1.5 è il più recente membro della famiglia GPT Image di OpenAI e il modello alla base della rinnovata esperienza Images di ChatGPT. È progettato per far evolvere la generazione di immagini da esperimenti di novità a strumenti creativi di livello produttivo: maggiore fotorealismo, controllo più fine per modifiche iterative e inferenza più rapida per supportare flussi di lavoro interattivi e aziendali.
L’API gpt-image-1.5 è un endpoint di modello di immagini multimodale che accetta uno o più input di immagine (identificatori di file o byte) più un prompt testuale e restituisce immagini generate o immagini modificate. Supporta:
- Generazione da testo a immagine (creazione a partire dal prompt),
- Editing di immagini / in-painting / compositing (applica istruzioni a immagini esistenti, sono consentiti più input di immagine), e
- Flussi di modifica iterativi e multi-turn tramite la Responses API (abilita interfacce “affina & ripeti”).
L’API tratta i prompt di immagine in modo diverso rispetto ai vecchi limiti di DALL·E: i modelli di immagini GPT accettano prompt testuali significativamente più lunghi (la linea guida è di 32k caratteri), rendendo possibili istruzioni complesse e con molti vincoli.
Caratteristiche principali (pratiche)
- Modificabilità migliorata / coerenza multi-turn: preserva l’aspetto dei personaggi, l’illuminazione e gli attributi visivi chiave attraverso modifiche iterative. Questo rende più affidabile “stesso modello, modifiche ripetute” per flussi come cataloghi prodotto o asset di brand.
- Maggiore throughput — miglioramenti di velocità 4× rispetto a GPT Image 1, mirati a ridurre la latenza per flussi creativi iterativi.
- Ottimizzazioni dei costi — costi di input/output immagine ridotti di circa 20% rispetto a GPT Image 1, abbassando i costi per iterazione per gli utenti ad alto volume.
- Compositing multi-immagine e riferimento di stile — accetta più immagini di riferimento per comporre scene o trasferire stile/illuminazione.
- Controlli di qualità/fedeltà — parametri API che bilanciano velocità e fedeltà (usa qualità inferiore per generazione in massa; qualità superiore per asset di produzione).
- Modifica multi-turn / integrazione con la Responses API — abilita flussi a passi (chiedi modifiche, poi “apporta ritocchi” preservando lo stato).
Capacità tecniche
- Limite del prompt testuale (modelli di immagini): fino a 32,000 caratteri (nota: OpenAI documenta questo come la lunghezza testuale consentita per i modelli di immagini GPT). Usalo per prompt lunghi e ricchi di vincoli.
- Input di immagine: accetta ID di file (preferiti per flussi multi-turn) o byte grezzi; è possibile fornire più immagini per compositing e riferimento.
- Output: PNG/JPEG o artefatti immagine predefiniti della piattaforma restituiti dall’API (o come allegati all’interno di ChatGPT). Gli output possono includere più immagini candidate e supportano richieste iterative per affinare un risultato.
- Modalità di generazione: testo‑a‑immagine, editing di immagine (inpaint/estendi con istruzioni) e varianti. L’editing multi-turn supporta istruzioni in stile “aggiungi/sottrai/combina”.
- Editing consapevole delle istruzioni: i modelli sono ottimizzati per l’aderenza alle istruzioni (preservando invarianti specificate come “non cambiare il logo”, “mantieni posa e illuminazione”). Pattern di prompt engineering (ripetere esplicitamente le invarianti a ogni iterazione) riducono la deriva semantica.
Prestazioni nei benchmark
- Posizionamento in classifica: un rapporto aggregato cita GPT Image 1.5 in testa alle classifiche text-to-image con ~1264 punti su una leaderboard di Artificial Analysis, davanti al modello successivo con un margine misurabile.
- Metriche a livello di task (modifica e preservazione): un riepilogo di metriche di valutazione di Microsoft Foundry mostra GPT-Image-1.5 con successo di modifica binaria quasi perfetto (100% su un BinaryEval a turno singolo) e forti punteggi di preservazione del volto (circa 90% sulle misure AuraFace) nella loro tabella di confronto rispetto a concorrenti e precedenti modelli OpenAI. Tali metriche comparative collocano GPT-Image-1.5 davanti ad alcuni rivali su preservazione e fedeltà di editing.

Confronto di GPT-Image-1.5 con i pari
- Vs. GPT Image 1 (generazione OpenAI precedente): più veloce (fino a 4×), più economico (~20% di costo IO immagine in meno) e con migliore fedeltà di editing — mirato a passare da “prototipo/demo” a flussi di lavoro di immagini “pronti per la produzione”.
- Vs. Nano Banana Pro / modelli di immagini Gemini di Google: GPT-Image-1.5 e la famiglia Nano Banana Pro / Gemini 3 di Google sono rivali vicini — ciascuno ha punti di forza in diverse classi di prompt. La comunicazione di OpenAI enfatizza la fedeltà di editing e la velocità di iterazione; l’offerta di Google è stata elogiata per il realismo a livello studio in alcuni esempi.
- Vs. Qwen Image e altri modelli open/closed: GPT-Image-1.5 supera Qwen Image su diverse metriche di modifica e preservazione in valutazioni a turno singolo, ma le differenze si riducono in contesti multi-turn o in altri test specifici di dominio.
Dove GPT-Image-1.5 è forte
- Imaging di prodotto per e-commerce: varianti in massa, sostituzioni di sfondo, cataloghi prodotto coerenti da una singola foto (preservazione di brand/logo).
- Produzione di asset creativi e di marketing: rapide iterazioni di concept, mockup fotorealistici, trasferimenti di stile controllati.
- Ritocco foto e flussi editoriali: prove realistiche di abbigliamento/acconciature, ritocchi selettivi che preservano identità e illuminazione.
- Integrazione con strumenti di design: integrazione con piattaforme di design o CMS per varianti di immagine on‑demand (i controlli di fedeltà aiutano a gestire i costi).
- Pipeline di compositing multi-step: gli input multi‑immagine consentono compositing e generazione basata su riferimenti per scene complesse.
Come accedere all’API GPT Image 1.5
Passaggio 1: registrati per la chiave API
Accedi a cometapi.com. Se non sei ancora nostro utente, registrati prima. Accedi alla tua console CometAPI. Ottieni la credenziale di accesso della chiave API dell’interfaccia. Clicca “Add Token” nel token API nel centro personale, ottieni la chiave token: sk-xxxxx e invia.
Passaggio 2: invia richieste all’API GPT Image 1.5
Seleziona l’endpoint “gpt-image-1.5” per inviare la richiesta API e imposta il corpo della richiesta. Il metodo e il corpo della richiesta sono disponibili nella documentazione API del nostro sito. Il nostro sito fornisce anche test Apifox per tua comodità. Sostituisci <YOUR_API_KEY> con la tua chiave CometAPI effettiva dal tuo account. La base url è Images (https://api.cometapi.com/v1/images/generations) e [Image Editing]
Inserisci la tua domanda o richiesta nel campo content — è a questo che il modello risponderà. Elabora la risposta dell’API per ottenere la risposta generata.
Passaggio 3: recupera e verifica i risultati
Elabora la risposta dell’API per ottenere la risposta generata. Dopo l’elaborazione, l’API risponde con lo stato dell’attività e i dati di output.
Vedi anche Gemini 3 Pro Preview API