Home/Models/OpenAI/GPT Image 1.5
O

GPT Image 1.5

Entrée:$6.4/M
Sortie:$25.6/M
GPT-Image-1.5 est le modèle d’image d’OpenAI au sein de la famille GPT Image. Il s’agit d’un modèle GPT nativement multimodal, conçu pour générer des images à partir de prompts textuels et pour effectuer des retouches à haute fidélité sur des images en entrée, tout en respectant fidèlement les instructions de l’utilisateur.
Nouveau
Usage commercial
Playground
Aperçu
Fonctionnalités
Tarification
API
Versions

Qu’est-ce que l’API GPT-Image-1.5 ?

GPT-Image-1.5 est le tout dernier membre de la famille d’images GPT d’OpenAI et le modèle derrière la nouvelle expérience Images de ChatGPT. Il est conçu pour faire passer la génération d’images de la phase d’expérimentation à un outillage créatif de niveau production : photoréalisme accru, contrôle plus fin pour les modifications itératives et inférence plus rapide pour prendre en charge des workflows interactifs et d’entreprise.

L’API gpt-image-1.5 est un endpoint de modèle d’image multimodal qui accepte une ou plusieurs images en entrée (identifiants de fichiers ou octets) plus un prompt texte, et renvoie des images générées ou des images éditées. Elle prend en charge :

  • Génération texte-vers-image (création à partir d’un prompt),
  • Édition d’image / in-painting / composition (appliquer des instructions à des images existantes, plusieurs images d’entrée possibles), et
  • Workflows d’édition itératifs et multitours via l’API Responses (permet des interfaces “ajuster et itérer”).

L’API traite les prompts image différemment des anciennes limites de DALL·E : les modèles d’images GPT acceptent des prompts textuels nettement plus longs (recommandation de 32,000 caractères), rendant possibles des instructions complexes et riches en contraintes.

Fonctionnalités principales (pratiques)

  • Meilleure éditabilité / cohérence sur plusieurs tours : préserve l’apparence des personnages, l’éclairage et les attributs visuels clés au fil des modifications itératives. Cela rend « même modèle, éditions répétées » plus fiable pour des workflows comme les catalogues produits ou les assets de marque.
  • Débit plus rapide — améliorations de vitesse ×4 par rapport à GPT Image 1, visant à réduire la latence pour les workflows créatifs itératifs.
  • Optimisations de coût — coûts d’entrée/sortie d’image réduits d’environ 20 % par rapport à GPT Image 1, abaissant le coût par itération d’image pour les utilisateurs à fort volume.
  • Composition multi-image et référence de style — accepte plusieurs images de référence pour composer des scènes ou transférer style/éclairage.
  • Réglages de qualité/fidélité — paramètres d’API permettant d’équilibrer vitesse et fidélité (utiliser une qualité plus faible pour la génération en masse ; plus élevée pour les assets de production).
  • Édition multitours / intégration à l’API Responses — permet des workflows pas à pas (demander des changements, puis « affiner » en préservant l’état).

Capacités techniques

  • Limite du prompt texte (modèles image) : jusqu’à 32,000 caractères (note : OpenAI le documente comme la longueur de texte autorisée pour les modèles d’images GPT). À utiliser pour des prompts longs et riches en contraintes.
  • Entrées image : accepte des ID de fichiers (privilégiés pour les flux multitours) ou des octets bruts ; plusieurs images peuvent être fournies pour la composition et la référence.
  • Sorties : artefacts image PNG/JPEG ou défaut de la plateforme renvoyés par l’API (ou en pièces jointes dans ChatGPT). Les sorties peuvent inclure plusieurs images candidates et prendre en charge des requêtes itératives pour affiner un résultat.
  • Modes de génération : texte-vers-image, édition d’image (inpaint/extension avec instructions) et variantes. L’édition multitours prend en charge des instructions de type « ajouter/soustraire/combiner ».
  • Édition sensible aux instructions : les modèles sont optimisés pour la fidélité aux instructions (préserver des invariants spécifiés comme « ne pas modifier le logo », « conserver la pose et l’éclairage »). Des schémas d’ingénierie de prompt (répéter explicitement les invariants à chaque itération) réduisent la dérive sémantique.

Performances de référence

  • Positionnement au classement : un rapport agrégé cite GPT Image 1.5 en tête des classements texte-vers-image avec ~1264 points sur un leaderboard d’Artificial Analysis, devant le modèle suivant d’une marge mesurable.
  • Métriques par tâche (édition & préservation) : un résumé de Microsoft Foundry des métriques d’évaluation montre que GPT-Image-1.5 atteint un succès quasi parfait en modification binaire (100 % sur un BinaryEval à un seul tour) et de solides scores de préservation de visage (environ 90 % sur les mesures AuraFace) dans leur tableau comparatif face à des concurrents et d’anciens modèles OpenAI. Ces métriques comparatives placent GPT-Image-1.5 devant certains rivaux en matière de préservation et de fidélité d’édition.

GPT Image 1.5

Comparaison de GPT-Image-1.5 avec ses pairs

  • Par rapport à GPT Image 1 (génération OpenAI précédente) : plus rapide (jusqu’à ×4), moins cher (~20 % de coût d’E/S image en moins) et meilleure fidélité d’édition — objectif : passer de la « démo/prototype » à des workflows d’image adaptés à la production.
  • Par rapport aux modèles image Nano Banana Pro / Gemini de Google : GPT-Image-1.5 et la famille Nano Banana Pro / Gemini 3 de Google sont des rivaux proches — chacun ayant des points forts selon les classes de prompts. La communication d’OpenAI met l’accent sur la fidélité d’édition et la vitesse d’itération ; l’offre de Google est saluée pour un réalisme de niveau studio dans certains exemples.
  • Par rapport à Qwen Image et autres modèles ouverts/fermés : GPT-Image-1.5 surpasse Qwen Image sur plusieurs métriques d’édition et de préservation dans des évaluations à un seul tour, mais les écarts se réduisent en multitours ou dans d’autres tests spécifiques au domaine.

Domaines où GPT-Image-1.5 excelle

  • Imagerie produit e-commerce : variantes en masse, changements d’arrière-plan, catalogues produits cohérents à partir d’une seule photo (préservation marque/logo).
  • Production d’assets créatifs et marketing : itérations rapides de concepts, maquettes photoréalistes, transferts de style contrôlés.
  • Retoque photo et workflows éditoriaux : essayages réalistes de vêtements/coiffures, retouche sélective qui préserve l’identité et l’éclairage.
  • Intégration aux outils de design : branchement dans des plateformes de design ou CMS pour des variantes d’images à la demande (les réglages de fidélité aident à maîtriser les coûts).
  • Pipelines de composition en plusieurs étapes : les entrées multi-images permettent la composition et la génération basée sur références pour des scènes complexes.

Comment accéder à l’API GPT Image 1.5

Étape 1 : S’inscrire pour obtenir une clé d’API

Connectez-vous à cometapi.com. Si vous n’êtes pas encore utilisateur, veuillez d’abord vous inscrire. Connectez-vous à votre Console CometAPI. Récupérez la clé d’identification d’accès API de l’interface. Cliquez sur « Add Token » au niveau du jeton d’API dans le centre personnel, obtenez la clé du jeton : sk-xxxxx et soumettez.

Étape 2 : Envoyer des requêtes à l’API GPT Image 1.5

Sélectionnez l’endpoint « gpt-image-1.5 » pour envoyer la requête API et définissez le corps de la requête. La méthode et le corps de la requête sont disponibles dans la documentation API de notre site. Notre site fournit également un test Apifox pour votre convenance. Remplacez <YOUR_API_KEY> par votre clé CometAPI réelle de votre compte. l’URL de base est Images (https://api.cometapi.com/v1/images/generations) et [Image Editing]

Insérez votre question ou votre demande dans le champ content — c’est à cela que le modèle répondra. Traitez la réponse de l’API pour obtenir la réponse générée.

Étape 3 : Récupérer et vérifier les résultats

Traitez la réponse de l’API pour obtenir la réponse générée. Après le traitement, l’API répond avec l’état de la tâche et les données de sortie.

Voir aussi Gemini 3 Pro Preview API

FAQ

How fast is GPT Image 1.5 compared to GPT Image 1?

GPT Image 1.5 delivers up to 4× speed improvements over GPT Image 1, significantly reducing latency for iterative creative workflows.

Does GPT Image 1.5 support multi-turn conversational editing?

Yes, through the Responses API, GPT Image 1.5 supports multi-turn editing workflows where you can iteratively refine images by providing follow-up instructions while preserving context.

What resolutions and quality settings does GPT Image 1.5 support?

GPT Image 1.5 supports 1024×1024 (square), 1536×1024 (landscape), and 1024×1536 (portrait). Quality options include low, medium, high, and auto.

Can GPT Image 1.5 use multiple reference images for compositing?

Yes, GPT Image 1.5 accepts multiple input images for compositing and style reference. The first 5 images are preserved with higher fidelity when using high input_fidelity mode.

How does GPT Image 1.5 compare to Google's Nano Banana Pro?

GPT Image 1.5 emphasizes editing fidelity and iteration speed, while Nano Banana Pro is praised for studio realism. Both are closely competitive—choose based on your workflow needs.

Does GPT Image 1.5 support transparent backgrounds?

Yes, set the background parameter to 'transparent' with PNG or WebP output formats. Transparency works best at medium or high quality settings.

What is the maximum text prompt length for GPT Image 1.5?

GPT Image 1.5 accepts prompts up to 32,000 characters, enabling highly detailed and constrained instructions for complex image generation tasks.

Fonctionnalités pour GPT Image 1.5

Découvrez les fonctionnalités clés de GPT Image 1.5, conçues pour améliorer les performances et la facilité d'utilisation. Explorez comment ces capacités peuvent bénéficier à vos projets et améliorer l'expérience utilisateur.

Tarification pour GPT Image 1.5

Découvrez des tarifs compétitifs pour GPT Image 1.5, conçus pour s'adapter à différents budgets et besoins d'utilisation. Nos formules flexibles garantissent que vous ne payez que ce que vous utilisez, ce qui facilite l'adaptation à mesure que vos besoins évoluent. Découvrez comment GPT Image 1.5 peut améliorer vos projets tout en maîtrisant les coûts.
Prix de Comet (USD / M Tokens)Prix officiel (USD / M Tokens)Remise
Entrée:$6.4/M
Sortie:$25.6/M
Entrée:$8/M
Sortie:$32/M
-20%

Exemple de code et API pour GPT Image 1.5

L'API gpt-image-1.5 est un point de terminaison de modèle d'image multimodal qui accepte une ou plusieurs entrées d'image (identifiants de fichier ou octets) ainsi qu'un prompt textuel et renvoie des images générées ou des images modifiées. Il prend en charge :
Python
JavaScript
Curl
import base64
import os
from openai import OpenAI

# Set your API key if not set globally
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
client = OpenAI(api_key=COMETAPI_KEY, base_url="https://api.cometapi.com/v1")

# Create output/ folder
folder_path = "output"
os.makedirs(folder_path, exist_ok=True)

# Generate the image using gpt-image-1.5
result = client.images.generate(
    model="gpt-image-1.5",
    prompt="A cute baby sea otter",
    n=1,
    size="1024x1024"
)

# Save the image to a file
image_base64 = result.data[0].b64_json
image_bytes = base64.b64decode(image_base64)
with open(os.path.join(folder_path, "gpt-image-1.5-output.png"), "wb") as f:
    f.write(image_bytes)

print("Image saved to: output/gpt-image-1.5-output.png")

Versions de GPT Image 1.5

La raison pour laquelle GPT Image 1.5 dispose de plusieurs instantanés peut inclure des facteurs potentiels tels que des variations de sortie après des mises à jour nécessitant des instantanés plus anciens pour la cohérence, offrant aux développeurs une période de transition pour l'adaptation et la migration, et différents instantanés correspondant à des points de terminaison globaux ou régionaux pour optimiser l'expérience utilisateur. Pour les différences détaillées entre les versions, veuillez consulter la documentation officielle.
version
gpt-image-1.5-2025-12-16
gpt-image-1.5

Plus de modèles