Qu’est-ce que l’API GPT-Image-1.5 ?
GPT‑Image‑1.5 est le dernier membre de la famille GPT Image d’OpenAI et le modèle derrière l’expérience Images remaniée de ChatGPT. Il est conçu pour faire passer la génération d’images des expériences de nouveauté à des outils créatifs de niveau production : photoréalisme accru, contrôle plus fin pour des modifications itératives et inférence plus rapide afin de prendre en charge des workflows interactifs et d’entreprise.
L’API gpt-image-1.5 est un endpoint de modèle d’image multimodal qui accepte une ou plusieurs entrées d’image (identifiants de fichiers ou octets) plus une invite textuelle et renvoie des images générées ou éditées. Elle prend en charge :
- Génération texte‑vers‑image (création à partir d’une invite),
- Édition d’image / in‑painting / composition (appliquer des instructions à des images existantes, plusieurs images en entrée possibles), et
- Workflows d’édition itératifs, multi‑tour via l’API Responses (permet des interfaces « ajuster et itérer »).
L’API traite les invites d’image différemment des limites de l’ancien DALL·E : les modèles d’images GPT acceptent des invites textuelles nettement plus longues (directive de 32,000 caractères), rendant possibles des instructions complexes, riches en contraintes.
Principales fonctionnalités (pratiques)
- Éditabilité améliorée / cohérence multi‑tour : préserve l’apparence des personnages, l’éclairage et les attributs visuels clés au fil des modifications itératives. Cela rend « même modèle, éditions répétées » plus fiable pour des workflows comme les catalogues produits ou les actifs de marque.
- Débit accru — améliorations de vitesse ×4 par rapport à GPT Image 1, visant à réduire la latence pour les workflows créatifs itératifs.
- Optimisations de coût — coûts d’entrée/sortie d’image réduits d’environ 20% vs. GPT Image 1, abaissant le coût par itération d’image pour les utilisateurs à fort volume.
- Composition multi‑images et référence de style — accepter plusieurs images de référence pour composer des scènes ou transférer style/éclairage.
- Réglages de qualité/fidélité — paramètres d’API permettant d’arbitrer entre vitesse et fidélité (utilisez une qualité moindre pour la génération en masse ; une qualité supérieure pour les assets de production).
- Édition multi‑tour / intégration à l’API Responses — permet des workflows par étapes (demander des changements, puis « peaufiner » en préservant l’état).
Capacités techniques
- Limite d’invite textuelle (modèles d’image) : jusqu’à 32,000 caractères (note : OpenAI documente ceci comme la longueur de texte autorisée pour les modèles d’images GPT). À utiliser pour des invites longues et fortement contraintes.
- Entrées d’image : accepte des IDs de fichier (préférés pour les flux multi‑tour) ou des octets bruts ; plusieurs images peuvent être fournies pour la composition et la référence.
- Sorties : PNG/JPEG ou artefacts d’image par défaut de la plateforme renvoyés par l’API (ou en pièces jointes dans ChatGPT). Les sorties peuvent inclure plusieurs images candidates et prendre en charge des requêtes itératives pour affiner un résultat.
- Modes de génération : texte‑vers‑image, édition d’image (inpaint/extension avec instructions) et variantes. L’édition multi‑tour prend en charge des instructions de type « ajouter/soustraire/combiner ».
- Édition sensible aux instructions : les modèles sont optimisés pour la fidélité aux instructions (préservant des invariants spécifiés comme « ne pas modifier le logo », « conserver la pose et l’éclairage »). Des schémas de prompt engineering (invariants explicites répétés à chaque itération) réduisent la dérive sémantique.
Performances de référence
- Classement : Un rapport agrégé cite GPT Image 1.5 en tête des classements texte‑vers‑image avec ~1264 points sur un tableau de bord Artificial Analysis, devant le modèle suivant d’une marge mesurable.
- Mesures au niveau des tâches (édition et préservation) : un résumé Microsoft Foundry des métriques d’évaluation montre que GPT‑Image‑1.5 atteint un taux de réussite quasi parfait en modification binaire (100% sur un BinaryEval à un seul tour) et de solides scores de préservation du visage (environ 90% sur les mesures AuraFace) dans leur tableau comparatif face aux concurrents et aux modèles OpenAI précédents. Ces métriques comparatives placent GPT‑Image‑1.5 devant certains rivaux en matière de préservation et de fidélité d’édition.

Comparaison de GPT‑Image‑1.5 avec ses pairs
- Vs. GPT Image 1 (génération précédente d’OpenAI) : plus rapide (jusqu’à ×4), moins coûteux (~20% de réduction des coûts d’E/S d’image) et meilleure fidélité d’édition — visant le passage du « prototype/démo » à des workflows d’images « prêts pour la production ».
- Vs. les modèles d’image Nano Banana Pro / Gemini de Google : GPT‑Image‑1.5 et la famille Google Nano Banana Pro / Gemini 3 sont des rivaux proches — chacun excelle selon les classes d’invites. La communication d’OpenAI met l’accent sur la fidélité d’édition et la vitesse d’itération ; l’offre de Google a été saluée pour un réalisme de niveau studio dans certains exemples.
- Vs. Qwen Image et autres modèles ouverts/fermés : GPT‑Image‑1.5 surpasse Qwen Image sur plusieurs métriques d’édition et de préservation lors d’évaluations à un seul tour, mais les écarts se resserrent en multi‑tour ou sur d’autres tests spécifiques au domaine.
Domaines où GPT‑Image‑1.5 excelle
- Imagerie produit e‑commerce : variantes en masse, remplacements d’arrière‑plan, catalogues produits cohérents à partir d’une seule photo (préservation de la marque/du logo).
- Production d’assets créatifs et marketing : itérations rapides de concepts, maquettes photoréalistes, transferts de style contrôlés.
- Retouche photo et workflows éditoriaux : essayages réalistes de vêtements/coiffures, retouches sélectives préservant l’identité et l’éclairage.
- Intégration aux outils de design : connexion aux plateformes de design ou CMS pour des variantes d’images à la demande (les réglages de fidélité aident à maîtriser les coûts).
- Pipelines de composition multi‑étapes : les entrées multi‑images permettent la composition et la génération basée sur des références pour des scènes complexes.
Comment accéder à l’API GPT Image 1.5
Étape 1 : S’inscrire pour obtenir une clé API
Connectez‑vous à cometapi.com. Si vous n’êtes pas encore notre utilisateur, veuillez d’abord vous inscrire. Connectez‑vous à votre console CometAPI. Obtenez la clé API d’identification d’accès de l’interface. Cliquez sur « Add Token » à l’emplacement du jeton d’API dans le centre personnel, récupérez la clé de jeton : sk‑xxxxx et soumettez.
Étape 2 : Envoyer des requêtes à l’API GPT Image 1.5
Sélectionnez l’endpoint « gpt-image-1.5 » pour envoyer la requête API et définir le corps de la requête. La méthode et le corps de la requête sont obtenus depuis la documentation API de notre site. Notre site propose également un test Apifox pour votre commodité. Remplacez <YOUR_API_KEY> par votre clé CometAPI réelle depuis votre compte. l’URL de base est Images (https://api.cometapi.com/v1/images/generations) et [Édition d’image]
Insérez votre question ou votre demande dans le champ content — c’est à cela que le modèle répondra. Traitez la réponse de l’API pour obtenir la réponse générée.
Étape 3 : Récupérer et vérifier les résultats
Traitez la réponse de l’API pour obtenir la réponse générée. Après traitement, l’API renvoie l’état de la tâche et les données de sortie.
Voir aussi Gemini 3 Pro Preview API