¿Qué es la API de GPT-Image-1.5?
GPT-Image-1.5 es el miembro más reciente de la familia GPT Image de OpenAI y el modelo detrás de la experiencia Images renovada de ChatGPT. Está diseñado para llevar la generación de imágenes de experimentos novedosos a herramientas creativas de grado de producción: mayor fotorrealismo, control más fino para ediciones iterativas y una inferencia más rápida para admitir flujos de trabajo interactivos y empresariales.
La gpt-image-1.5 API es un endpoint de modelo de imágenes multimodal que acepta una o más entradas de imagen (identificadores de archivo o bytes) más un prompt de texto y devuelve imágenes generadas o editadas. Es compatible con:
- Generación de texto a imagen (crear a partir de un prompt),
- Edición de imágenes / inpainting / composición (aplicar instrucciones a imágenes existentes; se permiten múltiples imágenes de entrada), y
- Flujos de edición iterativos y multiturno a través de la Responses API (permite interfaces de usuario de “ajustar e iterar”).
La API trata los prompts de imagen de forma diferente a los límites antiguos de DALL·E: los modelos de imagen GPT aceptan prompts de texto significativamente más largos (la directriz de 32k caracteres), lo que hace factibles instrucciones complejas y con muchas restricciones.
Características principales (prácticas)
- Mejor editabilidad / consistencia multiturno: preserva la apariencia del personaje, la iluminación y los atributos visuales clave a lo largo de ediciones iterativas. Esto hace que “mismo modelo, ediciones repetidas” sea más fiable para flujos como catálogos de productos o activos de marca.
- Mayor rendimiento — mejoras de velocidad de 4× respecto a GPT Image 1, enfocadas en reducir la latencia para flujos creativos iterativos.
- Optimización de costes — costes de E/S de imagen reducidos en alrededor de 20% frente a GPT Image 1, bajando el coste por imagen por iteración para usuarios de alto volumen.
- Composición multiimagen y referencia de estilo — acepta múltiples imágenes de referencia para componer escenas o transferir estilo/iluminación.
- Controles de calidad/fidelidad — parámetros de la API que equilibran velocidad frente a fidelidad (usa menor calidad para generación masiva; mayor calidad para activos de producción).
- Edición multiturno / integración con Responses API — habilita flujos paso a paso (pedir cambios y luego “hacer ajustes” preservando el estado).
Capacidades técnicas
- Límite del prompt de texto (modelos de imagen): hasta 32,000 caracteres (nota: OpenAI documenta esto como la longitud de texto permitida para los modelos de imagen GPT). Úsalo para prompts largos con muchas restricciones.
- Entradas de imagen: acepta ID de archivo (preferidos para flujos multiturno) o bytes en bruto; se pueden proporcionar varias imágenes para composición y referencia.
- Salidas: PNG/JPEG o artefactos de imagen predeterminados de la plataforma devueltos por la API (o como adjuntos dentro de ChatGPT). Las salidas pueden incluir múltiples imágenes candidatas y admiten solicitudes iterativas para refinar un resultado.
- Modos de generación: texto a imagen, edición de imágenes (inpainting/extensión con instrucciones) y variantes. La edición multiturno admite instrucciones del tipo “agregar/quitar/combinar”.
- Edición sensible a las instrucciones: los modelos están optimizados para la fidelidad a las instrucciones (preservando invariantes especificados como “no cambies el logotipo”, “mantén la pose y la iluminación”). Los patrones de prompt-engineering (invariantes explícitos repetidos en cada iteración) reducen la deriva semántica.
Rendimiento en pruebas comparativas
- Ubicación en el ranking: un informe agregado citó a GPT Image 1.5 liderando las clasificaciones de texto a imagen con ~1264 puntos en un leaderboard de Artificial Analysis, por delante del siguiente modelo por un margen medible.
- Métricas a nivel de tarea (edición y preservación): un resumen de Microsoft Foundry de métricas de evaluación muestra que GPT-Image-1.5 logra un éxito de modificación binaria casi perfecto (100% en un BinaryEval de un solo turno) y sólidas puntuaciones de preservación de rostro (alrededor de 90% en medidas de AuraFace) en su tabla comparativa frente a competidores y modelos anteriores de OpenAI. Esas métricas comparativas sitúan a GPT-Image-1.5 por delante de algunos rivales en preservación y fidelidad de edición.

Cómo se compara GPT-Image-1.5 con sus pares
- Frente a GPT Image 1 (generación previa de OpenAI): más rápido (hasta 4×), más barato (~20% menor coste de E/S de imagen) y mayor fidelidad de edición, orientado a pasar de “prototipo/demo” a flujos de trabajo de imagen “aptos para producción”.
- Frente a los modelos de imagen Nano Banana Pro / Gemini de Google: GPT-Image-1.5 y la familia Google Nano Banana Pro / Gemini 3 son rivales cercanos, cada uno con fortalezas en diferentes clases de prompts. La comunicación de OpenAI enfatiza la fidelidad de edición y la velocidad de iteración; la oferta de Google ha sido elogiada por realismo de nivel estudio en algunos ejemplos.
- Frente a Qwen Image y otros modelos abiertos/cerrados: GPT-Image-1.5 supera a Qwen Image en varias métricas de edición y preservación en evaluaciones de un solo turno, pero las diferencias se estrechan en multiturno u otras pruebas específicas de dominio.
Dónde destaca GPT-Image-1.5
- Imágenes de productos para e-commerce: variantes por lotes, cambios de fondo, catálogos de productos consistentes a partir de una sola foto (preservación de marca/logotipo).
- Producción de activos creativos y de marketing: iteraciones rápidas de conceptos, maquetas fotorrealistas, transferencias de estilo controladas.
- Retoque fotográfico y flujos editoriales: pruebas virtuales realistas de ropa/peinados, retoque selectivo que preserva la identidad y la iluminación.
- Integración con herramientas de diseño: conéctalo a plataformas de diseño o CMS para variantes de imagen bajo demanda (los controles de fidelidad ayudan al control de costes).
- Pipelines de composición en múltiples pasos: entradas multiimagen permiten componer y generar basándose en referencias para escenas complejas.
Cómo acceder a la API de GPT Image 1.5
Paso 1: Regístrate para obtener la clave de API
Inicia sesión en cometapi.com. Si aún no eres usuario, regístrate primero. Entra en la consola de CometAPI. Obtén la clave de API de credenciales de acceso de la interfaz. Haz clic en “Add Token” en el token de API del centro personal, obtén la clave del token: sk-xxxxx y envíala.
Paso 2: Envía solicitudes a la API de GPT Image 1.5
Selecciona el endpoint “gpt-image-1.5” para enviar la solicitud a la API y configura el cuerpo de la solicitud. El método y el cuerpo de la solicitud se obtienen de la documentación de la API en nuestro sitio web. Nuestro sitio web también proporciona una prueba en Apifox para tu comodidad. Sustituye <YOUR_API_KEY> por tu clave real de CometAPI de tu cuenta. La URL base es Images (https://api.cometapi.com/v1/images/generations) y [Edición de imágenes]
Inserta tu pregunta o solicitud en el campo content—es a lo que responderá el modelo. Procesa la respuesta de la API para obtener la respuesta generada.
Paso 3: Recupera y verifica los resultados
Procesa la respuesta de la API para obtener la respuesta generada. Tras el procesamiento, la API responde con el estado de la tarea y los datos de salida.
Consulta también Gemini 3 Pro Preview API