How fast is GPT Image 1.5 compared to GPT Image 1?

GPT Image 1.5 ofrece hasta 4× mejoras de velocidad con respecto a GPT Image 1, reduciendo significativamente la latencia para flujos de trabajo creativos iterativos.

Does GPT Image 1.5 support multi-turn conversational editing?

Sí, a través de la Responses API, GPT Image 1.5 admite flujos de trabajo de edición de múltiples turnos en los que puedes perfeccionar imágenes de forma iterativa proporcionando instrucciones adicionales mientras mantienes el contexto.

What resolutions and quality settings does GPT Image 1.5 support?

GPT Image 1.5 admite 1024×1024 (cuadrado), 1536×1024 (horizontal) y 1024×1536 (vertical). Las opciones de calidad incluyen baja, media, alta y automática.

Can GPT Image 1.5 use multiple reference images for compositing?

Sí, GPT Image 1.5 acepta múltiples imágenes de entrada para composición y referencia de estilo. Las primeras 5 imágenes se conservan con mayor fidelidad cuando se usa el modo input_fidelity high.

How does GPT Image 1.5 compare to Google's Nano Banana Pro?

GPT Image 1.5 pone énfasis en la fidelidad de edición y la velocidad de iteración, mientras que Nano Banana Pro es valorado por su realismo de estudio. Ambos son muy competitivos—elige según las necesidades de tu flujo de trabajo.

Does GPT Image 1.5 support transparent backgrounds?

Sí, establece el parámetro background en 'transparent' con formatos de salida PNG o WebP. La transparencia funciona mejor con ajustes de calidad medios o altos.

What is the maximum text prompt length for GPT Image 1.5?

GPT Image 1.5 acepta prompts de hasta 32,000 caracteres, lo que permite instrucciones muy detalladas y acotadas para tareas complejas de generación de imágenes.

API de GPT Image 1.5 Asequible | text-to-image

¿Qué es la API de GPT-Image-1.5?

GPT-Image-1.5 es el miembro más reciente de la familia GPT Image de OpenAI y el modelo detrás de la renovada experiencia de Images en ChatGPT. Está diseñado para llevar la generación de imágenes de experimentos novedosos a herramientas creativas de grado de producción: mayor fotorrealismo, control más fino para ediciones iterativas y una inferencia más rápida para admitir flujos de trabajo interactivos y empresariales.

La API gpt-image-1.5 es un endpoint de modelo de imágenes multimodal que acepta una o más entradas de imagen (identificadores de archivo o bytes) junto con un prompt de texto y devuelve imágenes generadas o imágenes editadas. Admite:

Generación de texto a imagen (crear a partir de un prompt),
Edición de imágenes / in‑painting / composición (aplicar instrucciones a imágenes existentes; se permiten múltiples entradas de imagen), y
Flujos de edición iterativos y multi‑turn mediante la Responses API (habilita interfaces de “retocar e iterar”).

La API trata los prompts de imagen de forma diferente a los límites antiguos de DALL·E: los modelos de imagen GPT aceptan prompts de texto significativamente más largos (la directriz de 32,000 caracteres), lo que hace viables instrucciones complejas y con muchas restricciones.

Funciones principales (prácticas)

Editabilidad mejorada / consistencia multi‑turn: preserva la apariencia de personajes, la iluminación y atributos visuales clave a lo largo de ediciones iterativas. Esto hace que “mismo modelo, ediciones repetidas” sea más confiable para flujos como catálogos de productos o activos de marca.
Mayor rendimiento — mejoras de velocidad de 4× respecto a GPT Image 1, orientadas a reducir la latencia en flujos de trabajo creativos iterativos.
Optimización de costos — los costos de entrada/salida de imágenes se reducen alrededor de un 20% frente a GPT Image 1, disminuyendo el costo por iteración por imagen para usuarios de alto volumen.
Composición multi‑imagen y referencia de estilo — acepta múltiples imágenes de referencia para componer escenas o transferir estilo/iluminación.
Controles de calidad/fidelidad — parámetros de la API que equilibran velocidad y fidelidad (use menor calidad para generación masiva; mayor calidad para activos de producción).
Edición multi‑turn / integración con Responses API — habilita flujos por pasos (solicitar cambios y luego “hacer ajustes” preservando el estado).

Capacidades técnicas

Límite de prompt de texto (modelos de imagen): hasta 32,000 caracteres (nota: OpenAI documenta esto como la longitud de texto permitida para los modelos de imagen GPT). Úselo para prompts largos con muchas restricciones.
Entradas de imagen: acepta IDs de archivo (preferidos para flujos multi‑turn) o bytes sin procesar; se pueden proporcionar múltiples imágenes para composición y referencia.
Salidas: PNG/JPEG o artefactos de imagen predeterminados de la plataforma devueltos por la API (o como adjuntos dentro de ChatGPT). Las salidas pueden incluir múltiples imágenes candidatas y admitir solicitudes iterativas para refinar un resultado.
Modos de generación: texto a imagen, edición de imágenes (inpainting/extensión con instrucciones) y variantes. La edición multi‑turn admite instrucciones del tipo “añadir/quitar/combinar”.
Edición consciente de instrucciones: los modelos están optimizados para la fidelidad a las instrucciones (preservando invariantes especificadas como “no cambies el logo”, “mantén la pose y la iluminación”). Los patrones de prompt engineering (invariantes explícitas repetidas en cada iteración) reducen la deriva semántica.

Rendimiento en benchmarks

Posicionamiento en rankings: Un informe agregado citó a GPT Image 1.5 liderando los rankings de texto a imagen con ~1264 puntos en un leaderboard de Artificial Analysis, por delante del siguiente modelo por un margen medible.
Métricas a nivel de tarea (edición y preservación): un resumen de Microsoft Foundry sobre métricas de evaluación muestra que GPT-Image-1.5 logra un éxito de modificación binaria casi perfecto (100% en un BinaryEval de un solo turno) y puntuaciones sólidas de preservación facial (alrededor del 90% en medidas de AuraFace) en su tabla comparativa frente a competidores y modelos previos de OpenAI. Esas métricas comparativas sitúan a GPT-Image-1.5 por delante de algunos rivales en preservación y fidelidad de edición.

GPT Image 1.5

Cómo se compara GPT-Image-1.5 con sus pares

Vs. GPT Image 1 (generación anterior de OpenAI): más rápido (hasta 4×), más económico (~20% menos costo de IO de imagen) y con mayor fidelidad de edición — orientado a pasar de “prototipo/demostración” a flujos de trabajo de imágenes “listos para producción”.
Vs. los modelos de imagen Nano Banana Pro / Gemini de Google: GPT-Image-1.5 y la familia Nano Banana Pro / Gemini 3 de Google son rivales cercanos — cada uno tiene fortalezas en distintas clases de prompts. La comunicación de OpenAI enfatiza la fidelidad de edición y la velocidad de iteración; la oferta de Google ha sido elogiada por realismo a nivel estudio en algunos ejemplos.
Vs. Qwen Image y otros modelos abiertos/cerrados: GPT-Image-1.5 supera a Qwen Image en varias métricas de edición y preservación en evaluaciones de un solo turno, pero las diferencias se reducen en pruebas multi‑turn u otras específicas de dominio.

Dónde GPT-Image-1.5 es fuerte

Imágenes de productos de e‑commerce: variantes en lote, cambios de fondo, catálogos de productos consistentes a partir de una sola foto (preservación de marca/logo).
Producción de activos creativos y de marketing: iteraciones rápidas de conceptos, maquetas fotorrealistas, transferencias de estilo controladas.
Retoque fotográfico y flujos editoriales: pruebas realistas de ropa/peinados, retoque selectivo que preserva identidad e iluminación.
Integración con herramientas de diseño: conexión a plataformas de diseño o CMS para variantes de imagen bajo demanda (los controles de fidelidad ayudan a controlar los costos).
Pipelines de composición por múltiples pasos: las entradas multi‑imagen permiten componer y generar con base en referencias para escenas complejas.

Cómo acceder a la API de GPT Image 1.5

Paso 1: Regístrese para obtener una clave de API

Inicie sesión en cometapi.com. Si aún no es nuestro usuario, regístrese primero. Inicie sesión en su consola de CometAPI. Obtenga la clave de API de credenciales de acceso de la interfaz. Haga clic en “Add Token” en el token de API en el centro personal, obtenga la clave de token: sk-xxxxx y envíela.

Paso 2: Envíe solicitudes a la API de GPT Image 1.5

Seleccione el endpoint “gpt-image-1.5” para enviar la solicitud a la API y configure el cuerpo de la solicitud. El método y el cuerpo de la solicitud se obtienen de la documentación de la API en nuestro sitio web. Nuestro sitio también ofrece pruebas en Apifox para su comodidad. Reemplace <YOUR_API_KEY> con su clave real de CometAPI de su cuenta. La URL base es Images (https://api.cometapi.com/v1/images/generations) y [Image Editing]

Inserte su pregunta o solicitud en el campo content—esto es a lo que responderá el modelo . Procese la respuesta de la API para obtener la respuesta generada.

Paso 3: Recupere y verifique los resultados

Procese la respuesta de la API para obtener la respuesta generada. Tras el procesamiento, la API responde con el estado de la tarea y los datos de salida.

Véase también Gemini 3 Pro Preview API

Precio de Comet (USD / M Tokens)	Precio Oficial (USD / M Tokens)	Descuento
Entrada:$6.4/M Salida:$25.6/M	Entrada:$8/M Salida:$32/M	-20%

version
gpt-image-1.5-2025-12-16
gpt-image-1.5

¿Qué es la API de GPT-Image-1.5?

Generación de texto a imagen (crear a partir de un prompt),
Edición de imágenes / in‑painting / composición (aplicar instrucciones a imágenes existentes; se permiten múltiples entradas de imagen), y
Flujos de edición iterativos y multi‑turn mediante la Responses API (habilita interfaces de “retocar e iterar”).

Funciones principales (prácticas)

Editabilidad mejorada / consistencia multi‑turn: preserva la apariencia de personajes, la iluminación y atributos visuales clave a lo largo de ediciones iterativas. Esto hace que “mismo modelo, ediciones repetidas” sea más confiable para flujos como catálogos de productos o activos de marca.
Mayor rendimiento — mejoras de velocidad de 4× respecto a GPT Image 1, orientadas a reducir la latencia en flujos de trabajo creativos iterativos.
Optimización de costos — los costos de entrada/salida de imágenes se reducen alrededor de un 20% frente a GPT Image 1, disminuyendo el costo por iteración por imagen para usuarios de alto volumen.
Composición multi‑imagen y referencia de estilo — acepta múltiples imágenes de referencia para componer escenas o transferir estilo/iluminación.
Controles de calidad/fidelidad — parámetros de la API que equilibran velocidad y fidelidad (use menor calidad para generación masiva; mayor calidad para activos de producción).
Edición multi‑turn / integración con Responses API — habilita flujos por pasos (solicitar cambios y luego “hacer ajustes” preservando el estado).

Capacidades técnicas

Límite de prompt de texto (modelos de imagen): hasta 32,000 caracteres (nota: OpenAI documenta esto como la longitud de texto permitida para los modelos de imagen GPT). Úselo para prompts largos con muchas restricciones.
Entradas de imagen: acepta IDs de archivo (preferidos para flujos multi‑turn) o bytes sin procesar; se pueden proporcionar múltiples imágenes para composición y referencia.
Salidas: PNG/JPEG o artefactos de imagen predeterminados de la plataforma devueltos por la API (o como adjuntos dentro de ChatGPT). Las salidas pueden incluir múltiples imágenes candidatas y admitir solicitudes iterativas para refinar un resultado.
Modos de generación: texto a imagen, edición de imágenes (inpainting/extensión con instrucciones) y variantes. La edición multi‑turn admite instrucciones del tipo “añadir/quitar/combinar”.
Edición consciente de instrucciones: los modelos están optimizados para la fidelidad a las instrucciones (preservando invariantes especificadas como “no cambies el logo”, “mantén la pose y la iluminación”). Los patrones de prompt engineering (invariantes explícitas repetidas en cada iteración) reducen la deriva semántica.

Rendimiento en benchmarks

Posicionamiento en rankings: Un informe agregado citó a GPT Image 1.5 liderando los rankings de texto a imagen con ~1264 puntos en un leaderboard de Artificial Analysis, por delante del siguiente modelo por un margen medible.
Métricas a nivel de tarea (edición y preservación): un resumen de Microsoft Foundry sobre métricas de evaluación muestra que GPT-Image-1.5 logra un éxito de modificación binaria casi perfecto (100% en un BinaryEval de un solo turno) y puntuaciones sólidas de preservación facial (alrededor del 90% en medidas de AuraFace) en su tabla comparativa frente a competidores y modelos previos de OpenAI. Esas métricas comparativas sitúan a GPT-Image-1.5 por delante de algunos rivales en preservación y fidelidad de edición.

GPT Image 1.5

Cómo se compara GPT-Image-1.5 con sus pares

Vs. GPT Image 1 (generación anterior de OpenAI): más rápido (hasta 4×), más económico (~20% menos costo de IO de imagen) y con mayor fidelidad de edición — orientado a pasar de “prototipo/demostración” a flujos de trabajo de imágenes “listos para producción”.
Vs. los modelos de imagen Nano Banana Pro / Gemini de Google: GPT-Image-1.5 y la familia Nano Banana Pro / Gemini 3 de Google son rivales cercanos — cada uno tiene fortalezas en distintas clases de prompts. La comunicación de OpenAI enfatiza la fidelidad de edición y la velocidad de iteración; la oferta de Google ha sido elogiada por realismo a nivel estudio en algunos ejemplos.
Vs. Qwen Image y otros modelos abiertos/cerrados: GPT-Image-1.5 supera a Qwen Image en varias métricas de edición y preservación en evaluaciones de un solo turno, pero las diferencias se reducen en pruebas multi‑turn u otras específicas de dominio.

Dónde GPT-Image-1.5 es fuerte

Imágenes de productos de e‑commerce: variantes en lote, cambios de fondo, catálogos de productos consistentes a partir de una sola foto (preservación de marca/logo).
Producción de activos creativos y de marketing: iteraciones rápidas de conceptos, maquetas fotorrealistas, transferencias de estilo controladas.
Retoque fotográfico y flujos editoriales: pruebas realistas de ropa/peinados, retoque selectivo que preserva identidad e iluminación.
Integración con herramientas de diseño: conexión a plataformas de diseño o CMS para variantes de imagen bajo demanda (los controles de fidelidad ayudan a controlar los costos).
Pipelines de composición por múltiples pasos: las entradas multi‑imagen permiten componer y generar con base en referencias para escenas complejas.

Cómo acceder a la API de GPT Image 1.5

Paso 1: Regístrese para obtener una clave de API

Paso 2: Envíe solicitudes a la API de GPT Image 1.5

Inserte su pregunta o solicitud en el campo content—esto es a lo que responderá el modelo . Procese la respuesta de la API para obtener la respuesta generada.

Paso 3: Recupere y verifique los resultados

Procese la respuesta de la API para obtener la respuesta generada. Tras el procesamiento, la API responde con el estado de la tarea y los datos de salida.

Véase también Gemini 3 Pro Preview API

GPT Image 1.5

Playground para GPT Image 1.5

¿Qué es la API de GPT-Image-1.5?

Funciones principales (prácticas)

Capacidades técnicas

Rendimiento en benchmarks

Cómo se compara GPT-Image-1.5 con sus pares

Dónde GPT-Image-1.5 es fuerte

Cómo acceder a la API de GPT Image 1.5

Paso 1: Regístrese para obtener una clave de API

Paso 2: Envíe solicitudes a la API de GPT Image 1.5

Paso 3: Recupere y verifique los resultados

Preguntas frecuentes

Precios para GPT Image 1.5

Código de ejemplo y API para GPT Image 1.5

Python Code Example

JavaScript Code Example

Curl Code Example

Versiones de GPT Image 1.5

GPT Image 1.5

Playground para GPT Image 1.5

¿Qué es la API de GPT-Image-1.5?

Funciones principales (prácticas)

Capacidades técnicas

Rendimiento en benchmarks

Cómo se compara GPT-Image-1.5 con sus pares

Dónde GPT-Image-1.5 es fuerte

Cómo acceder a la API de GPT Image 1.5

Paso 1: Regístrese para obtener una clave de API

Paso 2: Envíe solicitudes a la API de GPT Image 1.5

Paso 3: Recupere y verifique los resultados

Preguntas frecuentes

Precios para GPT Image 1.5

Código de ejemplo y API para GPT Image 1.5

Python Code Example

JavaScript Code Example

Curl Code Example

Versiones de GPT Image 1.5