O que é a API GPT-Image-1.5?

GPT-Image-1.5 é o mais novo membro da família GPT Image da OpenAI e o modelo por trás da experiência de Images reformulada do ChatGPT. Foi projetado para levar a geração de imagens de experimentos de novidade para ferramentas criativas em nível de produção: maior fotorrealismo, controle mais fino para edições iterativas e inferência mais rápida para dar suporte a fluxos de trabalho interativos e corporativos.

A gpt-image-1.5 API é um endpoint de modelo de imagem multimodal que aceita uma ou mais entradas de imagem (identificadores de arquivo ou bytes) mais um prompt de texto e retorna imagens geradas ou editadas. Ela oferece suporte a:

Geração texto-para-imagem (criar a partir de prompt),
Edição de imagem / in-painting / composição (aplicar instruções a imagens existentes, múltiplas imagens de entrada permitidas), e
Fluxos de edição iterativos e multi-turn por meio da Responses API (permite interfaces de “ajustar e iterar”).

A API trata prompts de imagem de forma diferente em relação aos limites antigos do DALL·E: os modelos de imagem GPT aceitam prompts de texto significativamente mais longos (a diretriz de 32k caracteres), tornando viáveis instruções complexas e com muitas restrições.

Principais recursos (práticos)

Melhor editabilidade / consistência multi-turn: preserva a aparência do personagem, a iluminação e atributos visuais-chave ao longo de edições iterativas. Isso torna “mesmo modelo, edições repetidas” mais confiável para fluxos como catálogos de produtos ou ativos de marca.
Maior throughput — melhorias de velocidade de 4× em relação ao GPT Image 1, visando reduzir a latência em fluxos criativos iterativos.
Otimizações de custo — custos de entrada/saída de imagem reduzidos em cerca de 20% vs. GPT Image 1, reduzindo o custo por iteração de imagem para usuários de alto volume.
Composição multi-imagem e referência de estilo — aceita múltiplas imagens de referência para compor cenas ou transferir estilo/iluminação.
Controles de qualidade/fidelidade — parâmetros de API que equilibram velocidade versus fidelidade (use qualidade inferior para geração em massa; qualidade superior para ativos de produção).
Edição multi-turn / integração com a Responses API — permite fluxos de trabalho passo a passo (pedir alterações e depois “fazer ajustes” preservando o estado).

Capacidades técnicas

Limite de prompt de texto (modelos de imagem): até 32,000 caracteres (observação: a OpenAI documenta isso como a permissão de comprimento de texto para modelos de imagem GPT). Use isso para prompts longos e com muitas restrições.
Entradas de imagem: aceita IDs de arquivo (preferidos para fluxos multi-turn) ou bytes brutos; múltiplas imagens podem ser fornecidas para composição e referência.
Saídas: PNG/JPEG ou artefatos de imagem padrão da plataforma retornados pela API (ou como anexos dentro do ChatGPT). As saídas podem incluir várias imagens candidatas e suportar solicitações iterativas para refinar um resultado.
Modos de geração: texto-para-imagem, edição de imagem (inpaint/estender com instruções) e variantes. A edição multi-turn oferece suporte a instruções do tipo “adicionar/subtrair/combinar”.
Edição orientada por instruções: os modelos são otimizados para fidelidade às instruções (preservando invariantes especificados como “não alterar o logo”, “manter a pose e a iluminação”). Padrões de engenharia de prompts (invariantes explícitos repetidos a cada iteração) reduzem o desvio semântico.

Desempenho em benchmarks

Posicionamento no ranking: Um relatório agregado citou o GPT Image 1.5 liderando os rankings de texto-para-imagem com ~1264 pontos em um ranking da Artificial Analysis, à frente do próximo modelo por uma margem mensurável.
Métricas por tarefa (edição e preservação): um resumo da Microsoft Foundry de métricas de avaliação mostra o GPT-Image-1.5 alcançando sucesso de modificação binária quase perfeito (100% em um BinaryEval de uma única iteração) e fortes pontuações de preservação de rosto (cerca de 90% nas medidas AuraFace) em sua tabela de comparação versus concorrentes e modelos anteriores da OpenAI. Essas métricas comparativas colocam o GPT-Image-1.5 à frente de alguns rivais em preservação e fidelidade de edição.

GPT Image 1.5

Como o GPT-Image-1.5 se compara aos pares

Vs. GPT Image 1 (geração anterior da OpenAI): mais rápido (até 4×), mais barato (~20% menor custo de IO de imagem) e maior fidelidade de edição — voltado para migrar de “protótipo/demo” para fluxos de trabalho de imagem prontos para produção.
Vs. Nano Banana Pro / modelos de imagem Gemini do Google: GPT-Image-1.5 e a família Nano Banana Pro / Gemini 3 do Google como rivais próximos — cada um com pontos fortes em diferentes classes de prompt. A mensagem da OpenAI enfatiza a fidelidade de edição e a velocidade de iteração; a oferta do Google tem sido elogiada por realismo em nível de estúdio em alguns exemplos.
Vs. Qwen Image e outros modelos abertos/fechados: o GPT-Image-1.5 supera o Qwen Image em várias métricas de edição e preservação em avaliações de uma única iteração, mas as diferenças diminuem em fluxos multi-turn ou outros testes específicos de domínio.

Onde o GPT-Image-1.5 é forte

Imagens de produtos para e-commerce: variantes em massa, trocas de fundo, catálogos de produtos consistentes a partir de uma única foto (preservação de marca/logo).
Produção de ativos criativos e de marketing: iterações rápidas de conceito, mockups fotorrealistas, transferências de estilo controladas.
Retoque de fotos e fluxos editoriais: provas realistas de roupas/penteados, retoques seletivos que preservam identidade e iluminação.
Integração com ferramentas de design: plugue em plataformas de design ou CMS para variantes de imagem sob demanda (os controles de fidelidade ajudam no controle de custos).
Pipelines de composição em múltiplas etapas: entradas de múltiplas imagens permitem composição e geração baseada em referência para cenas complexas.

Como acessar a API GPT Image 1.5

Etapa 1: Inscreva-se para obter a chave de API

Faça login em cometapi.com. Se você ainda não é nosso usuário, registre-se primeiro. Acesse seu console CometAPI. Obtenha a credencial de acesso (chave de API) da interface. Clique em “Add Token” no token de API no centro pessoal, obtenha a chave do token: sk-xxxxx e envie.

Etapa 2: Envie solicitações para a API GPT Image 1.5

Selecione o endpoint “gpt-image-1.5” para enviar a solicitação de API e defina o corpo da solicitação. O método e o corpo da solicitação são obtidos na nossa documentação de API no site. Nosso site também fornece teste no Apifox para sua conveniência. Substitua <YOUR_API_KEY> pela sua chave CometAPI real da sua conta. A URL base é Images (https://api.cometapi.com/v1/images/generations) e [Edição de imagem]

Insira sua pergunta ou solicitação no campo de conteúdo — é isso que o modelo responderá. Processe a resposta da API para obter a resposta gerada.

Etapa 3: Recuperar e verificar os resultados

Processe a resposta da API para obter a resposta gerada. Após o processamento, a API responde com o status da tarefa e os dados de saída.

Veja também Gemini 3 Pro Preview API

GPT Image 1.5

O que é a API GPT-Image-1.5?

Principais recursos (práticos)

Capacidades técnicas

Desempenho em benchmarks

Como o GPT-Image-1.5 se compara aos pares

Onde o GPT-Image-1.5 é forte

Como acessar a API GPT Image 1.5

Etapa 1: Inscreva-se para obter a chave de API

Etapa 2: Envie solicitações para a API GPT Image 1.5

Etapa 3: Recuperar e verificar os resultados

FAQ

How fast is GPT Image 1.5 compared to GPT Image 1?

Does GPT Image 1.5 support multi-turn conversational editing?

What resolutions and quality settings does GPT Image 1.5 support?

Can GPT Image 1.5 use multiple reference images for compositing?

How does GPT Image 1.5 compare to Google's Nano Banana Pro?

Does GPT Image 1.5 support transparent backgrounds?

What is the maximum text prompt length for GPT Image 1.5?

Recursos para GPT Image 1.5

Preços para GPT Image 1.5

Código de exemplo e API para GPT Image 1.5

Versões do GPT Image 1.5

Mais modelos

version
gpt-image-1.5
gpt-image-1.5-2025-12-16