O que é a API GPT-Image-1.5?
GPT-Image-1.5 é o mais novo membro da família GPT Image da OpenAI e o modelo por trás da experiência de Images reformulada do ChatGPT. Foi projetado para levar a geração de imagens de experimentos de novidade para ferramentas criativas em nível de produção: maior fotorrealismo, controle mais fino para edições iterativas e inferência mais rápida para dar suporte a fluxos de trabalho interativos e corporativos.
A gpt-image-1.5 API é um endpoint de modelo de imagem multimodal que aceita uma ou mais entradas de imagem (identificadores de arquivo ou bytes) mais um prompt de texto e retorna imagens geradas ou editadas. Ela oferece suporte a:
- Geração texto-para-imagem (criar a partir de prompt),
- Edição de imagem / in-painting / composição (aplicar instruções a imagens existentes, múltiplas imagens de entrada permitidas), e
- Fluxos de edição iterativos e multi-turn por meio da Responses API (permite interfaces de “ajustar e iterar”).
A API trata prompts de imagem de forma diferente em relação aos limites antigos do DALL·E: os modelos de imagem GPT aceitam prompts de texto significativamente mais longos (a diretriz de 32k caracteres), tornando viáveis instruções complexas e com muitas restrições.
Principais recursos (práticos)
- Melhor editabilidade / consistência multi-turn: preserva a aparência do personagem, a iluminação e atributos visuais-chave ao longo de edições iterativas. Isso torna “mesmo modelo, edições repetidas” mais confiável para fluxos como catálogos de produtos ou ativos de marca.
- Maior throughput — melhorias de velocidade de 4× em relação ao GPT Image 1, visando reduzir a latência em fluxos criativos iterativos.
- Otimizações de custo — custos de entrada/saída de imagem reduzidos em cerca de 20% vs. GPT Image 1, reduzindo o custo por iteração de imagem para usuários de alto volume.
- Composição multi-imagem e referência de estilo — aceita múltiplas imagens de referência para compor cenas ou transferir estilo/iluminação.
- Controles de qualidade/fidelidade — parâmetros de API que equilibram velocidade versus fidelidade (use qualidade inferior para geração em massa; qualidade superior para ativos de produção).
- Edição multi-turn / integração com a Responses API — permite fluxos de trabalho passo a passo (pedir alterações e depois “fazer ajustes” preservando o estado).
Capacidades técnicas
- Limite de prompt de texto (modelos de imagem): até 32,000 caracteres (observação: a OpenAI documenta isso como a permissão de comprimento de texto para modelos de imagem GPT). Use isso para prompts longos e com muitas restrições.
- Entradas de imagem: aceita IDs de arquivo (preferidos para fluxos multi-turn) ou bytes brutos; múltiplas imagens podem ser fornecidas para composição e referência.
- Saídas: PNG/JPEG ou artefatos de imagem padrão da plataforma retornados pela API (ou como anexos dentro do ChatGPT). As saídas podem incluir várias imagens candidatas e suportar solicitações iterativas para refinar um resultado.
- Modos de geração: texto-para-imagem, edição de imagem (inpaint/estender com instruções) e variantes. A edição multi-turn oferece suporte a instruções do tipo “adicionar/subtrair/combinar”.
- Edição orientada por instruções: os modelos são otimizados para fidelidade às instruções (preservando invariantes especificados como “não alterar o logo”, “manter a pose e a iluminação”). Padrões de engenharia de prompts (invariantes explícitos repetidos a cada iteração) reduzem o desvio semântico.
Desempenho em benchmarks
- Posicionamento no ranking: Um relatório agregado citou o GPT Image 1.5 liderando os rankings de texto-para-imagem com ~1264 pontos em um ranking da Artificial Analysis, à frente do próximo modelo por uma margem mensurável.
- Métricas por tarefa (edição e preservação): um resumo da Microsoft Foundry de métricas de avaliação mostra o GPT-Image-1.5 alcançando sucesso de modificação binária quase perfeito (100% em um BinaryEval de uma única iteração) e fortes pontuações de preservação de rosto (cerca de 90% nas medidas AuraFace) em sua tabela de comparação versus concorrentes e modelos anteriores da OpenAI. Essas métricas comparativas colocam o GPT-Image-1.5 à frente de alguns rivais em preservação e fidelidade de edição.

Como o GPT-Image-1.5 se compara aos pares
- Vs. GPT Image 1 (geração anterior da OpenAI): mais rápido (até 4×), mais barato (~20% menor custo de IO de imagem) e maior fidelidade de edição — voltado para migrar de “protótipo/demo” para fluxos de trabalho de imagem prontos para produção.
- Vs. Nano Banana Pro / modelos de imagem Gemini do Google: GPT-Image-1.5 e a família Nano Banana Pro / Gemini 3 do Google como rivais próximos — cada um com pontos fortes em diferentes classes de prompt. A mensagem da OpenAI enfatiza a fidelidade de edição e a velocidade de iteração; a oferta do Google tem sido elogiada por realismo em nível de estúdio em alguns exemplos.
- Vs. Qwen Image e outros modelos abertos/fechados: o GPT-Image-1.5 supera o Qwen Image em várias métricas de edição e preservação em avaliações de uma única iteração, mas as diferenças diminuem em fluxos multi-turn ou outros testes específicos de domínio.
Onde o GPT-Image-1.5 é forte
- Imagens de produtos para e-commerce: variantes em massa, trocas de fundo, catálogos de produtos consistentes a partir de uma única foto (preservação de marca/logo).
- Produção de ativos criativos e de marketing: iterações rápidas de conceito, mockups fotorrealistas, transferências de estilo controladas.
- Retoque de fotos e fluxos editoriais: provas realistas de roupas/penteados, retoques seletivos que preservam identidade e iluminação.
- Integração com ferramentas de design: plugue em plataformas de design ou CMS para variantes de imagem sob demanda (os controles de fidelidade ajudam no controle de custos).
- Pipelines de composição em múltiplas etapas: entradas de múltiplas imagens permitem composição e geração baseada em referência para cenas complexas.
Como acessar a API GPT Image 1.5
Etapa 1: Inscreva-se para obter a chave de API
Faça login em cometapi.com. Se você ainda não é nosso usuário, registre-se primeiro. Acesse seu console CometAPI. Obtenha a credencial de acesso (chave de API) da interface. Clique em “Add Token” no token de API no centro pessoal, obtenha a chave do token: sk-xxxxx e envie.
Etapa 2: Envie solicitações para a API GPT Image 1.5
Selecione o endpoint “gpt-image-1.5” para enviar a solicitação de API e defina o corpo da solicitação. O método e o corpo da solicitação são obtidos na nossa documentação de API no site. Nosso site também fornece teste no Apifox para sua conveniência. Substitua <YOUR_API_KEY> pela sua chave CometAPI real da sua conta. A URL base é Images (https://api.cometapi.com/v1/images/generations) e [Edição de imagem]
Insira sua pergunta ou solicitação no campo de conteúdo — é isso que o modelo responderá. Processe a resposta da API para obter a resposta gerada.
Etapa 3: Recuperar e verificar os resultados
Processe a resposta da API para obter a resposta gerada. Após o processamento, a API responde com o status da tarefa e os dados de saída.
Veja também Gemini 3 Pro Preview API