O que é a API GPT-Image-1.5?
GPT-Image-1.5 é o membro mais novo da família GPT Image da OpenAI e o modelo por trás da experiência Images renovada do ChatGPT. Ele foi projetado para levar a geração de imagens de experimentos curiosos para ferramentas criativas de nível de produção: maior fotorrealismo, controle mais refinado para edições iterativas e inferência mais rápida para oferecer suporte a fluxos de trabalho interativos e empresariais.
A API gpt-image-1.5 é um endpoint de modelo de imagem multimodal que aceita uma ou mais entradas de imagem (identificadores de arquivo ou bytes) mais um prompt de texto e retorna imagens geradas ou imagens editadas. Ela oferece suporte a:
- Geração de texto para imagem (criar a partir de prompt),
- Edição de imagem / inpainting / composição (aplicar instruções a imagens existentes, com várias entradas de imagem permitidas), e
- Fluxos de trabalho iterativos de edição em múltiplos turnos por meio da Responses API (permite interfaces de “ajustar e iterar”).
A API trata prompts de imagem de forma diferente dos antigos limites do DALL·E: os modelos de imagem GPT aceitam prompts de texto significativamente mais longos (a diretriz de 32 mil caracteres), tornando viáveis instruções complexas e cheias de restrições.
Principais recursos (na prática)
- Editabilidade aprimorada / consistência em múltiplos turnos: preserva a aparência do personagem, a iluminação e os principais atributos visuais ao longo de edições iterativas. Isso torna “o mesmo modelo, edições repetidas” mais confiável para fluxos de trabalho como catálogos de produtos ou ativos de marca.
- Maior velocidade de processamento — melhorias de velocidade de 4× em relação ao GPT Image 1, com o objetivo de reduzir a latência em fluxos de trabalho criativos iterativos.
- Otimizações de custo — custos de entrada/saída de imagem reduzidos em cerca de 20% em comparação com o GPT Image 1, reduzindo o custo por iteração de imagem para usuários de alto volume.
- Composição com múltiplas imagens e referência de estilo — aceita várias imagens de referência para compor cenas ou transferir estilo/iluminação.
- Controles de qualidade/fidelidade — parâmetros de API que equilibram velocidade e fidelidade (use qualidade mais baixa para geração em massa; qualidade mais alta para ativos de produção).
- Edição em múltiplos turnos / integração com a Responses API — permite fluxos de trabalho em etapas (pedir alterações e depois “fazer ajustes” preservando o estado).
Capacidades técnicas
- Limite de prompt de texto (modelos de imagem): até 32.000 caracteres (observe que a OpenAI documenta isso como o limite de comprimento de texto para modelos de imagem GPT). Use isso para prompts longos e cheios de restrições.
- Entradas de imagem: aceita IDs de arquivo (preferidos para fluxos em múltiplos turnos) ou bytes brutos; várias imagens podem ser fornecidas para composição e referência.
- Saídas: PNG/JPEG ou artefatos de imagem padrão da plataforma retornados pela API (ou como anexos no ChatGPT). As saídas podem incluir várias imagens candidatas e oferecem suporte a solicitações iterativas para refinar um resultado.
- Modos de geração: texto para imagem, edição de imagem (inpaint/expandir com instruções) e variantes. A edição em múltiplos turnos oferece suporte a instruções do tipo “adicionar/subtrair/combinar”.
- Edição sensível a instruções: os modelos são otimizados para fidelidade às instruções (preservando invariantes especificadas, como “não altere o logotipo”, “mantenha a pose e a iluminação”). Padrões de prompt engineering (invariantes explícitas repetidas em cada iteração) reduzem a deriva semântica.
Desempenho em benchmarks
- Posição em leaderboard: um relatório agregado citou o GPT Image 1.5 como líder nos rankings de texto para imagem com ~1264 pontos em um leaderboard da Artificial Analysis, à frente do próximo modelo por uma margem mensurável.
- Métricas em nível de tarefa (edição e preservação): um resumo de métricas de avaliação do Microsoft Foundry mostra o GPT-Image-1.5 alcançando sucesso quase perfeito em modificação binária (100% em um BinaryEval de turno único) e fortes pontuações de preservação facial (cerca de 90% nas métricas AuraFace) em sua tabela comparativa em relação a concorrentes e modelos anteriores da OpenAI. Essas métricas comparativas colocam o GPT-Image-1.5 à frente de alguns rivais em preservação e fidelidade de edição.

Como o GPT-Image-1.5 se compara aos concorrentes
- Vs. GPT Image 1 (geração anterior da OpenAI): mais rápido (até 4×), mais barato (custo de E/S de imagem ~20% menor) e com fidelidade de edição superior — voltado para levar os fluxos de trabalho com imagem de “protótipo/demo” a um nível “amigável para produção”.
- Vs. Nano Banana Pro / modelos de imagem Gemini do Google: GPT-Image-1.5 e Nano Banana Pro / família Gemini 3 do Google são rivais próximos — cada um tem pontos fortes em diferentes classes de prompt. A mensagem da OpenAI enfatiza fidelidade de edição e velocidade de iteração; a oferta do Google foi elogiada pelo realismo de nível de estúdio em alguns exemplos.
- Vs. Qwen Image e outros modelos abertos/fechados: o GPT-Image-1.5 supera o Qwen Image em várias métricas de edição e preservação em avaliações de turno único, mas as diferenças diminuem em testes de múltiplos turnos ou outros testes específicos de domínio.
Onde o GPT-Image-1.5 se destaca
- Imagem de produtos para e-commerce: variantes em massa, troca de fundo, catálogos de produtos consistentes a partir de uma única foto (preservação de marca/logotipo).
- Produção de ativos criativos e de marketing: iterações rápidas de conceito, mockups fotorrealistas, transferências de estilo controladas.
- Retoque fotográfico e fluxos editoriais: testes realistas de roupas/penteados, retoque seletivo que preserva identidade e iluminação.
- Integração com ferramentas de design: conecte-se a plataformas de design ou CMS para variantes de imagem sob demanda (os controles de fidelidade ajudam no controle de custos).
- Pipelines de composição em várias etapas: entradas com múltiplas imagens permitem composição e geração baseada em referência para cenas complexas.
Como acessar a API GPT Image 1.5
Etapa 1: Cadastre-se para obter uma chave de API
Faça login em cometapi.com. Se você ainda não for nosso usuário, registre-se primeiro. Entre no seu console do CometAPI. Obtenha a credencial de acesso, a chave de API da interface. Clique em “Add Token” na seção de token de API na central pessoal, obtenha a chave do token: sk-xxxxx e envie.
Etapa 2: Envie solicitações para a API GPT Image 1.5
Selecione o endpoint “gpt-image-1.5” para enviar a solicitação de API e defina o corpo da solicitação. O método de solicitação e o corpo da solicitação podem ser obtidos na documentação da API em nosso site. Nosso site também fornece teste via Apifox para sua conveniência. Substitua <YOUR_API_KEY> pela sua chave real do CometAPI da sua conta. A base url é Images (https://api.cometapi.com/v1/images/generations) e [Image Editing]
Insira sua pergunta ou solicitação no campo de conteúdo — é isso ao que o modelo responderá. Processe a resposta da API para obter a resposta gerada.
Etapa 3: Recupere e verifique os resultados
Processe a resposta da API para obter a resposta gerada. Após o processamento, a API responde com o status da tarefa e os dados de saída.
Veja também Gemini 3 Pro Preview API