O

GPT Image 1.5

Entrada:$6.4/M
Saída:$25.6/M
GPT-Image-1.5 é o modelo de imagem da OpenAI na família GPT Image. É um modelo GPT nativamente multimodal, projetado para gerar imagens a partir de prompts de texto e realizar edições de alta fidelidade em imagens de entrada, seguindo de perto as instruções do usuário.
Novo
Uso comercial

O que é a API GPT-Image-1.5?

GPT-Image-1.5 é o mais novo membro da família GPT Image da OpenAI e o modelo por trás da experiência de Images reformulada do ChatGPT. Foi projetado para levar a geração de imagens de experimentos de novidade para ferramentas criativas em nível de produção: maior fotorrealismo, controle mais fino para edições iterativas e inferência mais rápida para dar suporte a fluxos de trabalho interativos e corporativos.

A gpt-image-1.5 API é um endpoint de modelo de imagem multimodal que aceita uma ou mais entradas de imagem (identificadores de arquivo ou bytes) mais um prompt de texto e retorna imagens geradas ou editadas. Ela oferece suporte a:

  • Geração texto-para-imagem (criar a partir de prompt),
  • Edição de imagem / in-painting / composição (aplicar instruções a imagens existentes, múltiplas imagens de entrada permitidas), e
  • Fluxos de edição iterativos e multi-turn por meio da Responses API (permite interfaces de “ajustar e iterar”).

A API trata prompts de imagem de forma diferente em relação aos limites antigos do DALL·E: os modelos de imagem GPT aceitam prompts de texto significativamente mais longos (a diretriz de 32k caracteres), tornando viáveis instruções complexas e com muitas restrições.

Principais recursos (práticos)

  • Melhor editabilidade / consistência multi-turn: preserva a aparência do personagem, a iluminação e atributos visuais-chave ao longo de edições iterativas. Isso torna “mesmo modelo, edições repetidas” mais confiável para fluxos como catálogos de produtos ou ativos de marca.
  • Maior throughput — melhorias de velocidade de em relação ao GPT Image 1, visando reduzir a latência em fluxos criativos iterativos.
  • Otimizações de custo — custos de entrada/saída de imagem reduzidos em cerca de 20% vs. GPT Image 1, reduzindo o custo por iteração de imagem para usuários de alto volume.
  • Composição multi-imagem e referência de estilo — aceita múltiplas imagens de referência para compor cenas ou transferir estilo/iluminação.
  • Controles de qualidade/fidelidade — parâmetros de API que equilibram velocidade versus fidelidade (use qualidade inferior para geração em massa; qualidade superior para ativos de produção).
  • Edição multi-turn / integração com a Responses API — permite fluxos de trabalho passo a passo (pedir alterações e depois “fazer ajustes” preservando o estado).

Capacidades técnicas

  • Limite de prompt de texto (modelos de imagem): até 32,000 caracteres (observação: a OpenAI documenta isso como a permissão de comprimento de texto para modelos de imagem GPT). Use isso para prompts longos e com muitas restrições.
  • Entradas de imagem: aceita IDs de arquivo (preferidos para fluxos multi-turn) ou bytes brutos; múltiplas imagens podem ser fornecidas para composição e referência.
  • Saídas: PNG/JPEG ou artefatos de imagem padrão da plataforma retornados pela API (ou como anexos dentro do ChatGPT). As saídas podem incluir várias imagens candidatas e suportar solicitações iterativas para refinar um resultado.
  • Modos de geração: texto-para-imagem, edição de imagem (inpaint/estender com instruções) e variantes. A edição multi-turn oferece suporte a instruções do tipo “adicionar/subtrair/combinar”.
  • Edição orientada por instruções: os modelos são otimizados para fidelidade às instruções (preservando invariantes especificados como “não alterar o logo”, “manter a pose e a iluminação”). Padrões de engenharia de prompts (invariantes explícitos repetidos a cada iteração) reduzem o desvio semântico.

Desempenho em benchmarks

  • Posicionamento no ranking: Um relatório agregado citou o GPT Image 1.5 liderando os rankings de texto-para-imagem com ~1264 pontos em um ranking da Artificial Analysis, à frente do próximo modelo por uma margem mensurável.
  • Métricas por tarefa (edição e preservação): um resumo da Microsoft Foundry de métricas de avaliação mostra o GPT-Image-1.5 alcançando sucesso de modificação binária quase perfeito (100% em um BinaryEval de uma única iteração) e fortes pontuações de preservação de rosto (cerca de 90% nas medidas AuraFace) em sua tabela de comparação versus concorrentes e modelos anteriores da OpenAI. Essas métricas comparativas colocam o GPT-Image-1.5 à frente de alguns rivais em preservação e fidelidade de edição.

GPT Image 1.5

Como o GPT-Image-1.5 se compara aos pares

  • Vs. GPT Image 1 (geração anterior da OpenAI): mais rápido (até 4×), mais barato (~20% menor custo de IO de imagem) e maior fidelidade de edição — voltado para migrar de “protótipo/demo” para fluxos de trabalho de imagem prontos para produção.
  • Vs. Nano Banana Pro / modelos de imagem Gemini do Google: GPT-Image-1.5 e a família Nano Banana Pro / Gemini 3 do Google como rivais próximos — cada um com pontos fortes em diferentes classes de prompt. A mensagem da OpenAI enfatiza a fidelidade de edição e a velocidade de iteração; a oferta do Google tem sido elogiada por realismo em nível de estúdio em alguns exemplos.
  • Vs. Qwen Image e outros modelos abertos/fechados: o GPT-Image-1.5 supera o Qwen Image em várias métricas de edição e preservação em avaliações de uma única iteração, mas as diferenças diminuem em fluxos multi-turn ou outros testes específicos de domínio.

Onde o GPT-Image-1.5 é forte

  • Imagens de produtos para e-commerce: variantes em massa, trocas de fundo, catálogos de produtos consistentes a partir de uma única foto (preservação de marca/logo).
  • Produção de ativos criativos e de marketing: iterações rápidas de conceito, mockups fotorrealistas, transferências de estilo controladas.
  • Retoque de fotos e fluxos editoriais: provas realistas de roupas/penteados, retoques seletivos que preservam identidade e iluminação.
  • Integração com ferramentas de design: plugue em plataformas de design ou CMS para variantes de imagem sob demanda (os controles de fidelidade ajudam no controle de custos).
  • Pipelines de composição em múltiplas etapas: entradas de múltiplas imagens permitem composição e geração baseada em referência para cenas complexas.

Como acessar a API GPT Image 1.5

Etapa 1: Inscreva-se para obter a chave de API

Faça login em cometapi.com. Se você ainda não é nosso usuário, registre-se primeiro. Acesse seu console CometAPI. Obtenha a credencial de acesso (chave de API) da interface. Clique em “Add Token” no token de API no centro pessoal, obtenha a chave do token: sk-xxxxx e envie.

Etapa 2: Envie solicitações para a API GPT Image 1.5

Selecione o endpoint “gpt-image-1.5” para enviar a solicitação de API e defina o corpo da solicitação. O método e o corpo da solicitação são obtidos na nossa documentação de API no site. Nosso site também fornece teste no Apifox para sua conveniência. Substitua <YOUR_API_KEY> pela sua chave CometAPI real da sua conta. A URL base é Images (https://api.cometapi.com/v1/images/generations) e [Edição de imagem]

Insira sua pergunta ou solicitação no campo de conteúdo — é isso que o modelo responderá. Processe a resposta da API para obter a resposta gerada.

Etapa 3: Recuperar e verificar os resultados

Processe a resposta da API para obter a resposta gerada. Após o processamento, a API responde com o status da tarefa e os dados de saída.

Veja também Gemini 3 Pro Preview API

FAQ

Mais modelos