OpenAI's API GPT-Image-1 é um modelo de geração de imagens multimodais de última geração que permite que desenvolvedores e empresas integrem recursos avançados de criação de imagens em seus aplicativos. Esta API permite a geração de imagens de alta qualidade a partir de prompts textuais, suportando diversos estilos e renderização precisa de conteúdo.
Principais recursos do GPT-Image-1
O GPT-Image-1 foi projetado para gerar imagens de alta qualidade a partir de prompts textuais, oferecendo aos usuários a capacidade de criar visuais em diversos estilos e formatos. Os principais recursos incluem:
- Integração Multimodal: O GPT-Image-1 foi projetado para processar e gerar dados textuais e visuais de forma integrada. Essa integração multimodal permite interações mais dinâmicas, permitindo que os usuários insiram prompts que combinam texto e imagens para produzir resultados coerentes e contextualmente relevantes.
- Adesão rápida personalizada: Interpreta e visualiza com precisão os prompts definidos pelo usuário, garantindo o alinhamento com os requisitos especificados.
- Incorporação do Conhecimento Mundial: Utiliza dados de treinamento extensivos para incorporar compreensão contextual e conhecimento do mundo real em imagens geradas.
- Capacidade de renderização de texto: Integra efetivamente elementos textuais em imagens, mantendo a legibilidade e a consistência estilística.
- Raciocínio visual aprimorado: Com base nas capacidades de seus antecessores, o GPT-Image-1 apresenta raciocínio visual aprimorado. Ele pode interpretar cenas complexas, compreender relações espaciais e gerar imagens que se alinham perfeitamente com as descrições textuais fornecidas.
- Geração de imagens de alta fidelidade: O modelo é capaz de produzir imagens de alta resolução com detalhes e precisão notáveis. Esse recurso é particularmente benéfico para aplicações que exigem resultados fotorrealistas ou elementos de design complexos.
Esses recursos coletivamente capacitam os usuários a gerar imagens que não são apenas visualmente atraentes, mas também contextualmente significativas, atendendo a um amplo espectro de necessidades criativas e profissionais.
Arquitetura Técnica
Fundação em GPT-4o
O GPT-Image-1 é baseado na estrutura GPT-4o, conhecida por seu desempenho robusto em tarefas de linguagem e visão. Essa base fornece ao GPT-Image-1 uma base sólida para lidar com entradas multimodais complexas e gerar saídas de alta qualidade.
Geração de imagem autorregressiva
Diferentemente dos modelos baseados em difusão, o GPT-Image-1 emprega uma abordagem autorregressiva para a geração de imagens. Esse método permite que o modelo gere imagens sequencialmente, garantindo consistência e coerência nos resultados visuais.
Tokenização e Processamento de Dados
O modelo utiliza técnicas avançadas de tokenização para processar e compreender dados de entrada de forma eficaz. Isso inclui a capacidade de interpretar e gerar texto dentro de imagens, aumentando sua utilidade em aplicações como análise de documentos e criação de conteúdo.
Especificações técnicas
Entrada e saída
- Entrada: Instruções de texto e entradas de imagem opcionais.
- saída: Imagens geradas com base nos prompts fornecidos.
Suporte para Resolução
O GPT-Image-1 suporta geração de imagens de alta resolução, incluindo dimensões como 1024×1024, 1024×1536 e 1536×1024 pixels.
Segurança e Moderação
A API incorpora medidas de segurança robustas, incluindo:
- Filtragem de conteúdo:Os desenvolvedores podem definir o
moderationparâmetro paraauto(padrão) para filtragem padrão oulowpara filtragem menos restritiva. - Metadados C2PA:Todas as imagens geradas incluem metadados C2PA, permitindo que as plataformas identifiquem conteúdo gerado por IA.
Avaliação de desempenho e benchmarking
Avaliação da qualidade da imagem
Na avaliação da qualidade de imagem, o GPT-Image-1 obteve uma pontuação média de 9.1 pontos (de 10), significativamente superior a outros modelos convencionais. Apresenta bom desempenho em termos de nitidez de imagem, reprodução de cores e detalhes.
Velocidade e eficiência de geração
Ao gerar imagens com resolução de 256×256, o tempo médio de geração do GPT-Image-1 é de 6.1 segundos, superior ao de modelos similares. Além disso, sua eficiência de geração em resoluções mais altas também é excelente, atendendo às necessidades de geração em tempo real.
Métricas de Desempenho
O GPT-Image-1 alcançou taxas de precisão impressionantes na geração de imagens em diferentes classes e condições. Por exemplo, demonstrou uma taxa de precisão de 93% na geração de imagens de gatos, 91% para paisagens e 94% para cenas noturnas. Além disso, o modelo demonstrou desempenho superior em tarefas de transferência de estilo, superando outros modelos como GAN e PixelCNN.
Como ligar GPT-Image-1 API da CometAPI
GPT-Image-1 Preços da API no CometAPI, 20% de desconto sobre o preço oficial:
- Tokens de entrada: $ 8 / M tokens
- Tokens de saída: US$ 32/M tokens
Etapas Necessárias
- Faça o login no cometapi.com. Se você ainda não é nosso usuário, registre-se primeiro
- Obtenha a chave de API da credencial de acesso da interface. Clique em "Adicionar Token" no token da API no centro pessoal, obtenha a chave de token: sk-xxxxx e envie.
- Obtenha a URL deste site: https://api.cometapi.com/
Métodos de uso
- Selecione a opção "
GPT-Image-1” endpoint para enviar a solicitação de API e definir o corpo da solicitação. O método e o corpo da solicitação são obtidos da documentação da API do nosso site. Nosso site também oferece o teste Apifox para sua conveniência. - Substituir com sua chave CometAPI real da sua conta.
- Insira sua pergunta ou solicitação no campo de conteúdo — é a isso que o modelo responderá.
- . Processe a resposta da API para obter a resposta gerada.
Para obter informações sobre o modelo lançado na API Comet, consulte Guia de API (nome do modelo: gpt-image-1)
Para obter informações sobre o preço do modelo na API Comet, consulte https://api.cometapi.com/pricing.
Uso de API
O OpenAI fornece acesso ao GPT-Image-1 por meio de sua API de imagens, permitindo que os desenvolvedores integrem recursos de geração de imagens em seus aplicativos.
- Gerar imagem: Este modelo segue o formato openai v1/images/generations para chamadas,
veja detalhes em: https://apidoc.cometapi.com/images-api-13851474.
url: https://api.cometapi.com/v1/images/generations
Um exemplo de uso da API é o seguinte:
import requests
url = "https://api.cometapi.com/v1/images/generations"
headers = {
"Authorization": "Bearer YOUR_API_KEY",
"Content-Type": "application/json"
}
payload = {
"model": "gpt-image-1",
"prompt": "A billboard in a city square that reads 'Welcome to the Future'",
"n": 1,
"size": "1024x1024"
}
response = requests.post(url, headers=headers, json=payload)
image_url = response.json()
print("Generated Image with Text URL:", image_url)
Este script cria uma imagem com o texto especificado dentro da cena.
- Editar imagem: Este modelo segue o formato openai v1/images/edits para chamadas,
veja detalhes em: Edição de imagem (gpt-image-1).
url: https://api.cometapi.com/v1/images/edits
Se você tiver alguma dúvida sobre a chamada ou tiver alguma sugestão para nós, entre em contato conosco pelas redes sociais e pelo endereço de e-mail support@cometapi.com.
Veja também Quanto custa o GPT-Image-1?



