API de imagem Gemini 3 Pro (Nano Banana Pro)

Google Nano Banana Pro (ID oficial do modelo) gemini-3-pro-image-preview) é a variante de geração/edição de imagens do Gemini 3 Pro. É um modelo de imagem de nível profissional com estágio de pré-visualização que adiciona saída 2K/4K e composição de múltiplas imagens de alta fidelidade (até 1000x1000). 14 imagens de referência, consistência de caracteres para até pessoas 5), renderização de texto em imagem mais robusta e fundamentação da pesquisa em fatos do mundo real.

características básicas

Texto → ImagemGeração totalmente orientada por instruções, com forte adesão a elas.
**Imagem → Imagem (edições)**Edições precisas e direcionadas, mantendo a consistência do tema/personagem em todas as edições.
Resolução máxima de saída: até 4K (Os exemplos e os tamanhos de pixel exatos suportados dependem da proporção da tela; a API expõe predefinições de 1K/2K/4K)
Planejamento iterativo e autocorreção: um sistema interno de processamento em "múltiplas etapas" que detecta e corrige erros visuais comuns (perspectiva, texto, geometria fina).
Renderização avançada de texto em imagensTexto multilíngue claro e legível (de legendas curtas a parágrafos longos), adequado para pôsteres, maquetes e infográficos.
5 caracteres e fidelidade por até 14 objetos/imagens de referência em um único fluxo de trabalho.
Marca d'água / procedência: Todas as imagens geradas incluem uma marca d'água SynthID; o modelo incorpora metadados C2PA para rastreabilidade em algumas integrações de produtos.

Versões e nomenclatura de imagens do Gemini 3 Pro

gemini-3-pro-image-preview
gemini-3-pro-image

Detalhes técnicos

Plataforma

Linhagem/espinha dorsalO Nano Banana Pro será construído com base na pilha de imagens Gemini do Google, em constante evolução — especificamente na nova Gemini 3 Pro Image / GEMPIX 2 arquitetura (uma estrutura multimodal de imagem e texto de maior capacidade). Isso é uma evolução de Imagem Flash Gemini 2.5 (a “nano-banana” original) em um modelo de imagem nativamente multimodal com capacidades expandidas de raciocínio visual-linguístico.
Comportamento do modeloMultimodalidade nativa (imagem + texto + conhecimento do mundo), fluxos de trabalho explícitos para fusão de múltiplas imagens e um planejador interno em etapas que refina as saídas em múltiplas passagens, em vez de produzir uma única amostra estática. Os primeiros relatos indicam um raciocínio geométrico/óptico mais robusto (vidro, refração) em comparação com versões anteriores.
Pensamento / refinamento internoO modelo utiliza um processo de "pensamento" visível internamente para refinar a composição (a API documenta esse comportamento e observa que essas etapas internas não são cobradas como tokens de imagem finais).
Aterramento e ferramentas: Apoia Pesquisa de aterramento (Pode incorporar informações da web na geração de diagramas/infográficos). Também oferece suporte a instruções do sistema para um controle mais determinístico.

Parâmetros principais da API:

thinking_level (Baixa / alta) para equilibrar latência e profundidade de raciocínio;
media_resolution (baixo/médio/alto) para controlar os tokens de OCR/leitura de detalhes da imagem;
generationConfig.imageConfig Para controlar a proporção/resolução nas imagens de saída.

Limites de imagens:

Modalidades de entrada suportadas: Texto e imagens (o modelo não aceita áudio ou vídeo como entradas para geração de imagens).
Número máximo de imagens por solicitação: 14 (para a pré-visualização da imagem do Gemini 3 Pro).
Tamanho máximo da imagem (upload): 7 MB por imagem de entrada.
Proporções de aspecto suportadas: 1:1, 3:2, 16:9, 9:16, 21:9, etc.

Imagens/tokens de saída: Altas limitações, com suporte para 4K/4096px.

Desempenho de referência

Pequeno resumo: Os benchmarks públicos/iniciais até o momento são em sua maioria qualitativos/orientados pela comunidade, mas relatam consistentemente melhorias substanciais em resolução, redução de artefatos e fidelidade física em comparação com a nano-banana original (imagem Flash Gemini 2.5). "Desafios" específicos demonstraram ganhos visuais claros, mas ainda não existem tabelas de benchmarks numéricos padronizadas (públicas) do Google comparando a v1 com a v2 em métricas padrão de geração de imagens.

Testes qualitativos comunitáriosBordas mais nítidas, microdetalhes mais precisos, cores mais fiéis e maior fidelidade aos comandos (menos adereços distorcidos, personagens mais consistentes). Testes informais populares incluem o chamado "Teste da Taça de Vinho" e o "Desafio do Hambúrguer de Vidro", onde o GEMPIX2 (Nano Banana Pro) lida com transparência e refração de forma notavelmente melhor do que as versões anteriores.
Manipulação de textoO Nano Banana Pro apresenta tipografia e posicionamento de texto visivelmente aprimorados dentro das imagens (uma deficiência persistente em muitos modelos de imagem). Comparações da comunidade indicam menos glifos renderizados distorcidos.
Taxa de transferência / Experiência do usuárioVelocidade de iteração mais rápida e uma experiência do usuário que realiza refinamento em várias etapas no back-end, para que os usuários vejam resultados mais confiáveis na primeira tentativa (reduzindo as revisões manuais).

Limitações e riscos

Filtros e detecção de conteúdoPlataformas que integram o modelo (por exemplo, Whisk/aplicativos de terceiros) podem ativar a detecção rigorosa de celebridades ou semelhanças e bloquear determinadas saídas, o que afeta fluxos de trabalho criativos que dependem de representações realistas de celebridades.
Alucinação / casos extremos de raciocínioEmbora aprimorado, o modelo ainda pode produzir artefatos fisicamente irreais, especialmente com texto simbólico denso dentro de imagens ou diagramas altamente técnicos — embora o NB2 pareça reduzir esses erros em comparação com as versões anteriores.
Segurança e uso indevido: Os modelos de imagem generativos podem ser usados para criar conteúdo problemático ou prejudicial. O Google aplica restrições, filtros de conteúdo e a marca d'água SynthID para ajudar na rastreabilidade; no entanto, o uso indevido já ocorreu (uma controvérsia de grande repercussão relacionada a uma imagem gerada por um Nano Banana em um contexto politicamente sensível).

Como o Nano Banana Pro se compara a outros modelos?

Nano Banana Pro (Imagem GEMPIX 2 / Gemini 3 Pro) — Forte integração com dispositivos móveis, fusão de múltiplas imagens, autocorreção iterativa, resolução nativa 2K/upscaling para 4K, totalmente integrada aos aplicativos do Google (Busca, Fotos, Workspace/Gemini). Ideal para fluxos de trabalho que exigem edições confiáveis, continuidade e integração com os serviços do Google.
Meio da jornada — Destaca-se em produções artísticas estilizadas e engenharia de prompts orientada pela comunidade; geralmente não é voltado para fusão de múltiplas imagens com precisão fotográfica ou fluxos de trabalho de edição multimodal complexos.
Difusão estável / pesos abertos — Totalmente aberto, altamente personalizável e hospedável localmente; o ecossistema de pontos de verificação e ajustes finos é uma vantagem decisiva para pesquisa e uso offline. Menos integração móvel "com um clique" e menos coerência na edição de múltiplas imagens logo de início do que o Nano Banana Pro.
Seedream 4.0 (ByteDance) — recentemente posicionada explicitamente como concorrente da Nano Banana, enfatizando a renderização ultrarrápida, saída em 2K e suporte para várias imagens de referência (até seis). Posicionada como uma alternativa para profissionais e criadores.

(Estas comparações são de alto nível; escolha a melhor opção de acordo com o seu fluxo de trabalho: abertura/personalização → Stable Diffusion; arte estilizada → Midjourney; edição móvel integrada e consistente com iteração agressiva → Nano Banana Pro/família de imagens Gemini 3 Pro.)

Casos de uso do mundo real

Edição de fotos em dispositivos móveis e filtros criativos (Integrações do Google Fotos – restyling, fusão de fundo, recomposição de retratos).
Materiais de marketing e publicidade — Geração rápida de conceitos, identidade visual consistente da marca em diferentes enquadramentos/ângulos.
Arte conceitual e storyboard — A fusão de múltiplas imagens ajuda a manter a continuidade dos personagens entre os painéis.
E-commerce / protótipos de produtos — gerar fotos de produtos consistentes em diferentes contextos/condições de iluminação.
Prototipagem rápida para ativos de RA/RV — Saídas 2K/4K de alta qualidade que podem ser ampliadas para usos imersivos.

Como chamar gemini-3-pro-image(Nano Banana Pro) API

Preços da API Nano Banana na CometAPI, com 20% de desconto sobre o preço oficial:


Preço	$0.19200

Etapas Necessárias

Faça o login no cometapi.com. Se você ainda não é nosso usuário, registre-se primeiro
Obtenha a chave de API da credencial de acesso da interface. Clique em "Adicionar Token" no token da API no centro pessoal, obtenha a chave de token: sk-xxxxx e envie.
Obtenha a URL deste site: https://api.cometapi.com/

Use o método

Selecione a opção "gemini-3-pro-image” endpoint para enviar a solicitação de API e definir o corpo da solicitação. O método e o corpo da solicitação são obtidos da documentação da API do nosso site. Nosso site também oferece o teste Apifox para sua conveniência.
Substituir com sua chave CometAPI real da sua conta.
Insira sua pergunta ou solicitação no campo de conteúdo — é a isso que o modelo responderá.
. Processe a resposta da API para obter a resposta gerada.

A CometAPI oferece uma API REST totalmente compatível para uma migração perfeita. Detalhes importantes:

URL base: https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent
Nomes de modelo: gemini-3-pro-image
Autenticação: Bearer YOUR_CometAPI_API_KEY cabeçalho
Tipo de conteúdo: application/json .

Veja também API de imagens Flash Gemini 2.5 (Nano-Banana)