Recursos básicos

Texto → Imagem: geração completa orientada por prompt com forte aderência ao prompt.
Imagem → Imagem (edições): edições finas e direcionadas com manutenção da consistência do sujeito/personagem em múltiplas edições.
Resolução máxima de saída: até 4K (exemplos e tamanhos exatos de pixel suportados dependem da proporção; a API expõe predefinições 1K/2K/4K)
Planejamento iterativo e autocorreção: um pipeline interno “multietapas” que detecta e corrige erros visuais comuns (perspectiva, texto, geometria fina).
Renderização avançada de texto dentro da imagem: texto claro e legível em múltiplos idiomas (de legendas curtas a parágrafos longos) adequado para pôsteres, mockups e infográficos.
5 personagens e fidelidade para até 14 objetos/imagens de referência em um único fluxo.
Marca d’água / proveniência: todas as imagens geradas incluem uma marca d’água SynthID; o modelo incorpora metadados C2PA para proveniência em algumas integrações de produto.

Versões e nomenclatura do Gemini 3 Pro Image

gemini-3-pro-image-preview
gemini-3-pro-image

Detalhes técnicos

Arquitetura

Linhagem / backbone: Nano Banana Pro é construído sobre a pilha evolutiva de imagem do Gemini do Google — especificamente a nova arquitetura Gemini 3 Pro Image / GEMPIX 2 (um framework multimodal imagem+texto de maior capacidade). Isso é uma evolução do Gemini 2.5 Flash Image (o “nano-banana” original) para um modelo de imagem nativamente multimodal com capacidades ampliadas de raciocínio visão-linguagem.
Comportamento do modelo: multimodalidade nativa (imagem + texto + conhecimento de mundo), pipelines explícitas para fusão de múltiplas imagens e um planejador interno em estágios que refina as saídas em múltiplas passadas em vez de produzir uma única amostra estática. Relatos iniciais indicam raciocínio geométrico/óptico mais forte (vidro, refração) em comparação com versões anteriores.
Pensamento / refinamento interno: o modelo usa um processo “de pensar” visível internamente para refinar a composição (a API documenta esse comportamento e observa que essas etapas internas não são cobradas como tokens finais de imagem).
Grounding & ferramentas: oferece suporte a Search grounding (pode incorporar fatos da web na geração de diagramas/infográficos). Também oferece suporte a instruções de sistema para controle mais determinístico.

Principais parâmetros da API:

thinking_level (low / high) para equilibrar latência vs profundidade de raciocínio;
media_resolution (low/medium/high) para controlar tokens de leitura de OCR/detalhes de imagem;
generationConfig.imageConfig para controlar proporção/resolução nas saídas de imagem.

Limites de imagem:

Modalidades de entrada suportadas: texto e imagens (o modelo não aceita áudio ou vídeo como entradas de geração de imagem).
Máximo de imagens por prompt: 14 (para o Gemini 3 Pro Image preview).
Tamanho máximo da imagem (upload): 7 MB por imagem de entrada.
Proporções suportadas: 1:1, 3:2, 16:9, 9:16, 21:9, etc.

Imagens de saída / tokens: limites altos, com suporte a 4K/4096px.

Desempenho em benchmarks

Resumo breve: os benchmarks públicos/iniciais até agora são principalmente qualitativos / orientados pela comunidade, mas relatam de forma consistente melhorias substanciais em resolução, redução de artefatos e fidelidade física em comparação com o nano-banana original (Gemini 2.5 Flash Image). “Desafios” específicos nomeados mostraram ganhos visuais claros, mas ainda não há tabelas numéricas padronizadas (públicas) do Google comparando v1 → v2 em métricas padrão de geração de imagem.

Testes qualitativos da comunidade: bordas mais limpas, microdetalhes mais nítidos, cores mais fiéis e maior aderência ao prompt (menos adereços alucinatórios, personagens mais consistentes). Testes informais populares incluem o chamado “Wine Glass Test” e “Glass Burger Challenge”, onde o GEMPIX2 (Nano Banana Pro) lida com transparência e refração marcadamente melhor do que compilações anteriores.
Manipulação de texto: Nano Banana Pro mostra tipografia visivelmente aprimorada e posicionamento de texto dentro das imagens (uma fraqueza persistente para muitos modelos de imagem). Comparações da comunidade indicam menos glifos renderizados corrompidos.
Throughput / UX: velocidade de iteração mais rápida e uma UX que realiza refinamento em múltiplas etapas no back-end para que os usuários vejam resultados de primeira passada mais confiáveis (reduzindo reexecuções manuais).

Limitações e riscos

Filtros de conteúdo e detecção: plataformas que integram o modelo (por exemplo, Whisk/apps de terceiros) podem habilitar detecção estrita de celebridades ou de semelhança e bloquear certas saídas, o que afeta fluxos de trabalho criativos que dependem de semelhanças realistas de celebridades.
Alucinação / casos-limite de raciocínio: embora aprimorado, o modelo ainda pode produzir artefatos fisicamente irreais, especialmente com texto simbólico denso dentro de imagens ou diagramas altamente técnicos — embora o NB2 pareça reduzir esses erros em comparação com versões anteriores.
Segurança e uso indevido: modelos generativos de imagem podem ser usados para criar conteúdo problemático ou prejudicial. O Google aplica restrições, filtros de conteúdo e a marca d’água SynthID para ajudar com a proveniência; ainda assim, houve uso indevido (polêmica de grande repercussão ligada a uma imagem gerada por Nano Banana em um contexto politicamente sensível).

Como o Nano Banana Pro se compara a outros modelos

Nano Banana Pro (GEMPIX 2 / Gemini 3 Pro Image) — forte integração móvel, fusão de múltiplas imagens, autocorreção iterativa, 2K nativo/4K com upscaling, integração estreita com apps do Google (Search, Photos, Workspace/Gemini). Melhor para fluxos que precisam de edições confiáveis, continuidade e integração com serviços Google.
Midjourney — destaca-se em saídas artísticas estilizadas e engenharia de prompt orientada pela comunidade; normalmente não é direcionado à fusão foto-realista de múltiplas imagens ou pipelines de edição multimodal profundas.
Stable Diffusion / pesos abertos — totalmente aberto, altamente personalizável e hospedável localmente; o ecossistema de checkpoints e fine-tuning é uma vantagem decisiva para pesquisa e uso offline. Menos integração móvel “um clique” e menos coerência de edição multiimagem consistente out-of-the-box do que o Nano Banana Pro.
Seedream 4.0 (ByteDance) — recentemente posicionada explicitamente como concorrente do Nano Banana, enfatizando renderização ultrarrápida, saída 2K e suporte para muitas imagens de referência (até seis). Posicionada como alternativa para profissionais/creators.

(Estas comparações são de alto nível; escolha um vencedor combinando a ferramenta ao seu fluxo de trabalho: abertura/personalização → Stable Diffusion; arte estilizada → Midjourney; edição móvel integrada e consistente com iteração agressiva → família Nano Banana Pro/ Gemini 3 Pro Image.)

Casos de uso reais

Edição de fotos móveis e filtros criativos (integrações do Google Photos — reestilização, fusão de fundo, recomposição de retratos).
Ativos de marketing e anúncios — geração rápida de conceitos, personagens de marca consistentes em múltiplos quadros/ângulos.
Arte conceitual e storyboard — a fusão de múltiplas imagens ajuda a manter a continuidade dos personagens entre painéis.
E-commerce / mockups de produto — gera fotos de produto consistentes em diferentes contextos/condições de iluminação.
Prototipagem rápida para ativos AR/VR — saídas 2K/4K de alta qualidade que podem ser atualizadas para usos imersivos.
Como acessar a API gemini-3-pro-image(Nano Banana Pro)

Etapas necessárias

Faça login em cometapi.com. Se você ainda não é nosso usuário, registre-se primeiro
Obtenha a chave de credencial de acesso da API da interface. Clique em “Add Token” no token de API no centro pessoal, obtenha a chave do token: sk-xxxxx e envie.
Obtenha a URL deste site: https://api.cometapi.com/

Método de uso

Selecione o endpoint “gemini-3-pro-image” para enviar a solicitação de API e defina o corpo da solicitação. O método e o corpo da solicitação são obtidos na documentação de API do nosso site. Nosso site também fornece teste no Apifox para sua conveniência.
Substitua <YOUR_API_KEY> pela sua chave CometAPI real da sua conta.
Insira sua pergunta ou solicitação no campo content — é isso que o modelo responderá.
Processe a resposta da API para obter a resposta gerada.

CometAPI fornece uma API REST totalmente compatível — para migração perfeita. Detalhes principais :

Base URL: https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent
Model Names: gemini-3-pro-image
Authentication: Bearer YOUR_CometAPI_API_KEY header
Content-Type: application/json .