Recursos básicos
- Texto → Imagem: geração totalmente orientada por prompts, com forte aderência ao prompt.
- Imagem → Imagem (edições): edições finas e direcionadas, mantendo a consistência do sujeito/personagem ao longo de múltiplas edições.
- Resolução máxima de saída: até 4K (exemplos e tamanhos exatos de pixels suportados dependem da relação de aspecto; a API expõe predefinições de 1K/2K/4K)
- Planejamento iterativo e autocorreção: um pipeline interno “multifase” que detecta e corrige erros visuais comuns (perspectiva, texto, geometria fina).
- Renderização avançada de texto na imagem: texto claro e legível em vários idiomas (de legendas curtas a parágrafos longos) adequado para pôsteres, mockups e infográficos.
- 5 personagens e fidelidade para até 14 objetos/imagens de referência em um único fluxo de trabalho.
- Marcação com marca d’água / proveniência: todas as imagens geradas incluem marca d’água SynthID; o modelo incorpora metadados C2PA para proveniência em algumas integrações de produto.
Gemini 3 Pro Image versões e nomenclatura
gemini-3-pro-image-previewgemini-3-pro-image
Detalhes técnicos
Arquitetura
- Linhagem / backbone: Nano Banana Pro é construído sobre a pilha de imagem Gemini em evolução do Google — especificamente a nova arquitetura Gemini 3 Pro Image / GEMPIX 2 (um framework multimodal imagem+texto de maior capacidade). É uma evolução do Gemini 2.5 Flash Image (o “nano-banana” original) para um modelo de imagem nativamente multimodal com capacidades ampliadas de raciocínio visão-linguagem.
- Comportamento do modelo: multimodalidade nativa (imagem + texto + conhecimento do mundo), pipelines explícitos para fusão de múltiplas imagens e um planejador em estágios interno que refina as saídas em múltiplas passagens em vez de produzir uma única amostra estática. Relatos iniciais indicam raciocínio geométrico/óptico mais robusto (vidro, refração) em comparação com versões anteriores.
- Pensamento / refinamento interno: o modelo usa um processo visível de “pensamento” internamente para refinar a composição (a documentação da API descreve esse comportamento e observa que essas etapas internas não são cobradas como tokens finais de imagem).
- Grounding e ferramentas: oferece suporte a Search grounding (pode incorporar fatos da web na geração de diagramas/infográficos). Também oferece suporte a instruções de sistema para controle mais determinístico.
Principais parâmetros da API:
thinking_level(low / high) para equilibrar latência e profundidade de raciocínio;media_resolution(low/medium/high) para controlar os tokens de leitura de detalhes/OCR de imagem;generationConfig.imageConfigpara controlar proporção/resolução nas saídas de imagem.
Limites de imagem:
- Modalidades de entrada suportadas: texto e imagens (o modelo não aceita áudio ou vídeo como entradas de geração de imagem).
- Máximo de imagens por prompt: 14 (para o Gemini 3 Pro Image preview).
- Tamanho máximo de imagem (upload): 7 MB por imagem de entrada.
- Proporções suportadas: 1:1, 3:2, 16:9, 9:16, 21:9, etc.
Imagens de saída / tokens: limites altos, com suporte a 4K/4096px.
Desempenho em benchmarks
Resumo curto: os benchmarks públicos/iniciais até agora são majoritariamente qualitativos / impulsionados pela comunidade, mas relatam consistentemente melhorias substanciais em resolução, redução de artefatos e fidelidade física em relação ao nano-banana original (Gemini 2.5 Flash Image). “Desafios” específicos nomeados mostraram ganhos visuais claros, mas ainda não há tabelas (públicas) padronizadas de benchmarks numéricos do Google comparando v1 → v2 em métricas padrão de geração de imagem.
- Testes qualitativos da comunidade: bordas mais limpas, microdetalhes mais nítidos, cores mais fiéis e maior aderência ao prompt (menos props alucinados, personagens mais consistentes). Testes informais populares incluem o chamado “Wine Glass Test” e o “Glass Burger Challenge”, nos quais o GEMPIX2 (Nano Banana Pro) lida com transparência e refração de forma significativamente melhor que builds anteriores.
- Manipulação de texto: o Nano Banana Pro mostra melhorias visíveis em tipografia e posicionamento de texto dentro das imagens (uma fraqueza persistente para muitos modelos de imagem). Comparações da comunidade indicam menos glifos renderizados de forma ilegível.
- Throughput / UX: velocidade de iteração mais rápida e uma UX que realiza refinamento em múltiplas etapas no back-end, de modo que os usuários veem resultados iniciais mais confiáveis (reduzindo re-rolls manuais).
Limitações e riscos
- Filtros de conteúdo e detecção: plataformas que integram o modelo (por exemplo, Whisk/apps de terceiros) podem habilitar detecção rígida de celebridades ou semelhanças e bloquear certos resultados, o que afeta fluxos criativos que dependem de semelhanças realistas de celebridades.
- Alucinação / Casos limite de raciocínio: embora melhorado, o modelo ainda pode produzir artefatos fisicamente irreais, especialmente com texto simbólico denso dentro das imagens ou diagramas altamente técnicos — embora o NB2 pareça reduzir esses erros em relação a versões anteriores.
- Segurança e uso indevido: modelos generativos de imagem podem ser usados para criar conteúdo problemático ou prejudicial. O Google aplica restrições, filtros de conteúdo e a marca d’água SynthID para ajudar com a proveniência; no entanto, já ocorreram usos indevidos (polêmica de alto perfil ligada a uma imagem gerada pelo Nano Banana em um contexto politicamente sensível).
Como o Nano Banana Pro se compara a outros modelos
- Nano Banana Pro (GEMPIX 2 / Gemini 3 Pro Image) — forte integração móvel, fusão de múltiplas imagens, autocorreção iterativa, 2K nativo/upsampling para 4K, integração estreita com apps do Google (Search, Photos, Workspace/Gemini). Ideal para fluxos que exigem edições confiáveis, continuidade e integração com serviços do Google.
- Midjourney — destaca-se em saídas artísticas estilizadas e engenharia de prompt orientada pela comunidade; tipicamente não voltado para fusão de múltiplas imagens com precisão fotográfica ou pipelines de edição multimodal profunda.
- Stable Diffusion / pesos abertos — totalmente aberto, altamente personalizável e hospedável localmente; o ecossistema de checkpoints e fine-tuning é uma vantagem decisiva para pesquisa e uso offline. Menos integração móvel “one-click” e menos coerência de edição de múltiplas imagens “out-of-the-box” do que o Nano Banana Pro.
- Seedream 4.0 (ByteDance) — recentemente posicionado explicitamente como um concorrente do Nano Banana, enfatizando renderização ultrarrápida, saída 2K e suporte a muitas imagens de referência (até seis). Posicionado como uma alternativa para profissionais/criadores.
(Estas comparações são de alto nível; escolha o vencedor alinhando a ferramenta ao seu fluxo de trabalho: abertura/personalização → Stable Diffusion; arte estilizada → Midjourney; edição móvel integrada e consistente com iteração agressiva → família Nano Banana Pro/Gemini 3 Pro Image.)
Casos de uso do mundo real
- Edição de fotos móveis e filtros criativos (integrações do Google Photos — mudança de estilo, fusão de fundo, recomposição de retrato).
- Ativos de marketing e anúncios — geração rápida de conceitos, personagens de marca consistentes em múltiplos quadros/ângulos.
- Arte conceitual e storyboard — a fusão de múltiplas imagens ajuda a manter a continuidade do personagem entre os painéis.
- E-commerce / mockups de produto — gerar fotos de produto consistentes em diferentes contextos/condições de iluminação.
- Prototipagem rápida para ativos de AR/VR — saídas 2K/4K de alta qualidade que podem ser ampliadas para usos imersivos.
- Como acessar a API gemini-3-pro-image (Nano Banana Pro)
Etapas necessárias
- Faça login em cometapi.com. Se você ainda não é nosso usuário, registre-se primeiro
- Obtenha a credencial de acesso (API key) da interface. Clique em “Add Token” em API token no centro pessoal, obtenha a chave do token: sk-xxxxx e envie.
- Obtenha a URL deste site: https://api.cometapi.com/
Método de uso
- Selecione o endpoint “
gemini-3-pro-image” para enviar a solicitação à API e defina o corpo da requisição. O método e o corpo da requisição são obtidos na nossa documentação da API no site. Nosso site também oferece teste via Apifox para sua conveniência. - Substitua <YOUR_API_KEY> pela sua chave CometAPI real da sua conta.
- Insira sua pergunta ou solicitação no campo content — é isso que o modelo responderá.
- . Processe a resposta da API para obter a resposta gerada.
A CometAPI fornece uma API REST totalmente compatível — para migração sem atrito. Detalhes-chave:
- Base URL: https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent
- Model Names:
gemini-3-pro-image - Authentication:
Bearer YOUR_CometAPI_API_KEYheader - Content-Type:
application/json.