Recursos básicos
- Texto → Imagem: geração completa orientada por prompt com forte aderência ao prompt.
- Imagem → Imagem (edições): edições finas e direcionadas com manutenção da consistência do sujeito/personagem em múltiplas edições.
- Resolução máxima de saída: até 4K (exemplos e tamanhos exatos de pixel suportados dependem da proporção; a API expõe predefinições 1K/2K/4K)
- Planejamento iterativo e autocorreção: um pipeline interno “multietapas” que detecta e corrige erros visuais comuns (perspectiva, texto, geometria fina).
- Renderização avançada de texto dentro da imagem: texto claro e legível em múltiplos idiomas (de legendas curtas a parágrafos longos) adequado para pôsteres, mockups e infográficos.
- 5 personagens e fidelidade para até 14 objetos/imagens de referência em um único fluxo.
- Marca d’água / proveniência: todas as imagens geradas incluem uma marca d’água SynthID; o modelo incorpora metadados C2PA para proveniência em algumas integrações de produto.
Versões e nomenclatura do Gemini 3 Pro Image
gemini-3-pro-image-previewgemini-3-pro-image
Detalhes técnicos
Arquitetura
- Linhagem / backbone: Nano Banana Pro é construído sobre a pilha evolutiva de imagem do Gemini do Google — especificamente a nova arquitetura Gemini 3 Pro Image / GEMPIX 2 (um framework multimodal imagem+texto de maior capacidade). Isso é uma evolução do Gemini 2.5 Flash Image (o “nano-banana” original) para um modelo de imagem nativamente multimodal com capacidades ampliadas de raciocínio visão-linguagem.
- Comportamento do modelo: multimodalidade nativa (imagem + texto + conhecimento de mundo), pipelines explícitas para fusão de múltiplas imagens e um planejador interno em estágios que refina as saídas em múltiplas passadas em vez de produzir uma única amostra estática. Relatos iniciais indicam raciocínio geométrico/óptico mais forte (vidro, refração) em comparação com versões anteriores.
- Pensamento / refinamento interno: o modelo usa um processo “de pensar” visível internamente para refinar a composição (a API documenta esse comportamento e observa que essas etapas internas não são cobradas como tokens finais de imagem).
- Grounding & ferramentas: oferece suporte a Search grounding (pode incorporar fatos da web na geração de diagramas/infográficos). Também oferece suporte a instruções de sistema para controle mais determinístico.
Principais parâmetros da API:
thinking_level(low / high) para equilibrar latência vs profundidade de raciocínio;media_resolution(low/medium/high) para controlar tokens de leitura de OCR/detalhes de imagem;generationConfig.imageConfigpara controlar proporção/resolução nas saídas de imagem.
Limites de imagem:
- Modalidades de entrada suportadas: texto e imagens (o modelo não aceita áudio ou vídeo como entradas de geração de imagem).
- Máximo de imagens por prompt: 14 (para o Gemini 3 Pro Image preview).
- Tamanho máximo da imagem (upload): 7 MB por imagem de entrada.
- Proporções suportadas: 1:1, 3:2, 16:9, 9:16, 21:9, etc.
Imagens de saída / tokens: limites altos, com suporte a 4K/4096px.
Desempenho em benchmarks
Resumo breve: os benchmarks públicos/iniciais até agora são principalmente qualitativos / orientados pela comunidade, mas relatam de forma consistente melhorias substanciais em resolução, redução de artefatos e fidelidade física em comparação com o nano-banana original (Gemini 2.5 Flash Image). “Desafios” específicos nomeados mostraram ganhos visuais claros, mas ainda não há tabelas numéricas padronizadas (públicas) do Google comparando v1 → v2 em métricas padrão de geração de imagem.
- Testes qualitativos da comunidade: bordas mais limpas, microdetalhes mais nítidos, cores mais fiéis e maior aderência ao prompt (menos adereços alucinatórios, personagens mais consistentes). Testes informais populares incluem o chamado “Wine Glass Test” e “Glass Burger Challenge”, onde o GEMPIX2 (Nano Banana Pro) lida com transparência e refração marcadamente melhor do que compilações anteriores.
- Manipulação de texto: Nano Banana Pro mostra tipografia visivelmente aprimorada e posicionamento de texto dentro das imagens (uma fraqueza persistente para muitos modelos de imagem). Comparações da comunidade indicam menos glifos renderizados corrompidos.
- Throughput / UX: velocidade de iteração mais rápida e uma UX que realiza refinamento em múltiplas etapas no back-end para que os usuários vejam resultados de primeira passada mais confiáveis (reduzindo reexecuções manuais).
Limitações e riscos
- Filtros de conteúdo e detecção: plataformas que integram o modelo (por exemplo, Whisk/apps de terceiros) podem habilitar detecção estrita de celebridades ou de semelhança e bloquear certas saídas, o que afeta fluxos de trabalho criativos que dependem de semelhanças realistas de celebridades.
- Alucinação / casos-limite de raciocínio: embora aprimorado, o modelo ainda pode produzir artefatos fisicamente irreais, especialmente com texto simbólico denso dentro de imagens ou diagramas altamente técnicos — embora o NB2 pareça reduzir esses erros em comparação com versões anteriores.
- Segurança e uso indevido: modelos generativos de imagem podem ser usados para criar conteúdo problemático ou prejudicial. O Google aplica restrições, filtros de conteúdo e a marca d’água SynthID para ajudar com a proveniência; ainda assim, houve uso indevido (polêmica de grande repercussão ligada a uma imagem gerada por Nano Banana em um contexto politicamente sensível).
Como o Nano Banana Pro se compara a outros modelos
- Nano Banana Pro (GEMPIX 2 / Gemini 3 Pro Image) — forte integração móvel, fusão de múltiplas imagens, autocorreção iterativa, 2K nativo/4K com upscaling, integração estreita com apps do Google (Search, Photos, Workspace/Gemini). Melhor para fluxos que precisam de edições confiáveis, continuidade e integração com serviços Google.
- Midjourney — destaca-se em saídas artísticas estilizadas e engenharia de prompt orientada pela comunidade; normalmente não é direcionado à fusão foto-realista de múltiplas imagens ou pipelines de edição multimodal profundas.
- Stable Diffusion / pesos abertos — totalmente aberto, altamente personalizável e hospedável localmente; o ecossistema de checkpoints e fine-tuning é uma vantagem decisiva para pesquisa e uso offline. Menos integração móvel “um clique” e menos coerência de edição multiimagem consistente out-of-the-box do que o Nano Banana Pro.
- Seedream 4.0 (ByteDance) — recentemente posicionada explicitamente como concorrente do Nano Banana, enfatizando renderização ultrarrápida, saída 2K e suporte para muitas imagens de referência (até seis). Posicionada como alternativa para profissionais/creators.
(Estas comparações são de alto nível; escolha um vencedor combinando a ferramenta ao seu fluxo de trabalho: abertura/personalização → Stable Diffusion; arte estilizada → Midjourney; edição móvel integrada e consistente com iteração agressiva → família Nano Banana Pro/ Gemini 3 Pro Image.)
Casos de uso reais
- Edição de fotos móveis e filtros criativos (integrações do Google Photos — reestilização, fusão de fundo, recomposição de retratos).
- Ativos de marketing e anúncios — geração rápida de conceitos, personagens de marca consistentes em múltiplos quadros/ângulos.
- Arte conceitual e storyboard — a fusão de múltiplas imagens ajuda a manter a continuidade dos personagens entre painéis.
- E-commerce / mockups de produto — gera fotos de produto consistentes em diferentes contextos/condições de iluminação.
- Prototipagem rápida para ativos AR/VR — saídas 2K/4K de alta qualidade que podem ser atualizadas para usos imersivos.
- Como acessar a API gemini-3-pro-image(Nano Banana Pro)
Etapas necessárias
- Faça login em cometapi.com. Se você ainda não é nosso usuário, registre-se primeiro
- Obtenha a chave de credencial de acesso da API da interface. Clique em “Add Token” no token de API no centro pessoal, obtenha a chave do token: sk-xxxxx e envie.
- Obtenha a URL deste site: https://api.cometapi.com/
Método de uso
- Selecione o endpoint “
gemini-3-pro-image” para enviar a solicitação de API e defina o corpo da solicitação. O método e o corpo da solicitação são obtidos na documentação de API do nosso site. Nosso site também fornece teste no Apifox para sua conveniência. - Substitua <YOUR_API_KEY> pela sua chave CometAPI real da sua conta.
- Insira sua pergunta ou solicitação no campo content — é isso que o modelo responderá.
- Processe a resposta da API para obter a resposta gerada.
CometAPI fornece uma API REST totalmente compatível — para migração perfeita. Detalhes principais :
- Base URL: https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent
- Model Names:
gemini-3-pro-image - Authentication:
Bearer YOUR_CometAPI_API_KEYheader - Content-Type:
application/json.