Home/Models/Google/Nano Banana Pro
G

Nano Banana Pro

Entrada:$1.5616/M
Saída:$9.3696/M
Nano Banana Pro é um modelo de IA para assistência de uso geral em fluxos de trabalho centrados em texto. É adequado para prompts no estilo de instruções para gerar, transformar e analisar conteúdo com estrutura controlável. Os usos típicos incluem assistentes de chat, resumo de documentos, QA de conhecimento e automação de fluxos de trabalho. Os detalhes técnicos públicos são limitados; a integração se alinha a padrões comuns de assistentes de IA, como saídas estruturadas, prompts com recuperação aumentada e chamada de ferramentas ou funções.
Novo
Uso comercial
Playground
Visão Geral
Recursos
Preços
API
Versões

Recursos básicos

  • Texto → Imagem: geração completa orientada por prompt com forte aderência ao prompt.
  • Imagem → Imagem (edições): edições finas e direcionadas com manutenção da consistência do sujeito/personagem em múltiplas edições.
  • Resolução máxima de saída: até 4K (exemplos e tamanhos exatos de pixel suportados dependem da proporção; a API expõe predefinições 1K/2K/4K)
  • Planejamento iterativo e autocorreção: um pipeline interno “multietapas” que detecta e corrige erros visuais comuns (perspectiva, texto, geometria fina).
  • Renderização avançada de texto dentro da imagem: texto claro e legível em múltiplos idiomas (de legendas curtas a parágrafos longos) adequado para pôsteres, mockups e infográficos.
  • 5 personagens e fidelidade para até 14 objetos/imagens de referência em um único fluxo.
  • Marca d’água / proveniência: todas as imagens geradas incluem uma marca d’água SynthID; o modelo incorpora metadados C2PA para proveniência em algumas integrações de produto.

Versões e nomenclatura do Gemini 3 Pro Image

  • gemini-3-pro-image-preview
  • gemini-3-pro-image

Detalhes técnicos

Arquitetura

  • Linhagem / backbone: Nano Banana Pro é construído sobre a pilha evolutiva de imagem do Gemini do Google — especificamente a nova arquitetura Gemini 3 Pro Image / GEMPIX 2 (um framework multimodal imagem+texto de maior capacidade). Isso é uma evolução do Gemini 2.5 Flash Image (o “nano-banana” original) para um modelo de imagem nativamente multimodal com capacidades ampliadas de raciocínio visão-linguagem.
  • Comportamento do modelo: multimodalidade nativa (imagem + texto + conhecimento de mundo), pipelines explícitas para fusão de múltiplas imagens e um planejador interno em estágios que refina as saídas em múltiplas passadas em vez de produzir uma única amostra estática. Relatos iniciais indicam raciocínio geométrico/óptico mais forte (vidro, refração) em comparação com versões anteriores.
  • Pensamento / refinamento interno: o modelo usa um processo “de pensar” visível internamente para refinar a composição (a API documenta esse comportamento e observa que essas etapas internas não são cobradas como tokens finais de imagem).
  • Grounding & ferramentas: oferece suporte a Search grounding (pode incorporar fatos da web na geração de diagramas/infográficos). Também oferece suporte a instruções de sistema para controle mais determinístico.

Principais parâmetros da API:

  • thinking_level (low / high) para equilibrar latência vs profundidade de raciocínio;
  • media_resolution (low/medium/high) para controlar tokens de leitura de OCR/detalhes de imagem;
  • generationConfig.imageConfig para controlar proporção/resolução nas saídas de imagem.

Limites de imagem:

  • Modalidades de entrada suportadas: texto e imagens (o modelo não aceita áudio ou vídeo como entradas de geração de imagem).
  • Máximo de imagens por prompt: 14 (para o Gemini 3 Pro Image preview).
  • Tamanho máximo da imagem (upload): 7 MB por imagem de entrada.
  • Proporções suportadas: 1:1, 3:2, 16:9, 9:16, 21:9, etc.

Imagens de saída / tokens: limites altos, com suporte a 4K/4096px.

Desempenho em benchmarks

Resumo breve: os benchmarks públicos/iniciais até agora são principalmente qualitativos / orientados pela comunidade, mas relatam de forma consistente melhorias substanciais em resolução, redução de artefatos e fidelidade física em comparação com o nano-banana original (Gemini 2.5 Flash Image). “Desafios” específicos nomeados mostraram ganhos visuais claros, mas ainda não há tabelas numéricas padronizadas (públicas) do Google comparando v1 → v2 em métricas padrão de geração de imagem.

  • Testes qualitativos da comunidade: bordas mais limpas, microdetalhes mais nítidos, cores mais fiéis e maior aderência ao prompt (menos adereços alucinatórios, personagens mais consistentes). Testes informais populares incluem o chamado “Wine Glass Test” e “Glass Burger Challenge”, onde o GEMPIX2 (Nano Banana Pro) lida com transparência e refração marcadamente melhor do que compilações anteriores.
  • Manipulação de texto: Nano Banana Pro mostra tipografia visivelmente aprimorada e posicionamento de texto dentro das imagens (uma fraqueza persistente para muitos modelos de imagem). Comparações da comunidade indicam menos glifos renderizados corrompidos.
  • Throughput / UX: velocidade de iteração mais rápida e uma UX que realiza refinamento em múltiplas etapas no back-end para que os usuários vejam resultados de primeira passada mais confiáveis (reduzindo reexecuções manuais).

Limitações e riscos

  • Filtros de conteúdo e detecção: plataformas que integram o modelo (por exemplo, Whisk/apps de terceiros) podem habilitar detecção estrita de celebridades ou de semelhança e bloquear certas saídas, o que afeta fluxos de trabalho criativos que dependem de semelhanças realistas de celebridades.
  • Alucinação / casos-limite de raciocínio: embora aprimorado, o modelo ainda pode produzir artefatos fisicamente irreais, especialmente com texto simbólico denso dentro de imagens ou diagramas altamente técnicos — embora o NB2 pareça reduzir esses erros em comparação com versões anteriores.
  • Segurança e uso indevido: modelos generativos de imagem podem ser usados para criar conteúdo problemático ou prejudicial. O Google aplica restrições, filtros de conteúdo e a marca d’água SynthID para ajudar com a proveniência; ainda assim, houve uso indevido (polêmica de grande repercussão ligada a uma imagem gerada por Nano Banana em um contexto politicamente sensível).

Como o Nano Banana Pro se compara a outros modelos

  • Nano Banana Pro (GEMPIX 2 / Gemini 3 Pro Image) — forte integração móvel, fusão de múltiplas imagens, autocorreção iterativa, 2K nativo/4K com upscaling, integração estreita com apps do Google (Search, Photos, Workspace/Gemini). Melhor para fluxos que precisam de edições confiáveis, continuidade e integração com serviços Google.
  • Midjourney — destaca-se em saídas artísticas estilizadas e engenharia de prompt orientada pela comunidade; normalmente não é direcionado à fusão foto-realista de múltiplas imagens ou pipelines de edição multimodal profundas.
  • Stable Diffusion / pesos abertos — totalmente aberto, altamente personalizável e hospedável localmente; o ecossistema de checkpoints e fine-tuning é uma vantagem decisiva para pesquisa e uso offline. Menos integração móvel “um clique” e menos coerência de edição multiimagem consistente out-of-the-box do que o Nano Banana Pro.
  • Seedream 4.0 (ByteDance) — recentemente posicionada explicitamente como concorrente do Nano Banana, enfatizando renderização ultrarrápida, saída 2K e suporte para muitas imagens de referência (até seis). Posicionada como alternativa para profissionais/creators.

(Estas comparações são de alto nível; escolha um vencedor combinando a ferramenta ao seu fluxo de trabalho: abertura/personalização → Stable Diffusion; arte estilizada → Midjourney; edição móvel integrada e consistente com iteração agressiva → família Nano Banana Pro/ Gemini 3 Pro Image.)

Casos de uso reais

  • Edição de fotos móveis e filtros criativos (integrações do Google Photos — reestilização, fusão de fundo, recomposição de retratos).
  • Ativos de marketing e anúncios — geração rápida de conceitos, personagens de marca consistentes em múltiplos quadros/ângulos.
  • Arte conceitual e storyboard — a fusão de múltiplas imagens ajuda a manter a continuidade dos personagens entre painéis.
  • E-commerce / mockups de produto — gera fotos de produto consistentes em diferentes contextos/condições de iluminação.
  • Prototipagem rápida para ativos AR/VR — saídas 2K/4K de alta qualidade que podem ser atualizadas para usos imersivos.
  • Como acessar a API gemini-3-pro-image(Nano Banana Pro)

Etapas necessárias

  • Faça login em cometapi.com. Se você ainda não é nosso usuário, registre-se primeiro
  • Obtenha a chave de credencial de acesso da API da interface. Clique em “Add Token” no token de API no centro pessoal, obtenha a chave do token: sk-xxxxx e envie.
  • Obtenha a URL deste site: https://api.cometapi.com/

Método de uso

  1. Selecione o endpoint “gemini-3-pro-image” para enviar a solicitação de API e defina o corpo da solicitação. O método e o corpo da solicitação são obtidos na documentação de API do nosso site. Nosso site também fornece teste no Apifox para sua conveniência.
  2. Substitua <YOUR_API_KEY> pela sua chave CometAPI real da sua conta.
  3. Insira sua pergunta ou solicitação no campo content — é isso que o modelo responderá.
  4. Processe a resposta da API para obter a resposta gerada.

CometAPI fornece uma API REST totalmente compatível — para migração perfeita. Detalhes principais :

  • Base URL: https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent
  • Model Names: gemini-3-pro-image
  • Authentication: Bearer YOUR_CometAPI_API_KEY header
  • Content-Type: application/json .

FAQ

Can Gemini 3 Pro Image generate 4K resolution images?

Yes, Nano Banana Pro (Gemini 3 Pro Image) supports native output up to 4K resolution with aspect ratios including 1:1, 3:2, 16:9, 9:16, and 21:9. It also supports 1K and 2K presets via the imageConfig parameter.

How does Nano Banana Pro handle text rendering inside images?

Nano Banana Pro features advanced in-image text rendering with clear, legible multi-language text support—from short captions to long paragraphs. This makes it ideal for posters, infographics, UI mockups, and marketing assets.

Can I edit images conversationally with Gemini 3 Pro Image?

Yes, Nano Banana Pro supports multi-turn conversational editing. Simply ask for changes like 'Make the background a sunset' and the model maintains visual context through Thought Signatures between turns.

What makes Nano Banana Pro different from FLUX 2 Pro or Midjourney?

Nano Banana Pro excels at iterative self-correction, consistent character preservation across multiple edits, and tight Google ecosystem integration. It handles up to 14 reference images for complex multi-image fusion workflows.

Does Nano Banana Pro use Google Search for grounded image generation?

Yes, Nano Banana Pro can use Search grounding to verify facts before generating images. For example, it can fetch current weather data to create an accurate Tokyo weather infographic.

How many reference images can Nano Banana Pro process in one request?

Nano Banana Pro supports up to 14 input images per prompt with a maximum of 7MB per image. It maintains subject and character consistency across up to 5 characters in complex multi-image fusion scenarios.

Recursos para Nano Banana Pro

Explore os principais recursos do Nano Banana Pro, projetado para aprimorar o desempenho e a usabilidade. Descubra como essas capacidades podem beneficiar seus projetos e melhorar a experiência do usuário.

Preços para Nano Banana Pro

Explore preços competitivos para Nano Banana Pro, projetado para atender diversos orçamentos e necessidades de uso. Nossos planos flexíveis garantem que você pague apenas pelo que usar, facilitando o dimensionamento conforme suas necessidades crescem. Descubra como Nano Banana Pro pode aprimorar seus projetos mantendo os custos gerenciáveis.

nano-banana-pro(image)

variant / aliasPrice
gemini-3-pro-image (1K/2K)≈ $0.10720
gemini-3-pro-image (4K)≈ $0.19200
gemini-3-pro-image-preview (1K/2K)≈ $0.10720
gemini-3-pro-image-preview (4K)≈ $0.19200
nano-banana-pro-all$0.09600

Código de exemplo e API para Nano Banana Pro

Acesse código de exemplo abrangente e recursos de API para Nano Banana Pro para otimizar seu processo de integração. Nossa documentação detalhada fornece orientação passo a passo, ajudando você a aproveitar todo o potencial do Nano Banana Pro em seus projetos.
Python
JavaScript
Curl
from google import genai
from google.genai import types
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com"

client = genai.Client(
    http_options={"api_version": "v1beta", "base_url": BASE_URL, "timeout": 600000},
    api_key=COMETAPI_KEY,
)

prompt = "Da Vinci style anatomical sketch of a dissected Monarch butterfly. Detailed drawings of the head, wings, and legs on textured parchment with notes in English."
aspect_ratio = "1:1"  # "1:1","2:3","3:2","3:4","4:3","4:5","5:4","9:16","16:9","21:9"
resolution = "4K"  # "1K", "2K", "4K"

response = client.models.generate_content(
    model="gemini-3-pro-image-preview",
    contents=prompt,
    config=types.GenerateContentConfig(
        response_modalities=["TEXT", "IMAGE"],
        image_config=types.ImageConfig(
            aspect_ratio=aspect_ratio,
            image_size=resolution,
        ),
    ),
)

# Output directory
OUTPUT_DIR = os.path.join(os.path.dirname(__file__), "..", "output")
os.makedirs(OUTPUT_DIR, exist_ok=True)

for part in response.parts:
    if part.text is not None:
        print(part.text)
    elif image := part.as_image():
        output_path = os.path.join(OUTPUT_DIR, "butterfly_4k.png")
        image.save(output_path)
        print(f"Image saved to: {output_path}")

Versões do Nano Banana Pro

O motivo pelo qual Nano Banana Pro possui múltiplas versões instantâneas pode incluir fatores como variações na saída após atualizações que exigem versões antigas para consistência, fornecendo aos desenvolvedores um período de transição para adaptação e migração, e diferentes versões correspondentes a endpoints globais ou regionais para otimizar a experiência do usuário. Para diferenças detalhadas entre versões, consulte a documentação oficial.
ID do modelodescriçãoDisponibilidadeSolicitação
nano-banana-pro-allA tecnologia utilizada é não oficial e a geração é instável etc.; formato Chat✅Chat formato
gemini-3-pro-imageRecomendado; aponta para o modelo mais recente✅Gemini gera imagem
gemini-3-pro-image-previewPrévia oficial✅Gemini gera imagem

Mais modelos