Como usar a API do Nano Banana Pro (Gemini 3 Pro Image)?

CometAPI
AnnaNov 20, 2025
Como usar a API do Nano Banana Pro (Gemini 3 Pro Image)?

Nano Banana Pro — oficialmente Gemini 3 Pro Image — é o novo modelo de geração e edição de imagens de nível de estúdio do Google/DeepMind que combina raciocínio multimodal avançado, renderização de texto de alta fidelidade, composição multiimagem e controles criativos em nível de estúdio.

O que é o Nano Banana Pro e por que isso importa?

Nano Banana Pro é o mais novo modelo de geração e edição de imagens do Google — o lançamento “Gemini 3 Pro Image” — projetado para produzir imagens e textos sobre a imagem com qualidade de estúdio, contextualizados e em alta fidelidade, até 4K. É o sucessor dos modelos anteriores Nano Banana (Gemini 2.5 Flash Image / “Nano Banana”) com raciocínio aprimorado, grounding via Pesquisa (fatos do mundo real), renderização de texto mais robusta e controles locais de edição mais poderosos. O modelo está disponível no app Gemini para uso interativo, e é possível acessar o Nano Banana Pro via a API padrão do Gemini, selecionando o identificador específico do modelo (gemini-3-pro-image-preview ou seu sucessor estável) para acesso programático.

Por que isso importa: Nano Banana Pro foi construído não apenas para criar imagens bonitas, mas para visualizar informações — infográficos, instantâneos orientados por dados (clima, esportes), pôsteres com muito texto, mockups de produtos e fusões multiimagem (até 14 imagens de entrada e mantendo consistência de personagem em até 5 pessoas). Para designers, equipes de produto e desenvolvedores, essa combinação de precisão, texto sobre a imagem e acesso programático abre fluxos de produção antes difíceis de automatizar.

Quais funções são expostas via a API?

Capacidades típicas expostas aos desenvolvedores incluem:

  • Geração de Texto → Imagem (fluxos de composição de etapa única ou multi-etapas com “pensamento”).
  • Edição de imagem (máscaras locais, inpainting, ajustes de estilo).
  • Fusão multiimagem (combinar imagens de referência).
  • Controles avançados de requisição: resolução, proporção de aspecto, etapas de pós-processamento e rastros de “pensamento de composição” para depuração/inspeção em modos de preview.

Inovações e Funções Principais do Nano Banana Pro

Raciocínio de conteúdo mais inteligente

Usa a pilha de raciocínio do Gemini 3 Pro para interpretar instruções visuais complexas e em múltiplas etapas (por exemplo: “crie um infográfico em 5 etapas a partir deste conjunto de dados e adicione uma legenda bilíngue”). A API expõe um mecanismo “Thinking” que pode produzir testes intermediários de composição para refinar o resultado final.

Por que importa: Em vez de uma única passada que mapeia prompt → pixel, o modelo realiza um processo interno de “pensamento” que refina a composição e pode chamar ferramentas externas (por exemplo, Google Search) para grounding factual (por exemplo, rótulos de diagramas precisos ou sinalização correta por localidade). Isso gera imagens não apenas mais bonitas, mas semanticamente corretas para tarefas como infográficos, diagramas ou mockups de produto.

Como obter: O “Thinking” do Nano Banana Pro é uma passagem controlada de raciocínio/composição interna em que o modelo gera visuais intermediários e rastros de raciocínio antes de produzir a imagem final. A API expõe que o modelo pode criar até dois quadros intermediários e que a imagem final é o último estágio dessa cadeia. Em produção, isso ajuda na composição, posicionamento de texto e decisões de layout.

Renderização de texto mais precisa

Texto significativamente mais legível e localizado dentro das imagens (menus, pôsteres, diagramas). Nano Banana Pro alcança novos patamares na renderização de texto em imagem:

  • O texto nas imagens é claro, legível e corretamente escrito;
  • Suporta geração multilíngue (incluindo Chinês, Japonês, Coreano, Árabe etc.);
  • Permite escrever parágrafos longos ou textos descritivos multilinha diretamente nas imagens;
  • Tradução e localização automáticas estão disponíveis.

Por que importa: Tradicionalmente, modelos de imagem têm dificuldades para renderizar texto legível e bem alinhado. Nano Banana Pro é explicitamente otimizado para renderização de texto confiável e localização (por exemplo, traduzindo e preservando o layout), o que desbloqueia casos de uso criativos reais como pôsteres, embalagens ou anúncios multilíngues.

Como obter: As melhorias de renderização de texto vêm da arquitetura multimodal subjacente e do treinamento em conjuntos de dados que enfatizam exemplos de texto em imagem, combinados com conjuntos de avaliação direcionados (avaliações humanas e conjuntos de regressão). O modelo aprende a alinhar formas de glifos, fontes e restrições de layout para produzir texto legível e localizado dentro das imagens — embora texto muito pequeno e parágrafos extremamente densos ainda possam ser propensos a erros.

Maior consistência visual e fidelidade

Controles de estúdio (iluminação, foco, ângulo de câmera, correção de cor) e composição multiimagem (até 14 imagens de referência, com permissões especiais para múltiplos sujeitos humanos) ajudam a preservar a consistência de personagem (manter a mesma pessoa/personagem em edições) e a identidade de marca em ativos gerados. O modelo suporta saídas nativas 1K/2K/4K.

Por que importa: Fluxos de trabalho de marketing e entretenimento exigem personagens consistentes em diferentes tomadas e edições. O modelo pode manter a semelhança para até cinco pessoas e misturar até 14 imagens de referência em uma única composição, enquanto produz Esboço → Render 3D. Isso é útil para criativos de anúncios, embalagens ou narrativas em múltiplas tomadas.

Como obter: As entradas do modelo aceitam múltiplas imagens com atribuições de função explícitas (por exemplo, “Imagem A: pose”, “Imagem B: referência de rosto”, “Imagem C: textura de fundo”). A arquitetura condiciona a geração com base nessas imagens para manter identidade/pose/estilo enquanto aplica transformações (iluminação, câmera).

Benchmarks de Desempenho do Nano Banana Pro

Nano Banana Pro (Gemini 3 Pro Image) “se destaca em benchmarks de IA Texto→Imagem” e demonstra raciocínio aprimorado e grounding contextual em comparação aos modelos Nano Banana anteriores. Enfatiza maior fidelidade e renderização de texto aprimorada em relação a lançamentos anteriores.

Como usar a API do Nano Banana Pro (Gemini 3 Pro Image)?

Orientações práticas de desempenho

Espere maior latência e custo para renders de alta fidelidade em 2K/4K do que para 1K ou para os modelos “Flash” otimizados para velocidade. Se taxa de transferência/latência forem críticas, use a variante flash (por exemplo, Gemini 2.5 Flash / Nano Banana) para alto volume; use Nano Banana Pro / gemini-3-pro-image para qualidade e tarefas de raciocínio complexas.

Como os desenvolvedores podem acessar o Nano Banana Pro?

Quais endpoints e modelos escolher

Identificador do modelo (preview / pro): gemini-3-pro-image-preview (preview) — use este quando quiser as capacidades do Nano Banana Pro. Para trabalho mais rápido e de menor custo, gemini-2.5-flash-image (Nano Banana) continua disponível.

Superfícies para usar

  • API Gemini (endpoint generativelanguage): Você pode usar uma chave da CometAPI para acessar xx. A CometAPI oferece a mesma API a um preço mais vantajoso do que o site oficial. Chamadas HTTP / SDK diretas para generateContent para geração de imagem (exemplos abaixo).
  • Google AI Studio: Superfície web para experimentação rápida e remix de apps de demonstração.
  • Vertex AI (enterprise): Throughput provisionado, opções de cobrança (pagamento conforme uso / níveis empresariais) e filtros de segurança para produção em grande escala. Use Vertex ao integrar em grandes pipelines ou jobs de renderização em lote.

A camada gratuita tem um limite de uso; ao exceder o limite, ocorrerá reversão para Nano Banana. As camadas Plus/Pro/Ultra oferecem limites mais altos e saída sem marca d’água, mas a Ultra pode ser usada nas ferramentas de vídeo Flow e no Antigravity IDE em modo 4K.

Como gerar uma imagem com Nano Banana Pro (passo a passo)?

1) Receita interativa rápida para usar o app Gemini

  1. Abra Gemini → Tools → Create images.
  2. Selecione Thinking (Nano Banana Pro) como o modelo.
  3. Insira um prompt: explique assunto, ação, clima, iluminação, câmera, proporção de aspecto e qualquer texto a aparecer na imagem. Exemplo:
    “Crie um pôster 4K de um workshop de robótica: uma equipe diversa em volta de uma mesa, sobreposição de blueprint, título em negrito ‘Robôs em Ação’ em sans-serif, luz de tungstênio quente, profundidade de campo rasa, cinematográfico 16:9.”
  4. (Opcional) Faça upload de até 14 imagens para fundir ou usar como referências. Use a ferramenta de seleção/máscara para edições locais.
  5. Gere, itere com linguagem natural (por exemplo, “deixe o título azul e alinhado no topo-centro; aumente o contraste no blueprint”), depois exporte.

2) Usar HTTP para enviar ao endpoint de imagem do Gemini

Você precisa fazer login na CometAPI para obter a chave.

# save your API key to $CometAPI_API_KEY securely before running

curl -s -X POST \
  "https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent" \
  -H "x-goog-api-key: $CometAPI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{
      "role": "user",
      "parts": [{
        "text": "Photorealistic 4K image of a yellow banana floating over Earth, studio lighting, cinematic composition. Add bold text overlay: \"Nano Banana Pro\" in top right corner."
      }]
    }],
    "generationConfig": {
      "imageConfig": {
        "resolution": "4096x4096",
        "aspectRatio": "1:1"
      }
    }
  }' \
  | jq -r '.candidates.content.parts[] | select(.inlineData) | .inlineData.data' \
  | base64 --decode > nano_banana_pro_4k.png

Este exemplo grava a carga útil de imagem base64 em um arquivo PNG. O parâmetro generationConfig.imageConfig.resolution solicita saída 4K (disponível para o modelo 3 Pro Image).

3) Chamadas SDK diretas para generateContent para geração de imagem

Requer instalar o SDK do Google e obter autenticação do Google. Exemplo em Python (texto + imagens de referência + grounding):

# pip install google-genai pillow

from google import genai
from PIL import Image
import base64

client = genai.Client()  # reads credentials from env / config per SDK docs

# Read a reference image and set inline_data

with open("ref1.png", "rb") as f:
    ref1_b64 = base64.b64encode(f.read()).decode("utf-8")

prompt_parts = [
    {"text": "Create a styled product ad for a yellow banana-based energy bar. Use studio lighting, shallow DOF. Include a product label with the brand name 'Nano Bar'."},
    {"inline_data": {"mime_type": "image/png", "data": ref1_b64}}
]

response = client.models.generate_content(
    model="gemini-3-pro-image-preview",
    contents=,
    generation_config={
        "imageConfig": {"resolution":"4096x4096", "aspectRatio":"4:3"},
        # tools can be provided to ground facts, e.g. "google_search"

        "tools": 
    }
)

for part in response.candidates.content.parts:
    if part.inline_data:
        image = part.as_image()
        image.save("product_ad.png")

Este exemplo mostra como fazer upload de uma imagem de referência inline e solicitar uma composição 4K enquanto habilita google_search como ferramenta. O SDK Python cuidará dos detalhes REST de baixo nível.

Fusão multiimagem e consistência de personagem

Para produzir um composto que preserve a mesma pessoa em diferentes cenas, passe múltiplas partes inline_data (selecionadas do seu conjunto de fotos) e especifique na instrução criativa que o modelo deve “preservar a identidade nos resultados”.

Exemplo prático curto — um prompt real e fluxo esperado

Prompt:
"Generate a 2K infographic: 'Q4 Sales by Region 2025' — stacked bar chart with North America 35%, EMEA 28%, APAC 25%, LATAM 12%. Include title top-center, caption with source bottom-right, clean sans-serif labels, neutral palette, vector look, 16:9."

Pipeline esperado: app → template de prompt + dados CSV → substituir placeholders no prompt → chamada de API com image_size=2048x1152 → receber PNG em base64 → salvar o ativo + metadados de proveniência → opcionalmente sobrepor a fonte exata via compositor, se necessário.

Como projetar um pipeline de produção e lidar com segurança / proveniência?

Arquitetura de produção recomendada

  1. Prompt + passada de rascunho (modelo rápido): Use gemini-2.5-flash-image (Nano Banana) para produzir muitas variações de baixa resolução a baixo custo.
  2. Seleção e refinamento: escolha os melhores candidatos, refine prompts, aplique edições com inpainting/máscaras para precisão.
  3. Render final de alta fidelidade: chame gemini-3-pro-image-preview (Nano Banana Pro) para renders finais em 2K/4K e pós-processamento (upsampling, correção de cor).
  4. Proveniência e metadados: armazene prompt, versão do modelo, carimbos de tempo e informações SynthID em seu repositório de metadados de ativos — o modelo anexa uma marca d’água SynthID e as saídas podem ser rastreadas para conformidade e auditoria de conteúdo.

Segurança, direitos e moderação

  • Direitos autorais e liberação de direitos: não faça upload nem gere conteúdo que infrinja direitos. Use confirmações explícitas do usuário para imagens fornecidas pelo usuário ou prompts que possam criar semelhanças reconhecíveis. A Política de Uso Proibido do Google e os filtros de segurança do modelo devem ser respeitados.
  • Filtragem e verificações automatizadas: execute imagens geradas por um pipeline interno de moderação de conteúdo (detecção de NSFW, símbolos de ódio, conteúdo político/vinculante) antes do consumo downstream ou exibição pública.

Como fazer edição de imagem (inpainting), composição multiimagem e renderização de texto?

Nano Banana Pro suporta fluxos de trabalho de edição multimodal: forneça uma ou mais imagens de entrada e uma instrução textual descrevendo as edições (remover um objeto, mudar o céu, adicionar texto). A API aceita imagem + texto na mesma requisição; o modelo pode produzir respostas intercalando texto e imagens. Padrões de exemplo incluem edições com máscara e blends multiimagem (transferência de estilo / composição). Veja a documentação sobre arrays contents combinando blobs de texto e imagens binárias.

Exemplo: Edição (pseudo-fluxo em Python)

from google import genai
from PIL import Image

client = genai.Client()

prompt = "Remove the person on the left and add a small red 'Nano Banana Pro' sticker on the top-right of the speaker"

# contents can include Image objects or binary data per SDK; see doc for exact call

response = client.models.generate_content(
    model="gemini-3-pro-image-preview",
    contents=,  # order matters: image + instruction

)
# Save result as before

Essa edição conversacional permite ajustar iterativamente os resultados até chegar a um ativo pronto para produção.

Exemplo em Node.js — edição de imagem com máscara e múltiplas referências

// npm install google-auth-library node-fetch
const { GoogleAuth } = require('google-auth-library');
const fetch = require('node-fetch');

const auth = new GoogleAuth({ scopes:  });
async function runEdit() {
  const client = await auth.getClient();
  const token = await client.getAccessToken();
  const API_URL = "https://api.generativemodels.googleapis.com/v1alpha/gemini:editImage";
  const MODEL = "gemini-3-pro-image";

  // Attach binary image content or URLs depending on API.
  const payload = {
    model: MODEL,
    prompt: { text: "Replace background with an indoor studio set, keep subject, add rim light." },
    inputs: {
      referenceImages: [
        { uri: "gs://my-bucket/photo_subject.jpg" },
        { uri: "gs://my-bucket/target_studio.jpg" }
      ],
      mask: { uri: "gs://my-bucket/mask.png" },
      imageConfig: { resolution: "2048x2048", format: "png" }
    },
    options: { preserveIdentity: true }
  };

  const res = await fetch(API_URL, {
    method: 'POST',
    headers: {
      'Authorization': `Bearer ${token.token}`,
      'Content-Type': 'application/json'
    },
    body: JSON.stringify(payload)
  });
  const out = await res.json();
  console.log(JSON.stringify(out, null, 2));
}
runEdit();

(APIs às vezes aceitam URIs do Cloud Storage ou cargas de imagem em base64; verifique a documentação da API Gemini para formatos de entrada exatos.)

Para informações sobre geração e edição de imagens usando a CometAPI, consulte o Guia de chamada do gemini-3-pro-image .

Conclusão

Nano Banana Pro (Gemini 3 Pro Image) representa um salto de nível de produção na geração de imagens: uma ferramenta para visualizar dados, realizar edições localizadas e potencializar fluxos de trabalho de desenvolvedores. Use o app Gemini para prototipagem rápida, a API para integração em produção e siga as recomendações acima para controlar custos, garantir segurança e manter a qualidade da marca. Sempre teste fluxos reais de usuários e armazene metadados de proveniência para atender a requisitos de transparência e auditoria.

Use Nano Banana Pro quando precisar de ativos com qualidade de estúdio, controle preciso sobre composição, renderização de texto aprimorada dentro das imagens e a capacidade de fundir múltiplas referências em um único resultado coerente.

Os desenvolvedores podem acessar a API Gemini 3 Pro Image (Nano Banana Pro) por meio da CometAPI. Para começar, explore os recursos do modelo da CometAPI no Playground e consulte o guia da API para instruções detalhadas. Antes de acessar, certifique-se de estar logado na CometAPI e ter obtido a chave da API. A CometAPI oferece um preço muito inferior ao oficial para ajudá-lo a integrar.

Pronto para começar?→ Inscreva-se na CometAPI hoje!

Se quiser saber mais dicas, guias e novidades sobre IA, siga-nos no VK, X e Discord!

Acesse Modelos de Ponta com Baixo Custo

Leia Mais