Como usar a API do Nano Banana Pro (imagem Gemini 3 Pro)?

Nano Banana Pro — oficialmente Imagem Gemini 3 Pro — é o novo modelo de geração e edição de imagens de nível profissional do Google/DeepMind, que combina raciocínio multimodal avançado, renderização de texto de alta fidelidade, composição de múltiplas imagens e controles criativos de nível profissional.

O que é o Nano Banana Pro e por que você deveria se importar?

O Nano Banana Pro é o modelo mais recente do Google para geração e edição de imagens — a versão “Gemini 3 Pro Image” — projetado para produzir imagens de alta fidelidade e texto contextualizado com qualidade de estúdio em até 4K. É o sucessor dos modelos Nano Banana anteriores (Gemini 2.5 Flash Image / “Nano Banana”), com raciocínio aprimorado, fundamentação em pesquisas (fatos do mundo real), renderização de texto mais robusta e controles de edição local mais poderosos. O modelo está disponível no aplicativo Gemini para usuários interativos e o acesso ao Nano Banana Pro é feito por meio da API Gemini padrão, mas você seleciona o identificador específico do modelo (gemini-3-pro-image-preview ou seu sucessor estável). para acesso programático.

Por que isso importa: O Nano Banana Pro foi desenvolvido não apenas para criar imagens bonitas, mas também para... visualizar informações — infográficos, instantâneos baseados em dados (clima, esportes), pôsteres com muito texto, protótipos de produtos e fusões de múltiplas imagens (até 14 imagens de entrada, mantendo a consistência de caracteres entre até 5 pessoas). Para designers, equipes de produto e desenvolvedores, essa combinação de precisão, texto na imagem e acesso programático abre fluxos de trabalho de produção que antes eram difíceis de automatizar.

Quais funções são expostas através da API?

As funcionalidades típicas da API disponibilizadas aos desenvolvedores incluem:

Texto → Geração de imagem (Fluxos de composição de "pensamento" em uma ou várias etapas).
Edição de imagem (máscaras locais, repintura, ajustes de estilo).
Fusão de múltiplas imagens (combinar imagens de referência).
Controles avançados de solicitaçãoResolução, proporção da tela, etapas de pós-processamento e rastreamento do "pensamento de composição" para depuração/inspeção nos modos de visualização.

Principais inovações e funções do Nano Banana Pro

Raciocínio de conteúdo mais inteligente

Utiliza a pilha de raciocínio do Gemini 3 Pro para interpretar instruções visuais complexas e de várias etapas (por exemplo, "crie um infográfico de 5 etapas a partir deste conjunto de dados e adicione uma legenda bilíngue"). A API expõe um mecanismo de "Pensamento" que pode produzir testes de composição intermediários para refinar a saída final.

Por que isso é importante: Em vez de uma única passagem que mapeia o prompt para o pixel, o modelo realiza um processo interno de "raciocínio" que refina a composição e pode recorrer a ferramentas externas (como a Busca do Google) para obter informações factuais (por exemplo, rótulos de diagramas precisos ou sinalização adequada ao local). Isso resulta em imagens que não são apenas mais bonitas, mas também semanticamente mais corretas para tarefas como infográficos, diagramas ou protótipos de produtos.

Como conseguir: O "Thinking" do Nano Banana Pro é uma etapa interna controlada de raciocínio/composição, na qual o modelo gera visuais intermediários e registros de raciocínio antes de produzir a imagem final. A API expõe que o modelo pode criar até dois quadros intermediários e que a imagem final é o último estágio dessa cadeia. Em produção, isso auxilia na composição, posicionamento de texto e decisões de layout.

Renderização de texto mais precisa

Texto legível e localizado significativamente aprimorado dentro de imagens (menus, pôsteres, diagramas). O Nano Banana Pro atinge novos patamares na renderização de texto em imagens:

O texto nas imagens é claro, legível e a ortografia está correta;
Suporta geração multilíngue (incluindo chinês, japonês, coreano, árabe, etc.);
Permite aos usuários escrever longos parágrafos ou textos descritivos com várias linhas diretamente nas imagens;
Tradução e localização automáticas estão disponíveis.

Por que isso é importante: Tradicionalmente, os modelos de imagem têm dificuldade em renderizar textos legíveis e bem alinhados. O Nano Banana Pro é explicitamente otimizado para renderização e localização de texto confiáveis (por exemplo, tradução e preservação do layout), o que possibilita aplicações criativas reais, como pôsteres, embalagens ou anúncios multilíngues.

Como conseguir: As melhorias na renderização de texto provêm da arquitetura multimodal subjacente e do treinamento em conjuntos de dados que enfatizam exemplos de texto em imagens, combinados com conjuntos de avaliação direcionados (avaliações humanas e conjuntos de regressão). O modelo aprende a alinhar formas de glifos, fontes e restrições de layout para produzir texto legível e localizado dentro das imagens — embora textos pequenos e parágrafos extremamente densos ainda possam apresentar erros.

Maior consistência e fidelidade visual.

Os controles de estúdio (iluminação, foco, ângulo da câmera, correção de cores) e a composição com múltiplas imagens (até 14 imagens de referência, com ajustes especiais para múltiplos sujeitos humanos) ajudam a preservar a consistência do personagem (mantendo a mesma pessoa/personagem em todas as edições) e a identidade da marca em todos os materiais gerados. O modelo suporta saídas nativas em 1K/2K/4K.

Por que isso é importante: Os fluxos de trabalho de marketing e entretenimento exigem personagens consistentes em todas as tomadas e edições. O modelo pode manter a semelhança por até cinco pessoas e misturar até 14 Combine imagens de referência em uma única composição durante a renderização 3D a partir do Sketch. Isso é útil para criação de anúncios, embalagens ou narrativas com múltiplas cenas.

Como conseguir: Os modelos aceitam múltiplas imagens como entrada, com atribuições explícitas de funções (por exemplo, “Imagem A: pose”, “Imagem B: referência facial”, “Imagem C: textura de fundo”). A arquitetura condiciona a geração com base nessas imagens para manter a identidade/pose/estilo enquanto aplica transformações (iluminação, câmera).

Benchmarks de desempenho do Nano Banana Pro

O Nano Banana Pro (imagem Gemini 3 Pro) "se destaca nos benchmarks de IA de Texto→Imagem" e demonstra raciocínio e contextualização aprimorados em comparação com os modelos anteriores do Nano Banana. Ele enfatiza maior fidelidade e renderização de texto aprimorada em relação às versões anteriores.

Como usar a API do Nano Banana Pro (imagem Gemini 3 Pro)?

Orientações práticas de desempenho

Esperar latência maior e o custo para renderizações de alta fidelidade em 2K/4K é menor do que para 1K ou para os modelos "Flash" otimizados para velocidade. Se a taxa de transferência/latência for crítica, use a variante Flash (por exemplo, Gemini 2.5 Flash / Nano Banana) para alto volume; use Nano Banana Pro / Gemini 3 Pro Image para tarefas de alta qualidade e raciocínio complexo.

Como os desenvolvedores podem acessar o Nano Banana Pro?

Quais endpoints e modelos escolher?

Identificador do modelo (pré-visualização/pro): gemini-3-pro-image-preview (prévia) — use esta opção quando desejar os recursos do Nano Banana Pro. Para trabalhos mais rápidos e com menor custo, gemini-2.5-flash-image (Nano Banana) continua disponível.

Superfícies a utilizar

API Gemini (endpoint de linguagem generativa): Você pode usar uma chave CometAPI para acessar xx. A CometAPI oferece a mesma API a um preço mais vantajoso do que o site oficial. Chamadas HTTP/SDK diretas para generateContent para geração de imagens (exemplos abaixo).
Estúdio de IA do Google: Plataforma web para experimentação rápida e recombinação de aplicativos de demonstração.
Vertex AI (empresarial): Taxa de transferência provisionada, opções de faturamento (pagamento conforme o uso / planos corporativos) e filtros de segurança para produção em larga escala. Use o Vertex ao integrar-se a grandes pipelines ou trabalhos de renderização em lote.

O plano gratuito possui um limite de uso; ao ultrapassar esse limite, o usuário retorna ao Nano Banana. Os planos Plus/Pro/Ultra oferecem limites maiores e saída sem marca d'água, mas o Ultra pode ser usado nas ferramentas de vídeo Flow e no IDE Antigravity em modo 4K.

Como gerar uma imagem com o Nano Banana Pro (passo a passo)?

1) Receita interativa rápida para usar o aplicativo Gemini

Abra o Gemini → Ferramentas → Crie imagens.
Selecionar Pensando (Nano Banana Pro) como o modelo.
Insira uma descrição: explique o assunto, a ação, o clima, a iluminação, a câmera, a proporção da imagem e qualquer texto que deseje aparecer na imagem. Exemplo:
“Crie um pôster em 4K de uma oficina de robótica: uma equipe diversificada em torno de uma mesa, sobreposição de planta baixa, título em negrito 'Robôs em Ação' em fonte sem serifa, luz quente de tungstênio, pouca profundidade de campo, formato cinematográfico 16:9.”
(Opcional) Carregue até 14 imagens para fundir ou usar como referência. Use a ferramenta de seleção/máscara para editar áreas específicas.
Gere, itere com linguagem natural (por exemplo, "torne o título azul e alinhado ao centro superior; aumente o contraste no modelo") e, em seguida, exporte.

2) Use HTTP para enviar para o endpoint de imagem do Gemini.

Você precisa fazer login no CometAPI para obter a chave.

# save your API key to $CometAPI_API_KEY securely before running

curl -s -X POST \
  "https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent" \
  -H "x-goog-api-key: $CometAPI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{
      "role": "user",
      "parts": [{
        "text": "Photorealistic 4K image of a yellow banana floating over Earth, studio lighting, cinematic composition. Add bold text overlay: \"Nano Banana Pro\" in top right corner."
      }]
    }],
    "generationConfig": {
      "imageConfig": {
        "resolution": "4096x4096",
        "aspectRatio": "1:1"
      }
    }
  }' \
  | jq -r '.candidates.content.parts[] | select(.inlineData) | .inlineData.data' \
  | base64 --decode > nano_banana_pro_4k.png

Este exemplo grava a carga útil da imagem em base64 em um arquivo PNG. generationConfig.imageConfig.resolution Solicitações de parâmetros para saída 4K (disponível para o modelo 3 Pro Image)

3) Chamadas diretas do SDK para `generateContent` para geração de imagem

Requer a instalação do SDK do Google e a obtenção da autenticação do Google. Exemplo em Python (texto + imagens de referência + contexto):

# pip install google-genai pillow

from google import genai
from PIL import Image
import base64

client = genai.Client()  # reads credentials from env / config per SDK docs

# Read a reference image and set inline_data

with open("ref1.png", "rb") as f:
    ref1_b64 = base64.b64encode(f.read()).decode("utf-8")

prompt_parts = [
    {"text": "Create a styled product ad for a yellow banana-based energy bar. Use studio lighting, shallow DOF. Include a product label with the brand name 'Nano Bar'."},
    {"inline_data": {"mime_type": "image/png", "data": ref1_b64}}
]

response = client.models.generate_content(
    model="gemini-3-pro-image-preview",
    contents=,
    generation_config={
        "imageConfig": {"resolution":"4096x4096", "aspectRatio":"4:3"},
        # tools can be provided to ground facts, e.g. "google_search"

        "tools": 
    }
)

for part in response.candidates.content.parts:
    if part.inline_data:
        image = part.as_image()
        image.save("product_ad.png")

Este exemplo mostra o carregamento de uma imagem de referência embutida e a solicitação de uma composição em 4K, ativando a opção correspondente. google_search como uma ferramenta. O SDK do Python cuidará dos detalhes REST de baixo nível.

Fusão de múltiplas imagens e consistência de caracteres

Para produzir uma composição que preserve a mesma pessoa em todas as cenas, passe múltiplo inline_data partes (selecionadas do seu conjunto de fotos) e especifique a instrução criativa de que o modelo deve "preservar a identidade em todas as versões".

Exemplo prático curto — um prompt real e um fluxo esperado

prompt:
"Generate a 2K infographic: 'Q4 Sales by Region 2025' — stacked bar chart with North America 35%, EMEA 28%, APAC 25%, LATAM 12%. Include title top-center, caption with source bottom-right, clean sans-serif labels, neutral palette, vector look, 16:9."

Fluxo de produção previsto: aplicativo → modelo de prompt + dados CSV → substituir marcadores de posição no prompt → chamada de API com image_size=2048x1152 → receber PNG em base64 → salvar recurso + metadados de procedência → opcionalmente sobrepor a fonte exata via compositor, se necessário.

Como devo projetar um fluxo de produção e lidar com segurança/proveniência?

Arquitetura de produção recomendada

Prompt + passe de rascunho (modelo rápido): Uso gemini-2.5-flash-image (Nano Banana) para produzir muitas variações de baixa resolução a baixo custo.
Seleção e refinamento: Selecione os melhores candidatos, refine as instruções, aplique retoques/edições de máscara para maior precisão.
Renderização final de alta fidelidade: chamada gemini-3-pro-image-preview (Nano Banana Pro) para renderizações finais em 2K/4K e pós-processamento (upsampling, correção de cor).
Proveniência e metadados: Armazene o prompt, a versão do modelo, os registros de data e hora e as informações do SynthID no seu repositório de metadados de ativos — o modelo anexa uma marca d'água SynthID e as saídas podem ser rastreadas para fins de conformidade e auditoria de conteúdo.

Segurança, direitos e moderação

Liberação de direitos autorais e de direitos: Não carregue nem gere conteúdo que infrinja direitos autorais. Use confirmações explícitas do usuário para imagens fornecidas pelo usuário ou avisos que possam criar semelhanças reconhecíveis. A Política de Uso Proibido do Google e os filtros de segurança de modelos devem ser respeitados.
Filtragem e verificações automatizadas: As imagens geradas passam por um sistema interno de moderação de conteúdo (detecção de conteúdo impróprio para menores, símbolos de ódio e conteúdo político/ofensoroso) antes de serem consumidas ou exibidas publicamente.

Como faço para editar imagens (preenchimento de espaços), compor múltiplas imagens e renderizar texto?

O Nano Banana Pro suporta fluxos de trabalho de edição multimodal: forneça uma ou mais imagens de entrada e uma instrução textual descrevendo as edições (remover um objeto, alterar o céu, adicionar texto). A API aceita imagem + texto na mesma solicitação; o modelo pode produzir texto e imagens intercalados como respostas. Exemplos de padrões incluem edições mascaradas e mesclagem de múltiplas imagens (transferência de estilo/composição). Consulte a documentação para obter mais detalhes. contents matrizes que combinam blocos de texto e imagens binárias.

Exemplo: Editar (pseudofluxo em Python)

from google import genai
from PIL import Image

client = genai.Client()

prompt = "Remove the person on the left and add a small red 'Nano Banana Pro' sticker on the top-right of the speaker"

# contents can include Image objects or binary data per SDK; see doc for exact call

response = client.models.generate_content(
    model="gemini-3-pro-image-preview",
    contents=,  # order matters: image + instruction

)
# Save result as before

Essa edição conversacional permite ajustar os resultados iterativamente até chegar a um material pronto para produção.

Exemplo em Node.js — edição de imagem com máscara e múltiplas referências.

// npm install google-auth-library node-fetch
const { GoogleAuth } = require('google-auth-library');
const fetch = require('node-fetch');

const auth = new GoogleAuth({ scopes:  });
async function runEdit() {
  const client = await auth.getClient();
  const token = await client.getAccessToken();
  const API_URL = "https://api.generativemodels.googleapis.com/v1alpha/gemini:editImage";
  const MODEL = "gemini-3-pro-image";

  // Attach binary image content or URLs depending on API.
  const payload = {
    model: MODEL,
    prompt: { text: "Replace background with an indoor studio set, keep subject, add rim light." },
    inputs: {
      referenceImages: [
        { uri: "gs://my-bucket/photo_subject.jpg" },
        { uri: "gs://my-bucket/target_studio.jpg" }
      ],
      mask: { uri: "gs://my-bucket/mask.png" },
      imageConfig: { resolution: "2048x2048", format: "png" }
    },
    options: { preserveIdentity: true }
  };

  const res = await fetch(API_URL, {
    method: 'POST',
    headers: {
      'Authorization': `Bearer ${token.token}`,
      'Content-Type': 'application/json'
    },
    body: JSON.stringify(payload)
  });
  const out = await res.json();
  console.log(JSON.stringify(out, null, 2));
}
runEdit();

(As APIs às vezes aceitam URIs do Cloud Storage ou payloads de imagem em base64; consulte a documentação da API Gemini para obter os formatos de entrada exatos.)

Para obter informações sobre como gerar e editar imagens usando a CometAPI, consulte Guia para chamar a imagem gemini-3-pro .

Conclusão

O Nano Banana Pro (Gemini 3 Pro Image) representa um salto de qualidade profissional na geração de imagens: uma ferramenta para visualizar dados, produzir edições localizadas e otimizar os fluxos de trabalho dos desenvolvedores. Utilize o aplicativo Gemini para prototipagem rápida, a API para integração em produção e siga as recomendações acima para controlar custos, garantir segurança e manter a qualidade da marca. Sempre teste fluxos de trabalho de usuários reais e armazene metadados de procedência para atender às necessidades de transparência e auditoria.

Use Nano Banana Pro quando precisar qualidade de estúdio Recursos, controle preciso sobre a composição, renderização de texto aprimorada dentro de imagens e a capacidade de fundir várias referências em uma única saída coerente.

Os desenvolvedores podem acessar API de imagem Gemini 3 Pro (Nano Banana Pro) por meio da CometAPI. Para começar, explore os recursos do modelo deCometAPI no Playground e consulte o guia da API para obter instruções detalhadas. Antes de acessar, certifique-se de ter feito login na CometAPI e obtido a chave da API. Com e tAPI oferecem um preço muito mais baixo que o preço oficial para ajudar você a se integrar.

Pronto para ir?→ Inscreva-se no CometAPI hoje mesmo !

Se você quiser saber mais dicas, guias e novidades sobre IA, siga-nos em VK, X e Discord!

O que é o Nano Banana Pro e por que você deveria se importar?

Quais funções são expostas através da API?

Principais inovações e funções do Nano Banana Pro

Raciocínio de conteúdo mais inteligente

Renderização de texto mais precisa

Maior consistência e fidelidade visual.

Benchmarks de desempenho do Nano Banana Pro

Orientações práticas de desempenho

Como os desenvolvedores podem acessar o Nano Banana Pro?

Quais endpoints e modelos escolher?

Superfícies a utilizar

Como gerar uma imagem com o Nano Banana Pro (passo a passo)?

1) Receita interativa rápida para usar o aplicativo Gemini

2) Use HTTP para enviar para o endpoint de imagem do Gemini.

3) Chamadas diretas do SDK para `generateContent` para geração de imagem

Fusão de múltiplas imagens e consistência de caracteres

Exemplo prático curto — um prompt real e um fluxo esperado

Como devo projetar um fluxo de produção e lidar com segurança/proveniência?

Arquitetura de produção recomendada

Segurança, direitos e moderação

Como faço para editar imagens (preenchimento de espaços), compor múltiplas imagens e renderizar texto?

Exemplo em Node.js — edição de imagem com máscara e múltiplas referências.

Conclusão

Leia Mais

500+ Modelos em Uma API

Como usar a API do Nano Banana Pro (imagem Gemini 3 Pro)?

O que é o Nano Banana Pro e por que você deveria se importar?

Quais funções são expostas através da API?

Principais inovações e funções do Nano Banana Pro

Raciocínio de conteúdo mais inteligente

Renderização de texto mais precisa

Maior consistência e fidelidade visual.

Benchmarks de desempenho do Nano Banana Pro

Orientações práticas de desempenho

Como os desenvolvedores podem acessar o Nano Banana Pro?

Quais endpoints e modelos escolher?

Superfícies a utilizar

Como gerar uma imagem com o Nano Banana Pro (passo a passo)?

1) Receita interativa rápida para usar o aplicativo Gemini

2) Use HTTP para enviar para o endpoint de imagem do Gemini.

3) Chamadas diretas do SDK para generateContent para geração de imagem

Fusão de múltiplas imagens e consistência de caracteres

Exemplo prático curto — um prompt real e um fluxo esperado

Como devo projetar um fluxo de produção e lidar com segurança/proveniência?

Arquitetura de produção recomendada

Segurança, direitos e moderação

Como faço para editar imagens (preenchimento de espaços), compor múltiplas imagens e renderizar texto?

Exemplo em Node.js — edição de imagem com máscara e múltiplas referências.

Conclusão

Leia Mais

500+ Modelos em Uma API

3) Chamadas diretas do SDK para `generateContent` para geração de imagem