Como usar a API do Nano Banana 2

Nano Banana 2 — o apelido que a comunidade usa para o mais novo modelo de geração de imagens do Google na família Gemini — rapidamente redefiniu as expectativas para geração e edição de imagens rápidas e de alta fidelidade. Lançado no fim de fevereiro de 2026, esta variante “Flash Image” (Gemini 3.1 Flash Image / Nano Banana 2) tem como alvo desenvolvedores e equipes de produto que precisam de resultados em nível profissional com alta taxa de processamento e baixa latência. Neste artigo, reúno os relatórios e a documentação mais recentes para explicar o que é o Nano Banana 2, como ele se sai em benchmarks, como acessá-lo e chamá-lo (inclusive por gateways de terceiros como CometAPI) e padrões práticos de prompts e uso que você pode adotar em produção.

CometAPI fornece uma única interface de estilo HTTP que expõe muitos modelos (incluindo modelos de imagem) sob endpoints consistentes. Isso pode simplificar a troca entre fornecedores ou a combinação de saídas de vários modelos. Nano Banana 2 (Gemini 3.1 Image) está disponível no CometAPI.

O que é Nano Banana 2?

Nano Banana 2 (alinhado internamente ao Gemini 3.1 Flash Image) é um modelo de geração de imagens focado e de alta eficiência do Google que prioriza velocidade, menor custo por imagem e instrução mais robusta para tarefas criativas e editoriais de imagem. Ele foi projetado para ficar ao lado das variantes de maior fidelidade “Pro”: Nano Banana 2 para alto throughput e Nano Banana Pro (Gemini 3 Pro Image) para resultados premium, em nível de ativo.

Foi projetado para oferecer:

Inferência rápida (visando latência muito baixa para que a geração e as edições de imagens pareçam quase instantâneas).
Alta qualidade visual aproximando-se da família “Pro”, mas com menor computação/custo.
Melhor seguimento de instruções (renderização mais precisa dos assuntos solicitados, texto na imagem e cenas com vários personagens).
Suporte amplo a resoluções e proporções, de prévias pequenas rápidas até pipelines nativos 2K/4K para ativos finais.

O que torna o Nano Banana 2 diferente do Nano Banana original / Pro?

Arquitetura / engine: Baseado na pilha de inferência Flash do Gemini (Gemini 3.1 Flash Image), troca algumas configurações de qualidade máxima por melhorias dramáticas em velocidade e custo.
Casos de uso: Ideal para automação em larga escala (ativos de marketing, miniaturas, UIs), edição quase em tempo real e fluxos em que latência e custo importam, mas você ainda precisa de fidelidade de assunto em nível Pro.

Desempenho em Benchmark do Nano Banana 2

Como usar a API do Nano Banana 2

Consistente em todas as categorias

O Gemini 3.1 Flash Image demonstra melhoria mensurável em cada categoria relatada em comparação ao Gemini 2.5 Flash.

Maiores ganhos

Qualidade visual
Edição composicional com múltiplas entradas
Robustez geral de edição

Posicionamento competitivo

Lidera a preferência geral no GenAI-Bench interno.
Supera o GPT-Image 1.5 em métricas gerais e visuais.
Melhorias incrementais estreitas sugerem refinamento arquitetural, em vez de uma mudança radical.

Como posso acessar o Nano Banana 2?

Onde está disponível

Nano Banana 2 é acessível pelas ferramentas Gemini do Google (app Gemini), pela API do Gemini (documentada nos docs de desenvolvedores de IA do Google) e está sendo disponibilizado por produtos corporativos de nuvem como o Vertex AI para integrações de preview/enterprise. CometAPI também anunciou suporte e wrappers para facilitar a integração.

Como usar a API do Nano Banana 2 (cometapi): quais são as opções?

O guia do CometAPI usa um formato com estilo Gemini generateContent e retorna imagens como Base64 em candidates[0].content.parts[].inline_data.data. Você deve decodificar esse Base64 para salvar um arquivo no lado do cliente. Você só precisa substituir https: //generativelanguage.googleapis.com por https://api.cometapi.com . A imagem retornada geralmente é fornecida como inline_data codificada em Base64. Você precisará decodificá-la no cliente e salvá-la como um arquivo. CometAPI oferece descontos e ajuda você a usar a API do Nano Banana 2.

CometAPI fornece um wrapper REST unificado e endpoints explícitos para modelos Gemini — ideal se você prefere uma única credencial e deseja trocar de fornecedor sem alterar o código da sua aplicação. Para o Nano Banana 2, a página do CometAPI inclui um snippet curl direto para o endpoint gemini-3.1-flash-image-preview:generateContent. Abaixo está um exemplo curl simplificado com base na documentação do CometAPI.

Pré-requisitos para usar o Nano Banana 2 via CometAPI

Conta no CometAPI e chave de API: Crie uma conta no CometAPI e gere sua chave de acesso à API (sk-…). Essa chave é o que você usará para autenticar todas as solicitações aos endpoints do CometAPI.

Linguagens de programação e runtimes:

Node.js 18+ (para JavaScript/TypeScript)
Python 3.10+
(Ou qualquer linguagem que faça requisições HTTP)

Ferramentas HTTP ou SDKs:

Para JavaScript: fetch, axios, ou o cliente compatível com OpenAI
Para Python: requests, httpx, ou o cliente da OpenAI
Essas ferramentas ajudam você a enviar chamadas de API e lidar com respostas.

Visão rápida do padrão de requisição

URL base: https://api.cometapi.com (base do CometAPI).
Nomes de modelos: gemini-3.1-flash-image-preview (Nano Banana 2 / gemini 3.1 Flash Image) ou gemini-2.5-flash-image, dependendo da disponibilidade.
Autenticação: cabeçalho Authorization: sk-xxxx — o CometAPI normalmente usa uma chave no estilo sk-.
Resposta: as imagens são retornadas como Base64 em response.candidates[0].content.parts[].inline_data.data. Decodifique e grave em disco.

Fluxo de exemplo (alto nível)

Obtenha uma chave de API do CometAPI.
Escolha o identificador do modelo (por exemplo, gemini-3.1-flash-image ou similar, dependendo da disponibilidade).
Envie uma solicitação POST para o endpoint de geração do modelo com seu prompt.
Trate os dados de imagem retornados no seu app (decodifique o Base64, sirva como PNG, etc.).
Para edição de imagem, inclua os dados da imagem existente e instruções de edição na sua requisição.

Usando a API oficial do Gemini (texto → imagem)

Segue um pequeno exemplo em Node.js mostrando como chamar o endpoint generateContent para gemini-3.1-flash-image-preview (isso espelha trechos oficiais na documentação). Substitua YOUR_API_KEY pela sua credencial e adicione tratamento de erros para produção.

# Get your CometAPI key from https://api.cometapi.com/console/token
# Export it as: export COMETAPI_KEY="your-key-here"

mkdir -p ./output

curl -s "https://api.cometapi.com/v1beta/models/gemini-3.1-flash-image-preview:generateContent" \
  -H "Authorization: $COMETAPI_KEY" \
  -H 'Content-Type: application/json' \
  -X POST \
  -d '{
    "contents": [
      {
        "role": "user",
        "parts": [
          {
            "text": "A woman leaning on a wooden railing of a traditional Chinese building. She is wearing a blue cheongsam with pink and red floral motifs and a headdress made of colorful flowers, including roses and lilacs. Realistic painting style, focusing on the textural details of the clothing patterns and wooden buildings."
          }
        ]
      }
    ],
    "generationConfig": {
      "responseModalities": ["IMAGE"],
      "imageConfig": {
        "aspectRatio": "9:16"
      }
    }
  }' | python3 -c "
import sys, json, base64
data = json.load(sys.stdin)
parts = data['candidates'][0]['content']['parts']
for part in parts:
    if 'text' in part:
        print(part['text'])
    elif 'inlineData' in part:
        img = base64.b64decode(part['inlineData']['data'])
        with open('./output/gemini-3.1-flash-image-preview.png', 'wb') as f:
            f.write(img)
        print('Image saved to ./output/gemini-3.1-flash-image-preview.png')
"

O CometAPI fornece SDKs e wrappers de cliente compatíveis com OpenAI, então algumas equipes podem trocar de provedor com alterações mínimas de código, permitindo que você solicite saídas de imagem codificadas em Base64 ou URLs hospedadas, dependendo da sua configuração. Sempre verifique o esquema oficial de generateContent para os campos exatos do payload.

Fluxo de imagem→imagem (edição)

Para editar uma imagem existente:

Converta sua imagem de origem para Base64 (sem o prefixo data:image/...;base64,).
Faça uma POST com um payload que inclua inline_data.data contendo essa string Base64 e um prompt de edição (por exemplo, “alterar o fundo para céu ao entardecer, remover marca d’água”).
A resposta incluirá uma nova saída em Base64 para decodificar e salvar.

curl 
--location 
--request POST 'https://api.cometapi.com/v1beta/models/gemini-3.1-flash-image-preview:generateContent' \ 
--header 'Authorization: ' \ 
--header 'Content-Type: application/json' \ 
--data-raw '{ "contents": 
[ { "role": "user", "parts": 
[ { "text": "Blend three images to output a high-resolution image" }, { "inline_data": { "mime_type": "image/jpeg", "data": "<your_first_image_base64_data_here>" } }, { "inline_data": { "mime_type": "image/jpeg", "data": "<your_second_image_base64_data_here>" } }, { "inline_data": { "mime_type": "image/jpeg", "data": "<your_third_image_base64_data_here>" } } 
] } 
], "generationConfig": { "responseModalities": [ "TEXT", "IMAGE" 
] } }'

Parâmetros típicos para ajustar

model: escolha gemini-3.1-flash-image-preview (Nano Banana 2) ou gemini-3-pro-image-preview (Pro).
imageConfig.aspect_ratio e imageConfig.image_size (512, 1K, 2K, 4K) — afetam custo e latência.
responseModalities: ["Image"] ou ["Text","Image"] para fluxos multimodais.

Como devo elaborar prompts para o Nano Banana 2?

A engenharia de prompts para modelos de imagem combina composição, estilo, dicas de câmera/iluminação e declarações de restrição. O Nano Banana 2 é ajustado para seguir instruções de forma confiável, então equilibre concisão com explicitude.

Estrutura de prompt (recomendada)

Assunto principal: quem/o que está na imagem.
Ação ou estado: o que o sujeito está fazendo.
Ambiente e clima: cenário, iluminação, atmosfera.
Diretrizes técnicas: lente da câmera, proporção, resolução, composição.
Estilo e referências: estilo artístico, referências de artistas (atenção às regras de direitos autorais), era.
Restrições: número de personagens/objetos, evitar certas cores, incluir texto legível.

Exemplo de prompt:

“Uma imagem fotorrealista de uma pequena banana amarela em formato de foguete vintage, repousando sobre uma mesa de mogno brilhante em um estúdio iluminado pelo sol. Lente de 50 mm, profundidade de campo rasa, iluminação quente de golden hour, alto nível de detalhe, sem logotipos visíveis, 2048×1152.”

Dicas para prompts de edição (inpainting / substituição)

Forneça a máscara claramente e especifique quais regiões devem mudar.
Use linguagem de “preservar” para áreas a manter (por exemplo, “preservar os traços faciais do sujeito, substituir apenas o fundo”).
Para texto em imagens, forneça o texto exato e indique fonte/estilo (por exemplo, “sans-serif legível, centralizado”). Nano Banana 2 enfatiza melhor renderização de texto, mas seja explícito.

Checklist de depuração de prompt

Se o resultado estiver fora do esperado, tente simplificar: reduza primeiro as instruções de estilo criativo e, depois, reintroduza detalhes.
Se o texto estiver ilegível: especifique fonte, tamanho e contraste no prompt e aumente a resolução.
Se a composição estiver errada: use especificadores de ângulo de câmera e lente.

Quais são os erros comuns e como evitá-los?

Erro: Dependência excessiva de prompts únicos

Evite esperar que um único prompt resolva corte, layout e edições de múltiplas etapas. Quebre o trabalho em: gerar base → editar/substituir → polimento final. Use seed e máscaras para precisão.

Erro: Ignorar verificações de proveniência e direitos autorais

Não faça deploy em escala sem SynthID/C2PA ou outra proveniência. Muitas empresas exigem rastreabilidade para conteúdo originado por IA.

Erro: Surpresas de orçamento

Acompanhe o uso no nível do modelo e do endpoint e defina limites rígidos de uso pelo provedor ou por um proxy. As categorias Flash são mais baratas, mas ainda podem custar muito se você renderizar milhares de imagens 4K sem intenção.

Boas práticas recomendadas com o Nano Banana 2?

Colocar geração de imagens em produção exige atenção a custo, latência, controle de qualidade, proveniência e segurança. Abaixo estão boas práticas práticas destiladas de relatórios de campo, documentos do Google e testes da comunidade.

Engenharia de prompts e resultados determinísticos

Modele (“template”) seus prompts: para saídas repetíveis (por exemplo, fotos de produto), use prompts estruturados com segmentos fixos (assunto, câmera, iluminação, textura, pós-processamento). Isso reduz variações entre chamadas.
Use imagens de referência e instruções de máscara para edições em vez de tentar realizar edições locais complexas apenas via texto — isso reduz erros semânticos e artefatos.

Ajustes de custo e desempenho

Escolha o modo Flash/“Nano Banana 2” para alto volume: se você precisa de muitas iterações rápidas, use modelos da categoria Flash e tamanhos menores (2K vs 4K) para reduzir custo e latência.
Agrupe requisições quando possível: alguns provedores permitem batching de múltiplos prompts — isso reduz a latência total por ativo gerado em pipelines de alto throughput. (Confira a documentação do seu provedor.)

Segurança, proveniência e aspectos legais

Habilite SynthID e metadados C2PA em ativos gerados para dar suporte à auditoria e conformidade downstream (especialmente quando imagens são usadas em publicidade/PR). Google e parceiros enfatizam o SynthID como mecanismo de proveniência.
Revisão humana para conteúdo sensível: camadas de política automatizadas são fortes, mas imperfeitas — use checagens manuais para campanhas públicas ou conteúdo envolvendo figuras públicas.

Garantia de qualidade

Automatize verificações de QA: execute um classificador pós-geração rápido para artefatos inesperados (erros de texto, baixa fidelidade de rosto, criação acidental de logotipos). Mantenha um sistema de pontuação e um fallback seguro para renderizações da categoria Pro se a verificação automática falhar.
Armazene prompts e seeds: para auditoria e reprodutibilidade, salve o prompt exato, timestamp, versão do modelo e qualquer seed ou parâmetro determinístico usado.

UX sensível à latência

UX progressiva: retorne primeiro um rascunho de baixa resolução/rápido e substitua por uma renderização de alta resolução/Pro quando pronta. Isso mantém seu app responsivo (muitos provedores oferecem um sabor “draft” ou Flash).

Notas finais e próximos passos

Nano Banana 2 foi concebido para mudar a economia de fluxos de trabalho centrados em imagem: menor latência e menor custo por chamada abrem casos como geração sob demanda de ativos de anúncio, testes criativos rápidos A/B e ferramentas de design colaborativo em tempo real. O modelo já está integrado nas superfícies de consumo e nuvem do Google; para desenvolvedores que querem ir ao ar rapidamente, o CometAPI oferece um wrapper conveniente de marketplace que suporta endpoints de imagem do Gemini e outros modelos — uma escolha prática quando você quer experimentar vários engines sem mudar o código do app.
Desenvolvedores podem acessar Nano Banana 2 via CometAPI agora. Para começar, explore as capacidades do modelo no Playground e consulte o guia da API para instruções detalhadas. Antes de acessar, certifique-se de ter feito login no CometAPI e obtido a chave de API. O CometAPI oferece um preço muito inferior ao oficial para ajudar na integração.

Pronto para começar?→ Inscreva-se no Nano Banana 2 hoje !

Se quiser saber mais dicas, guias e novidades sobre IA, siga-nos no VK, X e Discord!