Nano Banana é o apelido da comunidade (e abreviação interna) para o Google Imagem Flash Gemini 2.5 — um modelo de geração e edição de imagens multimodais de alta qualidade e baixa latência. Este guia extenso (com código, padrões, etapas de implantação e exemplos de CometAPI) mostra três métodos de chamada práticos que você pode usar em produção: (1) uma interface de bate-papo compatível com OpenAI (texto → imagem), (2) o modelo oficial do Google generateContent interface texto→imagem e (3) a interface oficial do Google generateContent Interface imagem→imagem usando entrada/saída Base64. Ao longo do caminho, você receberá dicas passo a passo sobre distribuição/implantação, configuração do ambiente, como obter operações de API do CometAPI, notas sobre preços e marcas d'água, além das melhores dicas para resultados confiáveis e econômicos.
O que é Nano Banana (Imagem Flash Gemini 2.5)?
Nano Banana é o nome informal dado ao Gemini 2.5 Flash Image, o mais recente modelo de imagem do Google na família Gemini. Ele foi projetado tanto para geração de imagens fotorrealistas quanto para edição precisa de imagens (edições locais, fusão de várias imagens, preservação consistente de caracteres em todas as edições) e está disponível por meio da API Gemini do Google, do Google AI Studio e do Vertex AI. O modelo vem com uma marca d'água SynthID invisível para fins de verificação de procedência.
Por que isso é importante para os desenvolvedores: O Nano Banana oferece um modelo multimodal único e de alta qualidade que pode lidar com:
- Texto → Imagem (crie novas imagens a partir de prompts de texto)
- Imagem → Imagem (editar/transformar uma foto fornecida)
- Mesclagem de múltiplas imagens (combinar várias imagens em uma única composição)
Tudo isso pode ser acessado por meio do site oficial do GooglegenerateContentendpoints (Vertex AI / Gemini API) ou por meio de endpoints compatíveis com OpenAI oferecidos por gateways de API de terceiros, como CometAPI e OpenRouter. Isso significa que você pode integrar o Gemini 2.5 Flash Image em bases de código existentes compatíveis com OpenAI ou chamar diretamente os SDKs oficiais do Google.
No que ele se destaca
- Edições locais e direcionadas (mudar a cor de uma camisa, remover objetos, ajustar poses).
- Manter a consistência do assunto/personagem nas reedições.
- Misturar/mesclar várias imagens em uma composição coerente.
- Baixa latência e inferência econômica em comparação com modelos de pesquisa mais pesados (o Google posiciona os modelos “Flash” como opções de alto rendimento).
Como devo configurar meu ambiente de desenvolvimento para chamar o Nano Banana via API?
Abaixo está uma lista de verificação passo a passo que você pode usar como base para qualquer um dos três métodos de chamada descritos posteriormente.
Pré-requisitos (contas, chaves, cota)
- Conta Google + Projeto Cloud — Se você planeja chamar o Gemini diretamente pelo Google (API Gemini / Vertex AI), crie um projeto do Google Cloud e ative as APIs Vertex AI / Gemini. Você precisará de faturamento e funções adequadas (por exemplo,
Vertex AI AdminorService Accountcom direitos de inferência). - Acesso à API Gemini — Alguns modelos de imagem Gemini são de pré-visualização/disponibilidade limitada; pode ser necessário solicitar acesso ou usar o modelo pelo Google AI Studio ou Vertex AI, dependendo da sua conta.
- CometAPI (gateway opcional) — Se preferir uma API independente de fornecedor único que possa representar diferentes modelos (incluindo o Gemini), inscreva-se na CometAPI para obter uma chave de API e conferir a lista de modelos (eles expõem variantes do Gemini 2.5 Flash e um endpoint compatível com OpenAI). A CometAPI pode simplificar o desenvolvimento e permitir que você troque de fornecedor sem alterar o código do seu aplicativo.
Ferramentas locais
- Tempos de execução de linguagem: Node.js 18+, Python 3.10+ recomendado.
- Cliente HTTP:
fetch/axiospara JS;requests/httpxpara Python (ou SDKs oficiais). - Auxiliares de imagem:
Pillow(Python) ousharp(Nó) para redimensionamento, conversão de formato e codificação/decodificação Base64. - Segurança: armazene chaves em variáveis de ambiente ou em um cofre de segredos (HashiCorp Vault, AWS Secrets Manager, Google Secret Manager). Nunca confirme chaves de API.
Instale o SDK do Google/compatível (opcional)
O Google fornece SDKs e openai Correções na compatibilidade da biblioteca — você pode usar as bibliotecas do cliente OpenAI no Gemini alterando algumas linhas (URL base + chave de API), mas o cliente nativo Gemini/Google é recomendado para recursos multimodais completos. Se estiver usando CometAPI ou um gateway compatível com OpenAI, usar o cliente OpenAI pode acelerar o desenvolvimento. Exemplos:
Rota oficial do Google (Python):
python -m venv venv && source venv/bin/activate
pip install --upgrade pip
pip install google-genai # official Google GenAI SDK
pip install Pillow requests jq # for local image handling in examples
Cliente compatível com CometAPI / OpenAI (Python):
pip install openai requests
Como escolher entre os três métodos de chamada para o Nano Banana?
A escolha do método de chamada depende da sua arquitetura, dos requisitos de latência/custo e se você deseja usar o endpoint oficial do Google ou um gateway de terceiros compatível com OpenAI. Os três padrões comuns são:
1) Interface de bate-papo compatível com OpenAI (texto para imagem)
Use isto quando você já possui código ou SDKs no estilo OpenAI e deseja alternar modelos com alterações mínimas. Muitos gateways (CometAPI, OpenRouter) expõem modelos Gemini sob uma superfície REST compatível com OpenAI, para que seus modelos existentes chat or completions chamadas funcionam apenas com um diferente base_url e nome do modelo. Geralmente, esse é o caminho mais rápido para a produção se você não quiser gerenciar a autenticação do Google Cloud.
2) Oficial Gemini generateContent — texto para imagem
Use o oficial do Google generateContent via genai Cliente (Google) ou Vertex AI se você deseja o SDK oficial com suporte completo e acesso aos recursos mais recentes (parâmetros de geração refinados, streaming, API de arquivos para ativos grandes), além de faturamento/monitoramento do Google Cloud. Recomenda-se isso quando você precisa de suporte de produção e controles de nível empresarial.
3) Oficial Gemini generateContent — imagem para imagem (entrada/saída Base64)
Use isto quando precisar enviar imagens binárias em linha (Base64) ou desejar edição de imagens/conversões de imagem para imagem. generateContent Suporta imagens inline (base64) e uma API de arquivo para ativos maiores ou reutilizáveis. As respostas para imagens geradas/editadas normalmente são retornadas como strings Base64 que você decodifica e salva. Isso proporciona o controle multimodal mais explícito.
Como posso ligar para o Nano Banana por meio de uma interface de bate-papo compatível com OpenAI (texto para imagem)?
Um ponto de extremidade de bate-papo compatível com OpenAI aceita uma sequência de {role, content} mensagens; você descreve a imagem que deseja em uma mensagem de usuário e o gateway (CometAPI ou um shim compatível com OpenAI) traduz isso em uma chamada para o modelo Gemini subjacente. Isso é conveniente se o seu aplicativo já utiliza fluxos de bate-papo ou se você deseja combinar geração de texto e geração de imagem em uma única troca.
Passos
1.Cadastre-se no CometAPI e obtenha uma chave de API: Registre-se no CometAPI, crie um projeto, copie sua chave de API. O CometAPI expõe muitos modelos por trás de um único base_url. ()
-
Instalar um cliente compatível com OpenAI:Python:
pip install openaiou use o mais novoopenai/OpenAIWrapper de SDK usado por muitos gateways. -
Aponte o SDK para CometAPI e chame o ponto de extremidade de conclusões de bate-papo:
curl https://api.cometapi.com/v1/chat/completions \
-H "Authorization: Bearer $COMET_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "gemini-2-5-flash-image-preview",
"stream": true,
"messages": [{"role": "user",
"content": "Generate a cute kitten sitting on a cloud, in a cartoon style"}]
}'
Observações:
-
stream deve ser verdadeiro; a resposta será retornada como um fluxo;
-
A estrutura de resposta é encapsulada pelo CometAPI para compatibilidade com o OpenAI.
-
A resposta inclui uma imagem Base64; decodifique-a e salve-a no cliente conforme necessário:
Como posso ligar para o Nano Banana usando o Gemini oficial generateContent interface de texto para imagem?
O Google oferece um API para desenvolvedores Gemini (a API Gemini) e também expõe modelos Gemini por meio de VERTEX AI. Para acesso programático ao Gemini 2.5 Flash Image (Nano Banana) de forma suportada, o site oficial generateContent método é o ponto de entrada canônico para geração somente de texto ou multimodal. Use o Google SDK GenAI (Python: google-genai) ou chamar o endpoint REST diretamente. Ele dá acesso direto aos parâmetros e modalidades do modelo e é a maneira recomendada de usar recursos avançados (edição precisa, fusão de várias imagens) ao chamar os endpoints do Google.
- Use o Google SDK GenAI (Python:
google-genai)
Etapas de distribuição/chamada (visão geral):
- Obter uma chave de API do Google AI Studio ou configure uma conta de serviço Vertex AI (dependendo da plataforma).
- Instale o SDK (
pip install --upgrade google-genai) e autenticar (chave de API ou credenciais padrão do aplicativo Google). - Escolha o modelo:
gemini-2.5-flash-imageou o slug de pré-visualização mostrado nos documentos (o slug exato depende do estado do GA/pré-visualização). - Ligar
client.models.generate_content(...)com um prompt de texto simples (texto para imagem). - Decodificar imagens retornadas (se retornadas Base64) e salvar/armazenar.
Exemplo de Python (cliente oficial) — texto→imagem:
from google import genai
from base64 import b64decode, b64encode
client = genai.Client(api_key="YOUR_GEMINI_KEY")
prompt = {
"content": "A hyperrealistic photo of a vintage motorcycle parked under neon lights at midnight",
"mime_type": "text/plain"
}
# request generateContent for image output
result = client.generate_content(
model="gemini-2-5-flash-image-preview",
prompt=prompt,
response_modalities=,
image_format="PNG",
)
# handle binary or base64 in response (depends on API mode)
(Observação: verifique a API oficial do cliente para obter nomes exatos de parâmetros — os exemplos acima seguem os padrões nos documentos do Google.)
2. Ligar Nano Banana através do ponto de extremidade REST
Ponto final EST (exemplo de texto para imagem): https://api.CometAPI.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent.
Opções de autenticação: fornecer cabeçalho x-goog-api-key: $CometAPI_API_KEY. (Crie uma chave no CometAPI.)
Isso publica um prompt de texto e salva a imagem base64 retornada:
curl -s -X POST \
"https://generativelanguage.googleapis.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"contents": [{
"parts": [
{ "text": "A photorealistic nano banana dish plated in a stylish restaurant, cinematic lighting, 3:2 aspect ratio" }
]
}]
}' \
| jq -r '.candidates.content.parts[] | select(.inline_data) | .inline_data.data' \
| base64 --decode > gemini-image.png
Observações: O binário da imagem é retornado como base64 em
candidates.content.parts.inline_data.data. O exemplo acima usajqpara pegar os dados em linha e decodificá-los. A documentação oficial mostra o mesmo fluxo.
Como posso ligar para o Nano Banana usando o Gemini oficial generateContent interface imagem para imagem (entrada/saída Base64)?
Quando você deve usar imagem para imagem (entrada/saída base64)?
Use imagem para imagem quando precisar:
- Editar uma foto existente (pintura, transferência de estilo, substituição de objeto).
- Combine várias imagens de origem em uma única composição.
- Preserve a identidade do sujeito em todas as edições (um dos pontos fortes do Nano Banana).
Gêmeos generateContent suporta dados de imagem em linha via Base64 (ou como URIs de arquivo) e retorna imagens geradas ou editadas como strings Base64. A documentação fornece exemplos explícitos para fornecer inline_data com mime_type e data.
Etapas de distribuição/chamada (imagem a imagem)
- Preparar imagem(ns) de entrada: ler bytes de arquivo, codificar em Base64 ou passar bytes brutos via auxiliar do SDK.
- Construir a
contentsmatriz onde uma parte é a imagem inline (commimeTypeedata) e as partes subsequentes incluem as instruções de edição textual. - POST para
generateContent(SDK oficial ou REST). - Recebimento Resposta: a API retorna imagens geradas/editadas codificadas como strings Base64. Decodifique e salve-as localmente.
Exemplo — Python (imagem para imagem usando bytes inline via GenAI SDK)
# pip install google-genai
from google import genai
from google.genai import types
import base64
client = genai.Client(api_key="YOUR_GOOGLE_API_KEY")
# Read local image
with open("input_photo.jpg", "rb") as f:
img_bytes = f.read()
# Using SDK helper to attach bytes as a part
response = client.models.generate_content(
model="gemini-2.5-flash-image-preview",
contents=[
types.Part.from_bytes(
data=img_bytes,
mime_type="image/jpeg"
),
"Make a high-quality edit: change the subject's jacket color to teal, keep natural lighting and preserve the person's facial features."
],
)
# The returned image will typically be in response.candidates[].content.parts with base64-encoded data
# Decode and save (pseudo-access shown; check SDK response structure)
b64_out = response.candidates.content.parts.data # example path
with open("edited.jpg","wb") as out:
out.write(base64.b64decode(b64_out))
Exemplo em Python: imagem→imagem usando Base64 via ponto de descanso
import base64, json, requests
API_URL = "https://api.gemini.googleapis.com/v1/generateContent"
API_KEY = "YOUR_GEMINI_KEY"
# read and base64-encode image
with open("input.jpg","rb") as f:
b64 = base64.b64encode(f.read()).decode("utf-8")
payload = {
"model": "gemini-2-5-flash-image-preview",
"input": [
{"mime_type": "image/jpeg", "bytes_base64": b64},
{"mime_type": "text/plain", "text": "Remove the lamppost and make the sky golden at sunset."}
],
"response_modalities":
}
resp = requests.post(API_URL, headers={"Authorization":f"Bearer {API_KEY}", "Content-Type":"application/json"}, json=payload)
resp.raise_for_status()
data = resp.json()
# data.candidates... may contain image base64 — decode and save
out_b64 = data
with open("edited.png","wb") as out:
out.write(base64.b64decode(out_b64))
Se você quiser acessá-lo usando a porta de descanso do CometAPI:
curl
--location
--request POST "https://api.CometAPI.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent" ^
--header "Authorization: sk-" ^
--header "User-Agent: Apifox/1.0.0 (https://apifox.com)" ^
--header "Content-Type: application/json" ^
--header "Accept: */*" ^
--header "Host: api.CometAPI.com" ^
--header "Connection: keep-alive" ^
--data-raw "{ \"contents\": } ], \"generationConfig\": { \"responseModalities\": }}"
Para inline: leia a imagem e codifique-a em base64. Para uso repetido ou >20 MB, carregue por meio da API de arquivo e faça referência ao identificador do arquivo em
generateContent.Ideal para edições precisas e fluxos de trabalho que precisam de imagens de entrada, além de instruções de edição textuais.
Quais são as melhores dicas para trabalhar com a Nano Banana?
Engenharia e controle rápidos
- Seja explícito: inclua a proporção desejada, referências de estilo (nomes de artistas somente se permitidos), lente da câmera, iluminação e composição. Por exemplo, “Fotorrealista, 3:2, profundidade de campo rasa, hora de ouro, lente Nikon 50 mm.”
- Use edição sucessiva: prefira edições menores e locais em várias passagens a grandes sequências únicas — isso preserva a consistência do assunto. O ponto forte do Nano Banana é a edição iterativa.
Higiene da imagem
- Pré-processe entradas: normalize o espaço de cores, remova EXIF incorporado se privacidade for necessária, dimensione para resoluções sensatas para economizar tokens.
- Saídas de pós-processamento: executar detecção de rosto, limpar artefatos menores por meio de filtros leves (Pillow / Sharp) antes de retornar aos usuários.
Políticas de segurança, conformidade e conteúdo
- Implemente uma verificação automatizada de segurança de conteúdo (modelos de moderação do Vision ou verificações de lista negra) antes de armazenar/veicular imagens.
- Se fizer upload de imagens de pessoas, siga as leis de privacidade aplicáveis (GDPR/CCPA) e obtenha os consentimentos necessários.
- Respeite as políticas de uso do modelo e as regras de direitos autorais ao solicitar personagens protegidos por direitos autorais ou obras de arte existentes.
Notas de encerramento
Nano Banana (Gemini 2.5 Flash Image) representa uma etapa pragmática e de alta fidelidade para geração e edição de imagens multimodais: foi projetado para consistência em todas as edições e raciocínio multimodal mais rico. Nano Banana (Gemini 2.5 Flash Image) é uma etapa importante na geração/edição de imagens — oferecendo alta consistência para edições em várias etapas e múltiplas superfícies de integração (gateways compatíveis com OpenAI como CometAPI e Google generateContent APIs). Para agilizar a adoção, gateways como o CometAPI permitem reutilizar código no estilo OpenAI. Sempre verifique a integridade das respostas, respeite a política de conteúdo e os recursos de procedência (SynthID) e monitore os custos durante a iteração.
Começando a jornada
A CometAPI é uma plataforma de API unificada que agrega mais de 500 modelos de IA de provedores líderes — como a série GPT da OpenAI, a Gemini do Google, a Claude da Anthropic, a Midjourney e a Suno, entre outros — em uma interface única e amigável ao desenvolvedor. Ao oferecer autenticação, formatação de solicitações e tratamento de respostas consistentes, a CometAPI simplifica drasticamente a integração de recursos de IA em seus aplicativos. Seja para criar chatbots, geradores de imagens, compositores musicais ou pipelines de análise baseados em dados, a CometAPI permite iterar mais rapidamente, controlar custos e permanecer independente de fornecedores — tudo isso enquanto aproveita os avanços mais recentes em todo o ecossistema de IA.
Os desenvolvedores podem acessar Imagem Flash Gemini 2.5(Lista Nano Banana CometAPI gemini-2.5-flash-image-preview/gemini-2.5-flash-image entradas de estilo em seu catálogo.) por meio do CometAPI, as versões mais recentes dos modelos listados são as da data de publicação do artigo. Para começar, explore os recursos do modelo no Playground e consulte o Guia de API para obter instruções detalhadas. Antes de acessar, certifique-se de ter feito login no CometAPI e obtido a chave da API. CometAPI oferecem um preço muito mais baixo que o preço oficial para ajudar você a se integrar.



