No final de agosto de 2025, o Google (DeepMind) lançou Imagem Flash Gemini 2.5 — amplamente apelidado “nano-banana” — um modelo de geração e edição de imagens de baixa latência e alta qualidade que foi integrado ao aplicativo Gemini, ao Google AI Studio, à API Gemini e à CometAPI. Ele foi projetado para produzir imagens fotorrealistas, preservar a consistência dos caracteres em todas as edições, mesclar múltiplas imagens de entrada e realizar edições precisas e localizadas por meio de prompts em linguagem natural. O modelo está disponível em versão prévia/GA inicial e já está no topo das tabelas de classificação de imagens (LMArena), além de ser fornecido com mecanismos de segurança (marca d'água SynthID e filtros em nível de produto).

O que é Gemini 2.5 Flash Image (também conhecido como “Nano Banana”)?

Gemini 2.5 Flash Image — apelidado de brincadeira Nano Banana — é o mais recente modelo de geração e edição de imagens do Google DeepMind na família Gemini. Anunciado no final de agosto de 2025, o modelo é posicionado como uma versão de pré-lançamento que traz edições de alta fidelidade, fusão de múltiplas imagens, melhor consistência de personagens (mantendo a mesma pessoa/animal de estimação/objeto reconhecível em múltiplas edições) e geração de imagens de baixa latência para o conjunto de ferramentas multimodais do Gemini. Está disponível por meio da API Gemini, do Google AI Studio, dos aplicativos móveis/web Gemini e do Vertex AI para clientes corporativos.

Origem e nomenclatura

O apelido “nano banana” se tornou uma abreviação viral nos feeds sociais e nos placares de líderes da comunidade depois que os primeiros testadores e participantes do LMArena usaram um rótulo com tema de frutas; o Google confirmou a conexão e adotou o apelido lúdico publicamente em suas postagens de desenvolvedor e produto. O nome oficial do produto é Imagem Flash Gemini 2.5 e você normalmente verá o identificador do modelo usado em chamadas de código e API (para uso de visualização, ele aparece como, por exemplo gemini-2.5-flash-image-preview).

Quais são os principais recursos do Gemini 2.5 Flash Image?

O que realmente significa “consistência de caráter”?

Uma das principais capacidades é consistência de caráter: você pode solicitar ao modelo que reutilize o mesmo tema (uma pessoa, animal de estimação, mascote ou produto) em várias edições ou novas cenas, preservando características visuais de identificação (rosto/formato, paleta de cores, marcas distintivas). Isso aborda uma falha comum em modelos de imagem anteriores, em que edições subsequentes produziam pessoas/objetos visualmente plausíveis, mas visivelmente diferentes. Os desenvolvedores podem, portanto, criar fluxos de trabalho para catálogos de produtos, narrativas episódicas ou geração de ativos de marca com menos correções manuais.

Quais outros controles de edição estão incluídos?

O Gemini 2.5 Flash Image suporta:

Edições locais direcionadas por meio de instruções em linguagem simples (remover um objeto, trocar de roupa, retocar a pele, remover elemento de fundo).
Fusão de múltiplas imagens: combinar até três imagens de entrada em uma única composição coerente (por exemplo, colocar um produto da imagem A na cena B, preservando a iluminação).
Controles de estilo e formato: instruções fotorrealistas, atributos de câmera e lente, proporção de aspecto e saídas estilizadas (ilustração, adesivo, etc.).
Conhecimento do mundo nativo: o modelo aproveita o conhecimento mais amplo da família Gemini para fazer edições semanticamente conscientes (por exemplo, entender o que “iluminação renascentista” ou “faixa de pedestres de Tóquio” implicam).

E quanto à velocidade, custo e disponibilidade?

O Gemini 2.5 Flash Image faz parte da camada Flash do Gemini 2.5, otimizado para baixa latência e baixo custo, mantendo alta qualidade. O Google apresentou uma prévia dos preços para tokens de saída de imagem e disponibilizou-os via API e AI Studio; clientes corporativos podem acessá-los via Vertex AI. No anúncio, o preço publicado para a camada Gemini 2.5 Flash Image foi: $30 por 1M de tokens de saída, com um exemplo de custo por imagem relatado como 1290 tokens de saída ≈ $0.039 por imagem.

Como o Gemini 2.5 Flash Image funciona internamente?

Arquitetura e abordagem de treinamento

O Gemini 2.5 Flash Image herda a arquitetura da família Gemini 2.5: uma estrutura esparsa no estilo "Mix-of-Experts" (MoE) com treinamento multimodal que combina texto, imagem, áudio e outros dados. O Google treinou o Flash Image em corpora multimodais filtrados e muito grandes e ajustou o modelo para as tarefas de imagem (geração, edição, fusão) e comportamento de segurança. O treinamento foi executado na estrutura TPU do Google e avaliado com métricas de julgamento automático e humano.

Edição orientada por conversação

Em um nível mais alto, o modelo utiliza condicionamento contextual: quando você fornece uma imagem (ou várias imagens) e prompts de texto, o modelo codifica a identidade visual do sujeito em sua representação interna. Durante edições subsequentes ou novas cenas, ele condiciona a geração a essa representação para que os atributos visuais desejados (geometria do rosto, identificadores principais de roupas ou produtos, paletas de cores) sejam preservados. Em termos práticos, isso é implementado como parte do pipeline de conteúdo multimodal exposto pela API Gemini: você envia as imagens de referência juntamente com as instruções de edição e o modelo retorna as saídas de imagem editadas (ou várias imagens candidatas) em uma única resposta.

Marca d'água e procedência

O Google integra filtros de segurança e política de conteúdo ao Gemini 2.5 Flash Image. A versão enfatiza avaliação e red-teaming, etapas de filtragem automatizadas, ajuste fino supervisionado e aprendizado por reforço para acompanhamento de instruções, minimizando saídas prejudiciais. As saídas incluem uma marca d'água SynthID invisível para que as imagens produzidas ou editadas pelo modelo possam ser posteriormente identificadas como geradas por IA.

Qual é o seu desempenho? (Dados de referência)

Gemini 2.5 Flash Image (comercializado como “nano-banana” em alguns contextos de benchmarking) alcançou #1 nas tabelas de classificação de edição de imagens e conversão de texto em imagem do LMArena no final de agosto de 2025, com grandes vantagens em Elo/preferência sobre os concorrentes nas comparações relatadas. Refiro-me aos resultados de avaliação humana do LMArena e do GenAI-Bench, que mostram as maiores pontuações de preferência para tarefas de conversão de texto em imagem e edição de imagem.

Comparação de texto para imagem

Benchmark de Capacidade	Imagem Gemini Flash 2.5	Imagem 4 Ultra 06-06	ChatGPT 4o / Imagem GPT 1 (Alta)	FLUX.1 Kontext	Imagem Gemini Flash 2.0
Preferência geral (LMArena)	1147	1135	1129	1075	988
Qualidade Visual (GenAI-Bench)	1103	1094	1013	864	926
Alinhamento de texto para imagem (GenAI-Bench)	1042	1053	1046	937	922

Edição de Imagem

Benchmark de Capacidade	Imagem Gemini Flash 2.5	ChatGPT 4o / Imagem GPT 1 (Alta)	FLUX.1 Kontext	Edição de imagem Qwen	Imagem Gemini Flash 2.0
Preferência geral (LMArena)	1362	1170	1191	1145	1093
Personagem	1170	1059	1010	911	850
Criatividade	1112	1057	968	983	879
Infográficos	1067	1029	967	1012	925
Objeto / Ambiente	1064	1023	1002	1010	901
Recontextualização de produtos	1128	1032	943	1009	888
Estilização	1062	1165	949	1091	733

Gemini 2.5 Flash Image (Nano Banana): Recursos, Benchmark e Uso

O que esses benchmarks significam na prática?

Os benchmarks nos dizem duas coisas: (1) o modelo é competitivo na geração fotorrealista e (2) se destaca em edição Tarefas em que a consistência dos caracteres e a aderência aos prompts são importantes. Classificações de preferência humana indicam que os usuários que visualizaram os resultados avaliaram os resultados do Gemini com alta pontuação em termos de realismo e alinhamento com as instruções em muitos prompts avaliados. No entanto, é explícito sobre limitações conhecidas (risco de alucinação em detalhes factuais sutis, renderização de texto longo dentro de imagens, casos extremos de transferência de estilo) — portanto, os benchmarks são um guia, não uma garantia.

O que você pode fazer com o Gemini 2.5 Flash Image (casos de uso)?

O Gemini 2.5 Flash Image foi desenvolvido especificamente para cenários criativos, de produtividade e de imagens aplicadas. Casos de uso típicos e emergentes incluem:

Mockups rápidos de produtos e comércio eletrônico

Arraste fotos de produtos para cenas, gere imagens de catálogo consistentes em todos os ambientes ou troque cores/tecidos em uma linha de produtos — tudo isso preservando a identidade do produto. Os recursos de fusão de várias imagens e a consistência entre personagens e produtos o tornam atraente para fluxos de trabalho de catálogo.

Retoque de fotos e edições direcionadas

Remova objetos, corrija manchas, troque roupas/acessórios ou ajuste a iluminação com instruções em linguagem natural. O recurso de edição localizada permite que pessoas sem experiência realizem retoques em estilo profissional usando comandos de conversação.

Storyboard e narrativa visual

Coloque o mesmo personagem em diferentes cenas e mantenha a consistência visual (útil para quadrinhos, storyboards ou pitch decks). Edições iterativas permitem que os criadores refinem o clima, o enquadramento e a continuidade narrativa sem precisar reconstruir os recursos do zero.

Educação, diagramas e prototipagem de design

Por combinar prompts de texto e imagens e possuir "conhecimento de mundo", o modelo pode ajudar a gerar diagramas anotados, visuais educacionais ou mockups rápidos para apresentações. O Google ainda destaca modelos no AI Studio para casos de uso como mockups imobiliários e design de produtos.

Como você usa a API Nano Banana?

Abaixo estão alguns trechos práticos adaptados de Documentação da API CometAPI e a documentação da API do Google. Eles demonstram os fluxos comuns: texto para imagem e imagem + texto para imagem (edição) usando o SDK oficial GenAI ou o endpoint REST.

Nota: na documentação do CometAPI, o nome do modelo de visualização aparece como gemini-2.5-flash-image-preview. Os exemplos abaixo ecoam os exemplos oficiais do SDK (Python e JavaScript) e um exemplo REST curl; adapte chaves e caminhos de arquivo ao seu ambiente.

Exemplo de curl REST da CometAPI

Use o oficial da Gemini generateContent ponto final para geração de texto para imagem. Coloque o prompt de texto em contents.parts[].text.Exemplo (shell do Windows, usando ^ para continuação de linha):

curl --location --request POST "https://api.cometapi.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent" ^
--header "Authorization: sk-xxxx" ^
--header "User-Agent: Apifox/1.0.0 (https://apifox.com)" ^
--header "Content-Type: application/json" ^
--header "Accept: */*" ^
--header "Host: api.cometapi.com" ^
--header "Connection: keep-alive" ^
--data-raw "{    "contents": [{
      "parts": [
        {"text": "A photorealistic macro shot of a nano-banana on a silver fork, shallow depth of field"}
      ]
    }]
  }'}"
| grep -o '"data": "*"' \
| cut -d'"' -f4 \
| base64 --decode > gemini-generated.png

A resposta contém bytes de imagem base64; o pipeline acima extrai os "data" string e a decodifica em gemini-generated.png.

Este ponto de extremidade suporta a geração “imagem para imagem”: carregue uma imagem de entrada (como Base64) e receba uma nova imagem modificada (também no formato Base64).Exemplo:

curl --location --request POST "https://api.cometapi.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent" ^
--header "Authorization: sk-xxxx" ^
--header "User-Agent: Apifox/1.0.0 (https://apifox.com)" ^
--header "Content-Type: application/json" ^
--header "Accept: */*" ^
--header "Host: api.cometapi.com" ^
--header "Connection: keep-alive" ^
--data-raw "{  \"contents\":     }  ],  \"generationConfig\": {    \"responseModalities\":   }}"

**Descrição:**Primeiro, converta seu arquivo de imagem de origem em uma string Base64 e coloque-o em inline_data.data. Não inclua prefixos como data:image/jpeg;base64,.A saída também está localizada em candidates.content.parts e inclui:Uma parte de texto opcional (descrição ou prompt).A parte da imagem como inline_data (Onde data é o Base64 da imagem de saída). Para várias imagens, você pode anexá-las diretamente, por exemplo:

{
  "inline_data": {
    "mime_type": "image/jpeg",
    "data": "iVBORw0KGgo...",
    "data": "iVBORw0KGgo..."
  }
}

Abaixo estão exemplos de desenvolvedores adaptados da documentação oficial e do blog do Google. Substitua as credenciais e os caminhos dos arquivos pelos seus.

Python (estilo oficial do SDK)

from google import genai
from PIL import Image
from io import BytesIO

client = genai.Client()

prompt = "Create a picture of a nano banana dish in a fancy restaurant with a Gemini theme"

# Text-to-Image

response = client.models.generate_content(
    model="gemini-2.5-flash-image-preview",
    contents=,
)

for part in response.candidates.content.parts:
    if part.text is not None:
        print(part.text)
    elif part.inline_data is not None:
        image = Image.open(BytesIO(part.inline_data.data))
        image.save("generated_image.png")

Este é o trecho canônico do Python da documentação do Google (ID do modelo de visualização mostrado). O mesmo padrão de chamada do SDK suporta edição de imagem + prompt (passe uma imagem como uma das contents).Mais detalhes consulte gêmeos doc.

Conclusão

Se o seu produto precisa de geração de imagens robustas e de baixa latência e, especialmente, edição confiável com consistência de assuntoO Gemini 2.5 Flash Image agora é uma opção de nível de produção que vale a pena avaliar: ele combina qualidade de imagem de ponta com APIs projetadas para integração com desenvolvedores (AI Studio, Gemini API e Vertex AI). Avalie cuidadosamente as limitações atuais do modelo (texto fino em imagens, alguns casos extremos de estilização) e implemente salvaguardas de uso responsável.

Começando a jornada

A CometAPI é uma plataforma de API unificada que agrega mais de 500 modelos de IA de provedores líderes — como a série GPT da OpenAI, a Gemini do Google, a Claude da Anthropic, a Midjourney e a Suno, entre outros — em uma interface única e amigável ao desenvolvedor. Ao oferecer autenticação, formatação de solicitações e tratamento de respostas consistentes, a CometAPI simplifica drasticamente a integração de recursos de IA em seus aplicativos. Seja para criar chatbots, geradores de imagens, compositores musicais ou pipelines de análise baseados em dados, a CometAPI permite iterar mais rapidamente, controlar custos e permanecer independente de fornecedores — tudo isso enquanto aproveita os avanços mais recentes em todo o ecossistema de IA.

Os desenvolvedores podem acessar Imagem Flash Gemini 2.5(Lista Nano Banana CometAPI gemini-2.5-flash-image-preview/gemini-2.5-flash-image entradas de estilo em seu catálogo.) por meio do CometAPI, as versões mais recentes dos modelos listados são as da data de publicação do artigo. Para começar, explore os recursos do modelo no Playground e consulte o Guia de API para obter instruções detalhadas. Antes de acessar, certifique-se de ter feito login no CometAPI e obtido a chave da API. CometAPI oferecem um preço muito mais baixo que o preço oficial para ajudar você a se integrar.