Gemini 2.5 Flash Image (Nano Banana): Características, evaluación comparativa y uso

CometAPI
AnnaAug 31, 2025
Gemini 2.5 Flash Image (Nano Banana): Características, evaluación comparativa y uso

A finales de agosto de 2025, Google (DeepMind) lanzó Imagen Flash de Gemini 2.5 — ampliamente apodado “nano-plátano” Un modelo de generación y edición de imágenes de alta calidad y baja latencia integrado en la app Gemini, Google AI Studio, la API de Gemini y CometAPI. Está diseñado para producir imágenes fotorrealistas, preservar la consistencia de los personajes en las ediciones, fusionar múltiples imágenes de entrada y realizar ediciones precisas y localizadas mediante indicaciones en lenguaje natural. El modelo está disponible en versión preliminar y en las primeras etapas de GA y ya lidera las clasificaciones de imágenes (LMArena) con mecanismos de seguridad (marca de agua SynthID y filtros a nivel de producto).

¿Qué es Gemini 2.5 Flash Image (también conocido como “Nano Banana”)?

Imagen Flash de Gemini 2.5: apodada juguetonamente Nano plátano — es el modelo más reciente de generación y edición de imágenes de Google DeepMind en la familia Gemini. Anunciado a finales de agosto de 2025, este modelo se presenta como una versión preliminar que incorpora ediciones de mayor fidelidad, fusión de múltiples imágenes, mayor consistencia de personajes (manteniendo la misma persona, mascota u objeto reconocible en múltiples ediciones) y generación de imágenes de baja latencia al conjunto de herramientas multimodales de Gemini. Está disponible a través de la API de Gemini, Google AI Studio, las aplicaciones móviles y web de Gemini y Vertex AI para clientes empresariales.

Origen y denominación

El apodo "nano banana" se volvió viral en las redes sociales y las tablas de clasificación de la comunidad después de que los primeros participantes de LMArena y los que lo probaron usaran una etiqueta con temática de fruta. Google confirmó la conexión y adoptó públicamente el nombre de usuario juguetón en sus publicaciones para desarrolladores y productos. El nombre oficial del producto es Imagen Flash de Gemini 2.5 y normalmente verá el identificador del modelo utilizado en el código y en las llamadas API (para el uso de vista previa aparece como, por ejemplo, gemini-2.5-flash-image-preview).

¿Cuáles son las características principales de Gemini 2.5 Flash Image?

¿Qué significa realmente “coherencia de carácter”?

Una de las capacidades más destacadas es consistencia del carácterPuedes pedirle al modelo que reutilice el mismo sujeto (una persona, mascota, mascota o producto) en varias ediciones o nuevas escenas, conservando las características visuales que lo identifican (rostro/forma, paleta de colores, marcas distintivas). Esto soluciona una debilidad común en modelos de imagen anteriores, donde las ediciones posteriores producían personas/objetos visualmente plausibles, pero notablemente diferentes. Por lo tanto, los desarrolladores pueden crear flujos de trabajo para catálogos de productos, narraciones episódicas o generación de recursos de marca con menos corrección manual.

¿Qué otros controles de edición están incluidos?

La imagen Flash de Gemini 2.5 admite:

  • Ediciones locales específicas a través de indicaciones en lenguaje sencillo (eliminar un objeto, cambiar de ropa, retocar la piel, eliminar un elemento de fondo).
  • Fusión de múltiples imágenes: combine hasta tres imágenes de entrada en una única composición coherente (por ejemplo, coloque un producto de la imagen A en la escena B conservando la iluminación).
  • Controles de estilo y formato:Instrucciones fotorrealistas, atributos de cámara y lente, relación de aspecto y resultados estilizados (ilustración, pegatina, etc.).
  • Conocimiento del mundo nativo:el modelo aprovecha el conocimiento más amplio de la familia Gemini para hacer ediciones semánticamente conscientes (por ejemplo, comprender qué implica “iluminación renacentista” o “cruce de peatones de Tokio”).

¿Qué pasa con la velocidad, el costo y la disponibilidad?

La imagen Flash de Gemini 2.5 forma parte de la capa Flash de Gemini 2.5, optimizada para una baja latencia y un bajo coste, manteniendo una excelente calidad. Google ha anticipado los precios de los tokens de salida de imagen y ha proporcionado disponibilidad a través de la API y AI Studio; los clientes empresariales pueden acceder a ella a través de Vertex AI. En el momento del anuncio, se publicaron los precios de la capa Flash de Gemini 2.5. $30 por cada millón de tokens de salida, con un ejemplo de costo por imagen informado como 1290 tokens de salida ≈ $0.039 por imagen.

¿Cómo funciona Gemini 2.5 Flash Image?

Arquitectura y enfoque de formación

Gemini 2.5 Flash Image hereda la arquitectura de la familia Gemini 2.5: una estructura principal dispersa de mezcla de expertos (MoE) con entrenamiento multimodal que combina texto, imagen, audio y otros datos. Google entrenó Flash Image con corpus multimodales filtrados de gran tamaño y ajustó el modelo para las tareas de imagen (generación, edición, fusión) y el comportamiento de seguridad. El entrenamiento se ejecutó en la estructura TPU de Google y se evaluó con métricas de juicio automático y humano.

Edición basada en conversaciones

A alto nivel, el modelo utiliza condicionamiento contextual: al proporcionar una imagen (o varias imágenes) junto con indicaciones de texto, el modelo codifica la identidad visual del sujeto en su representación interna. Durante ediciones posteriores o nuevas escenas, condiciona la generación a dicha representación para conservar los atributos visuales deseados (geometría facial, identificadores clave de ropa o producto, paletas de colores). En la práctica, esto se implementa como parte del flujo de contenido multimodal expuesto por la API de Gemini: se envían las imágenes de referencia junto con las instrucciones de edición y el modelo devuelve las imágenes editadas (o varias imágenes candidatas) en una sola respuesta.

Marca de agua y procedencia

Google integra filtros de seguridad y políticas de contenido en Gemini 2.5 Flash Image. Esta versión prioriza la evaluación y el trabajo en equipo, los pasos de filtrado automatizados, el ajuste fino supervisado y el aprendizaje por refuerzo para el seguimiento de instrucciones, minimizando al mismo tiempo los resultados perjudiciales. Los resultados incluyen una marca de agua invisible SynthID para que las imágenes producidas o editadas por el modelo puedan identificarse posteriormente como generadas por IA.

¿Qué tan bien funciona? (Datos de referencia)

La imagen Flash de Gemini 2.5 (comercializada como “nano-banana” en algunos contextos de evaluación comparativa) alcanzó #1 en las tablas de clasificación de edición de imágenes y texto a imagen de LMArena A finales de agosto de 2025, con una amplia ventaja en Elo/preferencias sobre la competencia en las comparaciones reportadas. Hago referencia a los resultados de evaluación humana de LMArena y GenAI-Bench, que muestran las mejores puntuaciones de preferencia tanto para tareas de conversión de texto a imagen como para edición de imágenes.

Comparación de texto a imagen

Punto de referencia de capacidadImagen de Gemini Flash 2.5Imagen 4 Ultra 06-06ChatGPT 4o / Imagen GPT 1 (Alta)FLUX.1 ContextoImagen de Gemini Flash 2.0
Preferencia general (LMArena)1147113511291075988
Calidad visual (GenAI-Bench)110310941013864926
Alineación de texto a imagen (GenAI-Bench)104210531046937922

Edición de imagen

Punto de referencia de capacidadImagen de Gemini Flash 2.5ChatGPT 4o / Imagen GPT 1 (Alta)FLUX.1 ContextoEdición de imágenes de QwenImagen de Gemini Flash 2.0
Preferencia general (LMArena)13621170119111451093
Caracter117010591010911850
Estudio11121057968983879
Infografía (Infographic)106710299671012925
Objeto / Entorno1064102310021010901
Recontextualización del producto112810329431009888
Estilización106211659491091733

Gemini 2.5 Flash Image (Nano Banana): Características, evaluación comparativa y uso

¿Qué significan estos puntos de referencia en la práctica?

Los puntos de referencia nos dicen dos cosas: (1) el modelo es competitivo en la generación fotorrealista y (2) se destaca en . Tareas donde la consistencia de los personajes y la adherencia a las indicaciones son importantes. Las clasificaciones de preferencias humanas indican que los usuarios que vieron los resultados de Gemini los calificaron altamente por su realismo y su adecuación a las instrucciones en muchas de las indicaciones evaluadas. Sin embargo, se especifican las limitaciones conocidas (riesgo de alucinaciones con detalles fácticos sutiles, representación de texto extenso dentro de imágenes, casos extremos de transferencia de estilo); por lo tanto, los puntos de referencia son una guía, no una garantía.

¿Qué se puede hacer con Gemini 2.5 Flash Image (casos de uso)?

Gemini 2.5 Flash Image está diseñado específicamente para escenarios creativos, de productividad y de imágenes aplicadas. Los casos de uso típicos y emergentes incluyen:

Maquetas rápidas de productos y comercio electrónico

Arrastre fotos de productos a escenas, genere imágenes de catálogo consistentes en diferentes entornos o intercambie colores y telas en una línea de productos, todo ello conservando la identidad del producto. Las funciones de fusión de múltiples imágenes y la consistencia entre personajes y productos lo hacen atractivo para los flujos de trabajo de catálogo.

Retoque fotográfico y ediciones específicas

Elimina objetos, corrige imperfecciones, cambia la ropa o los accesorios, o ajusta la iluminación con indicaciones en lenguaje natural. La función de edición local permite a usuarios no expertos realizar retoques profesionales con comandos conversacionales.

Guión gráfico y narración visual

Coloca el mismo personaje en diferentes escenas y mantén su aspecto consistente (útil para cómics, storyboards o presentaciones). Las ediciones iterativas permiten a los creadores refinar la atmósfera, el encuadre y la continuidad narrativa sin tener que reconstruir los recursos desde cero.

Educación, diagramas y prototipos de diseño.

Gracias a su capacidad para combinar indicaciones de texto e imágenes y a su amplio conocimiento del mundo, el modelo puede ayudar a generar diagramas anotados, recursos visuales educativos o maquetas rápidas para presentaciones. Google incluso destaca plantillas en AI Studio para casos de uso como maquetas inmobiliarias y diseño de productos.

¿Cómo se utiliza la API de Nano Banana?

A continuación se presentan fragmentos prácticos adaptados de Documentación de la API de CometAPI y la documentación de la API de Google. Muestran los flujos comunes: texto a imagen y imagen + texto a imagen (edición) utilizando el SDK oficial de GenAI o el punto final REST.

Nota: en la documentación de CometAPI, el nombre del modelo de vista previa aparece como gemini-2.5-flash-image-previewLos ejemplos a continuación reflejan los ejemplos oficiales del SDK (Python y JavaScript) y un ejemplo de curl REST; adapte las claves y las rutas de archivos a su entorno.

Ejemplo de curl REST de CometAPI

Utilice el sitio web oficial de Gemini generateContent Punto final para la generación de texto a imagen. Coloque el mensaje de texto en contents.parts[].text.Ejemplo (shell de Windows, usando ^ para continuación de línea):

curl --location --request POST "https://api.cometapi.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent" ^
--header "Authorization: sk-xxxx" ^
--header "User-Agent: Apifox/1.0.0 (https://apifox.com)" ^
--header "Content-Type: application/json" ^
--header "Accept: */*" ^
--header "Host: api.cometapi.com" ^
--header "Connection: keep-alive" ^
--data-raw "{    "contents": [{
      "parts": [
        {"text": "A photorealistic macro shot of a nano-banana on a silver fork, shallow depth of field"}
      ]
    }]
  }'}"
| grep -o '"data": "*"' \
| cut -d'"' -f4 \
| base64 --decode > gemini-generated.png

La respuesta contiene bytes de imagen base64; la canalización anterior extrae el "data" cadena y la decodifica en gemini-generated.png.

Este punto final admite la generación de “imagen a imagen”: cargue una imagen de entrada (como Base64) y reciba una nueva imagen modificada (también en formato Base64).Ejemplo:

curl --location --request POST "https://api.cometapi.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent" ^
--header "Authorization: sk-xxxx" ^
--header "User-Agent: Apifox/1.0.0 (https://apifox.com)" ^
--header "Content-Type: application/json" ^
--header "Accept: */*" ^
--header "Host: api.cometapi.com" ^
--header "Connection: keep-alive" ^
--data-raw "{  \"contents\":     }  ],  \"generationConfig\": {    \"responseModalities\":   }}"

**Descripción:**Primero, convierta su archivo de imagen de origen en una cadena Base64 y colóquelo en inline_data.dataNo incluya prefijos como data:image/jpeg;base64,.La salida también se encuentra en candidates.content.parts e incluye: Una parte de texto opcional (descripción o mensaje). La parte de imagen como inline_data (dónde data es el Base64 de la imagen de salida). Para varias imágenes, puede agregarlas directamente, por ejemplo:

{
  "inline_data": {
    "mime_type": "image/jpeg",
    "data": "iVBORw0KGgo...",
    "data": "iVBORw0KGgo..."
  }
}

A continuación, se muestran ejemplos para desarrolladores adaptados de la documentación y el blog oficiales de Google. Reemplace las credenciales y las rutas de archivo con las suyas.

Python (estilo oficial del SDK)

from google import genai
from PIL import Image
from io import BytesIO

client = genai.Client()

prompt = "Create a picture of a nano banana dish in a fancy restaurant with a Gemini theme"

# Text-to-Image

response = client.models.generate_content(
    model="gemini-2.5-flash-image-preview",
    contents=,
)

for part in response.candidates.content.parts:
    if part.text is not None:
        print(part.text)
    elif part.inline_data is not None:
        image = Image.open(BytesIO(part.inline_data.data))
        image.save("generated_image.png")

Este es el fragmento canónico de Python de la documentación de Google (se muestra el ID del modelo de vista previa). El mismo patrón de llamada del SDK admite la edición de imágenes y mensajes (pasar una imagen como una de las contents).Para más detalles consulte documento géminis

Conclusión

Si su producto necesita una generación de imágenes robusta y de baja latencia y, especialmente, Edición confiable con consistencia temáticaGemini 2.5 Flash Image es ahora una opción de producción que vale la pena evaluar: combina una calidad de imagen de vanguardia con API diseñadas para la integración con desarrolladores (AI Studio, API de Gemini y Vertex AI). Analice cuidadosamente las limitaciones actuales del modelo (texto fino en imágenes, algunos casos extremos de estilización) e implemente medidas de seguridad para un uso responsable.

Primeros Pasos

CometAPI es una plataforma API unificada que integra más de 500 modelos de IA de proveedores líderes, como la serie GPT de OpenAI, Gemini de Google, Claude de Anthropic, Midjourney, Suno y más, en una única interfaz intuitiva para desarrolladores. Al ofrecer autenticación, formato de solicitudes y gestión de respuestas consistentes, CometAPI simplifica drásticamente la integración de las capacidades de IA en sus aplicaciones. Ya sea que esté desarrollando chatbots, generadores de imágenes, compositores musicales o canales de análisis basados ​​en datos, CometAPI le permite iterar más rápido, controlar costos y mantenerse independiente del proveedor, todo mientras aprovecha los últimos avances del ecosistema de IA.

Los desarrolladores pueden acceder Imagen Flash de Gemini 2.5(Lista de Nano Banana CometAPI gemini-2.5-flash-image-preview/gemini-2.5-flash-image Entradas de estilo en su catálogo.) A través de CometAPI, las últimas versiones de los modelos listadas corresponden a la fecha de publicación del artículo. Para comenzar, explore las capacidades del modelo en el Playground y consultar el Guía de API Para obtener instrucciones detalladas, consulte la sección "Antes de acceder, asegúrese de haber iniciado sesión en CometAPI y de haber obtenido la clave API". CometAPI Ofrecemos un precio muy inferior al oficial para ayudarte a integrarte.

Leer Más

500+ Modelos en Una API

Hasta 20% de Descuento