El reciente lanzamiento de Google de Imagen Flash de Gemini 2.5, apodada "Nano-Banana" Se ha convertido rápidamente en la opción predilecta para la edición de imágenes conversacional: mantiene la semejanza consistente en todas las ediciones, fusiona varias imágenes con precisión y permite ediciones locales muy naturales basadas en indicaciones. A continuación, explicaré qué es Nano Banana y cómo usarlo tanto a través de... Géminis de Google y vía **acceso de terceros (por ejemplo, CometAPI)**Proporciona ejemplos concretos de indicaciones y código que puedas incorporar a un proyecto, y comparte consejos para desarrolladores sobre edición multi-turno, escalado e indicaciones avanzadas. Escribo esto como desarrollador que usa modelos de imagen a diario; considéralo una guía práctica y ligeramente dogmática.
¿Qué es Nano-Banana?
¿Qué significa realmente “Gemini 2.5 Flash Image / Nano-Banana”?
Nano-Banana es el apodo de la comunidad/nombre en clave para Imagen Flash de Gemini 2.5El último modelo de generación y edición de imágenes de Google DeepMind. Está diseñado para... aviso primero Edición (le das instrucciones en lenguaje natural) con especial atención a consistencia del carácter (manteniendo la misma persona/mascota/objeto visible en todas las ediciones) fusión de múltiples imágenes (combinación de objetos en fotos de origen) y uso interactivo de baja latencia en aplicaciones como Gemini y Google AI Studio. El modelo está disponible a través de la API Gemini de Google, AI Studio, y ya se está mostrando en CometAPI.
Como desarrollador, piense en Nano-Banana no principalmente como un generador de imágenes puro “desde cero”, sino como un programa altamente capaz. Asistente de edición y composición de fotografíasComprende el contenido de la imagen, recuerda el tema en todas las ediciones y responde a instrucciones en lenguaje natural, adaptándose a un ciclo de diseño iterativo rápido. Esto lo hace especialmente útil para maquetas de productos, tomas de personajes consistentes, iteraciones conceptuales rápidas y juegos creativos sociales.
Resumen para desarrolladores
- Nombre del modelo: gemini-2.5-flash-image-preview / gemini-2.5-flash-image.
- Coherencia y continuidad: Nano-Banana conserva los detalles de los personajes en las ediciones con mayor fiabilidad que muchos rivales, lo que lo hace preferible para ediciones secuenciales y narraciones.
- Velocidad: Los usuarios informan que la generación es rápida (a menudo en menos de 10 segundos para muchas ediciones), lo cual resulta útil para flujos de trabajo iterativos.
- Diseño de edición primero: Si bien muchos modelos están optimizados para la generación basada en texto puro, la experiencia de usuario (UX) y las API de Nano-Banana enfatizan la edición (ediciones de una sola toma, fusión de múltiples imágenes, transferencia de estilo).
¿Cómo puedo editar con Nano-Banana en CometAPI?
CometAPI es un mercado/envoltorio de API que agrega muchos modelos (incluidos API de imágenes Flash de Gemini 2.5 (Nano Banana)) detrás de un único punto final compatible con OpenAI. Si desea crear prototipos rápidamente o evitar el aprovisionamiento de cuentas de Google Cloud/Vertex para una primera prueba, CometAPI es una solución práctica: obtiene una clave API, elige gemini-2.5-flash-image (o gemini-2.5-flash-image-preview ), luego envía solicitudes de forma similar a una edición de imágenes al estilo de un chat. CometAPI también ofrece ejemplos y guía para probar el modelo.
¿Por qué utilizar CometAPI?
- Una clave API para gobernarlos a todos: simplifica la prueba de múltiples proveedores.
- Cambie de proveedor en producción si cambian los precios o los SLA.
- Útil para equipos que desean control a nivel de servicio (limitación de velocidad, registro centralizado).
Cómo llamar a Nano-Banana (CometAPI): ejemplo práctico
A continuación se muestra un ejemplo sencillo. Reemplazar YOUR_COMET_KEY y rutas de archivos con las tuyas propias.
CURL — edición básica (imagen + mensaje → imagen editada)
Ejemplo:
curl --location --request POST 'https://api.cometapi.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent' \
--header 'Authorization: sk-xxx' \
--header 'User-Agent: Apidog/1.0.0 (https://apidog.com)' \
--header 'Content-Type: application/json' \
--header 'Accept: */*' \
--header 'Host: api.cometapi.com' \
--header 'Connection: keep-alive' \
--data-raw '{
"contents": [
{
"role": "user",
"parts": [
{
"text": "cat"
},
{
"inline_data": {
"mime_type": "image/jpeg",
"data": "iVBORw0KGgoA Note: Base64 data here"
}
]
}
],
"generationConfig": {
"responseModalities": [
"TEXT",
"IMAGE"
]
}
}'
**Descripción:**Primero, convierta su archivo de imagen de origen en una cadena Base64 y colóquelo en inline_data.dataEn segundo lugar, no incluya prefijos como data:image/jpeg;base64, La salida también se encuentra en candidates.content.parts e incluye:
- Una parte de texto opcional (descripción o mensaje).
- La parte de la imagen como
inline_data(dóndedataes el Base64 de la imagen de salida).
Si solo quieres probar la edición de imágenes en la Nano-Banana, CometAPI ofrece créditos gratis a nuevos usuarios. Puedes probar la Nano-Banana en el área de juegos o usar la API de imágenes Flash de Gemini 2.5. Sin embargo, si quieres un uso ilimitado, puedes pagar un 20% de descuento sobre el precio de Gemini.
Nano-Banana tiene varias ventajas principales: semejanza consistente, ediciones locales específicas a través del lenguaje natural y fusión de múltiples imágenes.
A continuación, te mostraré las ventajas de Nano-Banana a través de varios casos de uso y podrás ver su magia.
Ejemplo 1: Combinar varias imágenes en un solo collage
Subir una imagen:

Ejemplo de descripción de entrada: Una modelo posa apoyada en un BMW rosa. Lleva los siguientes artículos; la escena se desarrolla sobre un fondo gris claro. El extraterrestre verde es un llavero y está sujeto al bolso rosa. La modelo también lleva un loro rosa en el hombro. Junto a ella hay un carlino con un collar rosa y auriculares dorados.
Se devolvió Base64 convertido nuevamente a una imagen:

Código:
curl --location --request POST 'https://api.cometapi.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent' \
--header 'Authorization: sk-xxx' \
--header 'User-Agent: Apidog/1.0.0 (https://apidog.com)' \
--header 'Content-Type: application/json' \
--header 'Accept: */*' \
--header 'Host: api.cometapi.com' \
--header 'Connection: keep-alive' \
--data-raw '{
"contents": [
{
"role": "user",
"parts": [
{
"text": "A model is posing and leaning against a pink bmw. She is wearing the following items, the scene is against a light grey background. The green alien is a keychain and it's attached to the pink handbag. The model also has a pink parrot on her shoulder. There is a pug sitting next to her wearing a pink collar and gold headphones"
},
{
"inline_data": {
"mime_type": "image/jpeg",
"data": "iVBORw0KGgoA Note: Base64 data here"
}
]
}
],
"generationConfig": {
"responseModalities": [
"TEXT",
"IMAGE"
]
}
}'
Notas: convierta su archivo de imagen de origen a una cadena Base64 e insértelo en inline_data.data (no incluya prefijos como data:image/jpeg;base64,).
Análisis de casos de uso: Al usar la fusión de múltiples imágenes, los diseñadores pueden ser más creativos. Por ejemplo, los diseñadores de interiores pueden combinar imágenes para crear una representación aproximada del efecto. Los consumidores pueden combinar sus imágenes de cuerpo entero con los artículos que desean comprar para ayudarles a decidir si compran. Esto también puede usarse como referencia para la producción de animación y cómics.
Ejemplo 2: Editar imágenes para preservar la similitud
A continuación proporcionaré varias rondas de edición para probar nano banana.
Primero, sube una imagen:

En segundo lugar, Prompt: Añade un cachorro al césped
salida:

Finalmente, Prompt: Usa la imagen de referencia adjunta del personaje. Conserva al perro. Sitúa al personaje en una escena nocturna de una calle lluviosa con luces de neón. Mantén los rasgos faciales idénticos a los de la referencia.

Análisis de casos de uso: Se puede observar que se mantiene una consistencia bastante alta en múltiples rondas de modificación de imagen.
Ejemplo 3: Transferencia de estilo y modificación de detalles faciales
Subir una imagen:

Prompt: Enfoca ligeramente el rostro, añade un 6% de grano de película y recorta a 16:9. No modifiques los rasgos faciales. Añade una suave luz de borde en el lado derecho.
salida:

Otros casos de uso de Nano-Banana
1) Fotografías corporativas y retratos profesionales
Uso: Crea rápidamente retratos de marca uniformes (marketing, LinkedIn, biografías de empresa). Nano-Banana mantiene la fidelidad facial al cambiar de atuendo, fondo o iluminación.
Indicación: atuendo + iluminación (editar)
Edit the uploaded photo into a professional corporate headshot:
- Replace outfit with a navy single-breasted blazer and white shirt.
- Preserve face shape, eyeglasses, and expression exactly.
- Apply softbox studio lighting (slightly warm), remove harsh shadows.
- Output ratio 4:5 portrait, photorealistic, high detail.
Aviso: intercambio de fondo + retoque
Edit the uploaded image: replace background with a clean light-gray studio backdrop, remove small blemishes, slightly sharpen eyes, and keep all facial proportions. Preserve left ear earring and hairline.
2) Comercio electrónico y visualización de productos
Uso: colocar productos en escenas de estilo de vida, generar fotografías de productos consistentes desde diferentes ángulos o mostrar variantes de color.
Aviso: producto en escena (fusión de múltiples imágenes)
Using Image A (product photo on white) and Image B (cozy living room scene), place the product on the living room coffee table with natural shadows matching the scene. Keep product scale realistic and preserve product texture and labeling.
Indicación: variantes de color (editar)
Edit the uploaded product image: generate three color variants (forest green, deep navy, and charcoal). Keep product dimensions, seams, and label legible; output as a 3-up grid, photorealistic.
3) Contenido social y marketing de influencia
Uso: ediciones estilísticas rápidas, intercambios de atuendos, superposiciones de temporada o recortes de múltiples formatos para plataformas sociales.
Aviso: edición estacional para el feed y la historia
Edit the uploaded photo: swap casual tee for a chic leather jacket, add subtle golden-hour lighting from top-left, crop a square for feed and a 9:16 vertical for story. Preserve face and sunglasses.
Indicación: variante promocional estilizada
Edit the uploaded portrait to create a high-contrast editorial style: increase contrast moderately, add film grain, and maintain natural skin texture; preserve facial proportions and jewelry.
4) Coherencia entre personajes y activos de marca (mascotas, personajes recurrentes)
Uso: mantener logotipos, mascotas o personajes visualmente idénticos en todas las escenas, campañas o episodios.
Aviso: cumplimiento de la hoja de personaje
Reference: character_sheet.png (attached). Key identifiers to preserve exactly across edits: warm olive skin, split-dimple on right cheek, green scarf with gold pin. Create a portrait of the character on a busy café terrace; maintain identifiers and expression.
5) Reparación y coloración de fotografías históricas
Uso: restaurar o colorear imágenes de archivo preservando la composición y los finos detalles faciales.
Indicación: colorear + reparar
Edit uploaded black-and-white photo: colorize with natural skin tones based on European 1940s palette, remove scratches and dust, repair torn left border, preserve original composition and facial proportions. Output: high-resolution TIFF-quality.
¿Qué técnicas de estímulo avanzadas aumentan la confiabilidad?
Use anclajes de referencia y microrestricciones
Las referencias de referencia son datos breves y verificables que se añaden para reducir la ambigüedad: nombres exactos de las prendas ("blazer azul marino, de botonadura sencilla, solapa de muesca"), referencias de iluminación ("iluminación Rembrandt") o términos de cámara ("objetivo de retrato de 50 mm, f/2.8"). Las microrestricciones indican al modelo lo que no debe cambiar (p. ej., "no modificar los tatuajes del antebrazo derecho"). Estas reducen la libertad del modelo de forma productiva y, por lo general, mejoran la fidelidad del resultado.
Bucle de iteración: preguntar, evaluar, refinar
- Primer pase: Utilice una indicación precisa pero concisa.
- Evaluar resultados: Tenga en cuenta lo que el modelo hizo mal (por ejemplo, cambió la forma de la cara, perdió un accesorio).
- Corrección dirigida: Envía una breve sugerencia de seguimiento haciendo referencia al resultado anterior ("Conservar todo del último resultado, pero conservar el pendiente original de la oreja izquierda y aumentar el grosor de las cejas"). Las ventajas de la edición conversacional de Nano-Banana te permiten recuperarte rápidamente.
Cadena de ediciones para transformaciones complejas
Para ediciones extensas, divida el trabajo en una cadena de ediciones más pequeñas en lugar de una sola instrucción masiva. Ejemplo de cadena: (1) cambio de fondo → (2) actualización de atuendo → (3) etalonaje → (4) retoque final. Esto mantiene cada instrucción enfocada y reduce los efectos cruzados inesperados.
¿Cómo debo estructurar las indicaciones para Nano-Banana? (Anatomía de las indicaciones)
Las buenas indicaciones visuales tienen una estructura consistente. Utilice lo siguiente: anatomía rápida Para obtener resultados precisos y repetibles:
Anatomía rápida (orden recomendado)
- Acción / Meta — ¿Qué quieres que el modelo haga? do? (por ejemplo, “Edita esta selfie para crear un retrato profesional” o “Genera una foto de estilo de vida del producto combinando estas dos imágenes”).
- Asignaturas) ¿Quién o qué aparece en la imagen? Especifica la identidad, la edad, el número de personas, los objetos, etc.
- Atributos — características visuales: ropa, expresiones faciales, color de ojos, cabello, accesorios.
- Medio ambiente e iluminación — ubicación, hora del día, iluminación ambiental, distancia focal, consejos sobre la lente (“retrato de 35 mm”).
- Estilo y acabado — estilo fotográfico (cinematográfico, de estudio, grano de película, hiperrealista) o estilo artístico (pintura al óleo, vectorial, cómic).
- Restricciones / Seguridad — cualquier cosa que se deba evitar (sin logotipos, sin desnudez, sin texto médico).
- Token de consistencia (opcional) — frase corta que puedes reutilizar para mantener el reconocimiento de caracteres en múltiples indicaciones (por ejemplo, “Usa la referencia de caracteres 'bufanda Luna'”).
Consejos para la coherencia del personaje (pasos prácticos)
- **Utilice una “frase de referencia”**Incluye una frase corta y única relacionada con el tema (p. ej., "ficha de personaje: 'Maya-blue-jacket'") en cada indicación. El modelo vinculará las ediciones al mismo personaje de forma más fiable si reutilizas esta frase.
- Incluir detalles anclados: especificar características distintivas e inmutables (por ejemplo, “cicatriz en la ceja izquierda, marca de nacimiento verde en la mejilla derecha”) para que el modelo tenga puntos de anclaje fijos que mantener.
- Mantenga la pose y el encuadre cuando sea posible.:Si desea una continuidad real, mantenga el ángulo de la cámara y la descripción de la pose similares en todas las indicaciones.
- Empezar desde la misma imagen originalPara los flujos de trabajo de edición, proporcione siempre la misma imagen de origen como ancla. Cuando necesite cambiar fotos, incluya la imagen original como entrada adicional y explique la transformación.
¿Cuáles son los modos de falla más comunes y cómo puedo solucionarlos?
Error: deriva de identidad (el sujeto se ve diferente)
Causa: El modelo generalizó excesivamente un estilo solicitado o interpretó mal una restricción.
correcciones: agregue una cláusula explícita de “preservación”, adjunte la imagen original como referencia o realice ediciones en pasos más pequeños y valide los resultados intermedios.
Fallo: accesorios o manos inconsistentes
Causa: Las manos y los pequeños accesorios son históricamente complicados para muchos modelos de imagen.
correcciones: incluir microrestricciones (“preservar el reloj en la muñeca derecha”), proporcionar una referencia detallada de cerca para elementos pequeños o ejecutar un paso de corrección final centrado solo en el elemento problemático.
Fallo: la iluminación o las sombras parecen poco naturales
Causa: Las ediciones grandes (cambio de fondo o reiluminación importante) pueden crear desajustes.
correcciones: Pídale al modelo que combine “luz direccional desde la parte superior izquierda, sombras suaves” o proporcione la imagen de referencia de iluminación deseada.
Conclusión
Nano-Banana (Gemini 2.5 Flash Image) supone un avance notable en la edición y generación de imágenes para el consumidor: es rápido, consistente e integrado con el ecosistema Gemini y las herramientas de seguridad de Google. Los mejores resultados se obtienen con indicaciones claras y centradas en la tareaInstrucciones de preservación explícitas cuando se necesita consistencia de identidad y flujos de trabajo por etapas que separan las vistas previas rápidas de las renderizaciones finales. A medida que el modelo y el ecosistema evolucionan, los ingenieros de soporte deben seguir probando, registrar los resultados y crear controles orientados al usuario que faciliten la edición de forma transparente y reversible.


