Nano Banana Pro — oficialmente Gemini 3 Pro Image — es el nuevo modelo de generación y edición de imágenes de nivel estudio de Google/DeepMind que combina razonamiento multimodal avanzado, renderizado de texto de alta fidelidad, composición de múltiples imágenes y controles creativos de nivel profesional.
¿Qué es Nano Banana Pro y por qué debería importarte?
Nano Banana Pro es el modelo más reciente de Google para generación y edición de imágenes — la versión “Gemini 3 Pro Image” — diseñado para producir imágenes de alta fidelidad, conscientes del contexto, y texto dentro de la imagen con calidad de estudio de hasta 4K. Es el sucesor de los modelos anteriores Nano Banana (Gemini 2.5 Flash Image / “Nano Banana”), con mejor razonamiento, Search grounding (hechos del mundo real), renderizado de texto más sólido y controles de edición local más potentes. El modelo está disponible dentro de la app Gemini para usuarios interactivos, y puedes acceder a Nano Banana Pro a través de la API estándar de Gemini, pero debes seleccionar el identificador de modelo específico (gemini-3-pro-image-preview o su sucesor estable). para acceso programático.
Por qué esto importa: Nano Banana Pro está construido no solo para crear imágenes bonitas, sino para visualizar información — infografías, instantáneas basadas en datos (clima, deportes), pósteres con mucho texto, mockups de productos y fusiones de múltiples imágenes (hasta 14 imágenes de entrada y manteniendo la consistencia de personajes en hasta 5 personas). Para diseñadores, equipos de producto y desarrolladores, esa combinación de precisión, texto dentro de la imagen y acceso programático abre flujos de trabajo de producción que antes eran difíciles de automatizar.
¿Qué funciones se exponen mediante la API?
Las capacidades típicas de la API expuestas a los desarrolladores incluyen:
- Generación de texto → imagen (flujos de composición de un solo paso o de varios pasos con “thinking”).
- Edición de imágenes (máscaras locales, inpainting, ajustes de estilo).
- Fusión de múltiples imágenes (combinar imágenes de referencia).
- Controles avanzados de solicitud: resolución, relación de aspecto, pasos de posprocesamiento y trazas de “composition thought” para depuración/inspección en modos de vista previa.
Innovaciones y funciones principales de Nano Banana Pro
Razonamiento de contenido más inteligente
Usa la pila de razonamiento de Gemini 3 Pro para interpretar instrucciones visuales complejas y de varios pasos (por ejemplo, “crea una infografía de 5 pasos a partir de este conjunto de datos y añade un subtítulo bilingüe”). La API expone un mecanismo de “Thinking” que puede producir pruebas de composición intermedias para refinar la salida final.
Por qué importa: En lugar de una sola pasada que mapea prompt → píxel, el modelo realiza un proceso interno de “thinking” que refina la composición y puede llamar a herramientas externas (por ejemplo, Google Search) para fundamentación factual (por ejemplo, etiquetas de diagramas precisas o señalización correcta según la configuración regional). Esto produce imágenes que no solo son más bonitas, sino también semánticamente más correctas para tareas como infografías, diagramas o mockups de productos.
Cómo se logra: El “Thinking” de Nano Banana Pro es una pasada interna controlada de razonamiento/composición en la que el modelo genera visuales intermedios y trazas de razonamiento antes de producir la imagen final. La API expone que el modelo puede crear hasta dos fotogramas intermedios y que la imagen final es la última etapa de esa cadena. En producción, esto ayuda con la composición, la colocación del texto y las decisiones de diseño.
Renderizado de texto más preciso
Renderizado significativamente mejorado de texto legible y localizado dentro de las imágenes (menús, pósteres, diagramas). Nano Banana Pro alcanza nuevos niveles en el renderizado de texto en imágenes:
- El texto en las imágenes es claro, legible y está escrito correctamente;
- Admite generación multilingüe (incluidos chino, japonés, coreano, árabe, etc.);
- Permite a los usuarios escribir párrafos largos o texto descriptivo de varias líneas directamente dentro de las imágenes;
- Hay traducción y localización automáticas disponibles.
Por qué importa: Tradicionalmente, los modelos de imagen tienen dificultades para renderizar texto legible y bien alineado. Nano Banana Pro está optimizado explícitamente para un renderizado y localización de texto fiables (por ejemplo, traduciendo y preservando el diseño), lo que desbloquea casos de uso creativos reales como pósteres, empaques o anuncios multilingües.
Cómo se logra: Las mejoras en el renderizado de texto provienen de la arquitectura multimodal subyacente y del entrenamiento sobre conjuntos de datos que enfatizan ejemplos de texto en imágenes, combinados con conjuntos de evaluación específicos (evaluaciones humanas y conjuntos de regresión). El modelo aprende a alinear formas de glifos, fuentes y restricciones de diseño para producir texto legible y localizado dentro de las imágenes, aunque el texto pequeño y los párrafos extremadamente densos aún pueden ser propensos a errores.
Mayor consistencia visual y fidelidad
Los controles de estudio (iluminación, enfoque, ángulo de cámara, gradación de color) y la composición de múltiples imágenes (hasta 14 imágenes de referencia, con permisos especiales para múltiples sujetos humanos) ayudan a preservar la consistencia del personaje (mantener la misma persona/personaje a través de ediciones) y la identidad de marca en todos los activos generados. El modelo admite salidas nativas de 1K/2K/4K.
Por qué importa: Los flujos de trabajo de marketing y entretenimiento requieren personajes consistentes entre tomas y ediciones. El modelo puede mantener el parecido de hasta cinco personas y combinar hasta 14 imágenes de referencia en una sola composición mientras produce Sketch → 3D Render. Esto es útil para creatividad publicitaria, empaques o narrativas de múltiples tomas.
Cómo se logra: Las entradas del modelo aceptan múltiples imágenes con asignaciones de rol explícitas (por ejemplo, “Imagen A: pose”, “Imagen B: referencia de rostro”, “Imagen C: textura de fondo”). La arquitectura condiciona la generación sobre esas imágenes para mantener identidad/pose/estilo mientras aplica transformaciones (iluminación, cámara).
Benchmarks de rendimiento de Nano Banana Pro
Nano Banana Pro (Gemini 3 Pro Image) “sobresale en benchmarks de IA de Text→Image” y demuestra mejor razonamiento y fundamentación contextual en comparación con modelos Nano Banana anteriores. Enfatiza mayor fidelidad y mejor renderizado de texto respecto a lanzamientos previos.

Guía práctica de rendimiento
Espera mayor latencia y costo para renderizados 2K/4K de alta fidelidad que para 1K o los modelos “Flash” optimizados para velocidad. Si el rendimiento/la latencia son críticos, usa la variante flash (por ejemplo, Gemini 2.5 Flash / Nano Banana) para alto volumen; usa Nano Banana Pro / gemini-3-pro-image para calidad y tareas complejas de razonamiento.
¿Cómo pueden los desarrolladores acceder a Nano Banana Pro?
Qué endpoints y modelos elegir
Identificador del modelo (preview / pro): gemini-3-pro-image-preview (preview) — úsalo cuando quieras las capacidades de Nano Banana Pro. Para trabajos más rápidos y de menor costo, gemini-2.5-flash-image (Nano Banana) sigue estando disponible.
Superficies para usar
- Gemini API (endpoint generativelanguage): Puedes usar una clave de CometAPI para acceder a xx. CometAPI ofrece la misma API a un precio más favorable que el sitio web oficial. Llamadas HTTP / SDK directas a
generateContentpara generación de imágenes (ejemplos abajo). - Google AI Studio: Superficie web para experimentación rápida y remix de aplicaciones demo.
- Vertex AI (enterprise): Rendimiento aprovisionado, opciones de facturación (pago por uso / niveles empresariales) y filtros de seguridad para producción a gran escala. Usa Vertex al integrarlo en grandes pipelines o trabajos de renderizado por lotes.
El nivel gratuito tiene un límite de uso limitado; al exceder el límite volverá a Nano Banana. Los niveles Plus/Pro/Ultra ofrecen límites más altos y salida sin marca de agua, pero Ultra puede usarse en herramientas de video Flow y en Antigravity IDE en modo 4K.
¿Cómo genero una imagen con Nano Banana Pro (paso a paso)?
1) Receta interactiva rápida para usar la app Gemini
- Abre Gemini → Tools → Create images.
- Selecciona Thinking (Nano Banana Pro) como modelo.
- Introduce un prompt: explica el sujeto, acción, estado de ánimo, iluminación, cámara, relación de aspecto y cualquier texto que deba aparecer en la imagen. Ejemplo:
“Create a 4K poster of a robotics workshop: a diverse team around a table, blueprint overlay, bold headline ‘Robots in Action’ in sans serif, warm tungsten light, shallow depth of field, cinematic 16:9.” - (Opcional) Sube hasta 14 imágenes para fusionar o usar como referencias. Usa la herramienta de selección/máscara para editar áreas localmente.
- Genera, itera con lenguaje natural (por ejemplo, “make the headline blue and aligned top-center; increase contrast on the blueprint”), luego exporta.
2) Usa HTTP para enviar al endpoint de imágenes de Gemini
Debes iniciar sesión en CometAPI para obtener la clave.
# save your API key to $CometAPI_API_KEY securely before running
curl -s -X POST \
"https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent" \
-H "x-goog-api-key: $CometAPI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"contents": [{
"role": "user",
"parts": [{
"text": "Photorealistic 4K image of a yellow banana floating over Earth, studio lighting, cinematic composition. Add bold text overlay: \"Nano Banana Pro\" in top right corner."
}]
}],
"generationConfig": {
"imageConfig": {
"resolution": "4096x4096",
"aspectRatio": "1:1"
}
}
}' \
| jq -r '.candidates.content.parts[] | select(.inlineData) | .inlineData.data' \
| base64 --decode > nano_banana_pro_4k.png
Esta muestra escribe la carga útil de imagen base64 en un archivo PNG. El parámetro generationConfig.imageConfig.resolution solicita salida 4K (disponible para el modelo 3 Pro Image).
3) Llamadas directas de SDK a generateContent para generación de imágenes
Requiere instalar el SDK de Google y obtener autenticación de Google. Ejemplo en Python (texto + imágenes de referencia + grounding):
# pip install google-genai pillow
from google import genai
from PIL import Image
import base64
client = genai.Client() # reads credentials from env / config per SDK docs
# Read a reference image and set inline_data
with open("ref1.png", "rb") as f:
ref1_b64 = base64.b64encode(f.read()).decode("utf-8")
prompt_parts = [
{"text": "Create a styled product ad for a yellow banana-based energy bar. Use studio lighting, shallow DOF. Include a product label with the brand name 'Nano Bar'."},
{"inline_data": {"mime_type": "image/png", "data": ref1_b64}}
]
response = client.models.generate_content(
model="gemini-3-pro-image-preview",
contents=,
generation_config={
"imageConfig": {"resolution":"4096x4096", "aspectRatio":"4:3"},
# tools can be provided to ground facts, e.g. "google_search"
"tools":
}
)
for part in response.candidates.content.parts:
if part.inline_data:
image = part.as_image()
image.save("product_ad.png")
Este ejemplo muestra cómo subir una imagen de referencia inline y solicitar una composición 4K mientras se habilita google_search como herramienta. El SDK de Python manejará los detalles REST de bajo nivel.
Fusión de múltiples imágenes y consistencia de personajes
Para producir una composición que preserve a la misma persona entre escenas, pasa múltiples partes inline_data (seleccionadas de tu conjunto de fotos) y especifica la instrucción creativa de que el modelo debe “preserve identity across outputs.”
Ejemplo práctico breve — un prompt real y flujo esperado
Prompt:
"Generate a 2K infographic: 'Q4 Sales by Region 2025' — stacked bar chart with North America 35%, EMEA 28%, APAC 25%, LATAM 12%. Include title top-center, caption with source bottom-right, clean sans-serif labels, neutral palette, vector look, 16:9."
Pipeline esperado: app → plantilla de prompt + datos CSV → reemplazar marcadores de posición en el prompt → llamada a la API con image_size=2048x1152 → recibir PNG base64 → guardar recurso + metadatos de procedencia → opcionalmente superponer la fuente exacta mediante compositor si es necesario.
¿Cómo debería diseñar un pipeline de producción y gestionar seguridad / procedencia?
Arquitectura de producción recomendada
- Prompt + pasada de borrador (modelo rápido): Usa
gemini-2.5-flash-image(Nano Banana) para producir muchas variaciones de baja resolución de forma económica. - Selección y refinamiento: elige los mejores candidatos, refina los prompts, aplica ediciones con inpainting/máscara para mayor precisión.
- Renderizado final de alta fidelidad: llama a
gemini-3-pro-image-preview(Nano Banana Pro) para los renderizados finales en 2K/4K y el posprocesamiento (reescalado, gradación de color). - Procedencia y metadatos: almacena el prompt, la versión del modelo, marcas de tiempo y la información de SynthID en tu almacén de metadatos de activos — el modelo adjunta una marca de agua SynthID y las salidas pueden rastrearse para cumplimiento y auditoría de contenido.
Seguridad, derechos y moderación
- Copyright y autorización de derechos: no subas ni generes contenido que infrinja derechos. Usa confirmaciones explícitas del usuario para imágenes o prompts proporcionados por usuarios que puedan crear parecidos reconocibles. Deben respetarse la Prohibited Use Policy de Google y los filtros de seguridad del modelo.
- Filtrado y comprobaciones automatizadas: ejecuta las imágenes generadas a través de un pipeline interno de moderación de contenido (NSFW, símbolos de odio, detección de contenido político/vinculante) antes del consumo posterior o de su visualización pública.
¿Cómo hago edición de imágenes (inpainting), composición de múltiples imágenes y renderizado de texto?
Nano Banana Pro admite flujos de trabajo de edición multimodal: proporciona una o más imágenes de entrada y una instrucción textual que describa las ediciones (eliminar un objeto, cambiar el cielo, añadir texto). La API acepta imagen + texto en la misma solicitud; el modelo puede producir texto e imágenes intercalados como respuestas. Los patrones de ejemplo incluyen ediciones con máscara y mezclas de múltiples imágenes (transferencia de estilo / composición). Consulta la documentación para ver arreglos contents que combinan blobs de texto e imágenes binarias.
Ejemplo: Editar (flujo pseudo en Python)
from google import genai
from PIL import Image
client = genai.Client()
prompt = "Remove the person on the left and add a small red 'Nano Banana Pro' sticker on the top-right of the speaker"
# contents can include Image objects or binary data per SDK; see doc for exact call
response = client.models.generate_content(
model="gemini-3-pro-image-preview",
contents=, # order matters: image + instruction
)
# Save result as before
Esta edición conversacional te permite ajustar iterativamente los resultados hasta alcanzar un recurso listo para producción.
Ejemplo en Node.js — edición de imagen con máscara y múltiples referencias
// npm install google-auth-library node-fetch
const { GoogleAuth } = require('google-auth-library');
const fetch = require('node-fetch');
const auth = new GoogleAuth({ scopes: });
async function runEdit() {
const client = await auth.getClient();
const token = await client.getAccessToken();
const API_URL = "https://api.generativemodels.googleapis.com/v1alpha/gemini:editImage";
const MODEL = "gemini-3-pro-image";
// Attach binary image content or URLs depending on API.
const payload = {
model: MODEL,
prompt: { text: "Replace background with an indoor studio set, keep subject, add rim light." },
inputs: {
referenceImages: [
{ uri: "gs://my-bucket/photo_subject.jpg" },
{ uri: "gs://my-bucket/target_studio.jpg" }
],
mask: { uri: "gs://my-bucket/mask.png" },
imageConfig: { resolution: "2048x2048", format: "png" }
},
options: { preserveIdentity: true }
};
const res = await fetch(API_URL, {
method: 'POST',
headers: {
'Authorization': `Bearer ${token.token}`,
'Content-Type': 'application/json'
},
body: JSON.stringify(payload)
});
const out = await res.json();
console.log(JSON.stringify(out, null, 2));
}
runEdit();
(Las APIs a veces aceptan URI de Cloud Storage o cargas útiles de imagen en base64; consulta la documentación de la API de Gemini para conocer los formatos de entrada exactos.)
Para obtener información sobre la generación y edición de imágenes usando CometAPI, consulta Guide to calling gemini-3-pro-image .
Conclusión
Nano Banana Pro (Gemini 3 Pro Image) representa un salto de nivel de producción en la generación de imágenes: una herramienta para visualizar datos, producir ediciones localizadas e impulsar flujos de trabajo para desarrolladores. Usa la app Gemini para prototipado rápido, la API para integración en producción y sigue las recomendaciones anteriores para controlar costos, garantizar la seguridad y mantener la calidad de marca. Prueba siempre flujos de trabajo reales de usuarios y almacena metadatos de procedencia para cumplir con las necesidades de transparencia y auditoría.
Usa Nano Banana Pro cuando necesites recursos de calidad de estudio, control preciso sobre la composición, mejor renderizado de texto dentro de las imágenes y la capacidad de fusionar múltiples referencias en una sola salida coherente.
Los desarrolladores pueden acceder a Gemini 3 Pro Image( Nano Banana Pro) API a través de CometAPI. Para comenzar, explora las capacidades del modelo de CometAPI en el Playground y consulta la guía de la API para obtener instrucciones detalladas. Antes de acceder, asegúrate de haber iniciado sesión en CometAPI y de haber obtenido la clave API. CometAPI ofrece un precio mucho más bajo que el precio oficial para ayudarte a integrar.
¿Listo para comenzar?→ Sign up for CometAPI today !
Si quieres conocer más consejos, guías y noticias sobre IA, síguenos en VK, X y Discord.
