¿Cómo usar la API de Nano Banana Pro (imagen Gemini 3 Pro)?

CometAPI
AnnaDec 10, 2025
¿Cómo usar la API de Nano Banana Pro (imagen Gemini 3 Pro)?

Nano Banana Pro — oficialmente Imagen del Gemini 3 Pro — es el nuevo modelo de generación y edición de imágenes de calidad profesional de Google/DeepMind que combina razonamiento multimodal avanzado, renderizado de texto de alta fidelidad, composición de múltiples imágenes y controles creativos de nivel profesional.

¿Qué es Nano Banana Pro y por qué debería importarte?

Nano Banana Pro es el modelo más reciente de Google para la generación y edición de imágenes —la versión “Gemini 3 Pro Image”— diseñado para producir imágenes de alta fidelidad con información contextual y texto sobre imagen con calidad de estudio hasta 4K. Es el sucesor de los modelos anteriores de Nano Banana (Gemini 2.5 Flash Image / “Nano Banana”) con razonamiento mejorado, búsqueda basada en datos reales, renderizado de texto más potente y controles de edición local más avanzados. El modelo está disponible dentro de la aplicación Gemini para usuarios interactivos y se puede acceder a Nano Banana Pro a través de la API estándar de Gemini, pero es necesario seleccionar el identificador específico del modelo (gemini-3-pro-image-preview o su sucesor estable). para acceso programático.

Por qué esto es importante: Nano Banana Pro no solo está diseñado para crear imágenes bonitas, sino también para visualizar información — infografías, instantáneas basadas en datos (clima, deportes), carteles con mucho texto, maquetas de productos y fusiones de múltiples imágenes (hasta 14 imágenes de entrada y manteniendo la coherencia de los caracteres entre hasta 5 personas). Para diseñadores, equipos de producto y desarrolladores, esa combinación de precisión, texto en la imagen y acceso programático abre flujos de trabajo de producción que antes eran difíciles de automatizar.

¿Qué funciones se exponen a través de la API?

Las funcionalidades típicas de la API que se exponen a los desarrolladores incluyen:

  • Generación de texto a imagen (flujos de composición de “pensamiento” de un solo paso o de varios pasos).
  • Edición de imagen (máscaras locales, retoque fotográfico, ajustes de estilo).
  • Fusión de múltiples imágenes (combinar imágenes de referencia).
  • Controles de solicitud avanzados: resolución, relación de aspecto, pasos de postprocesamiento y trazas de “pensamiento en la composición” para depuración/inspección en los modos de vista previa.

Innovaciones y funciones principales de Nano Banana Pro

Razonamiento de contenido más inteligente

Utiliza el sistema de razonamiento de Gemini 3 Pro para interpretar instrucciones visuales complejas de varios pasos (por ejemplo, «crear una infografía de 5 pasos a partir de este conjunto de datos y añadir un texto bilingüe»). La API expone un mecanismo de «Análisis» que puede generar pruebas de composición intermedias para refinar el resultado final.

Por qué es importante: En lugar de un único proceso que mapea la imagen de entrada a cada píxel, el modelo realiza un proceso interno de análisis que refina la composición y puede recurrir a herramientas externas (como la Búsqueda de Google) para obtener información objetiva (por ejemplo, etiquetas precisas en los diagramas o señalización adaptada al contexto local). Esto genera imágenes que no solo son más atractivas visualmente, sino también más correctas semánticamente para tareas como infografías, diagramas o maquetas de productos.

Cómo lograrlo: La función «Thinking» de Nano Banana Pro es un proceso interno controlado de razonamiento y composición donde el modelo genera elementos visuales intermedios y trazas de razonamiento antes de producir la imagen final. La API revela que el modelo puede crear hasta dos fotogramas intermedios y que la imagen final es la última etapa de esa cadena. En producción, esto facilita la composición, la ubicación del texto y las decisiones de diseño.

Representación de texto más precisa

Texto legible y localizado significativamente mejorado dentro de las imágenes (menús, carteles, diagramas). Nano Banana Pro alcanza nuevas cotas en la representación de texto en imágenes:

  • El texto en las imágenes es claro, legible y está escrito correctamente;
  • Admite la generación multilingüe (incluidos chino, japonés, coreano, árabe, etc.);
  • Permite a los usuarios escribir párrafos largos o texto descriptivo de varias líneas directamente en las imágenes;
  • Se ofrece traducción y localización automáticas.

Por qué es importante: Tradicionalmente, los modelos de imagen tienen dificultades para renderizar texto legible y bien alineado. Nano Banana Pro está optimizado específicamente para la renderización y localización de texto fiables (por ejemplo, la traducción y la conservación del diseño), lo que permite su uso en aplicaciones creativas reales como carteles, envases o anuncios multilingües.

Cómo lograrlo: Las mejoras en la representación de texto provienen de la arquitectura multimodal subyacente y del entrenamiento con conjuntos de datos que enfatizan los ejemplos de texto en imágenes, combinado con conjuntos de evaluación específicos (evaluaciones humanas y conjuntos de regresión). El modelo aprende a alinear las formas de los glifos, las fuentes y las restricciones de diseño para producir texto legible y localizado dentro de las imágenes; sin embargo, los textos pequeños y los párrafos extremadamente densos aún pueden ser propensos a errores.

Mayor coherencia y fidelidad visual

Los controles de estudio (iluminación, enfoque, ángulo de cámara, corrección de color) y la composición multiimagen (hasta 14 imágenes de referencia, con opciones especiales para varios sujetos humanos) ayudan a preservar la coherencia del personaje (mantener la misma persona/personaje en todas las ediciones) y la identidad de marca en todos los recursos generados. El modelo admite salidas nativas de 1K/2K/4K.

Por qué es importante: Los flujos de trabajo de marketing y entretenimiento requieren personajes consistentes en todas las tomas y ediciones. El modelo puede mantener el parecido hasta por five personas y mezclarse hasta 14 Integra imágenes de referencia en una sola composición al crear un boceto y renderizar en 3D. Esto resulta útil para anuncios publicitarios, empaques o narraciones con múltiples tomas.

Cómo lograrlo: El modelo acepta múltiples imágenes con asignaciones de roles explícitas (p. ej., «Imagen A: pose», «Imagen B: referencia facial», «Imagen C: textura de fondo»). La arquitectura condiciona la generación a partir de esas imágenes para mantener la identidad, la pose y el estilo al aplicar transformaciones (iluminación, cámara).

Pruebas de rendimiento del Nano Banana Pro

Nano Banana Pro (Gemini 3 Pro Image) destaca en las pruebas de IA de conversión de texto a imagen y demuestra un razonamiento y una contextualización mejorados en comparación con los modelos anteriores de Nano Banana. Se enfatiza una mayor fidelidad y una mejor representación del texto con respecto a las versiones anteriores.

¿Cómo usar la API de Nano Banana Pro (imagen Gemini 3 Pro)?

Orientación práctica sobre el desempeño

Esperar mayor latencia El costo de renderizado de alta fidelidad en 2K/4K es mayor que en 1K o en los modelos "Flash" optimizados para velocidad. Si el rendimiento y la latencia son cruciales, utilice la variante Flash (p. ej., Gemini 2.5 Flash / Nano Banana) para grandes volúmenes de datos; utilice Nano Banana Pro / gemini-3-pro-image para tareas de alta calidad y procesamiento complejo.

¿Cómo pueden los desarrolladores acceder a Nano Banana Pro?

¿Qué puntos finales y modelos elegir?

Identificador del modelo (vista previa / versión profesional): gemini-3-pro-image-preview (Vista previa) — Úsalo cuando quieras las funciones del Nano Banana Pro. Para un trabajo más rápido y económico, gemini-2.5-flash-image (Nano Banana) sigue disponible.

Superficies a utilizar

  • API de Gemini (punto de conexión de lenguaje generativo): Puedes usar una clave CometAPI para acceder a xx. CometAPI ofrece la misma API a un precio más económico que el sitio web oficial. Llamadas HTTP/SDK directas a generateContent para la generación de imágenes (ejemplos a continuación).
  • Estudio de IA de Google: Interfaz web para experimentación rápida y remezcla de aplicaciones de demostración.
  • Vertex AI (empresarial): Rendimiento aprovisionado, opciones de facturación (pago por uso/planes empresariales) y filtros de seguridad para producción a gran escala. Utilice Vertex al integrarlo en grandes flujos de trabajo o tareas de renderizado por lotes.

El plan gratuito tiene un límite de uso restringido; si se excede, se cambiará al plan Nano Banana. Los planes Plus, Pro y Ultra ofrecen límites superiores y salida sin marca de agua, pero el plan Ultra se puede usar en las herramientas de vídeo de Flow y en el IDE de Antigravity en modo 4K.

¿Cómo genero una imagen con Nano Banana Pro (paso a paso)?

1) Receta interactiva rápida para usar la aplicación Gemini

  1. Abrir Gemini → Herramientas → Crear imágenes.
  2. Seleccione Pensando (Nano Banana Pro) como modelo.
  3. Introduzca una descripción: explique el tema, la acción, el ambiente, la iluminación, la cámara, la relación de aspecto y cualquier texto que deba aparecer en la imagen. Ejemplo:
    “Crea un póster en 4K de un taller de robótica: un equipo diverso alrededor de una mesa, superposición de planos, titular en negrita 'Robots en acción' en tipografía sans serif, luz cálida de tungsteno, poca profundidad de campo, formato cinematográfico 16:9.”
  4. (Opcional) Sube hasta 14 imágenes para fusionar o usar como referencias. Usa la herramienta de selección/máscara para editar áreas localmente.
  5. Generar, iterar con lenguaje natural (p. ej., «poner el título en azul y centrado en la parte superior; aumentar el contraste en el diseño»), y luego exportar

2) Utilice HTTP para enviar al punto final de imagen de Gemini.

Necesitas iniciar sesión en CometAPI para obtener la clave.

# save your API key to $CometAPI_API_KEY securely before running

curl -s -X POST \
  "https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent" \
  -H "x-goog-api-key: $CometAPI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{
      "role": "user",
      "parts": [{
        "text": "Photorealistic 4K image of a yellow banana floating over Earth, studio lighting, cinematic composition. Add bold text overlay: \"Nano Banana Pro\" in top right corner."
      }]
    }],
    "generationConfig": {
      "imageConfig": {
        "resolution": "4096x4096",
        "aspectRatio": "1:1"
      }
    }
  }' \
  | jq -r '.candidates.content.parts[] | select(.inlineData) | .inlineData.data' \
  | base64 --decode > nano_banana_pro_4k.png

Este ejemplo escribe la carga útil de la imagen en base64 en un archivo PNG. generationConfig.imageConfig.resolution Solicitud de parámetros: salida 4K (disponible para el modelo 3 Pro Image)

3) Llamadas directas al SDK a generateContent para la generación de imágenes

Requiere instalar el SDK de Google y obtener la autenticación de Google. Ejemplo en Python (texto + imágenes de referencia + fundamentos):

# pip install google-genai pillow

from google import genai
from PIL import Image
import base64

client = genai.Client()  # reads credentials from env / config per SDK docs

# Read a reference image and set inline_data

with open("ref1.png", "rb") as f:
    ref1_b64 = base64.b64encode(f.read()).decode("utf-8")

prompt_parts = [
    {"text": "Create a styled product ad for a yellow banana-based energy bar. Use studio lighting, shallow DOF. Include a product label with the brand name 'Nano Bar'."},
    {"inline_data": {"mime_type": "image/png", "data": ref1_b64}}
]

response = client.models.generate_content(
    model="gemini-3-pro-image-preview",
    contents=,
    generation_config={
        "imageConfig": {"resolution":"4096x4096", "aspectRatio":"4:3"},
        # tools can be provided to ground facts, e.g. "google_search"

        "tools": 
    }
)

for part in response.candidates.content.parts:
    if part.inline_data:
        image = part.as_image()
        image.save("product_ad.png")

Este ejemplo muestra cómo cargar una imagen de referencia en línea y solicitar una composición 4K al mismo tiempo que se habilita google_search como herramienta. El SDK de Python se encargará de los detalles REST de bajo nivel.

Fusión de múltiples imágenes y consistencia de caracteres

Para producir una composición que conserve a la misma persona en todas las escenas, pase una variedad inline_data partes (seleccionadas de su conjunto de fotos) y especifique la instrucción creativa de que el modelo debe “preservar su identidad en todos los resultados”.

Ejemplo práctico breve: un flujo real, esperado y sin precedentes.

Prompt:
"Generate a 2K infographic: 'Q4 Sales by Region 2025' — stacked bar chart with North America 35%, EMEA 28%, APAC 25%, LATAM 12%. Include title top-center, caption with source bottom-right, clean sans-serif labels, neutral palette, vector look, 16:9."

Flujo de datos previsto: aplicación → plantilla de solicitud + datos CSV → reemplazar marcadores de posición en la solicitud → llamada a la API con image_size=2048x1152 → recibir PNG en base64 → guardar el recurso + metadatos de procedencia → opcionalmente superponer la fuente exacta mediante el compositor si es necesario.

¿Cómo debo diseñar una línea de producción y gestionar la seguridad y la procedencia?

Arquitectura de producción recomendada

  1. Pase rápido + borrador (modelo rápido): Use gemini-2.5-flash-image (Nano Banana) para producir muchas variaciones de baja resolución a bajo costo.
  2. Selección y refinamiento: Seleccionar a los mejores candidatos, refinar las indicaciones, aplicar ediciones de relleno/máscara para mayor precisión.
  3. Renderizado final de alta fidelidad: llamar al gemini-3-pro-image-preview (Nano Banana Pro) para renders finales 2K/4K y postprocesamiento (aumento de resolución, corrección de color).
  4. Procedencia y metadatos: Almacena la información de la solicitud, la versión del modelo, las marcas de tiempo y el SynthID en tu almacén de metadatos de activos; el modelo adjunta una marca de agua SynthID y las salidas se pueden rastrear para el cumplimiento y la auditoría de contenido.

Seguridad, derechos y moderación

  • Autorización de derechos de autor y derechos: No subas ni generes contenido que infrinja derechos. Utiliza confirmaciones explícitas para las imágenes o indicaciones que proporcionen los usuarios y que puedan generar semejanzas reconocibles. Deben respetarse la Política de uso prohibido de Google y los filtros de seguridad del modelo.
  • Filtrado y comprobaciones automatizadas: Las imágenes generadas se someten a un proceso interno de moderación de contenido (detección de contenido NSFW, símbolos de odio, contenido político/vinculante) antes de su consumo posterior o exhibición pública.

¿Cómo puedo realizar edición de imágenes (relleno de imágenes), composición de múltiples imágenes y renderizado de texto?

Nano Banana Pro admite flujos de trabajo de edición multimodal: proporcione una o más imágenes de entrada y una instrucción textual que describa las ediciones (eliminar un objeto, cambiar el cielo, añadir texto). La API acepta imagen y texto en la misma solicitud; el modelo puede generar texto e imágenes intercalados como respuestas. Algunos ejemplos de patrones incluyen ediciones con máscara y combinaciones de varias imágenes (transferencia de estilo/composición). Consulte la documentación para obtener más información. contents matrices que combinan bloques de texto e imágenes binarias.

Ejemplo: Editar (pseudo-flujo de Python)

from google import genai
from PIL import Image

client = genai.Client()

prompt = "Remove the person on the left and add a small red 'Nano Banana Pro' sticker on the top-right of the speaker"

# contents can include Image objects or binary data per SDK; see doc for exact call

response = client.models.generate_content(
    model="gemini-3-pro-image-preview",
    contents=,  # order matters: image + instruction

)
# Save result as before

Esta edición conversacional te permite ajustar iterativamente los resultados hasta obtener un archivo listo para producción.

Ejemplo de Node.js: edición de imágenes con máscara y múltiples referencias

// npm install google-auth-library node-fetch
const { GoogleAuth } = require('google-auth-library');
const fetch = require('node-fetch');

const auth = new GoogleAuth({ scopes:  });
async function runEdit() {
  const client = await auth.getClient();
  const token = await client.getAccessToken();
  const API_URL = "https://api.generativemodels.googleapis.com/v1alpha/gemini:editImage";
  const MODEL = "gemini-3-pro-image";

  // Attach binary image content or URLs depending on API.
  const payload = {
    model: MODEL,
    prompt: { text: "Replace background with an indoor studio set, keep subject, add rim light." },
    inputs: {
      referenceImages: [
        { uri: "gs://my-bucket/photo_subject.jpg" },
        { uri: "gs://my-bucket/target_studio.jpg" }
      ],
      mask: { uri: "gs://my-bucket/mask.png" },
      imageConfig: { resolution: "2048x2048", format: "png" }
    },
    options: { preserveIdentity: true }
  };

  const res = await fetch(API_URL, {
    method: 'POST',
    headers: {
      'Authorization': `Bearer ${token.token}`,
      'Content-Type': 'application/json'
    },
    body: JSON.stringify(payload)
  });
  const out = await res.json();
  console.log(JSON.stringify(out, null, 2));
}
runEdit();

(En ocasiones, las API aceptan URI de Cloud Storage o cargas útiles de imágenes en base64; consulte la documentación de la API de Gemini para conocer los formatos de entrada exactos).

Para obtener información sobre cómo generar y editar imágenes utilizando la API de Comet, consulte Guía para llamar a la imagen de Gemini-3-Pro .

Conclusión

Nano Banana Pro (Gemini 3 Pro Image) representa un salto cualitativo en la generación de imágenes: una herramienta para visualizar datos, realizar ediciones localizadas y optimizar los flujos de trabajo de los desarrolladores. Utilice la aplicación Gemini para la creación rápida de prototipos, la API para la integración en producción y siga las recomendaciones anteriores para controlar los costos, garantizar la seguridad y mantener la calidad de la marca. Pruebe siempre los flujos de trabajo de usuarios reales y almacene los metadatos de procedencia para cumplir con los requisitos de transparencia y auditoría.

Utiliza Nano Banana Pro cuando lo necesites calidad de estudio recursos, control preciso sobre la composición, representación de texto mejorada dentro de las imágenes y la capacidad de fusionar múltiples referencias en una salida coherente.

Los desarrolladores pueden acceder API de imágenes Gemini 3 Pro (Nano Banana Pro) a través de CometAPI. Para empezar, explore las capacidades del modelo deCometAPI en el cuadro Playground Consulte la guía de la API para obtener instrucciones detalladas. Antes de acceder, asegúrese de haber iniciado sesión en CometAPI y de haber obtenido la clave de API. ComoeAPI Ofrecemos un precio muy inferior al oficial para ayudarte a integrarte.

¿Listo para ir?→ Regístrate en CometAPI hoy !

Si quieres conocer más consejos, guías y novedades sobre IA síguenos en VKX  y  Discord!

SHARE THIS BLOG

500+ Modelos en Una API

Hasta 20% de Descuento