¿Cómo utilizar la API de Nano Banana Pro (Gemini 3 Pro Image)?

CometAPI
AnnaNov 20, 2025
¿Cómo utilizar la API de Nano Banana Pro (Gemini 3 Pro Image)?

Nano Banana Pro — oficialmente Gemini 3 Pro Image — es el nuevo modelo de generación y edición de imágenes de nivel estudio de Google/DeepMind que combina razonamiento multimodal avanzado, renderizado de texto de alta fidelidad, composición de múltiples imágenes y controles creativos de nivel profesional.

¿Qué es Nano Banana Pro y por qué debería importarte?

Nano Banana Pro es el modelo más reciente de Google para generación y edición de imágenes — la versión “Gemini 3 Pro Image” — diseñado para producir imágenes de alta fidelidad, conscientes del contexto, y texto dentro de la imagen con calidad de estudio de hasta 4K. Es el sucesor de los modelos anteriores Nano Banana (Gemini 2.5 Flash Image / “Nano Banana”), con mejor razonamiento, Search grounding (hechos del mundo real), renderizado de texto más sólido y controles de edición local más potentes. El modelo está disponible dentro de la app Gemini para usuarios interactivos, y puedes acceder a Nano Banana Pro a través de la API estándar de Gemini, pero debes seleccionar el identificador de modelo específico (gemini-3-pro-image-preview o su sucesor estable). para acceso programático.

Por qué esto importa: Nano Banana Pro está construido no solo para crear imágenes bonitas, sino para visualizar información — infografías, instantáneas basadas en datos (clima, deportes), pósteres con mucho texto, mockups de productos y fusiones de múltiples imágenes (hasta 14 imágenes de entrada y manteniendo la consistencia de personajes en hasta 5 personas). Para diseñadores, equipos de producto y desarrolladores, esa combinación de precisión, texto dentro de la imagen y acceso programático abre flujos de trabajo de producción que antes eran difíciles de automatizar.

¿Qué funciones se exponen mediante la API?

Las capacidades típicas de la API expuestas a los desarrolladores incluyen:

  • Generación de texto → imagen (flujos de composición de un solo paso o de varios pasos con “thinking”).
  • Edición de imágenes (máscaras locales, inpainting, ajustes de estilo).
  • Fusión de múltiples imágenes (combinar imágenes de referencia).
  • Controles avanzados de solicitud: resolución, relación de aspecto, pasos de posprocesamiento y trazas de “composition thought” para depuración/inspección en modos de vista previa.

Innovaciones y funciones principales de Nano Banana Pro

Razonamiento de contenido más inteligente

Usa la pila de razonamiento de Gemini 3 Pro para interpretar instrucciones visuales complejas y de varios pasos (por ejemplo, “crea una infografía de 5 pasos a partir de este conjunto de datos y añade un subtítulo bilingüe”). La API expone un mecanismo de “Thinking” que puede producir pruebas de composición intermedias para refinar la salida final.

Por qué importa: En lugar de una sola pasada que mapea prompt → píxel, el modelo realiza un proceso interno de “thinking” que refina la composición y puede llamar a herramientas externas (por ejemplo, Google Search) para fundamentación factual (por ejemplo, etiquetas de diagramas precisas o señalización correcta según la configuración regional). Esto produce imágenes que no solo son más bonitas, sino también semánticamente más correctas para tareas como infografías, diagramas o mockups de productos.

Cómo se logra: El “Thinking” de Nano Banana Pro es una pasada interna controlada de razonamiento/composición en la que el modelo genera visuales intermedios y trazas de razonamiento antes de producir la imagen final. La API expone que el modelo puede crear hasta dos fotogramas intermedios y que la imagen final es la última etapa de esa cadena. En producción, esto ayuda con la composición, la colocación del texto y las decisiones de diseño.

Renderizado de texto más preciso

Renderizado significativamente mejorado de texto legible y localizado dentro de las imágenes (menús, pósteres, diagramas). Nano Banana Pro alcanza nuevos niveles en el renderizado de texto en imágenes:

  • El texto en las imágenes es claro, legible y está escrito correctamente;
  • Admite generación multilingüe (incluidos chino, japonés, coreano, árabe, etc.);
  • Permite a los usuarios escribir párrafos largos o texto descriptivo de varias líneas directamente dentro de las imágenes;
  • Hay traducción y localización automáticas disponibles.

Por qué importa: Tradicionalmente, los modelos de imagen tienen dificultades para renderizar texto legible y bien alineado. Nano Banana Pro está optimizado explícitamente para un renderizado y localización de texto fiables (por ejemplo, traduciendo y preservando el diseño), lo que desbloquea casos de uso creativos reales como pósteres, empaques o anuncios multilingües.

Cómo se logra: Las mejoras en el renderizado de texto provienen de la arquitectura multimodal subyacente y del entrenamiento sobre conjuntos de datos que enfatizan ejemplos de texto en imágenes, combinados con conjuntos de evaluación específicos (evaluaciones humanas y conjuntos de regresión). El modelo aprende a alinear formas de glifos, fuentes y restricciones de diseño para producir texto legible y localizado dentro de las imágenes, aunque el texto pequeño y los párrafos extremadamente densos aún pueden ser propensos a errores.

Mayor consistencia visual y fidelidad

Los controles de estudio (iluminación, enfoque, ángulo de cámara, gradación de color) y la composición de múltiples imágenes (hasta 14 imágenes de referencia, con permisos especiales para múltiples sujetos humanos) ayudan a preservar la consistencia del personaje (mantener la misma persona/personaje a través de ediciones) y la identidad de marca en todos los activos generados. El modelo admite salidas nativas de 1K/2K/4K.

Por qué importa: Los flujos de trabajo de marketing y entretenimiento requieren personajes consistentes entre tomas y ediciones. El modelo puede mantener el parecido de hasta cinco personas y combinar hasta 14 imágenes de referencia en una sola composición mientras produce Sketch → 3D Render. Esto es útil para creatividad publicitaria, empaques o narrativas de múltiples tomas.

Cómo se logra: Las entradas del modelo aceptan múltiples imágenes con asignaciones de rol explícitas (por ejemplo, “Imagen A: pose”, “Imagen B: referencia de rostro”, “Imagen C: textura de fondo”). La arquitectura condiciona la generación sobre esas imágenes para mantener identidad/pose/estilo mientras aplica transformaciones (iluminación, cámara).

Benchmarks de rendimiento de Nano Banana Pro

Nano Banana Pro (Gemini 3 Pro Image) “sobresale en benchmarks de IA de Text→Image” y demuestra mejor razonamiento y fundamentación contextual en comparación con modelos Nano Banana anteriores. Enfatiza mayor fidelidad y mejor renderizado de texto respecto a lanzamientos previos.

¿Cómo utilizar la API de Nano Banana Pro (Gemini 3 Pro Image)?

Guía práctica de rendimiento

Espera mayor latencia y costo para renderizados 2K/4K de alta fidelidad que para 1K o los modelos “Flash” optimizados para velocidad. Si el rendimiento/la latencia son críticos, usa la variante flash (por ejemplo, Gemini 2.5 Flash / Nano Banana) para alto volumen; usa Nano Banana Pro / gemini-3-pro-image para calidad y tareas complejas de razonamiento.

¿Cómo pueden los desarrolladores acceder a Nano Banana Pro?

Qué endpoints y modelos elegir

Identificador del modelo (preview / pro): gemini-3-pro-image-preview (preview) — úsalo cuando quieras las capacidades de Nano Banana Pro. Para trabajos más rápidos y de menor costo, gemini-2.5-flash-image (Nano Banana) sigue estando disponible.

Superficies para usar

  • Gemini API (endpoint generativelanguage): Puedes usar una clave de CometAPI para acceder a xx. CometAPI ofrece la misma API a un precio más favorable que el sitio web oficial. Llamadas HTTP / SDK directas a generateContent para generación de imágenes (ejemplos abajo).
  • Google AI Studio: Superficie web para experimentación rápida y remix de aplicaciones demo.
  • Vertex AI (enterprise): Rendimiento aprovisionado, opciones de facturación (pago por uso / niveles empresariales) y filtros de seguridad para producción a gran escala. Usa Vertex al integrarlo en grandes pipelines o trabajos de renderizado por lotes.

El nivel gratuito tiene un límite de uso limitado; al exceder el límite volverá a Nano Banana. Los niveles Plus/Pro/Ultra ofrecen límites más altos y salida sin marca de agua, pero Ultra puede usarse en herramientas de video Flow y en Antigravity IDE en modo 4K.

¿Cómo genero una imagen con Nano Banana Pro (paso a paso)?

1) Receta interactiva rápida para usar la app Gemini

  1. Abre Gemini → Tools → Create images.
  2. Selecciona Thinking (Nano Banana Pro) como modelo.
  3. Introduce un prompt: explica el sujeto, acción, estado de ánimo, iluminación, cámara, relación de aspecto y cualquier texto que deba aparecer en la imagen. Ejemplo:
    “Create a 4K poster of a robotics workshop: a diverse team around a table, blueprint overlay, bold headline ‘Robots in Action’ in sans serif, warm tungsten light, shallow depth of field, cinematic 16:9.”
  4. (Opcional) Sube hasta 14 imágenes para fusionar o usar como referencias. Usa la herramienta de selección/máscara para editar áreas localmente.
  5. Genera, itera con lenguaje natural (por ejemplo, “make the headline blue and aligned top-center; increase contrast on the blueprint”), luego exporta.

2) Usa HTTP para enviar al endpoint de imágenes de Gemini

Debes iniciar sesión en CometAPI para obtener la clave.

# save your API key to $CometAPI_API_KEY securely before running

curl -s -X POST \
  "https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent" \
  -H "x-goog-api-key: $CometAPI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{
      "role": "user",
      "parts": [{
        "text": "Photorealistic 4K image of a yellow banana floating over Earth, studio lighting, cinematic composition. Add bold text overlay: \"Nano Banana Pro\" in top right corner."
      }]
    }],
    "generationConfig": {
      "imageConfig": {
        "resolution": "4096x4096",
        "aspectRatio": "1:1"
      }
    }
  }' \
  | jq -r '.candidates.content.parts[] | select(.inlineData) | .inlineData.data' \
  | base64 --decode > nano_banana_pro_4k.png

Esta muestra escribe la carga útil de imagen base64 en un archivo PNG. El parámetro generationConfig.imageConfig.resolution solicita salida 4K (disponible para el modelo 3 Pro Image).

3) Llamadas directas de SDK a generateContent para generación de imágenes

Requiere instalar el SDK de Google y obtener autenticación de Google. Ejemplo en Python (texto + imágenes de referencia + grounding):

# pip install google-genai pillow

from google import genai
from PIL import Image
import base64

client = genai.Client()  # reads credentials from env / config per SDK docs

# Read a reference image and set inline_data

with open("ref1.png", "rb") as f:
    ref1_b64 = base64.b64encode(f.read()).decode("utf-8")

prompt_parts = [
    {"text": "Create a styled product ad for a yellow banana-based energy bar. Use studio lighting, shallow DOF. Include a product label with the brand name 'Nano Bar'."},
    {"inline_data": {"mime_type": "image/png", "data": ref1_b64}}
]

response = client.models.generate_content(
    model="gemini-3-pro-image-preview",
    contents=,
    generation_config={
        "imageConfig": {"resolution":"4096x4096", "aspectRatio":"4:3"},
        # tools can be provided to ground facts, e.g. "google_search"

        "tools": 
    }
)

for part in response.candidates.content.parts:
    if part.inline_data:
        image = part.as_image()
        image.save("product_ad.png")

Este ejemplo muestra cómo subir una imagen de referencia inline y solicitar una composición 4K mientras se habilita google_search como herramienta. El SDK de Python manejará los detalles REST de bajo nivel.

Fusión de múltiples imágenes y consistencia de personajes

Para producir una composición que preserve a la misma persona entre escenas, pasa múltiples partes inline_data (seleccionadas de tu conjunto de fotos) y especifica la instrucción creativa de que el modelo debe “preserve identity across outputs.”

Ejemplo práctico breve — un prompt real y flujo esperado

Prompt:
"Generate a 2K infographic: 'Q4 Sales by Region 2025' — stacked bar chart with North America 35%, EMEA 28%, APAC 25%, LATAM 12%. Include title top-center, caption with source bottom-right, clean sans-serif labels, neutral palette, vector look, 16:9."

Pipeline esperado: app → plantilla de prompt + datos CSV → reemplazar marcadores de posición en el prompt → llamada a la API con image_size=2048x1152 → recibir PNG base64 → guardar recurso + metadatos de procedencia → opcionalmente superponer la fuente exacta mediante compositor si es necesario.

¿Cómo debería diseñar un pipeline de producción y gestionar seguridad / procedencia?

Arquitectura de producción recomendada

  1. Prompt + pasada de borrador (modelo rápido): Usa gemini-2.5-flash-image (Nano Banana) para producir muchas variaciones de baja resolución de forma económica.
  2. Selección y refinamiento: elige los mejores candidatos, refina los prompts, aplica ediciones con inpainting/máscara para mayor precisión.
  3. Renderizado final de alta fidelidad: llama a gemini-3-pro-image-preview (Nano Banana Pro) para los renderizados finales en 2K/4K y el posprocesamiento (reescalado, gradación de color).
  4. Procedencia y metadatos: almacena el prompt, la versión del modelo, marcas de tiempo y la información de SynthID en tu almacén de metadatos de activos — el modelo adjunta una marca de agua SynthID y las salidas pueden rastrearse para cumplimiento y auditoría de contenido.

Seguridad, derechos y moderación

  • Copyright y autorización de derechos: no subas ni generes contenido que infrinja derechos. Usa confirmaciones explícitas del usuario para imágenes o prompts proporcionados por usuarios que puedan crear parecidos reconocibles. Deben respetarse la Prohibited Use Policy de Google y los filtros de seguridad del modelo.
  • Filtrado y comprobaciones automatizadas: ejecuta las imágenes generadas a través de un pipeline interno de moderación de contenido (NSFW, símbolos de odio, detección de contenido político/vinculante) antes del consumo posterior o de su visualización pública.

¿Cómo hago edición de imágenes (inpainting), composición de múltiples imágenes y renderizado de texto?

Nano Banana Pro admite flujos de trabajo de edición multimodal: proporciona una o más imágenes de entrada y una instrucción textual que describa las ediciones (eliminar un objeto, cambiar el cielo, añadir texto). La API acepta imagen + texto en la misma solicitud; el modelo puede producir texto e imágenes intercalados como respuestas. Los patrones de ejemplo incluyen ediciones con máscara y mezclas de múltiples imágenes (transferencia de estilo / composición). Consulta la documentación para ver arreglos contents que combinan blobs de texto e imágenes binarias.

Ejemplo: Editar (flujo pseudo en Python)

from google import genai
from PIL import Image

client = genai.Client()

prompt = "Remove the person on the left and add a small red 'Nano Banana Pro' sticker on the top-right of the speaker"

# contents can include Image objects or binary data per SDK; see doc for exact call

response = client.models.generate_content(
    model="gemini-3-pro-image-preview",
    contents=,  # order matters: image + instruction

)
# Save result as before

Esta edición conversacional te permite ajustar iterativamente los resultados hasta alcanzar un recurso listo para producción.

Ejemplo en Node.js — edición de imagen con máscara y múltiples referencias

// npm install google-auth-library node-fetch
const { GoogleAuth } = require('google-auth-library');
const fetch = require('node-fetch');

const auth = new GoogleAuth({ scopes:  });
async function runEdit() {
  const client = await auth.getClient();
  const token = await client.getAccessToken();
  const API_URL = "https://api.generativemodels.googleapis.com/v1alpha/gemini:editImage";
  const MODEL = "gemini-3-pro-image";

  // Attach binary image content or URLs depending on API.
  const payload = {
    model: MODEL,
    prompt: { text: "Replace background with an indoor studio set, keep subject, add rim light." },
    inputs: {
      referenceImages: [
        { uri: "gs://my-bucket/photo_subject.jpg" },
        { uri: "gs://my-bucket/target_studio.jpg" }
      ],
      mask: { uri: "gs://my-bucket/mask.png" },
      imageConfig: { resolution: "2048x2048", format: "png" }
    },
    options: { preserveIdentity: true }
  };

  const res = await fetch(API_URL, {
    method: 'POST',
    headers: {
      'Authorization': `Bearer ${token.token}`,
      'Content-Type': 'application/json'
    },
    body: JSON.stringify(payload)
  });
  const out = await res.json();
  console.log(JSON.stringify(out, null, 2));
}
runEdit();

(Las APIs a veces aceptan URI de Cloud Storage o cargas útiles de imagen en base64; consulta la documentación de la API de Gemini para conocer los formatos de entrada exactos.)

Para obtener información sobre la generación y edición de imágenes usando CometAPI, consulta Guide to calling gemini-3-pro-image .

Conclusión

Nano Banana Pro (Gemini 3 Pro Image) representa un salto de nivel de producción en la generación de imágenes: una herramienta para visualizar datos, producir ediciones localizadas e impulsar flujos de trabajo para desarrolladores. Usa la app Gemini para prototipado rápido, la API para integración en producción y sigue las recomendaciones anteriores para controlar costos, garantizar la seguridad y mantener la calidad de marca. Prueba siempre flujos de trabajo reales de usuarios y almacena metadatos de procedencia para cumplir con las necesidades de transparencia y auditoría.

Usa Nano Banana Pro cuando necesites recursos de calidad de estudio, control preciso sobre la composición, mejor renderizado de texto dentro de las imágenes y la capacidad de fusionar múltiples referencias en una sola salida coherente.

Los desarrolladores pueden acceder a Gemini 3 Pro Image( Nano Banana Pro) API a través de CometAPI. Para comenzar, explora las capacidades del modelo de CometAPI en el Playground y consulta la guía de la API para obtener instrucciones detalladas. Antes de acceder, asegúrate de haber iniciado sesión en CometAPI y de haber obtenido la clave API. CometAPI ofrece un precio mucho más bajo que el precio oficial para ayudarte a integrar.

¿Listo para comenzar?→ Sign up for CometAPI today !

Si quieres conocer más consejos, guías y noticias sobre IA, síguenos en VK, X y Discord.

Accede a Modelos de Primera Calidad a Bajo Costo

Leer Más