Home/Models/Google/Nano Banana Pro
G

Nano Banana Pro

Entrada:$1.5616/M
Salida:$9.3696/M
Nano Banana Pro es un modelo de IA para asistencia de propósito general en flujos de trabajo centrados en texto. Es adecuado para indicaciones de estilo instruccional para generar, transformar y analizar contenido con estructura controlable. Los usos típicos incluyen asistentes de chat, resumen de documentos, preguntas y respuestas basadas en conocimiento y automatización de flujos de trabajo. Los detalles técnicos públicos son limitados; la integración se alinea con patrones comunes de asistentes de IA, como salidas estructuradas, indicaciones con recuperación aumentada y llamadas a herramientas o funciones.
Nuevo
Uso comercial
Playground
Resumen
Características
Precios
API
Versiones

Características básicas

  • Texto → Imagen: generación completamente basada en prompts con fuerte adherencia al prompt.
  • Imagen → Imagen (ediciones): ediciones finas y dirigidas con mantenimiento de la consistencia del sujeto/personaje a lo largo de múltiples ediciones.
  • Resolución máxima de salida: hasta 4K (los ejemplos y tamaños exactos admitidos dependen de la relación de aspecto; la API ofrece preajustes de 1K/2K/4K)
  • Planificación iterativa y autocorrección: una canalización interna “multietapa” que detecta y corrige errores visuales comunes (perspectiva, texto, geometría fina).
  • Renderizado avanzado de texto dentro de la imagen: texto claro y legible en múltiples idiomas (desde subtítulos cortos hasta párrafos largos) apto para pósters, maquetas e infografías.
  • 5 personajes y fidelidad para hasta 14 objetos/imágenes de referencia en un solo flujo de trabajo.
  • Marcado de agua / procedencia: todas las imágenes generadas incluyen una marca de agua SynthID; el modelo incorpora metadatos C2PA para la procedencia en algunas integraciones de producto.

Versiones y nomenclatura de Gemini 3 Pro Image

  • gemini-3-pro-image-preview
  • gemini-3-pro-image

Detalles técnicos

Arquitectura

  • Linaje / base: Nano Banana Pro se construye sobre el stack de imagen en evolución de Google — específicamente la nueva arquitectura Gemini 3 Pro Image / GEMPIX 2 (un marco multimodal imagen+texto de mayor capacidad). Es una evolución desde Gemini 2.5 Flash Image (el “nano-banana” original) hacia un modelo de imagen nativamente multimodal con capacidades ampliadas de razonamiento visión-lenguaje.
  • Comportamiento del modelo: multimodalidad nativa (imagen + texto + conocimiento del mundo), canalizaciones explícitas para fusión multimagen y un planificador interno por etapas que refina las salidas en múltiples pasadas en lugar de producir una única muestra estática. Informes tempranos indican un razonamiento geométrico/óptico más sólido (vidrio, refracción) respecto a versiones anteriores.
  • Pensamiento / refinamiento interno: el modelo utiliza un proceso visible de “pensamiento” internamente para refinar la composición (la API documenta este comportamiento y señala que esos pasos internos no se cobran como tokens de imagen finales).
  • Grounding y herramientas: admite Search grounding (puede incorporar hechos de la web en la generación de diagramas/infografías). También admite instrucciones de sistema para un control más determinista.

Parámetros clave de la API:

  • thinking_level (bajo / alto) para intercambiar latencia vs profundidad de razonamiento;
  • media_resolution (baja/media/alta) para controlar los tokens de lectura de OCR/detalle de imagen;
  • generationConfig.imageConfig para controlar la relación de aspecto/resolución en las salidas de imagen.

Límites de imagen:

  • Modalidades de entrada admitidas: texto e imágenes (el modelo no acepta audio ni video como entradas de generación de imágenes).
  • Máximo de imágenes por prompt: 14 (para la vista previa de Gemini 3 Pro Image).
  • Tamaño máximo de imagen (carga): 7 MB por imagen de entrada.
  • Relaciones de aspecto admitidas: 1:1, 3:2, 16:9, 9:16, 21:9, etc.

Imágenes / tokens de salida: límites altos, con 4K/4096px admitidos.

Rendimiento en pruebas comparativas

Resumen breve: los benchmarks públicos/tempranos hasta ahora son en su mayoría cualitativos / impulsados por la comunidad, pero reportan consistentemente mejoras sustanciales en resolución, reducción de artefactos y fidelidad física frente al nano-banana original (Gemini 2.5 Flash Image). “Retos” específicos nombrados han mostrado ganancias visuales claras, aunque aún no hay tablas de benchmarks numéricos estandarizadas (públicas) de Google comparando v1 → v2 en métricas estándar de generación de imágenes.

  • Pruebas cualitativas de la comunidad: bordes más limpios, microdetalles más nítidos, colores más fieles y mayor adherencia al prompt (menos accesorios alucinados, personajes más consistentes). Pruebas informales populares incluyen el llamado “Wine Glass Test” y el “Glass Burger Challenge”, donde GEMPIX2 (Nano Banana Pro) maneja la transparencia y la refracción notablemente mejor que compilaciones anteriores.
  • Manejo del texto: Nano Banana Pro muestra una tipografía y colocación de texto visiblemente mejoradas dentro de las imágenes (una debilidad persistente en muchos modelos de imagen). Las comparaciones de la comunidad indican menos glifos renderizados garabateados.
  • Rendimiento / UX: velocidad de iteración más rápida y una UX que realiza refinamiento multietapa en el back end para que los usuarios vean resultados de primera pasada más confiables (reduciendo rehacer manual).

Limitaciones y riesgos

  • Filtros de contenido y detección: las plataformas que integran el modelo (p. ej., Whisk/aplicaciones de terceros) pueden habilitar detección estricta de celebridades o semejanzas y bloquear ciertos resultados, lo que afecta flujos creativos que dependen de semejanzas realistas de celebridades.
  • Alucinación / casos límite de razonamiento: aunque mejorado, el modelo aún puede producir artefactos físicamente poco realistas, especialmente con texto simbólico denso dentro de las imágenes o diagramas altamente técnicos — aunque NB2 parece reducir estos errores frente a versiones anteriores.
  • Seguridad y uso indebido: los modelos generativos de imágenes pueden usarse para crear contenido problemático o dañino. Google aplica restricciones, filtros de contenido y la marca de agua SynthID para ayudar con la procedencia; no obstante, han ocurrido usos indebidos (controversia de alto perfil vinculada a una imagen generada por Nano Banana en un entorno políticamente sensible).

Cómo se compara Nano Banana Pro con otros modelos

  • Nano Banana Pro (GEMPIX 2 / Gemini 3 Pro Image): sólida integración móvil, fusión multimagen, autocorrección iterativa, 2K nativo/upsampling a 4K, estrechamente integrado en aplicaciones de Google (Search, Photos, Workspace/Gemini). Ideal para flujos que necesitan ediciones confiables, continuidad e integración con servicios de Google.
  • Midjourney: destaca en salidas artísticas estilizadas y en ingeniería de prompts impulsada por la comunidad; no suele estar orientado a fusión multimagen foto-precisa ni a canalizaciones de edición multimodal profundas.
  • Stable Diffusion / pesos abiertos: totalmente abierto, altamente personalizable y alojable localmente; el ecosistema de checkpoints y fine-tuning es una ventaja decisiva para investigación y uso offline. Menor integración móvil “de un clic” y menor coherencia de edición multimagen out-of-the-box que Nano Banana Pro.
  • Seedream 4.0 (ByteDance): recientemente posicionada explícitamente como competidora de Nano Banana, enfatizando renderizado ultrarrápido, salida 2K y soporte para muchas imágenes de referencia (hasta seis). Posicionada como alternativa pro/creadores.

(Estas comparaciones son de alto nivel; elige una ganadora según tu flujo de trabajo: apertura/personalización → Stable Diffusion; arte estilizado → Midjourney; edición móvil integrada y consistente con iteración agresiva → Nano Banana Pro/familia Gemini 3 Pro Image.)

Casos de uso reales

  • Edición de fotos móviles y filtros creativos (integraciones en Google Photos — cambio de estilo, fusión de fondo, recomposición de retratos).
  • Activos de marketing y publicidad — generación rápida de conceptos, personajes de marca consistentes en múltiples cuadros/ángulos.
  • Arte conceptual y guionado — la fusión multimagen ayuda a mantener la continuidad de personajes entre paneles.
  • E-commerce / maquetas de producto — generar tomas de producto consistentes en diferentes contextos/condiciones de iluminación.
  • Prototipado rápido para activos AR/VR — salidas 2K/4K de alta calidad que pueden escalarse para usos inmersivos.
  • Cómo acceder a la API gemini-3-pro-image (Nano Banana Pro)

Pasos requeridos

  • Inicia sesión en cometapi.com. Si aún no eres usuario, regístrate primero.
  • Obtén la credencial de acceso API key de la interfaz. Haz clic en “Add Token” en el token de API del centro personal, obtén la clave de token: sk-xxxxx y envíala.
  • Obtén la URL de este sitio: https://api.cometapi.com/

Método de uso

  1. Selecciona el endpoint “gemini-3-pro-image” para enviar la solicitud de API y establece el cuerpo de la solicitud. El método y el cuerpo de la solicitud se obtienen de la documentación de API de nuestro sitio web. Nuestro sitio web también proporciona pruebas en Apifox para tu conveniencia.
  2. Reemplaza <YOUR_API_KEY> con tu clave real de CometAPI de tu cuenta.
  3. Inserta tu pregunta o solicitud en el campo content — esto es a lo que responderá el modelo.
  4. . Procesa la respuesta de la API para obtener la respuesta generada.

CometAPI proporciona una API REST totalmente compatible — para una migración sin fricciones. Detalles clave:

  • Base URL: https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent
  • Model Names: gemini-3-pro-image
  • Authentication: Bearer YOUR_CometAPI_API_KEY header
  • Content-Type: application/json .

Preguntas Frecuentes

Can Gemini 3 Pro Image generate 4K resolution images?

Yes, Nano Banana Pro (Gemini 3 Pro Image) supports native output up to 4K resolution with aspect ratios including 1:1, 3:2, 16:9, 9:16, and 21:9. It also supports 1K and 2K presets via the imageConfig parameter.

How does Nano Banana Pro handle text rendering inside images?

Nano Banana Pro features advanced in-image text rendering with clear, legible multi-language text support—from short captions to long paragraphs. This makes it ideal for posters, infographics, UI mockups, and marketing assets.

Can I edit images conversationally with Gemini 3 Pro Image?

Yes, Nano Banana Pro supports multi-turn conversational editing. Simply ask for changes like 'Make the background a sunset' and the model maintains visual context through Thought Signatures between turns.

What makes Nano Banana Pro different from FLUX 2 Pro or Midjourney?

Nano Banana Pro excels at iterative self-correction, consistent character preservation across multiple edits, and tight Google ecosystem integration. It handles up to 14 reference images for complex multi-image fusion workflows.

Does Nano Banana Pro use Google Search for grounded image generation?

Yes, Nano Banana Pro can use Search grounding to verify facts before generating images. For example, it can fetch current weather data to create an accurate Tokyo weather infographic.

How many reference images can Nano Banana Pro process in one request?

Nano Banana Pro supports up to 14 input images per prompt with a maximum of 7MB per image. It maintains subject and character consistency across up to 5 characters in complex multi-image fusion scenarios.

Características para Nano Banana Pro

Explora las características clave de Nano Banana Pro, diseñado para mejorar el rendimiento y la usabilidad. Descubre cómo estas capacidades pueden beneficiar tus proyectos y mejorar la experiencia del usuario.

Precios para Nano Banana Pro

Explora precios competitivos para Nano Banana Pro, diseñado para adaptarse a diversos presupuestos y necesidades de uso. Nuestros planes flexibles garantizan que solo pagues por lo que uses, facilitando el escalado a medida que crecen tus requisitos. Descubre cómo Nano Banana Pro puede mejorar tus proyectos mientras mantienes los costos manejables.

nano-banana-pro(image)

variant / aliasPrice
gemini-3-pro-image (1K/2K)≈ $0.10720
gemini-3-pro-image (4K)≈ $0.19200
gemini-3-pro-image-preview (1K/2K)≈ $0.10720
gemini-3-pro-image-preview (4K)≈ $0.19200
nano-banana-pro-all$0.09600

Código de ejemplo y API para Nano Banana Pro

Accede a código de muestra completo y recursos de API para Nano Banana Pro para agilizar tu proceso de integración. Nuestra documentación detallada proporciona orientación paso a paso, ayudándote a aprovechar todo el potencial de Nano Banana Pro en tus proyectos.
Python
JavaScript
Curl
from google import genai
from google.genai import types
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com"

client = genai.Client(
    http_options={"api_version": "v1beta", "base_url": BASE_URL, "timeout": 600000},
    api_key=COMETAPI_KEY,
)

prompt = "Da Vinci style anatomical sketch of a dissected Monarch butterfly. Detailed drawings of the head, wings, and legs on textured parchment with notes in English."
aspect_ratio = "1:1"  # "1:1","2:3","3:2","3:4","4:3","4:5","5:4","9:16","16:9","21:9"
resolution = "4K"  # "1K", "2K", "4K"

response = client.models.generate_content(
    model="gemini-3-pro-image-preview",
    contents=prompt,
    config=types.GenerateContentConfig(
        response_modalities=["TEXT", "IMAGE"],
        image_config=types.ImageConfig(
            aspect_ratio=aspect_ratio,
            image_size=resolution,
        ),
    ),
)

# Output directory
OUTPUT_DIR = os.path.join(os.path.dirname(__file__), "..", "output")
os.makedirs(OUTPUT_DIR, exist_ok=True)

for part in response.parts:
    if part.text is not None:
        print(part.text)
    elif image := part.as_image():
        output_path = os.path.join(OUTPUT_DIR, "butterfly_4k.png")
        image.save(output_path)
        print(f"Image saved to: {output_path}")

Versiones de Nano Banana Pro

La razón por la cual Nano Banana Pro tiene múltiples instantáneas puede incluir factores potenciales como variaciones en la salida tras actualizaciones que requieren instantáneas anteriores para mantener la coherencia, ofrecer a los desarrolladores un período de transición para adaptación y migración, y diferentes instantáneas que corresponden a endpoints globales o regionales para optimizar la experiencia del usuario. Para conocer las diferencias detalladas entre versiones, consulte la documentación oficial.
ID del modeloDescripciónDisponibilidadSolicitud
nano-banana-pro-allLa tecnología utilizada es no oficial y la generación es inestable, etc, Chat formato✅Chat formato
gemini-3-pro-imageRecomendado, apunta al modelo más reciente✅Gemini genera imágenes
gemini-3-pro-image-previewVista previa oficial✅Gemini genera imágenes

Más modelos