Funciones básicas
- Texto → Imagen: generación totalmente guiada por prompts, con alta fidelidad al prompt.
- Imagen → Imagen (ediciones): ediciones precisas y específicas manteniendo la coherencia del sujeto/personaje a lo largo de múltiples ediciones.
- Resolución máxima de salida: hasta 4K (los ejemplos y tamaños de píxeles exactos admitidos dependen de la relación de aspecto; la API ofrece preajustes de 1K/2K/4K)
- Planificación iterativa y autocorrección: una canalización interna de “múltiples etapas” que detecta y corrige errores visuales comunes (perspectiva, texto, geometría fina).
- Renderizado avanzado de texto dentro de la imagen: texto multilingüe claro y legible (desde leyendas cortas hasta párrafos largos) apto para carteles, maquetas y gráficos informativos.
- 5 personajes y fidelidad para hasta 14 objetos/imágenes de referencia en un único flujo de trabajo.
- Marca de agua / procedencia: todas las imágenes generadas incluyen una marca de agua SynthID; el modelo inserta metadatos C2PA para la procedencia en algunas integraciones de producto.
Versiones y nomenclatura de Gemini 3 Pro Image
gemini-3-pro-image-previewgemini-3-pro-image
Detalles técnicos
Arquitectura
- Linaje / columna vertebral: Nano Banana Pro se basa en la pila de imágenes Gemini en evolución de Google — específicamente la nueva Gemini 3 Pro Image / GEMPIX 2 (un marco multimodal de mayor capacidad de imagen+texto). Es una evolución de Gemini 2.5 Flash Image (el “nano-banana” original) hacia un modelo de imágenes nativamente multimodal con capacidades ampliadas de razonamiento visión‑lenguaje.
- Comportamiento del modelo: multimodalidad nativa (imagen + texto + conocimiento del mundo), canalizaciones explícitas para fusión de múltiples imágenes y un planificador por etapas interno que refina los resultados en múltiples pasadas en lugar de producir una única muestra estática. Informes tempranos indican un razonamiento geométrico/óptico más sólido (vidrio, refracción) frente a versiones anteriores.
- Pensamiento / refinamiento interno: el modelo emplea internamente un proceso de “pensamiento” visible para refinar la composición (la API documenta este comportamiento y señala que esos pasos internos no se facturan como tokens de imagen finales).
- Grounding y herramientas: admite grounding con Search (puede incorporar hechos de la web en la generación de diagramas/infografías). También admite instrucciones del sistema para un control más determinista.
Parámetros clave de la API:
thinking_level(low / high) para equilibrar latencia frente a profundidad de razonamiento;media_resolution(low/medium/high) para controlar los tokens de lectura de detalles/OCR de la imagen;generationConfig.imageConfigpara controlar la relación de aspecto/resolución en las salidas de imagen.
Límites de imagen:
- Modalidades de entrada admitidas: texto e imágenes (el modelo no acepta audio ni video como entradas para generación de imágenes).
- Máximo de imágenes por prompt: 14 (para la versión preliminar de Gemini 3 Pro Image).
- Tamaño máximo de imagen (carga): 7 MB por imagen de entrada.
- Relaciones de aspecto admitidas: 1:1, 3:2, 16:9, 9:16, 21:9, etc.
Imágenes/tokens de salida: límites altos, con compatibilidad de 4K/4096px.
Rendimiento en benchmarks
Resumen breve: los benchmarks públicos/tempranos hasta ahora son en su mayoría cualitativos y orientados por la comunidad, pero consistentemente reportan mejoras sustanciales en resolución, reducción de artefactos y fidelidad física frente al nano-banana original (Gemini 2.5 Flash Image). “Retos” específicos han mostrado mejoras visuales claras, pero aún no hay tablas (públicas) estandarizadas con métricas numéricas de Google que comparen v1 → v2 en métricas estándar de generación de imágenes.
- Pruebas cualitativas de la comunidad: bordes más limpios, microdetalles más nítidos, colores más fieles y mayor adherencia al prompt (menos objetos inventados, personajes más consistentes). Pruebas informales populares incluyen la llamada “Wine Glass Test” y el “Glass Burger Challenge”, donde GEMPIX2 (Nano Banana Pro) maneja la transparencia y la refracción notablemente mejor que compilaciones anteriores.
- Manejo de texto: Nano Banana Pro muestra una tipografía y colocación de texto visiblemente mejoradas dentro de las imágenes (una debilidad persistente en muchos modelos de imagen). Las comparaciones de la comunidad indican menos glifos deformados.
- Rendimiento / UX: mayor velocidad de iteración y una experiencia que realiza refinamientos por múltiples etapas en el backend para que los usuarios vean resultados de primer intento más confiables (reduciendo reintentos manuales).
Limitaciones y riesgos
- Filtros de contenido y detección: las plataformas que integran el modelo (p. ej., Whisk/aplicaciones de terceros) pueden habilitar una detección estricta de celebridades o parecidos y bloquear ciertos resultados, lo que afecta flujos creativos que dependen de parecidos realistas de celebridades.
- Alucinaciones / casos límite de razonamiento: aunque ha mejorado, el modelo aún puede producir artefactos físicamente poco realistas, especialmente con texto simbólico denso dentro de imágenes o diagramas altamente técnicos — aunque NB2 parece reducir estos errores frente a versiones anteriores.
- Seguridad y uso indebido: los modelos generativos de imágenes pueden usarse para crear contenido problemático o dañino. Google aplica restricciones, filtros de contenido y la marca de agua SynthID para ayudar con la procedencia; no obstante, se han producido usos indebidos (controversia de alto perfil vinculada a una imagen generada con Nano Banana en un contexto políticamente sensible).
Cómo se compara Nano Banana Pro con otros modelos
- Nano Banana Pro (GEMPIX 2 / Gemini 3 Pro Image) — sólida integración móvil, fusión de múltiples imágenes, autocorrección iterativa, 2K nativo/escalado a 4K, fuertemente integrado en las aplicaciones de Google (Search, Photos, Workspace/Gemini). Ideal para flujos que necesitan ediciones confiables, continuidad e integración con los servicios de Google.
- Midjourney — destaca en resultados artísticos estilizados y en la ingeniería de prompts impulsada por la comunidad; no está orientado típicamente a la fusión de múltiples imágenes fotorrealista ni a canalizaciones de edición multimodal profundas.
- Stable Diffusion / pesos abiertos — completamente abierto, altamente personalizable y hospedable localmente; el ecosistema de checkpoints y fine‑tuning es una ventaja decisiva para la investigación y el uso sin conexión. Menor integración móvil “de un clic” y menor coherencia de edición multiimagen lista para usar que Nano Banana Pro.
- Seedream 4.0 (ByteDance) — recientemente posicionada explícitamente como competidora de Nano Banana, enfatizando renderizado ultrarrápido, salida 2K y soporte para muchas imágenes de referencia (hasta seis). Posicionada como una alternativa para profesionales/creadores.
(Estas comparaciones son de alto nivel; elige un ganador ajustándolo a tu flujo de trabajo: apertura/personalización → Stable Diffusion; arte estilizado → Midjourney; edición móvil integrada y consistente con iteración agresiva → familia Nano Banana Pro/Gemini 3 Pro Image.)
Casos de uso reales
- Edición de fotos móviles y filtros creativos (integraciones con Google Photos: cambio de estilo, fusión de fondo, recomposición de retratos).
- Activos de marketing y publicidad — generación rápida de conceptos, personajes de marca consistentes en múltiples cuadros/ángulos.
- Concept art y storyboard — la fusión de múltiples imágenes ayuda a mantener la continuidad de los personajes entre paneles.
- Comercio electrónico / maquetas de producto — generar tomas de producto consistentes en distintos contextos/condiciones de iluminación.
- Prototipado rápido de activos de AR/VR — salidas 2K/4K de alta calidad que pueden escalarse para usos inmersivos.
- Cómo acceder a la API de gemini-3-pro-image (Nano Banana Pro)
Pasos requeridos
- Inicia sesión en cometapi.com. Si aún no eres usuario, regístrate primero
- Obtén la clave API de credenciales de acceso de la interfaz. Haz clic en “Add Token” en el token de API del centro personal, obtén la clave del token: sk-xxxxx y envíala.
- Obtén la URL de este sitio:
https://api.cometapi.com/
Método de uso
- Selecciona el endpoint “
gemini-3-pro-image” para enviar la solicitud de API y configura el cuerpo de la solicitud. El método y el cuerpo de la solicitud se obtienen de la documentación de la API en nuestro sitio web. Nuestro sitio también ofrece pruebas en Apifox para tu conveniencia. - Reemplaza <YOUR_API_KEY> por tu clave CometAPI real de tu cuenta.
- Inserta tu pregunta o solicitud en el campo content—esto es a lo que responderá el modelo.
- . Procesa la respuesta de la API para obtener la respuesta generada.
CometAPI ofrece una API REST completamente compatible—para una migración sin fricciones. Detalles clave :
- URL base: https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent
- Nombres de modelo:
gemini-3-pro-image - Autenticación: encabezado
Bearer YOUR_CometAPI_API_KEY - Content-Type:
application/json.