Características básicas
- Texto → Imagen: generación completamente basada en prompts con fuerte adherencia al prompt.
- Imagen → Imagen (ediciones): ediciones finas y dirigidas con mantenimiento de la consistencia del sujeto/personaje a lo largo de múltiples ediciones.
- Resolución máxima de salida: hasta 4K (los ejemplos y tamaños exactos admitidos dependen de la relación de aspecto; la API ofrece preajustes de 1K/2K/4K)
- Planificación iterativa y autocorrección: una canalización interna “multietapa” que detecta y corrige errores visuales comunes (perspectiva, texto, geometría fina).
- Renderizado avanzado de texto dentro de la imagen: texto claro y legible en múltiples idiomas (desde subtítulos cortos hasta párrafos largos) apto para pósters, maquetas e infografías.
- 5 personajes y fidelidad para hasta 14 objetos/imágenes de referencia en un solo flujo de trabajo.
- Marcado de agua / procedencia: todas las imágenes generadas incluyen una marca de agua SynthID; el modelo incorpora metadatos C2PA para la procedencia en algunas integraciones de producto.
Versiones y nomenclatura de Gemini 3 Pro Image
gemini-3-pro-image-previewgemini-3-pro-image
Detalles técnicos
Arquitectura
- Linaje / base: Nano Banana Pro se construye sobre el stack de imagen en evolución de Google — específicamente la nueva arquitectura Gemini 3 Pro Image / GEMPIX 2 (un marco multimodal imagen+texto de mayor capacidad). Es una evolución desde Gemini 2.5 Flash Image (el “nano-banana” original) hacia un modelo de imagen nativamente multimodal con capacidades ampliadas de razonamiento visión-lenguaje.
- Comportamiento del modelo: multimodalidad nativa (imagen + texto + conocimiento del mundo), canalizaciones explícitas para fusión multimagen y un planificador interno por etapas que refina las salidas en múltiples pasadas en lugar de producir una única muestra estática. Informes tempranos indican un razonamiento geométrico/óptico más sólido (vidrio, refracción) respecto a versiones anteriores.
- Pensamiento / refinamiento interno: el modelo utiliza un proceso visible de “pensamiento” internamente para refinar la composición (la API documenta este comportamiento y señala que esos pasos internos no se cobran como tokens de imagen finales).
- Grounding y herramientas: admite Search grounding (puede incorporar hechos de la web en la generación de diagramas/infografías). También admite instrucciones de sistema para un control más determinista.
Parámetros clave de la API:
thinking_level(bajo / alto) para intercambiar latencia vs profundidad de razonamiento;media_resolution(baja/media/alta) para controlar los tokens de lectura de OCR/detalle de imagen;generationConfig.imageConfigpara controlar la relación de aspecto/resolución en las salidas de imagen.
Límites de imagen:
- Modalidades de entrada admitidas: texto e imágenes (el modelo no acepta audio ni video como entradas de generación de imágenes).
- Máximo de imágenes por prompt: 14 (para la vista previa de Gemini 3 Pro Image).
- Tamaño máximo de imagen (carga): 7 MB por imagen de entrada.
- Relaciones de aspecto admitidas: 1:1, 3:2, 16:9, 9:16, 21:9, etc.
Imágenes / tokens de salida: límites altos, con 4K/4096px admitidos.
Rendimiento en pruebas comparativas
Resumen breve: los benchmarks públicos/tempranos hasta ahora son en su mayoría cualitativos / impulsados por la comunidad, pero reportan consistentemente mejoras sustanciales en resolución, reducción de artefactos y fidelidad física frente al nano-banana original (Gemini 2.5 Flash Image). “Retos” específicos nombrados han mostrado ganancias visuales claras, aunque aún no hay tablas de benchmarks numéricos estandarizadas (públicas) de Google comparando v1 → v2 en métricas estándar de generación de imágenes.
- Pruebas cualitativas de la comunidad: bordes más limpios, microdetalles más nítidos, colores más fieles y mayor adherencia al prompt (menos accesorios alucinados, personajes más consistentes). Pruebas informales populares incluyen el llamado “Wine Glass Test” y el “Glass Burger Challenge”, donde GEMPIX2 (Nano Banana Pro) maneja la transparencia y la refracción notablemente mejor que compilaciones anteriores.
- Manejo del texto: Nano Banana Pro muestra una tipografía y colocación de texto visiblemente mejoradas dentro de las imágenes (una debilidad persistente en muchos modelos de imagen). Las comparaciones de la comunidad indican menos glifos renderizados garabateados.
- Rendimiento / UX: velocidad de iteración más rápida y una UX que realiza refinamiento multietapa en el back end para que los usuarios vean resultados de primera pasada más confiables (reduciendo rehacer manual).
Limitaciones y riesgos
- Filtros de contenido y detección: las plataformas que integran el modelo (p. ej., Whisk/aplicaciones de terceros) pueden habilitar detección estricta de celebridades o semejanzas y bloquear ciertos resultados, lo que afecta flujos creativos que dependen de semejanzas realistas de celebridades.
- Alucinación / casos límite de razonamiento: aunque mejorado, el modelo aún puede producir artefactos físicamente poco realistas, especialmente con texto simbólico denso dentro de las imágenes o diagramas altamente técnicos — aunque NB2 parece reducir estos errores frente a versiones anteriores.
- Seguridad y uso indebido: los modelos generativos de imágenes pueden usarse para crear contenido problemático o dañino. Google aplica restricciones, filtros de contenido y la marca de agua SynthID para ayudar con la procedencia; no obstante, han ocurrido usos indebidos (controversia de alto perfil vinculada a una imagen generada por Nano Banana en un entorno políticamente sensible).
Cómo se compara Nano Banana Pro con otros modelos
- Nano Banana Pro (GEMPIX 2 / Gemini 3 Pro Image): sólida integración móvil, fusión multimagen, autocorrección iterativa, 2K nativo/upsampling a 4K, estrechamente integrado en aplicaciones de Google (Search, Photos, Workspace/Gemini). Ideal para flujos que necesitan ediciones confiables, continuidad e integración con servicios de Google.
- Midjourney: destaca en salidas artísticas estilizadas y en ingeniería de prompts impulsada por la comunidad; no suele estar orientado a fusión multimagen foto-precisa ni a canalizaciones de edición multimodal profundas.
- Stable Diffusion / pesos abiertos: totalmente abierto, altamente personalizable y alojable localmente; el ecosistema de checkpoints y fine-tuning es una ventaja decisiva para investigación y uso offline. Menor integración móvil “de un clic” y menor coherencia de edición multimagen out-of-the-box que Nano Banana Pro.
- Seedream 4.0 (ByteDance): recientemente posicionada explícitamente como competidora de Nano Banana, enfatizando renderizado ultrarrápido, salida 2K y soporte para muchas imágenes de referencia (hasta seis). Posicionada como alternativa pro/creadores.
(Estas comparaciones son de alto nivel; elige una ganadora según tu flujo de trabajo: apertura/personalización → Stable Diffusion; arte estilizado → Midjourney; edición móvil integrada y consistente con iteración agresiva → Nano Banana Pro/familia Gemini 3 Pro Image.)
Casos de uso reales
- Edición de fotos móviles y filtros creativos (integraciones en Google Photos — cambio de estilo, fusión de fondo, recomposición de retratos).
- Activos de marketing y publicidad — generación rápida de conceptos, personajes de marca consistentes en múltiples cuadros/ángulos.
- Arte conceptual y guionado — la fusión multimagen ayuda a mantener la continuidad de personajes entre paneles.
- E-commerce / maquetas de producto — generar tomas de producto consistentes en diferentes contextos/condiciones de iluminación.
- Prototipado rápido para activos AR/VR — salidas 2K/4K de alta calidad que pueden escalarse para usos inmersivos.
- Cómo acceder a la API gemini-3-pro-image (Nano Banana Pro)
Pasos requeridos
- Inicia sesión en cometapi.com. Si aún no eres usuario, regístrate primero.
- Obtén la credencial de acceso API key de la interfaz. Haz clic en “Add Token” en el token de API del centro personal, obtén la clave de token: sk-xxxxx y envíala.
- Obtén la URL de este sitio: https://api.cometapi.com/
Método de uso
- Selecciona el endpoint “
gemini-3-pro-image” para enviar la solicitud de API y establece el cuerpo de la solicitud. El método y el cuerpo de la solicitud se obtienen de la documentación de API de nuestro sitio web. Nuestro sitio web también proporciona pruebas en Apifox para tu conveniencia. - Reemplaza <YOUR_API_KEY> con tu clave real de CometAPI de tu cuenta.
- Inserta tu pregunta o solicitud en el campo content — esto es a lo que responderá el modelo.
- . Procesa la respuesta de la API para obtener la respuesta generada.
CometAPI proporciona una API REST totalmente compatible — para una migración sin fricciones. Detalles clave:
- Base URL: https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent
- Model Names:
gemini-3-pro-image - Authentication:
Bearer YOUR_CometAPI_API_KEYheader - Content-Type:
application/json.