Funciones básicas
- Texto → Imagen: generación completa guiada por prompts con una fuerte adhesión al prompt.
- Imagen → Imagen (ediciones): ediciones finas y precisas con mantenimiento de la consistencia del sujeto/personaje a través de múltiples ediciones.
- Resolución máxima de salida: hasta 4K (los ejemplos y los tamaños exactos de píxeles compatibles dependen de la relación de aspecto; la API ofrece preajustes de 1K/2K/4K)
- Planificación iterativa y autocorrección: una canalización interna de “múltiples etapas” que detecta y corrige errores visuales comunes (perspectiva, texto, geometría fina).
- Renderizado avanzado de texto dentro de la imagen: texto multilingüe claro y legible (desde subtítulos cortos hasta párrafos largos), adecuado para pósteres, mockups e infografías.
- 5 personajes y fidelidad para hasta 14 objetos/imágenes de referencia en un solo flujo de trabajo.
- Marca de agua / procedencia: todas las imágenes generadas incluyen una marca de agua SynthID; el modelo incorpora metadatos C2PA para la procedencia en algunas integraciones de productos.
Versiones y nombres de Gemini 3 Pro Image
gemini-3-pro-image-previewgemini-3-pro-image
Detalles técnicos
Arquitectura
- Linaje / backbone: se cree que Nano Banana Pro está construido sobre la evolución de la pila de imágenes Gemini de Google, específicamente la nueva arquitectura Gemini 3 Pro Image / GEMPIX 2 (un marco multimodal de imagen + texto de mayor capacidad). Esto supone una evolución desde Gemini 2.5 Flash Image (el “nano-banana” original) hacia un modelo de imagen nativamente multimodal con capacidades ampliadas de razonamiento visión-lenguaje.
- Comportamiento del modelo: multimodalidad nativa (imagen + texto + conocimiento del mundo), canalizaciones explícitas para fusión de múltiples imágenes y un planificador interno por etapas que refina las salidas en varias pasadas en lugar de producir una única muestra estática. Los primeros informes indican un razonamiento geométrico/óptico más sólido (vidrio, refracción) frente a versiones anteriores.
- Pensamiento / refinamiento interno: el modelo utiliza internamente un proceso visible de “pensamiento” para refinar la composición (la API documenta este comportamiento y señala que esos pasos internos no se cobran como tokens finales de imagen).
- Grounding y herramientas: admite Search grounding (puede incorporar datos web en la generación de diagramas/infografías). También admite instrucciones del sistema para un control más determinista.
Parámetros clave de la API:
thinking_level(low / high) para equilibrar latencia frente a profundidad de razonamiento;media_resolution(low/medium/high) para controlar los tokens de OCR/lectura de detalle de la imagen;generationConfig.imageConfigpara controlar la relación de aspecto/resolución en las salidas de imagen.
Límites de imagen:
- Modalidades de entrada compatibles: texto e imágenes (el modelo no acepta audio ni video como entradas para generación de imágenes).
- Máximo de imágenes por prompt: 14 (para la versión preliminar de Gemini 3 Pro Image).
- Tamaño máximo de imagen (carga): 7 MB por imagen de entrada.
- Relaciones de aspecto compatibles: 1:1, 3:2, 16:9, 9:16, 21:9, etc.
Imágenes/tokens de salida: límites altos, con compatibilidad para 4K/4096 px.
Rendimiento en benchmarks
Resumen breve: los benchmarks públicos/iniciales disponibles hasta ahora son en su mayoría cualitativos y guiados por la comunidad, pero informan de manera consistente mejoras sustanciales en resolución, reducción de artefactos y fidelidad física frente al nano-banana original (Gemini 2.5 Flash Image). Algunos “desafíos” concretos han mostrado claras mejoras visuales, pero todavía no hay tablas públicas estandarizadas con métricas numéricas de Google comparando v1 → v2 en métricas estándar de generación de imágenes.
- Pruebas cualitativas de la comunidad: bordes más limpios, microdetalles más nítidos, colores más fieles y una mejor adhesión al prompt (menos objetos alucinados, personajes más consistentes). Entre las pruebas informales populares se incluyen la llamada “Wine Glass Test” y “Glass Burger Challenge”, donde GEMPIX2 (Nano Banana Pro) maneja la transparencia y la refracción notablemente mejor que versiones anteriores.
- Manejo de texto: Nano Banana Pro muestra una mejora visible en tipografía y colocación de texto dentro de las imágenes (una debilidad persistente en muchos modelos de imagen). Las comparaciones de la comunidad indican menos glifos renderizados de forma incorrecta.
- Rendimiento / UX: mayor velocidad de iteración y una UX que realiza refinamiento en múltiples etapas en el backend para que los usuarios obtengan resultados de primera pasada más fiables (reduciendo la necesidad de rehacer manualmente).
Limitaciones y riesgos
- Filtros de contenido y detección: las plataformas que integran el modelo (por ejemplo, Whisk/aplicaciones de terceros) pueden habilitar una detección estricta de celebridades o parecidos y bloquear ciertas salidas, lo que afecta a los flujos creativos que dependen de parecidos realistas con celebridades.
- Alucinación / casos límite de razonamiento: aunque ha mejorado, el modelo aún puede producir artefactos físicamente irreales, especialmente con texto simbólico denso dentro de imágenes o diagramas muy técnicos, aunque NB2 parece reducir estos errores frente a versiones anteriores.
- Seguridad y uso indebido: los modelos generativos de imágenes pueden utilizarse para crear contenido problemático o dañino. Google aplica restricciones, filtros de contenido y la marca de agua SynthID para ayudar con la procedencia; aun así, se han producido usos indebidos (incluida una controversia de alto perfil relacionada con una imagen generada por Nano Banana en un contexto políticamente sensible).
Cómo se compara Nano Banana Pro con otros modelos
- Nano Banana Pro (GEMPIX 2 / Gemini 3 Pro Image) — fuerte integración móvil, fusión de múltiples imágenes, autocorrección iterativa, 2K nativo/reescalado a 4K, e integración estrecha en aplicaciones de Google (Search, Photos, Workspace/Gemini). Ideal para flujos de trabajo que necesitan ediciones fiables, continuidad e integración con servicios de Google.
- Midjourney — destaca en salidas artísticas estilizadas e ingeniería de prompts impulsada por la comunidad; normalmente no está orientado a la fusión fotorrealista de múltiples imágenes ni a canalizaciones profundas de edición multimodal.
- Stable Diffusion / pesos abiertos — totalmente abierto, altamente personalizable y desplegable localmente; su ecosistema de checkpoints y ajuste fino es una ventaja decisiva para investigación y uso sin conexión. Tiene menos integración móvil de “un clic” y menos coherencia consistente en edición de múltiples imágenes lista para usar que Nano Banana Pro.
- Seedream 4.0 (ByteDance) — recientemente posicionado explícitamente como competidor de Nano Banana, enfatizando renderizado ultrarrápido, salida 2K y compatibilidad con muchas imágenes de referencia (hasta seis). Se presenta como una alternativa profesional/para creadores.
(Estas comparaciones son de alto nivel; elige la mejor opción según tu flujo de trabajo: apertura/personalización → Stable Diffusion; arte estilizado → Midjourney; edición móvil integrada y consistente con iteración agresiva → Nano Banana Pro/familia Gemini 3 Pro Image.)
Casos de uso reales
- Edición de fotos móvil y filtros creativos (integraciones con Google Photos: reestilización, fusión de fondos, recomposición de retratos).
- Activos de marketing y publicidad — generación rápida de conceptos, personajes de marca consistentes en múltiples fotogramas/ángulos.
- Arte conceptual y storyboard — la fusión de múltiples imágenes ayuda a mantener la continuidad de personajes entre paneles.
- E-commerce / mockups de producto — genera tomas consistentes del producto en distintos contextos/condiciones de iluminación.
- Prototipado rápido para activos AR/VR — salidas 2K/4K de alta calidad que pueden reescalarse para usos inmersivos.
- Cómo acceder a la API de gemini-3-pro-image (Nano Banana Pro)
Pasos necesarios
- Inicia sesión en cometapi.com. Si todavía no eres usuario, regístrate primero.
- Obtén la credencial de acceso, la clave API de la interfaz. Haz clic en “Add Token” en la sección de token API del centro personal, obtén la clave del token: sk-xxxxx y envíala.
- Obtén la URL de este sitio: https://api.cometapi.com/
Método de uso
- Selecciona el endpoint “
gemini-3-pro-image” para enviar la solicitud a la API y configura el cuerpo de la solicitud. El método de solicitud y el cuerpo de la solicitud se obtienen de la documentación de la API de nuestro sitio web. Nuestro sitio web también proporciona pruebas con Apifox para tu comodidad. - Sustituye <YOUR_API_KEY> por tu clave real de CometAPI de tu cuenta.
- Inserta tu pregunta o solicitud en el campo content; esto es a lo que responderá el modelo.
- Procesa la respuesta de la API para obtener la respuesta generada.
CometAPI proporciona una API REST totalmente compatible, para una migración sin problemas. Detalles clave:
- Base URL: https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent
- Nombres de modelo:
gemini-3-pro-image - Autenticación: encabezado
Bearer YOUR_CometAPI_API_KEY - Content-Type:
application/json.