Cómo usar la API de Nano Banana 2

Nano Banana 2 — el apodo que la comunidad usa para el modelo más reciente de generación de imágenes de Google dentro de la familia Gemini — ha reconfigurado rápidamente las expectativas sobre generación y edición de imágenes rápida y de alta fidelidad. Lanzado a finales de febrero de 2026, esta variante “Flash Image” (Gemini 3.1 Flash Image / Nano Banana 2) está orientada a desarrolladores y equipos de producto que necesitan resultados de nivel profesional con alto rendimiento y baja latencia. En este artículo combino los últimos reportes y la documentación para explicar qué es Nano Banana 2, cómo rinde en benchmarks, cómo acceder y llamarlo (incluyendo a través de pasarelas de terceros como CometAPI), y patrones prácticos de prompts y uso que puedes adoptar en producción.

CometAPI proporciona una única interfaz de estilo HTTP que expone muchos modelos (incluidos modelos de imagen) bajo endpoints consistentes. Esto puede simplificar el cambio entre proveedores o la combinación de salidas de varios modelos. Nano Banana 2 (Gemini 3.1 Image) está disponible en CometAPI.

¿Qué es Nano Banana 2?

Nano Banana 2 (alineado internamente con Gemini 3.1 Flash Image) es un modelo de generación de imágenes centrado y de alta eficiencia de Google que prioriza la velocidad, menor coste por imagen y un seguimiento de instrucciones más sólido para tareas creativas y editoriales. Está diseñado para situarse junto a variantes de mayor fidelidad “Pro”: Nano Banana 2 para alto rendimiento y Nano Banana Pro (Gemini 3 Pro Image) para resultados premium de calidad de activo.

Está diseñado para ofrecer:

Inferencia rápida (apuntando a una latencia muy baja para que la generación y edición de imágenes se sienta casi instantánea).
Alta calidad visual aproximándose a la familia “Pro” pero con menor computación/coste.
Mejor seguimiento de instrucciones (representación más precisa de sujetos solicitados, texto en imagen y escenas con múltiples personajes).
Amplio soporte de resolución y relación de aspecto, desde vistas previas pequeñas rápidas hasta pipelines nativos 2K/4K para activos finales.

¿Qué hace que Nano Banana 2 sea diferente del Nano Banana original / Pro?

Arquitectura / motor: Construido sobre el stack de inferencia Flash de Gemini (Gemini 3.1 Flash Image), por lo que cede algunos ajustes de máxima calidad a cambio de mejoras drásticas en velocidad y coste.
Casos de uso: Ideal para automatización a gran escala (activos de marketing, miniaturas, UIs), edición casi en tiempo real y flujos de trabajo donde la latencia y el coste importan pero aún se necesita fidelidad de sujetos de nivel Pro.

Rendimiento en benchmarks de Nano Banana 2

Cómo usar la API de Nano Banana 2

Consistente en todas las categorías

Gemini 3.1 Flash Image muestra mejoras medibles en cada categoría reportada frente a Gemini 2.5 Flash.

Mayores avances

Calidad visual
Edición composicional con múltiples entradas
Robustez general de edición

Posicionamiento competitivo

Lidera la preferencia general interna de GenAI-Bench.
Supera a GPT-Image 1.5 en métricas generales y visuales.
Mejoras incrementales estrechas sugieren refinamiento arquitectónico más que un cambio radical.

¿Cómo puedo acceder a Nano Banana 2?

Dónde está disponible

Nano Banana 2 es accesible a través de las herramientas Gemini de Google (Gemini app), la API de Gemini (documentada en los recursos para desarrolladores de Google AI) y está apareciendo en productos empresariales en la nube como Vertex AI para integraciones de vista previa/empresa. CometAPI también ha anunciado soporte y wrappers para facilitar la integración.

Cómo usar la API de Nano Banana 2 (cometapi): ¿cuáles son las opciones?

La guía de CometAPI usa una forma estilo Gemini generateContent y devuelve imágenes como Base64 en candidates[0].content.parts[].inline_data.data. Debes decodificar ese Base64 para guardar un archivo en el cliente. Solo necesitas reemplazar https: //generativelanguage.googleapis.com por https://api.cometapi.com. La imagen devuelta suele proporcionarse como inline_data codificada en Base64. Tendrás que decodificarla en el lado del cliente y guardarla como archivo. CometAPI proporciona descuentos que te ayudan a usar la API de Nano Banana 2.

CometAPI ofrece un wrapper REST unificado y endpoints explícitos para modelos Gemini — ideal si prefieres una sola credencial y cambiar de proveedor sin modificar el código de tu aplicación. Para Nano Banana 2, la página de CometAPI incluye un snippet de curl directo para su endpoint gemini-3.1-flash-image-preview:generateContent. A continuación hay un ejemplo de curl depurado basado en la documentación de CometAPI.

Requisitos previos para usar Nano Banana 2 vía CometAPI

Cuenta de CometAPI y clave de API: Crea una cuenta en CometAPI y genera tu clave de acceso a la API (sk-…). Esta clave es la que usarás para autenticar todas las solicitudes a los endpoints de CometAPI.

Lenguajes de programación y runtimes:

Node.js 18+ (para JavaScript/TypeScript)
Python 3.10+
(O cualquier lenguaje que pueda realizar solicitudes HTTP)

Herramientas HTTP o SDKs:

Para JavaScript: fetch, axios o el cliente compatible con OpenAI
Para Python: requests, httpx o el cliente de OpenAI
Estas herramientas te ayudan a enviar llamadas a la API y manejar respuestas.

Resumen rápido del patrón de solicitud

URL base: https://api.cometapi.com (base de CometAPI).
Nombres de modelo: gemini-3.1-flash-image-preview (Nano Banana 2 / gemini 3.1 Flash Image) o gemini-2.5-flash-image según disponibilidad.
Auth: Authorization: sk-xxxx header — CometAPI suele usar una clave con prefijo sk-.
Respuesta: las imágenes se devuelven como Base64 en response.candidates[0].content.parts[].inline_data.data. Decódalas y escríbelas en disco.

Flujo de trabajo de ejemplo (alto nivel)

Obtén una clave de API de CometAPI.
Elige tu identificador de modelo (por ejemplo, gemini-3.1-flash-image o similar, según disponibilidad).
Envía una solicitud POST al endpoint de generación del modelo con tu prompt.
Gestiona los datos de imagen devueltos en tu app (decodifica base64, sirve como PNG, etc.).
Para edición de imágenes, incluye los datos de la imagen existente y las instrucciones de edición en tu solicitud.

Uso de la API oficial de Gemini (texto → imagen)

A continuación se muestra un breve ejemplo en Node.js que muestra cómo llamar al endpoint generateContent de Gemini para gemini-3.1-flash-image-preview (esto refleja fragmentos oficiales en la documentación). Sustituye YOUR_API_KEY por tu credencial y añade gestión de errores para producción.

# Get your CometAPI key from https://api.cometapi.com/console/token
# Export it as: export COMETAPI_KEY="your-key-here"

mkdir -p ./output

curl -s "https://api.cometapi.com/v1beta/models/gemini-3.1-flash-image-preview:generateContent" \
  -H "Authorization: $COMETAPI_KEY" \
  -H 'Content-Type: application/json' \
  -X POST \
  -d '{
    "contents": [
      {
        "role": "user",
        "parts": [
          {
            "text": "A woman leaning on a wooden railing of a traditional Chinese building. She is wearing a blue cheongsam with pink and red floral motifs and a headdress made of colorful flowers, including roses and lilacs. Realistic painting style, focusing on the textural details of the clothing patterns and wooden buildings."
          }
        ]
      }
    ],
    "generationConfig": {
      "responseModalities": ["IMAGE"],
      "imageConfig": {
        "aspectRatio": "9:16"
      }
    }
  }' | python3 -c "
import sys, json, base64
data = json.load(sys.stdin)
parts = data['candidates'][0]['content']['parts']
for part in parts:
    if 'text' in part:
        print(part['text'])
    elif 'inlineData' in part:
        img = base64.b64decode(part['inlineData']['data'])
        with open('./output/gemini-3.1-flash-image-preview.png', 'wb') as f:
            f.write(img)
        print('Image saved to ./output/gemini-3.1-flash-image-preview.png')
"

CometAPI proporciona SDKs y wrappers de cliente compatibles con OpenAI, por lo que algunos equipos pueden cambiar de proveedor con cambios mínimos de código, permitiéndote solicitar salidas de imagen codificadas en Base64 o URLs alojadas según tu configuración. Revisa siempre el esquema oficial de generateContent para los campos exactos del payload.

Flujo imagen→imagen (edición)

Para editar una imagen existente:

Convierte tu imagen de origen a Base64 (sin el prefijo data:image/...;base64,).
Realiza un POST con un payload que incluya inline_data.data con esa cadena Base64 y un prompt de edición (p. ej., “cambiar el fondo a un cielo al atardecer, eliminar marca de agua”).
La respuesta incluirá una nueva salida Base64 para decodificar y guardar.

curl 
--location 
--request POST 'https://api.cometapi.com/v1beta/models/gemini-3.1-flash-image-preview:generateContent' \ 
--header 'Authorization: ' \ 
--header 'Content-Type: application/json' \ 
--data-raw '{ "contents": 
[ { "role": "user", "parts": 
[ { "text": "Blend three images to output a high-resolution image" }, { "inline_data": { "mime_type": "image/jpeg", "data": "<your_first_image_base64_data_here>" } }, { "inline_data": { "mime_type": "image/jpeg", "data": "<your_second_image_base64_data_here>" } }, { "inline_data": { "mime_type": "image/jpeg", "data": "<your_third_image_base64_data_here>" } } 
] } 
], "generationConfig": { "responseModalities": [ "TEXT", "IMAGE" 
] } }'

Parámetros típicos para ajustar

model: elige gemini-3.1-flash-image-preview (Nano Banana 2) o gemini-3-pro-image-preview (Pro).
imageConfig.aspect_ratio y imageConfig.image_size (512, 1K, 2K, 4K) — afecta coste y latencia.
responseModalities: ["Image"] o ["Text","Image"] para flujos multimodales.

¿Cómo debo redactar prompts para Nano Banana 2?

La ingeniería de prompts para modelos de imagen mezcla composición, estilo, pistas de cámara/iluminación y declaraciones de restricciones. Nano Banana 2 está ajustado para seguir instrucciones de forma fiable, así que equilibra brevedad con explicitud.

Estructura del prompt (recomendada)

Sujeto principal: quién/qué aparece en la imagen.
Acción o estado: qué está haciendo el sujeto.
Entorno y estado de ánimo: escenario, iluminación, atmósfera.
Directrices técnicas: lente de cámara, relación de aspecto, resolución, composición.
Estilo y referencias: estilo artístico, referencias de artistas (ten en cuenta las normas de copyright), época.
Restricciones: número de personajes/objetos, evitar ciertos colores, incluir texto legible.

Ejemplo de prompt:

“Una imagen fotorrealista de un pequeño plátano amarillo con forma de cohete vintage, reposando sobre una mesa de caoba brillante en un estudio iluminado por el sol. Lente de 50 mm, poca profundidad de campo, iluminación cálida de la hora dorada, alto detalle, sin logotipos visibles, 2048×1152.”

Consejos para prompts de edición (inpainting / reemplazo)

Proporciona la máscara claramente y especifica qué regiones deben cambiar.
Usa lenguaje de “preservar” para las áreas que deben mantenerse (p. ej., “preservar los rasgos faciales del sujeto, reemplazar solo el fondo”).
Para texto en imágenes, proporciona el texto exacto y especifica la fuente/estilo (p. ej., “sans-serif legible, alineado al centro”). Nano Banana 2 enfatiza una mejor representación de texto, pero sé explícito.

Lista de comprobación para depurar prompts

Si el resultado no es el esperado, prueba a simplificar: reduce primero las instrucciones de estilo creativo y luego vuelve a introducir el detalle.
Si el texto es ilegible: especifica la fuente, tamaño y contraste en el prompt e incrementa la resolución.
Si la composición es incorrecta: usa especificadores de ángulo de cámara y lente.

¿Cuáles son los errores comunes y cómo evitarlos?

Error: confiar en exceso en prompts de un solo intento

Evita esperar que un único prompt se encargue de recortes, diseño y ediciones de múltiples pasos. Divide el trabajo en: generar base → editar/reemplazar → pulido final. Usa semilla y máscaras para precisión.

Error: ignorar la procedencia y las comprobaciones de derechos de autor

No despliegues a escala sin SynthID/C2PA u otras medidas de procedencia. Muchas empresas requieren trazabilidad para contenido de origen IA.

Error: sorpresas de presupuesto

Controla el uso a nivel de modelo y endpoint, y establece límites duros de consumo a través del proveedor o un proxy. Las variantes Flash son más baratas pero aún pueden costar mucho si generas miles de imágenes 4K sin querer.

¿Buenas prácticas recomendadas con Nano Banana 2?

Productivizar la generación de imágenes requiere atención a coste, latencia, control de calidad, procedencia y seguridad. A continuación, prácticas recomendadas derivadas de informes de campo, documentación de Google y pruebas de la comunidad.

Ingeniería de prompts y salidas deterministas

Plantilla tus prompts: para resultados repetibles (p. ej., fotos de producto), usa prompts estructurados con segmentos fijos (sujeto, cámara, iluminación, textura, posprocesado). Esto reduce la deriva entre llamadas.
Usa imágenes de referencia e instrucciones de máscara para ediciones en lugar de intentar lograr ediciones locales complejas solo mediante texto — reduce errores semánticos y artefactos.

Ajuste de coste y rendimiento

Elige el modo Flash/“Nano Banana 2” para alto volumen: si necesitas muchas iteraciones rápidas, usa modelos de la gama Flash y tamaños más pequeños (2K frente a 4K) para reducir coste y latencia.
Agrupa solicitudes cuando sea posible: algunos proveedores permiten batching de múltiples prompts — reduce la latencia total por activo generado en pipelines de alto rendimiento. (Consulta la documentación de tu proveedor).

Seguridad, procedencia y aspectos legales

Activa SynthID y metadatos C2PA en los activos generados para soportar auditoría y cumplimiento posteriores (especialmente cuando las imágenes se usan en publicidad/RRPP). Google y partners enfatizan SynthID como mecanismo de procedencia.
Revisión humana para contenido sensible: las capas de políticas automatizadas son sólidas pero imperfectas — usa comprobaciones manuales para campañas públicas o contenido con figuras públicas.

Garantía de calidad

Automatiza comprobaciones de QA: ejecuta un clasificador rápido post-generación para detectar artefactos inesperados (textos mal renderizados, baja fidelidad facial, creación accidental de logotipos). Mantén un sistema de puntuación y una vía de fallback segura a renders de nivel Pro si la comprobación automática falla.
Almacena prompts y semillas: para auditoría y reproducibilidad, guarda el prompt exacto, marca de tiempo, versión del modelo y cualquier semilla o parámetro determinista usado.

UX sensible a la latencia

UX progresiva: devuelve primero un borrador de baja resolución/rápido y reemplázalo con un render de alta resolución/Pro cuando esté listo. Esto mantiene tu app receptiva (muchos proveedores ofrecen un sabor “draft” o Flash).

Notas finales y próximos pasos

Nano Banana 2 está diseñado para cambiar la economía de los flujos de trabajo de producción centrados en imágenes: menor latencia y menor coste por llamada abren casos de uso como generación de activos publicitarios bajo demanda, pruebas creativas A/B rápidas y herramientas de diseño colaborativo en tiempo real. El modelo ya está integrado en las superficies de consumo y nube de Google; para desarrolladores que quieren salir a producción rápidamente, CometAPI ofrece un wrapper de marketplace conveniente que soporta endpoints de imagen de Gemini más otros modelos — una decisión práctica cuando quieres experimentar con múltiples motores sin cambiar el código de la app.
Los desarrolladores pueden acceder a Nano Banana 2 vía CometAPI ahora. Para empezar, explora las capacidades del modelo en el Playground y consulta la guía de API para instrucciones detalladas. Antes de acceder, asegúrate de haber iniciado sesión en CometAPI y obtenido la clave de API. CometAPI ofrece un precio muy inferior al oficial para ayudarte a integrar.

¿Listo para empezar? → Sign up fo Nano Banana 2 today !

Si quieres conocer más consejos, guías y noticias sobre IA, síguenos en VK, X y Discord!