¿Cómo usar Nano Banana mediante API? (Gemini-2-5-flash-image)

CometAPI
AnnaAug 28, 2025
¿Cómo usar Nano Banana mediante API? (Gemini-2-5-flash-image)

Nano Banana es el apodo de la comunidad (y la abreviatura interna) de Google Imagen Flash de Gemini 2.5 — un modelo multimodal de generación y edición de imágenes de alta calidad y baja latencia. Esta guía completa (con código, patrones, pasos de implementación y ejemplos de CometAPI) muestra tres métodos de llamada prácticos que puede usar en producción: (1) una interfaz de chat compatible con OpenAI (texto→imagen), (2) la interfaz oficial de Google generateContent Interfaz de texto→imagen y (3) la interfaz oficial de Google generateContent Interfaz imagen→imagen con entrada/salida Base64. A lo largo del proceso, recibirás consejos paso a paso sobre distribución e implementación, configuración del entorno, cómo obtener operaciones de API desde CometAPI, notas sobre precios y marcas de agua, y los mejores consejos para obtener resultados confiables y rentables.

¿Qué es Nano Banana (imagen Flash Gemini 2.5)?

Nano Banana es el nombre informal de Gemini 2.5 Flash Image, el modelo de imagen más reciente de Google en la familia Gemini. Está diseñado tanto para la generación de imágenes fotorrealistas como para la edición precisa (ediciones locales, fusión de múltiples imágenes, conservación consistente de caracteres en todas las ediciones) y está disponible a través de la API de Gemini de Google, Google AI Studio y Vertex AI. El modelo incluye una marca de agua invisible SynthID para su procedencia.

Por qué esto es importante para los desarrolladores: Nano Banana le ofrece un modelo multimodal único y de alta calidad que puede gestionar:

  • Texto → Imagen (crear nuevas imágenes a partir de indicaciones de texto)
  • Imagen → Imagen (editar/transformar una foto proporcionada)
  • Fusión de múltiples imágenes (combinar varias imágenes en una sola composición)
    Todo esto es accesible a través del sitio web oficial de Google. generateContent Puntos finales (Vertex AI / API de Gemini) o mediante puntos finales compatibles con OpenAI ofrecidos por pasarelas API de terceros, como CometAPI y OpenRouter. Esto significa que puede integrar la imagen Flash de Gemini 2.5 en bases de código compatibles con OpenAI o acceder directamente a los SDK oficiales de Google.

En qué destaca

  • Ediciones locales específicas (cambiar el color de una camisa, eliminar objetos, modificar poses).
  • Mantener la coherencia entre tema y personaje a lo largo de las reediciones.
  • Mezclar/fusionar múltiples imágenes en una composición coherente.
  • Inferencia de baja latencia y costo-eficiente en comparación con modelos de investigación más pesados ​​(Google posiciona los modelos “Flash” como opciones de alto rendimiento).

¿Cómo debo configurar mi entorno de desarrollo para llamar a Nano Banana a través de API?

A continuación se muestra una lista de verificación paso a paso que puede considerar como base para cualquiera de los tres métodos de llamada que se describen más adelante.

Requisitos previos (cuentas, claves, cuota)

  1. Cuenta de Google + Proyecto en la nube — Si planeas llamar a Gemini directamente a través de Google (API de Gemini / Vertex AI), crea un proyecto de Google Cloud y habilita las API de Vertex AI / Gemini. Necesitarás facturación y roles adecuados (por ejemplo, Vertex AI Admin or Service Account con derechos de inferencia).
  2. Acceso a la API de Gemini — Algunos modelos de imágenes de Gemini son de vista previa o de disponibilidad limitada; es posible que debas solicitar acceso o usar el modelo a través de Google AI Studio o Vertex AI según tu cuenta.
  3. CometAPI (puerta de enlace opcional) Si prefiere una API independiente del proveedor que pueda representar diferentes modelos (incluido Gemini), regístrese en CometAPI para obtener una clave API y revisar su lista de modelos (exponen variantes de Gemini 2.5 Flash y un endpoint compatible con OpenAI). CometAPI simplifica el desarrollo y le permite cambiar de proveedor sin modificar el código de su aplicación.

Herramientas locales

  • Tiempos de ejecución del lenguajeSe recomienda Node.js 18+, Python 3.10+.
  • Cliente HTTP: fetch/axios para JS; requests/httpx para Python (o SDK oficiales).
  • Ayudantes de imagen: Pillow (Python) o sharp (Nodo) para cambiar el tamaño, convertir formato y codificar/decodificar Base64.
  • SeguridadAlmacenar claves en variables de entorno o en un almacén de secretos (HashiCorp Vault, AWS Secrets Manager, Google Secret Manager). Nunca se deben enviar claves de API.

Instalar el SDK de Google/compatible (opcional)

Google proporciona SDK y openai Correcciones de compatibilidad de bibliotecas: puede usar las bibliotecas cliente de OpenAI en Gemini modificando algunas líneas (URL base + clave API), pero se recomienda el cliente nativo de Gemini/Google para obtener funciones multimodales completas. Si usa CometAPI o una puerta de enlace compatible con OpenAI, usar el cliente de OpenAI puede acelerar el desarrollo. Ejemplos:

Ruta oficial de Google (Python):

python -m venv venv && source venv/bin/activate
pip install --upgrade pip
pip install google-genai           # official Google GenAI SDK

pip install Pillow requests jq     # for local image handling in examples

Cliente compatible con CometAPI / OpenAI (Python):

pip install openai requests

¿Cómo elijo entre los tres métodos de llamada para Nano Banana?

La elección de un método de llamada depende de su arquitectura, los requisitos de latencia y coste, y de si desea utilizar el punto de conexión oficial de Google o una puerta de enlace externa compatible con OpenAI. Los tres patrones comunes son:

1) Interfaz de chat compatible con OpenAI (texto a imagen)

Úselo cuando ya tenga código o SDK de estilo OpenAI y desee cambiar de modelo con cambios mínimos. Muchas puertas de enlace (CometAPI, OpenRouter) exponen modelos Gemini bajo una superficie REST compatible con OpenAI, por lo que sus... chat or completions Las llamadas funcionan con un único método diferente. base_url y el nombre del modelo. Esta suele ser la ruta más rápida a producción si no desea administrar la autenticación de Google Cloud.

2) Géminis oficial generateContent — texto a imagen

Utilice el sitio web oficial de Google generateContent mediante el genai Cliente (de Google) o Vertex AI si desea el SDK oficial con soporte completo y acceso a las funciones más recientes (parámetros de generación detallados, streaming, API de archivos para recursos de gran tamaño), además de facturación y monitorización de Google Cloud. Se recomienda esta opción si necesita soporte de producción y controles de nivel empresarial.

3) Géminis oficial generateContent — imagen a imagen (entrada/salida Base64)

Úselo cuando deba enviar imágenes binarias en línea (Base64) o desee editar imágenes o realizar canalizaciones de imagen a imagen. Google generateContent Admite imágenes en línea (base64) y una API de archivos para recursos más grandes o reutilizables. Las respuestas a las imágenes generadas o editadas suelen devolverse como cadenas Base64 que se decodifican y guardan. Esto proporciona el control multimodal más explícito.

¿Cómo puedo llamar a Nano Banana a través de una interfaz de chat compatible con OpenAI (texto a imagen)?

Un punto final de chat compatible con OpenAI acepta una secuencia de {role, content} Mensajes: describe la imagen que desea en un mensaje de usuario y la pasarela (CometAPI o una compatibilidad con OpenAI) la traduce en una llamada al modelo Gemini subyacente. Esto resulta práctico si su aplicación ya utiliza flujos de chat o si desea combinar la generación de texto e imágenes en un solo intercambio.

pasos

1.Regístrate en CometAPI y obtén una clave APIRegístrate en CometAPI, crea un proyecto y copia tu clave API. CometAPI expone múltiples modelos tras un único... base_url. ()

  1. Instalar un cliente compatible con OpenAI:Python: pip install openai o usa la versión más nueva openai/OpenAI Contenedor SDK utilizado por muchas puertas de enlace.

  2. Apunte el SDK a CometAPI y llame al punto final de finalización del chat:

curl https://api.cometapi.com/v1/chat/completions \
  -H "Authorization: Bearer $COMET_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemini-2-5-flash-image-preview",
     "stream": true,   
     "messages": [{"role": "user", 
                   "content": "Generate a cute kitten sitting on a cloud, in a                cartoon style"}]
      }'

Notas:

  1. stream debe ser verdadero; la respuesta se devolverá como un flujo;

  2. La estructura de respuesta está envuelta por CometAPI para compatibilidad con OpenAI.

  3. La respuesta incluye una imagen Base64; descodifíquela y guárdela en el cliente según sea necesario.

¿Cómo puedo llamar a Nano Banana usando el teléfono oficial de Gemini? generateContent ¿Interfaz de texto a imagen?

Google proporciona una API para desarrolladores de Gemini (la API de Gemini) y también expone modelos de Gemini a través de IA de vérticePara acceder programáticamente a la imagen Flash de Gemini 2.5 (Nano Banana) de forma compatible, el sitio web oficial generateContent El método es el punto de entrada canónico para la generación de solo texto o multimodal. Utilice Google Kit de desarrollo de software GenAI (Pitón: google-genai) o llamar directamente al punto final REST. Proporciona acceso directo a los parámetros y modalidades del modelo, y es la forma recomendada de utilizar funciones avanzadas (edición precisa, fusión de múltiples imágenes) al llamar a los puntos finales de Google.

  1. Utilice Google Kit de desarrollo de software GenAI (Pitón: google-genai)

Pasos de distribución/llamada (descripción general):

  1. Obtén una clave API desde Google AI Studio o configure una cuenta de servicio Vertex AI (según la plataforma).
  2. Instalar SDK (pip install --upgrade google-genai) y autenticarse (clave API o credenciales predeterminadas de la aplicación de Google).
  3. Selecciona el modelo: gemini-2.5-flash-image o el slug de vista previa que se muestra en los documentos (el slug exacto depende del estado de GA/vista previa).
  4. Lláme client.models.generate_content(...) con un mensaje de texto simple (texto a imagen).
  5. Descodificar imágenes devueltas (si se devuelven Base64) y guardar/almacenar.

Ejemplo de Python (cliente oficial): texto→imagen:

from google import genai
from base64 import b64decode, b64encode

client = genai.Client(api_key="YOUR_GEMINI_KEY")
prompt = {
  "content": "A hyperrealistic photo of a vintage motorcycle parked under neon lights at midnight",
  "mime_type": "text/plain"
}
# request generateContent for image output

result = client.generate_content(
  model="gemini-2-5-flash-image-preview",
  prompt=prompt,
  response_modalities=,
  image_format="PNG",
)
# handle binary or base64 in response (depends on API mode)

(Nota: consulte la API oficial del cliente para conocer los nombres exactos de los parámetros; los ejemplos anteriores siguen los patrones de los documentos de Google).

2. Llamada Nano plátano a través del punto final REST

Punto final EST (ejemplo de texto a imagen): https://api.CometAPI.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent.

Opciones de autenticación: encabezado de suministro x-goog-api-key: $CometAPI_API_KEY(Crea una clave en CometAPI).

Esto publica un mensaje de texto y guarda la imagen base64 devuelta:

curl -s -X POST \
  "https://generativelanguage.googleapis.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{
      "parts": [
        { "text": "A photorealistic nano banana dish plated in a stylish restaurant, cinematic lighting, 3:2 aspect ratio" }
      ]
    }]
  }' \
| jq -r '.candidates.content.parts[] | select(.inline_data) | .inline_data.data' \
| base64 --decode > gemini-image.png

Notas: El binario de la imagen se devuelve como base64 en candidates.content.parts.inline_data.dataEl ejemplo anterior utiliza jq Para seleccionar los datos en línea y decodificarlos. La documentación oficial muestra el mismo flujo.

¿Cómo puedo llamar a Nano Banana usando el teléfono oficial de Gemini? generateContent ¿Interfaz de imagen a imagen (entrada/salida Base64)?

¿Cuándo debería utilizar imagen a imagen (entrada/salida base64)?

Utilice imagen a imagen cuando necesite:

  • Editar una foto existente (retoque, transferencia de estilo, reemplazo de objetos).
  • Combine múltiples imágenes de origen en una sola composición.
  • Preservar la identidad de un sujeto en todas las ediciones (una de las fortalezas de Nano Banana).

De Géminis generateContent Admite datos de imágenes en línea mediante Base64 (o como URI de archivo) y devuelve imágenes generadas o editadas como cadenas Base64. La documentación proporciona ejemplos explícitos para proporcionar... inline_data con mime_type y data.

Distribución/pasos de llamada (imagen a imagen)

  1. Preparar imágenes de entrada: leer bytes de archivo, codificar en Base64 o pasar bytes sin procesar a través del asistente SDK.
  2. Construcción a contents matriz donde una parte es la imagen en línea (con mimeType y data) y las partes posteriores incluyen las instrucciones de edición de texto.
  3. PUBLICAR a generateContent (SDK oficial o REST).
  4. Recibir Respuesta: La API devuelve imágenes generadas/editadas codificadas como cadenas Base64. Descodificarlas y guardarlas localmente.

Ejemplo: Python (imagen a imagen usando bytes en línea a través del SDK GenAI)

# pip install google-genai

from google import genai
from google.genai import types
import base64

client = genai.Client(api_key="YOUR_GOOGLE_API_KEY")

# Read local image

with open("input_photo.jpg", "rb") as f:
    img_bytes = f.read()

# Using SDK helper to attach bytes as a part

response = client.models.generate_content(
    model="gemini-2.5-flash-image-preview",
    contents=[
        types.Part.from_bytes(
            data=img_bytes,
            mime_type="image/jpeg"
        ),
        "Make a high-quality edit: change the subject's jacket color to teal, keep natural lighting and preserve the person's facial features."
    ],
)

# The returned image will typically be in response.candidates[].content.parts with base64-encoded data

# Decode and save (pseudo-access shown; check SDK response structure)
b64_out = response.candidates.content.parts.data  # example path

with open("edited.jpg","wb") as out:
    out.write(base64.b64decode(b64_out))

Ejemplo de Python: imagen→imagen usando Base64 a través del punto de reposo

import base64, json, requests

API_URL = "https://api.gemini.googleapis.com/v1/generateContent"
API_KEY = "YOUR_GEMINI_KEY"

# read and base64-encode image

with open("input.jpg","rb") as f:
    b64 = base64.b64encode(f.read()).decode("utf-8")

payload = {
  "model": "gemini-2-5-flash-image-preview",
  "input": [
    {"mime_type": "image/jpeg", "bytes_base64": b64},
    {"mime_type": "text/plain", "text": "Remove the lamppost and make the sky golden at sunset."}
  ],
  "response_modalities": 
}

resp = requests.post(API_URL, headers={"Authorization":f"Bearer {API_KEY}", "Content-Type":"application/json"}, json=payload)
resp.raise_for_status()
data = resp.json()
# data.candidates... may contain image base64 — decode and save

out_b64 = data
with open("edited.png","wb") as out:
    out.write(base64.b64decode(out_b64))

Si desea acceder a él mediante el puerto de descanso CometAPI:

curl 
--location 
--request POST "https://api.CometAPI.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent" ^ 
--header "Authorization: sk-" ^ 
--header "User-Agent: Apifox/1.0.0 (https://apifox.com)" ^ 
--header "Content-Type: application/json" ^ 
--header "Accept: */*" ^ 
--header "Host: api.CometAPI.com" ^ 
--header "Connection: keep-alive" ^ 
--data-raw "{ \"contents\":  } ], \"generationConfig\": { \"responseModalities\":  }}"

Para insertar en línea: lea la imagen y codifíquela en base64. Para uso repetido o más de 20 MB, cargue la imagen mediante la API de archivos y haga referencia al identificador del archivo en generateContentIdeal para ediciones precisas y flujos de trabajo que necesitan imágenes de entrada más instrucciones de edición textual.

¿Cuáles son los mejores consejos para trabajar con Nano Banana?

Ingeniería y control rápidos

  1. Sea explícito: incluya la relación de aspecto deseada, referencias de estilo (solo nombres de artistas si se permiten), lente de la cámara, iluminación y composición. Por ejemplo, “Fotorrealista, 3:2, poca profundidad de campo, hora dorada, lente Nikon de 50 mm”.
  2. Utilice la edición sucesivaPrefiere ediciones locales más pequeñas en varias pasadas a grandes indicaciones de una sola toma; esto preserva la consistencia del tema. La fortaleza de Nano Banana es la edición iterativa.

Higiene de la imagen

  • Preprocesar entradas: normalizar el espacio de color, eliminar EXIF ​​incrustado si se requiere privacidad, escalar a resoluciones razonables para ahorrar tokens.
  • Salidas del posprocesamiento: ejecutar detección de rostros, limpiar artefactos menores a través de filtros livianos (Pillow/nítido) antes de regresar a los usuarios.

Políticas de seguridad, cumplimiento y contenido

  • Implemente una verificación automatizada de seguridad de contenido (modelos de moderación de visión o verificaciones de lista negra) antes de almacenar o publicar imágenes.
  • Si carga imágenes de personas, cumpla con las leyes de privacidad aplicables (GDPR/CCPA) y obtenga los consentimientos necesarios.
  • Respete las políticas de uso de modelos y las reglas de derechos de autor cuando solicite personajes con derechos de autor o obras de arte existentes.

Notas de cierre

Nano Banana (Gemini 2.5 Flash Image) representa un paso pragmático y de alta fidelidad para la generación y edición de imágenes multimodales: está diseñado para lograr coherencia en las ediciones y un razonamiento multimodal más rico. Nano Banana (Gemini 2.5 Flash Image) es un paso importante en la generación/edición de imágenes, que ofrece una alta coherencia para ediciones de varios pasos y múltiples superficies de integración (puertas de enlace compatibles con OpenAI como CometAPI y Google generateContent API). Para una adopción más rápida, pasarelas como CometAPI permiten reutilizar código de estilo OpenAI. Siempre verifique la integridad de las respuestas, respete la política de contenido y las características de procedencia (SynthID) y monitoree los costos durante la iteración.

Primeros Pasos

CometAPI es una plataforma API unificada que integra más de 500 modelos de IA de proveedores líderes, como la serie GPT de OpenAI, Gemini de Google, Claude de Anthropic, Midjourney, Suno y más, en una única interfaz intuitiva para desarrolladores. Al ofrecer autenticación, formato de solicitudes y gestión de respuestas consistentes, CometAPI simplifica drásticamente la integración de las capacidades de IA en sus aplicaciones. Ya sea que esté desarrollando chatbots, generadores de imágenes, compositores musicales o canales de análisis basados ​​en datos, CometAPI le permite iterar más rápido, controlar costos y mantenerse independiente del proveedor, todo mientras aprovecha los últimos avances del ecosistema de IA.

Los desarrolladores pueden acceder Imagen Flash de Gemini 2.5(Lista de Nano Banana CometAPI gemini-2.5-flash-image-preview/gemini-2.5-flash-image Entradas de estilo en su catálogo.) A través de CometAPI, las últimas versiones de los modelos listadas corresponden a la fecha de publicación del artículo. Para comenzar, explore las capacidades del modelo en el Playground y consultar el Guía de API Para obtener instrucciones detalladas, consulte la sección "Antes de acceder, asegúrese de haber iniciado sesión en CometAPI y de haber obtenido la clave API". CometAPI Ofrecemos un precio muy inferior al oficial para ayudarte a integrarte.

Leer Más

500+ Modelos en Una API

Hasta 20% de Descuento