Gemini 2.5 Flash Image (también conocido como "Nano banana") es el modelo nativo de generación y edición de imágenes más reciente de Google, dentro de la familia Gemini 2.5. Se centra en la fusión de múltiples imágenes, la edición precisa en lenguaje natural y flujos de trabajo multimodales rápidos.
Introducción al modelo
¿Qué es? Imagen Flash de Gemini 2.5 Es un modelo de generación y edición de imágenes multimodal basado en la familia Gemini 2.5. Está diseñado para producir Imágenes fotorrealistasrealizar ediciones específicas (repintado, transferencia de estilo, intercambio de objetos) y combinar múltiples imágenes de origen en una única salida coherente, mientras se aplica el razonamiento lingüístico mejorado de Gemini para controlar la composición y la semántica.
Características principales
- Generación y edición de imágenes nativas — generar imágenes o editar fotos existentes a través de indicaciones en lenguaje natural. (Generar/Editar).
- Fusión de múltiples imágenes — combina múltiples imágenes de entrada en una escena fotorrealista.
- Consistencia del carácter — mantener la misma apariencia del sujeto o personaje en todas las ediciones y avisos. (Consistencia).
- Marca de agua SynthID — todas las salidas incluyen un ID de síntesis invisible para identificar contenido generado por IA. (Filigrana).
Detalles técnicos
- Arquitectura y posicionamiento: Construido sobre la familia Gemini 2.5 Flash, diseñado como un baja latencia Variante “Flash” que sacrifica un tamaño de modelo y un rendimiento menores a cambio de una respuesta por llamada mucho más rápida y una mayor rentabilidad, manteniendo al mismo tiempo un razonamiento más sólido que los niveles Flash anteriores.
- Formatos de entrada y límites: acepta imágenes base64 en línea para pequeñas entradas y cargas de archivos A través de la API de archivos para imágenes de mayor tamaño (recomendado para más de 20 MB). Admite tipos MIME comunes (JPEG, PNG).
- Modos de operacion: texto a imagen, edición de imágenes (repintado/enmascaramiento semántico), transferencia de estilo, composición de múltiples imágenes y intercalado Respuestas de texto+imagen (útiles para instrucciones ilustradas, recetas o contenido mixto).
- Procedencia y mecanismos de seguridad: marcas de agua visibles en las salidas de IA, además de marcadores SynthID ocultos y capas de aplicación de políticas para limitar el contenido explícito no permitido.
Rendimiento de referencia

Limitaciones y riesgos conocidos
- Restricciones de la política de contenido: Los modelos implementan políticas de contenido (por ejemplo, prohibir contenido sexual explícito y algunos contenidos ilícitos), pero su implementación no es perfecta: generar imágenes de figuras públicas o íconos controvertidos aún puede ser posible en algunos escenarios, por lo que Las comprobaciones de políticas son esenciales. )
- Modos de fallo: posible deriva de identidad en ediciones extremas, desalineación semántica ocasional (cuando las indicaciones están poco especificadas) y artefactos en escenas muy complejas o cambios extremos de punto de vista.
- Procedencia y mal uso: Si bien las marcas de agua y SynthID están presentes, estos no evitan el uso indebido: ayudan a la detección y atribución, pero no sustituyen la revisión humana en flujos de trabajo sensibles.
Casos de uso típicos
- Producto y comercio electrónico: Colocar/catalogar productos en fotos de estilo de vida mediante fusión de múltiples imágenes.
- Herramientas creativas/diseño: iteraciones rápidas en aplicaciones de diseño (se cita la integración de Adobe Firefly).
- Edición y retoque de fotografías: ediciones localizadas a partir del lenguaje natural (eliminar objetos, cambiar color/iluminación, rediseñar).
- Recursos de narración / personajes: mantener la coherencia de los caracteres a través de paneles y escenas.
Como llamar Imagen Flash de Gemini 2.5 API de CometAPI
Gemini 2.5 Flash Image Precios de API en CometAPI: 20 % de descuento sobre el precio oficial.
| Precio | $0.3120 |
Pasos requeridos
- Inicia sesión en cometapi.comSi aún no eres nuestro usuario, por favor regístrate primero.
- Obtenga la clave API de credenciales de acceso de la interfaz. Haga clic en "Agregar token" en el token API del centro personal, obtenga la clave del token: sk-xxxxx y envíe.
- Obtenga la URL de este sitio: https://api.cometapi.com/
Método de uso
- Seleccione la opción "
Gemini-2.5 Flash-ImagePunto final para enviar la solicitud de API y configurar el cuerpo de la solicitud. El método y el cuerpo de la solicitud se obtienen de la documentación de la API de nuestro sitio web. Nuestro sitio web también ofrece la prueba de Apifox para su comodidad. - Reemplazar con su clave CometAPI real de su cuenta.
- Inserte su pregunta o solicitud en el campo de contenido: esto es lo que responderá el modelo.
- . Procesa la respuesta de la API para obtener la respuesta generada.
CometAPI proporciona una API REST totalmente compatible para una migración fluida. Detalles clave para Documento API:
- Punto final:
https://api.cometapi.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent - Parámetro del modelo: Vista previa de la imagen flash de Gemini 2.5 / Imagen flash de Gemini 2.5
- Autenticación:
Bearer YOUR_CometAPI_API_KEY - Tipo de contenido:
application/json.
Nota: Al invocar la API, establezca el parámetro “stream”: true.
curl --location --request POST 'https://api.cometapi.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent' \
--header 'Authorization: sk-xxx' \
--header 'User-Agent: Apidog/1.0.0 (https://apidog.com)' \
--header 'Content-Type: application/json' \
--header 'Accept: */*' \
--header 'Host: api.cometapi.com' \
--header 'Connection: keep-alive' \
--data-raw '{
"contents": [
{
"role": "user",
"parts": [
{
"text": "cat"
},
{
"inline_data": {
"mime_type": "image/jpeg",
"data": "iVBORw0KGgoA Note: Base64 data here"
}
]
}
],
"generationConfig": {
"responseModalities": [
"TEXT",
"IMAGE"
]
}
}'
Vea también API de imagen GPT-1



