El elemento API Flash-Lite de Gemini 2.5 representa la última oferta de Google en su familia de modelos de razonamiento híbrido, diseñados para ofrecer una relación calidad-precio sin igual y latencia ultrabaja para aplicaciones de gran volumen y sensibles a la latencia.
Información básica y características
Anunciado en un lanzamiento preliminar el 17 de junio de 2025, Flash-Lite completa la línea Gemini 2.5, junto con Flash y Pro, al brindarles a los desarrolladores una opción optimizada para velocidad, precio-rendimiento e pensamiento adaptativo capacidades .
Puedes empezar a usar Gemini 2.5 Flash-Lite especificando "gemini-2.5-flash-lite" en tu código. Si usas una versión preliminar, puedes cambiar a "gemini-2.5-flash-lite", que es la misma versión preliminar. Google planea eliminar el alias de vista previa de Flash-Lite el 25 de agosto.
| Estabilidad | Modelo | Fecha |
| Estable (GA) | gemini-2.5-flash-lite | 22 Julio 2025 |
| Vista previa experimental | gemini-2.5-flash-lite-06-17 | Periodo de disponibilidad: del 17 de junio al 25 de agosto de 2025 |
| última versión | gemini-2.5-flash-lite-preview-09-2025 | 09 - 2025 |
- Control del pensamiento:Implementa un presupuesto de pensamiento dinámico a través de un parámetro API, con pensamiento deshabilitado por defecto para maximizar la velocidad y reducir costos.
- Baja latencia:Diseñado para un tiempo rápido hasta el primer tokenFlash-Lite minimiza la sobrecarga de inicio y logra latencias inferiores a 100 ms en la infraestructura estándar de Google Cloud.
- Alto rendimiento:Con canales de decodificación capaces, se sostiene cientos de tokens por segundo, desbloqueando experiencias de usuario en tiempo real en chatbots y aplicaciones de transmisión.
- Soporte multimodal:Aunque está optimizado principalmente para texto, Flash-Lite también acepta imágenes, audio e video entradas a través de la API de Gemini, lo que permite casos de uso versátiles desde el resumen de documentos hasta tareas de visión ligera.
Detalles técnicos
- Razonamiento adaptativo:
Gemini 2.5 Flash-LiteAdmite bajo demanda pensando, lo que permite a los desarrolladores asignar recursos computacionales solo cuando se requiere un razonamiento más profundo. - Integraciones de herramientas:Compatibilidad total con las herramientas nativas de Gemini 2.5, incluidas Conexión a tierra con la Búsqueda de Google, Ejecución de código, Contexto de URL e Llamada de función para flujos de trabajo multimodales sin interrupciones.
- Protocolo de contexto modelo (MCP):Aprovecha el MCP de Google para obtener datos web en tiempo real, lo que garantiza que las respuestas sean hasta a la fecha y contextualmente relevante.
- Opciones de implementación:Disponible a través de CometAPI, API de Géminis, IA de vértice e Estudio de IA de Google, con una pista de vista previa para que los primeros usuarios experimenten y brinden comentarios.
Rendimiento de referencia de Gemini 2.5 Flash-Lite
- Estado latente:Logra hasta tiempos de respuesta medios un 50% más bajos en comparación con Gemini 2.5 Flash, con un rendimiento típico menos de 100 ms latencias en puntos de referencia de clasificación y resumen estándar.
- Throughput: Optimizado para alto volumen cargas de trabajo, soportando decenas de miles de solicitudes por minuto sin degradación del rendimiento.
- Precio-Rendimiento:Demuestra una Reducción del 25% en el coste por cada 1,000 tokens frente a su homólogo Flash, lo que lo convierte en el Óptimo de Pareto Opción para implementaciones sensibles a los costos.
- Adopción de la industria:Los primeros usuarios informan una integración perfecta en los canales de producción, con métricas de rendimiento que se alinean con las proyecciones iniciales o las superan.

Casos de uso ideales
- Tareas de alta frecuencia y baja complejidad: Etiquetado automatizado, análisis de sentimientos y traducción masiva
- Tuberías sensibles a los costos: Extracción de datos de grandes corpus de documentos, resumen periódico de lotes
- Escenarios móviles y de borde: Cuando la latencia es crítica pero los presupuestos de recursos son limitados
Limitaciones de Gemini 2.5 Flash-Lite
- Estado de vista previa:Puede sufrir cambios en la API antes del lanzamiento general; las integraciones deben tener en cuenta los posibles cambios de versión.
- Sin ajustes finos sobre la marcha:No se pueden cargar pesos personalizados; confíe en la ingeniería rápida y los mensajes del sistema.
- Creatividad reducida:Adaptado para tareas deterministas y de alto rendimiento; menos adecuado para la generación abierta o la escritura “creativa”.
- Techo de recursos:Se escala linealmente solo hasta ~16 vCPU; más allá de esto, las ganancias de rendimiento disminuyen.
- Restricciones multimodales:Admite entradas de imagen/audio, pero con fidelidad limitada; no es ideal para tareas pesadas de visión o transcripción de audio.
- Compensación entre la ventana de contexto :Aunque acepta hasta 1 millón de tokens, la inferencia práctica a esa escala puede ver reducido el rendimiento.
Como llamar Gemini 2.5 Flash-Lite API de CometAPI
Gemini 2.5 Flash Lite Precios de API en CometAPI: 20 % de descuento sobre el precio oficial.
- Tokens de entrada: $0.08/M tokens
- Tokens de salida: $0.32/M tokens
Pasos requeridos
- Inicia sesión en cometapi.comSi aún no eres nuestro usuario, por favor regístrate primero.
- Obtenga la clave API de credenciales de acceso de la interfaz. Haga clic en "Agregar token" en el token API del centro personal, obtenga la clave del token: sk-xxxxx y envíe.
- Obtenga la URL de este sitio: https://api.cometapi.com/
Métodos de uso
- Seleccione la opción "**
gemini-2.5-flash-lite**Punto final para enviar la solicitud de API y configurar el cuerpo de la solicitud. El método y el cuerpo de la solicitud se obtienen de la documentación de la API de nuestro sitio web. Nuestro sitio web también ofrece la prueba de Apifox para su comodidad. - Reemplazar con su clave CometAPI real de su cuenta.
- Inserte su pregunta o solicitud en el campo de contenido: esto es lo que responderá el modelo.
- . Procesa la respuesta de la API para obtener la respuesta generada.
CometAPI proporciona una API REST totalmente compatible para una migración fluida. Detalles clave para Documento API:
- URL base: https://api.cometapi.com/v1/chat/completions
- Nombres de modelos: "
gemini-2.5-flash-lite" - Autenticación:
Bearer YOUR_CometAPI_API_KEYencabezamiento
Vea también Géminis 2.5 Pro
