API Flash-Lite de Gemini 2.5

CometAPI
AnnaJun 26, 2025
API Flash-Lite de Gemini 2.5

El elemento API Flash-Lite de Gemini 2.5 representa la última oferta de Google en su familia de modelos de razonamiento híbrido, diseñados para ofrecer una relación calidad-precio sin igual y latencia ultrabaja para aplicaciones de gran volumen y sensibles a la latencia.


Información básica y características

Anunciado en un lanzamiento preliminar el 17 de junio de 2025, Flash-Lite completa la línea Gemini 2.5, junto con Flash y Pro, al brindarles a los desarrolladores una opción optimizada para velocidad, precio-rendimiento e pensamiento adaptativo capacidades .

Puedes empezar a usar Gemini 2.5 Flash-Lite especificando "gemini-2.5-flash-lite" en tu código. Si usas una versión preliminar, puedes cambiar a "gemini-2.5-flash-lite", que es la misma versión preliminar. Google planea eliminar el alias de vista previa de Flash-Lite el 25 de agosto.

EstabilidadModeloFecha
Estable (GA)gemini-2.5-flash-lite22 Julio 2025
Vista previa experimentalgemini-2.5-flash-lite-06-17Periodo de disponibilidad: del 17 de junio al 25 de agosto de 2025
última versióngemini-2.5-flash-lite-preview-09-202509 - 2025
  • Control del pensamiento:Implementa un presupuesto de pensamiento dinámico a través de un parámetro API, con pensamiento deshabilitado por defecto para maximizar la velocidad y reducir costos.
  • Baja latencia:Diseñado para un tiempo rápido hasta el primer tokenFlash-Lite minimiza la sobrecarga de inicio y logra latencias inferiores a 100 ms en la infraestructura estándar de Google Cloud.
  • Alto rendimiento:Con canales de decodificación capaces, se sostiene cientos de tokens por segundo, desbloqueando experiencias de usuario en tiempo real en chatbots y aplicaciones de transmisión.
  • Soporte multimodal:Aunque está optimizado principalmente para texto, Flash-Lite también acepta imágenes, audio e video entradas a través de la API de Gemini, lo que permite casos de uso versátiles desde el resumen de documentos hasta tareas de visión ligera.

Detalles técnicos

  • Razonamiento adaptativo: Gemini 2.5 Flash-Lite Admite bajo demanda pensando, lo que permite a los desarrolladores asignar recursos computacionales solo cuando se requiere un razonamiento más profundo.
  • Integraciones de herramientas:Compatibilidad total con las herramientas nativas de Gemini 2.5, incluidas Conexión a tierra con la Búsqueda de Google, Ejecución de código, Contexto de URL e Llamada de función para flujos de trabajo multimodales sin interrupciones.
  • Protocolo de contexto modelo (MCP):Aprovecha el MCP de Google para obtener datos web en tiempo real, lo que garantiza que las respuestas sean hasta a la fecha y contextualmente relevante.
  • Opciones de implementación:Disponible a través de CometAPI, API de Géminis, IA de vértice e Estudio de IA de Google, con una pista de vista previa para que los primeros usuarios experimenten y brinden comentarios.

Rendimiento de referencia de Gemini 2.5 Flash-Lite

  • Estado latente:Logra hasta tiempos de respuesta medios un 50% más bajos en comparación con Gemini 2.5 Flash, con un rendimiento típico menos de 100 ms latencias en puntos de referencia de clasificación y resumen estándar.
  • Throughput: Optimizado para alto volumen cargas de trabajo, soportando decenas de miles de solicitudes por minuto sin degradación del rendimiento.
  • Precio-Rendimiento:Demuestra una Reducción del 25% en el coste por cada 1,000 tokens frente a su homólogo Flash, lo que lo convierte en el Óptimo de Pareto Opción para implementaciones sensibles a los costos.
  • Adopción de la industria:Los primeros usuarios informan una integración perfecta en los canales de producción, con métricas de rendimiento que se alinean con las proyecciones iniciales o las superan.

API Flash-Lite de Gemini 2.5


Casos de uso ideales

  • Tareas de alta frecuencia y baja complejidad: Etiquetado automatizado, análisis de sentimientos y traducción masiva
  • Tuberías sensibles a los costos: Extracción de datos de grandes corpus de documentos, resumen periódico de lotes
  • Escenarios móviles y de borde: Cuando la latencia es crítica pero los presupuestos de recursos son limitados

Limitaciones de Gemini 2.5 Flash-Lite

  • Estado de vista previa:Puede sufrir cambios en la API antes del lanzamiento general; las integraciones deben tener en cuenta los posibles cambios de versión.
  • Sin ajustes finos sobre la marcha:No se pueden cargar pesos personalizados; confíe en la ingeniería rápida y los mensajes del sistema.
  • Creatividad reducida:Adaptado para tareas deterministas y de alto rendimiento; menos adecuado para la generación abierta o la escritura “creativa”.
  • Techo de recursos:Se escala linealmente solo hasta ~16 vCPU; más allá de esto, las ganancias de rendimiento disminuyen.
  • Restricciones multimodales:Admite entradas de imagen/audio, pero con fidelidad limitada; no es ideal para tareas pesadas de visión o transcripción de audio.
  • Compensación entre la ventana de contexto :Aunque acepta hasta 1 millón de tokens, la inferencia práctica a esa escala puede ver reducido el rendimiento.

Como llamar Gemini 2.5 Flash-Lite API de CometAPI

Gemini 2.5 Flash Lite Precios de API en CometAPI: 20 % de descuento sobre el precio oficial.

  • Tokens de entrada: $0.08/M tokens
  • Tokens de salida: $0.32/M tokens

Pasos requeridos

  • Inicia sesión en cometapi.comSi aún no eres nuestro usuario, por favor regístrate primero.
  • Obtenga la clave API de credenciales de acceso de la interfaz. Haga clic en "Agregar token" en el token API del centro personal, obtenga la clave del token: sk-xxxxx y envíe.
  • Obtenga la URL de este sitio: https://api.cometapi.com/

Métodos de uso

  1. Seleccione la opción "**gemini-2.5-flash-lite**Punto final para enviar la solicitud de API y configurar el cuerpo de la solicitud. El método y el cuerpo de la solicitud se obtienen de la documentación de la API de nuestro sitio web. Nuestro sitio web también ofrece la prueba de Apifox para su comodidad.
  2. Reemplazar con su clave CometAPI real de su cuenta.
  3. Inserte su pregunta o solicitud en el campo de contenido: esto es lo que responderá el modelo.
  4. . Procesa la respuesta de la API para obtener la respuesta generada.

CometAPI proporciona una API REST totalmente compatible para una migración fluida. Detalles clave para Documento API:

Vea también Géminis 2.5 Pro

Leer Más

500+ Modelos en Una API

Hasta 20% de Descuento