La API Flash de Gemini 2.5 es el último modelo de IA multimodal de Google, diseñado para tareas de alta velocidad y rentables con capacidades de razonamiento controlables, lo que permite a los desarrolladores activar o desactivar funciones avanzadas de "pensamiento" a través de la API de Gemini. Los últimos modelos son gemini-2.5-flash.
Descripción general de Gemini 2.5 Flash
Gemini 2.5 Flash está diseñado para ofrecer respuestas rápidas sin comprometer la calidad del resultado. Admite entradas multimodales, como texto, imágenes, audio y vídeo, lo que lo hace ideal para diversas aplicaciones. El modelo es accesible a través de plataformas como Google AI Studio y Vertex AI, lo que proporciona a los desarrolladores las herramientas necesarias para una integración fluida en diversos sistemas.
Información básica (características)
Gemini 2.5 Flash presenta varias novedades destacadas Características que lo distinguen dentro de la familia Gemini 2.5:
- Razonamiento híbrido:Los desarrolladores pueden establecer un presupuesto de pensamiento parámetro para controlar con precisión cuántos tokens dedica el modelo al razonamiento interno antes de la salida.
- Frontera de Pareto: Ubicado en el punto óptimo de relación coste-rendimientoFlash ofrece la mejor relación precio-inteligencia entre 2.5 modelos.
- Soporte multimodal:Procesos texto, imágenes, video e audio de forma nativa, lo que permite capacidades conversacionales y analíticas más ricas.
- Contexto de 1 millón de tokens:La longitud de contexto inigualable permite un análisis profundo y la comprensión de documentos extensos en una sola solicitud.
Control de versiones del modelo
Gemini 2.5 Flash ha pasado por las siguientes claves versiones:
- gemini-2.5-flash-lite-preview-09-2025: Usabilidad mejorada de la herramienta: Rendimiento mejorado en tareas complejas de varios pasos, con un aumento del 5 % en las puntuaciones verificadas de SWE-Bench (del 48.9 % al 54 %). Eficiencia mejorada: Al habilitar el razonamiento, se obtienen resultados de mayor calidad con menos tokens, lo que reduce la latencia y los costos.
- Vista previa 04-17: Versión de acceso anticipado con capacidad de "pensamiento", disponible a través de Vista previa de flash de Gemini 2.5, 04 de abril.
- Disponibilidad general estable (GA):A partir del 17 de junio de 2025, el punto final estable geminis-2.5-flash reemplaza la vista previa, lo que garantiza una confiabilidad de nivel de producción sin cambios de API desde la vista previa del 20 de mayo.
- Desuso de la vista previaLos puntos finales de vista previa estaban programados para apagarse el 15 de julio de 2025; los usuarios deben migrar al punto final de GA antes de esta fecha.
A partir de julio de 2025, Gemini 2.5 Flash ya está disponible públicamente y es estable (sin cambios desde la Vista previa de flash de Gemini 2.5, 05 de abril ).Si estas usando gemini-2.5-flash-preview-04-17El precio de la versión preliminar actual se mantendrá hasta la retirada programada del punto final del modelo el 15 de julio de 2025, fecha en la que se desactivará. Puede migrar al modelo de disponibilidad general.gemini-2.5-flash".
Más rápido, más barato, más inteligente:
- Objetivos de diseño: baja latencia + alto rendimiento + bajo costo;
- Aceleración general en el razonamiento, procesamiento multimodal y tareas de textos largos;
- El uso de tokens se reduce entre un 20 y un 30 %, lo que reduce significativamente los costos de razonamiento.
Especificaciones técnicas
Ventana de contexto de entrada: hasta 1 millón de tokens, lo que permite una amplia retención de contexto.
Tokens de salida: capaz de generar hasta 8,192 tokens por respuesta.
Modalidades admitidas: Texto, imágenes, audio y vídeo.
Plataformas de integración: disponibles a través de Google AI Studio y Vertex AI.
Precios: Modelo de precios competitivo basado en tokens, que facilita una implementación rentable.
Detalles técnicos
Bajo el capó, Gemini 2.5 Flash es un basado en transformador Modelo de lenguaje grande entrenado con una combinación de datos web, de código, de imágenes y de vídeo. Clave técnico las especificaciones incluyen:
Entrenamiento multimodalFlash está capacitado para alinear múltiples modalidades y puede mezclar texto sin problemas. imágenes, video o audio, útil para tareas como resúmenes de videos o subtítulos de audio.
Proceso de pensamiento dinámico:Implementa un bucle de razonamiento interno donde el modelo planes y descompone indicaciones complejas Antes de la salida final.
Presupuestos de pensamiento configurable: Los presupuesto de pensamiento se puede configurar desde 0 (sin razonamiento) hasta Tokens 24,576, permitiendo compensaciones entre latencia y calidad de respuesta.
Integración de herramientas: Apoya Conexión a tierra con la Búsqueda de Google, Ejecución de código, Contexto de URL e Llamada de función, lo que permite realizar acciones del mundo real directamente a partir de indicaciones en lenguaje natural.
Rendimiento de referencia
En evaluaciones rigurosas, Gemini 2.5 Flash demuestra líderes en la industria actuación:
- Indicaciones difíciles de LMArena: Anotado Solo superado por el 2.5 Pro en el desafiante punto de referencia Hard Prompts, mostrando fuertes capacidades de razonamiento de múltiples pasos.
- Puntuación MMLU de 0.809:Supera el rendimiento promedio del modelo con un 0.809 La precisión de MMLU refleja su amplio conocimiento del dominio y su capacidad de razonamiento.
- Latencia y rendimiento: Logra 271.4 tokens/seg velocidad de decodificación con una 0.29 s Tiempo hasta el primer token, lo que lo hace ideal para cargas de trabajo sensibles a la latencia.
- Líder en relación precio-rendimiento: En $0.26/1 millón de tokensFlash supera a muchos competidores al tiempo que los iguala o los supera en puntos de referencia clave.
Estos resultados indican la ventaja competitiva de Gemini 2.5 Flash en razonamiento, comprensión científica, resolución de problemas matemáticos, codificación, interpretación visual y capacidades multilingües:

Limitaciones
Si bien es potente, Gemini 2.5 Flash tiene ciertas limitaciones:
- Riesgos de seguridad:El modelo puede exhibir una tono “predicador” y puede producir resultados aparentemente plausibles, pero incorrectos o sesgados (alucinaciones), sobre todo en consultas de casos extremos. La supervisión humana rigurosa sigue siendo esencial.
- Límites de tarifa:El uso de la API está restringido por límites de velocidad (10 RPM, 250,000 250 TPM, XNUMX RPD en niveles predeterminados), lo que puede afectar el procesamiento por lotes o las aplicaciones de gran volumen.
- Piso de inteligencia:Si bien es excepcionalmente capaz para un flash modelo, sigue siendo menos preciso que 2.5 Pro en las tareas de agencia más exigentes, como codificación avanzada o coordinación de múltiples agentes.
- Compensaciones de costos:Aunque ofrecemos lo mejor precio-rendimiento, uso extensivo de la pensando El modo aumenta el consumo general de tokens, lo que incrementa los costos de las indicaciones de razonamiento profundo.
Vea también API de Gemini 2.5 Pro
Conclusión
Gemini 2.5 Flash demuestra el compromiso de Google con el avance de las tecnologías de IA. Gracias a su sólido rendimiento, sus capacidades multimodales y su eficiente gestión de recursos, ofrece una solución integral para desarrolladores y organizaciones que buscan aprovechar el potencial de la inteligencia artificial en sus operaciones.
Como llamar Gemini 2.5 Flash API de CometAPI
Gemini 2.5 Flash Precios de API en CometAPI: 20 % de descuento sobre el precio oficial.
- Tokens de entrada: $0.24/M tokens
- Tokens de salida: $0.96/M tokens
Pasos requeridos
- Inicia sesión en cometapi.comSi aún no eres nuestro usuario, por favor regístrate primero.
- Obtenga la clave API de credenciales de acceso de la interfaz. Haga clic en "Agregar token" en el token API del centro personal, obtenga la clave del token: sk-xxxxx y envíe.
- Obtenga la URL de este sitio: https://api.cometapi.com/
Métodos de uso
- Seleccione la opción "**
gemini-2.5-flash**Punto final para enviar la solicitud de API y configurar el cuerpo de la solicitud. El método y el cuerpo de la solicitud se obtienen de la documentación de la API de nuestro sitio web. Nuestro sitio web también ofrece la prueba de Apifox para su comodidad. - Reemplazar con su clave CometAPI real de su cuenta.
- Inserte su pregunta o solicitud en el campo de contenido: esto es lo que responderá el modelo.
- . Procesa la respuesta de la API para obtener la respuesta generada.
Para obtener información sobre el modelo publicado en Comet API, consulte https://api.cometapi.com/new-model.
Para obtener información sobre el precio del modelo en Comet API, consulte https://api.cometapi.com/pricing.
Ejemplo de uso de API
Los desarrolladores pueden interactuar con geminis-2.5-flash A través de la API de CometAPI, lo que permite la integración con diversas aplicaciones. A continuación, se muestra un ejemplo de Python:
import os
from openai import OpenAI
client = OpenAI(
base_url="
https://api.cometapi.com/v1/chat/completions",
api_key="<YOUR_API_KEY>",
)
response = openai.ChatCompletion.create(
model="gemini-2.5-flash",
messages=[
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Explain the concept of quantum entanglement."}
]
)
print(response)
Este script envía un mensaje al Gemini 2.5 Flash modela e imprime la respuesta generada, demostrando cómo utilizarla Gemini 2.5 Flash para explicaciones complejas.



