Gemini 2.5 Flash está diseñado para ofrecer respuestas rápidas sin comprometer la calidad del resultado. Admite entradas multimodales, incluidas texto, imágenes, audio y video, lo que lo hace adecuado para diversas aplicaciones. El modelo es accesible a través de plataformas como Google AI Studio y Vertex AI, proporcionando a los desarrolladores las herramientas necesarias para una integración fluida en diversos sistemas.
Gemini 2.5 Flash introduce varias características destacadas que lo distinguen dentro de la familia Gemini 2.5:
Gemini 2.5 Flash ha pasado por las siguientes versiones clave:
Desde julio de 2025, Gemini 2.5 Flash está disponible públicamente y es estable (sin cambios respecto a gemini-2.5-flash-preview-05-20). Si estás usando gemini-2.5-flash-preview-04-17, la tarifa de vista previa existente continuará hasta la retirada programada del endpoint del modelo el 15 de julio de 2025, cuando se cerrará. Puedes migrar al modelo de disponibilidad general "gemini-2.5-flash".
Más rápido, más barato, más inteligente:
Ventana de contexto de entrada: hasta 1 millón de tokens, lo que permite una amplia retención de contexto.
Tokens de salida: capaz de generar hasta 8,192 tokens por respuesta.
Modalidades compatibles: texto, imágenes, audio y video.
Plataformas de integración: disponible a través de Google AI Studio y Vertex AI.
Precios: modelo de precios competitivo basado en tokens, que facilita un despliegue rentable.
Bajo el capó, Gemini 2.5 Flash es un modelo de lenguaje grande basado en transformers, entrenado con una mezcla de datos de la web, código, imágenes y video. Las principales especificaciones técnicas incluyen:
Entrenamiento multimodal: Entrenado para alinear múltiples modalidades, Flash puede combinar sin problemas texto con imágenes, video o audio, útil para tareas como el resumen de video o la descripción de audio.
Proceso de razonamiento dinámico: Implementa un bucle de razonamiento interno en el que el modelo planifica y descompone indicaciones complejas antes de la salida final.
Presupuesto de razonamiento configurable: El thinking_budget se puede establecer desde 0 (sin razonamiento) hasta 24,576 tokens, lo que permite equilibrar latencia y calidad de respuesta.
Integración de herramientas: Admite Grounding with Google Search, Code Execution, URL Context y Function Calling, lo que posibilita acciones del mundo real directamente desde instrucciones en lenguaje natural.
En evaluaciones rigurosas, Gemini 2.5 Flash demuestra rendimiento líder en la industria:
Estos resultados indican la ventaja competitiva de Gemini 2.5 Flash en razonamiento, comprensión científica, resolución de problemas matemáticos, programación, interpretación visual y capacidades multilingües:

| Precio de Comet (USD / M Tokens) | Precio Oficial (USD / M Tokens) |
|---|---|
Entrada:$0.24/M Salida:$2.00/M | Entrada:$0.30/M Salida:$2.50/M |
from google import genai
import os
# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com"
client = genai.Client(
http_options={"api_version": "v1beta", "base_url": BASE_URL},
api_key=COMETAPI_KEY,
)
response = client.models.generate_content(
model="gemini-2.5-flash",
contents="Tell me a three sentence bedtime story about a unicorn.",
)
print(response.text)