Gemini 2.5 Flash est conçu pour fournir des réponses rapides sans compromettre la qualité des résultats. Il prend en charge des entrées multimodales, notamment le texte, les images, l’audio et la vidéo, ce qui le rend adapté à des applications variées. Le modèle est accessible via des plateformes comme Google AI Studio et Vertex AI, offrant aux développeurs les outils nécessaires pour une intégration fluide dans divers systèmes.
Gemini 2.5 Flash introduit plusieurs fonctionnalités phares qui le distinguent au sein de la famille Gemini 2.5 :
Gemini 2.5 Flash a évolué à travers les versions clés suivantes :
Depuis juillet 2025, Gemini 2.5 Flash est désormais disponible publiquement et stable (aucun changement par rapport à gemini-2.5-flash-preview-05-20). Si vous utilisez gemini-2.5-flash-preview-04-17, la tarification de préversion existante se poursuivra jusqu’à la mise hors service programmée de l’endpoint du modèle le 15 juillet 2025, date à laquelle il sera arrêté. Vous pouvez migrer vers le modèle en disponibilité générale "gemini-2.5-flash".
Plus rapide, moins cher, plus intelligent :
Fenêtre de contexte en entrée : jusqu’à 1 million de tokens, permettant une rétention de contexte étendue.
Tokens en sortie : capable de générer jusqu’à 8,192 tokens par réponse.
Modalités prises en charge : texte, images, audio et vidéo.
Plateformes d’intégration : disponible via Google AI Studio et Vertex AI.
Tarification : modèle tarifaire compétitif basé sur les tokens, facilitant des déploiements économiques.
Sous le capot, Gemini 2.5 Flash est un grand modèle de langage basé sur des transformeurs, entraîné sur un mélange de données web, de code, d’images et de vidéos. Les principales spécifications techniques incluent :
Entraînement multimodal : Conçu pour aligner plusieurs modalités, Flash peut mêler de façon fluide du texte avec des images, de la vidéo ou de l’audio, utile pour des tâches comme le résumé vidéo ou le sous-titrage audio.
Processus de réflexion dynamique : Met en œuvre une boucle de raisonnement interne où le modèle planifie et décompose des invites complexes avant la sortie finale.
Budgets de réflexion configurables : Le thinking_budget peut être défini de 0 (aucun raisonnement) jusqu’à 24,576 tokens, permettant des arbitrages entre latence et qualité de réponse.
Intégration d’outils : Prend en charge Grounding with Google Search, Code Execution, URL Context et Function Calling, permettant des actions réelles directement à partir d’invites en langage naturel.
Dans des évaluations rigoureuses, Gemini 2.5 Flash démontre des performances de premier plan dans l’industrie :
Ces résultats indiquent l’avantage concurrentiel de Gemini 2.5 Flash en matière de raisonnement, de compréhension scientifique, de résolution de problèmes mathématiques, de programmation, d’interprétation visuelle et de capacités multilingues :

Bien que puissant, Gemini 2.5 Flash présente certaines limitations :
| Prix de Comet (USD / M Tokens) | Prix officiel (USD / M Tokens) |
|---|---|
Entrée:$0.24/M Sortie:$2.00/M | Entrée:$0.30/M Sortie:$2.50/M |
from google import genai
import os
# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com"
client = genai.Client(
http_options={"api_version": "v1beta", "base_url": BASE_URL},
api_key=COMETAPI_KEY,
)
response = client.models.generate_content(
model="gemini-2.5-flash",
contents="Tell me a three sentence bedtime story about a unicorn.",
)
print(response.text)