Gemini 2.5 Flash est conçu pour fournir des réponses rapides sans compromettre la qualité des résultats. Il prend en charge des entrées multimodales, notamment le texte, les images, l’audio et la vidéo, ce qui le rend adapté à des applications diverses. Le modèle est accessible via des plateformes comme Google AI Studio et Vertex AI, offrant aux développeurs les outils nécessaires pour une intégration fluide dans différents systèmes.

Informations de base (Fonctionnalités)

Gemini 2.5 Flash introduit plusieurs fonctionnalités marquantes qui le distinguent au sein de la famille Gemini 2.5 :

Raisonnement hybride : Les développeurs peuvent définir un paramètre thinking_budget pour contrôler finement le nombre de jetons que le modèle consacre au raisonnement interne avant la sortie.
Frontière de Pareto: Positionné au point coût/performances optimal, Flash offre le meilleur rapport prix/intelligence parmi les modèles 2.5.
Prise en charge multimodale : Traite nativement le texte, les images, la vidéo et l’audio, permettant des capacités conversationnelles et analytiques plus riches.
Contexte de 1 million de jetons : Une longueur de contexte inégalée permet une analyse approfondie et la compréhension de longs documents en une seule requête.

Gestion des versions du modèle

Gemini 2.5 Flash a évolué à travers les versions clés suivantes :

gemini-2.5-flash-lite-preview-09-2025 : Amélioration de l’ergonomie des outils : meilleures performances sur des tâches complexes et multi-étapes, avec une augmentation de 5 % des scores SWE-Bench Verified (de 48.9 % à 54 %). Efficacité accrue : en activant le raisonnement, une qualité de sortie supérieure est obtenue avec moins de jetons, réduisant la latence et les coûts.
Preview 04-17 : Version d’accès anticipé avec la fonctionnalité « thinking », disponible via gemini-2.5-flash-preview-04-17.
Stable General Availability (GA) : À compter du 17 juin 2025, l’endpoint stable gemini-2.5-flash remplace la version d’aperçu, garantissant une fiabilité de niveau production sans changement d’API par rapport à l’aperçu du 20 mai.
Dépréciation de la version d’aperçu : Les endpoints d’aperçu étaient programmés pour être arrêtés le 15 juillet 2025 ; les utilisateurs doivent migrer vers l’endpoint GA avant cette date.

Depuis juillet 2025, Gemini 2.5 Flash est désormais public et stable (aucune modification par rapport à gemini-2.5-flash-preview-05-20). Si vous utilisez gemini-2.5-flash-preview-04-17, la tarification d’aperçu existante se poursuivra jusqu’à la mise hors service planifiée de l’endpoint du modèle le 15 juillet 2025. Vous pouvez migrer vers le modèle en disponibilité générale « gemini-2.5-flash ».

Plus rapide, moins cher, plus intelligent :

Objectifs de conception : faible latence + haut débit + faible coût ;
Accélération globale du raisonnement, du traitement multimodal et des tâches sur textes longs ;
L’usage de jetons est réduit de 20–30 %, ce qui diminue significativement les coûts de raisonnement.

Caractéristiques techniques

Fenêtre de contexte en entrée : jusqu’à 1 million de jetons, permettant une rétention de contexte étendue.

Jetons en sortie : capable de générer jusqu’à 8,192 jetons par réponse.

Modalités prises en charge : texte, images, audio et vidéo.

Plateformes d’intégration : disponible via Google AI Studio et Vertex AI.

Tarification : modèle compétitif basé sur les jetons, facilitant un déploiement économique.

Détails techniques

Sous le capot, Gemini 2.5 Flash est un grand modèle de langage basé sur un transformer, entraîné sur un mélange de données web, de code, d’images et de vidéos. Les principales spécifications techniques incluent :

Entraînement multimodal : Entraîné à aligner plusieurs modalités, Flash peut mêler de façon fluide le texte avec des images, de la vidéo ou de l’audio, utile pour des tâches comme la synthèse vidéo ou la légendation audio.

Processus de raisonnement dynamique : Met en œuvre une boucle de raisonnement interne où le modèle planifie et décompose les invites complexes avant la sortie finale.

Budgets de réflexion configurables : Le thinking_budget peut être défini de 0 (aucun raisonnement) jusqu’à 24,576 jetons, permettant d’arbitrer entre latence et qualité de réponse.

Intégration d’outils : Prend en charge Grounding with Google Search, Exécution de code, Contexte URL et Appel de fonctions, permettant des actions réelles directement à partir d’invites en langage naturel.

Performances de référence

Dans des évaluations rigoureuses, Gemini 2.5 Flash montre des performances de pointe :

LMArena Hard Prompts : Classé deuxième seulement derrière 2.5 Pro sur le benchmark Hard Prompts, démontrant de fortes capacités de raisonnement multi-étapes.
Score MMLU de 0.809 : Dépasse la performance moyenne des modèles avec une précision MMLU de 0.809, reflétant une vaste connaissance des domaines et une solide capacité de raisonnement.
Latence et débit : Atteint une vitesse de décodage de 271.4 jetons/s avec un Time-to-First-Token de 0.29 s, ce qui le rend idéal pour les charges sensibles à la latence.
Leader prix/performances : À \$0.26/1 M tokens, Flash devance de nombreux concurrents tout en les égalant ou les surpassant sur des benchmarks clés.

Ces résultats indiquent l’avantage concurrentiel de Gemini 2.5 Flash en matière de raisonnement, de compréhension scientifique, de résolution de problèmes mathématiques, de programmation, d’interprétation visuelle et de capacités multilingues.

Limitations

Bien que puissant, Gemini 2.5 Flash présente certaines limitations :

Risques de sécurité : Le modèle peut adopter un ton moralisateur et produire des sorties plausibles mais incorrectes ou biaisées (hallucinations), en particulier sur des requêtes limites. Une supervision humaine rigoureuse reste essentielle.
Limites de débit : L’utilisation de l’API est contrainte par des limites (10 RPM, 250,000 TPM, 250 RPD sur les niveaux par défaut), ce qui peut affecter le traitement par lots ou les applications à fort volume.
Plancher d’intelligence : Bien que particulièrement performant pour un modèle Flash, il reste moins précis que 2.5 Pro sur les tâches agentiques les plus exigeantes, comme le codage avancé ou la coordination multi-agents.
Compromis de coût : Bien qu’offrant le meilleur rapport prix/performance, l’usage intensif du mode thinking augmente la consommation globale de jetons, faisant grimper les coûts pour les invites nécessitant un raisonnement poussé.

Tarification pour Gemini 2.5 Flash

Découvrez des tarifs compétitifs pour Gemini 2.5 Flash, conçus pour s'adapter à différents budgets et besoins d'utilisation. Nos formules flexibles garantissent que vous ne payez que ce que vous utilisez, ce qui facilite l'adaptation à mesure que vos besoins évoluent. Découvrez comment Gemini 2.5 Flash peut améliorer vos projets tout en maîtrisant les coûts.

gemini-2.5-flash (same price across variants)

Model family	Variant (model name)	Input price (USD / 1M tokens)	Output price (USD / 1M tokens)
gemini-2.5-flash	gemini-2.5-flash-thinking	$0.24	$2.00
gemini-2.5-flash	gemini-2.5-flash-all	$0.24	$2.00
gemini-2.5-flash	gemini-2.5-flash	$0.24	$2.00

Exemple de code et API pour Gemini 2.5 Flash

L’API Gemini 2.5 Flash est le tout dernier modèle d’IA multimodal de Google, conçu pour des tâches à haute vitesse et à coût optimisé, doté de capacités de raisonnement contrôlables, permettant aux développeurs d’activer ou de désactiver des fonctionnalités de « réflexion » avancées via l’API Gemini.

Python
JavaScript
Curl

from google import genai
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com"

client = genai.Client(
    http_options={"api_version": "v1beta", "base_url": BASE_URL},
    api_key=COMETAPI_KEY,
)

response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents="Tell me a three sentence bedtime story about a unicorn.",
)

print(response.text)

Versions de Gemini 2.5 Flash

La raison pour laquelle Gemini 2.5 Flash dispose de plusieurs instantanés peut inclure des facteurs potentiels tels que des variations de sortie après des mises à jour nécessitant des instantanés plus anciens pour la cohérence, offrant aux développeurs une période de transition pour l'adaptation et la migration, et différents instantanés correspondant à des points de terminaison globaux ou régionaux pour optimiser l'expérience utilisateur. Pour les différences détaillées entre les versions, veuillez consulter la documentation officielle.

version
gemini-2.5-flash-all
gemini-2.5-flash-deepsearch
gemini-2.5-flash-lite-preview-06-17-thinking
gemini-2.5-flash-lite
gemini-2.5-flash-lite-preview-09-2025
gemini-2.5-flash-image
gemini-2.5-flash-lite-preview-06-17
gemini-2.5-flash-preview-05-20
gemini-2.5-flash-lite-thinking
gemini-2.5-flash
gemini-2.5-flash-image-preview
gemini-2.5-flash-preview-04-17
gemini-2.5-flash-preview-09-2025
gemini-2.5-flash-thinking

Informations de base (Fonctionnalités)

Gemini 2.5 Flash introduit plusieurs fonctionnalités marquantes qui le distinguent au sein de la famille Gemini 2.5 :

Raisonnement hybride : Les développeurs peuvent définir un paramètre thinking_budget pour contrôler finement le nombre de jetons que le modèle consacre au raisonnement interne avant la sortie.
Frontière de Pareto: Positionné au point coût/performances optimal, Flash offre le meilleur rapport prix/intelligence parmi les modèles 2.5.
Prise en charge multimodale : Traite nativement le texte, les images, la vidéo et l’audio, permettant des capacités conversationnelles et analytiques plus riches.
Contexte de 1 million de jetons : Une longueur de contexte inégalée permet une analyse approfondie et la compréhension de longs documents en une seule requête.

Gestion des versions du modèle

Gemini 2.5 Flash a évolué à travers les versions clés suivantes :

gemini-2.5-flash-lite-preview-09-2025 : Amélioration de l’ergonomie des outils : meilleures performances sur des tâches complexes et multi-étapes, avec une augmentation de 5 % des scores SWE-Bench Verified (de 48.9 % à 54 %). Efficacité accrue : en activant le raisonnement, une qualité de sortie supérieure est obtenue avec moins de jetons, réduisant la latence et les coûts.
Preview 04-17 : Version d’accès anticipé avec la fonctionnalité « thinking », disponible via gemini-2.5-flash-preview-04-17.
Stable General Availability (GA) : À compter du 17 juin 2025, l’endpoint stable gemini-2.5-flash remplace la version d’aperçu, garantissant une fiabilité de niveau production sans changement d’API par rapport à l’aperçu du 20 mai.
Dépréciation de la version d’aperçu : Les endpoints d’aperçu étaient programmés pour être arrêtés le 15 juillet 2025 ; les utilisateurs doivent migrer vers l’endpoint GA avant cette date.

Plus rapide, moins cher, plus intelligent :

Objectifs de conception : faible latence + haut débit + faible coût ;
Accélération globale du raisonnement, du traitement multimodal et des tâches sur textes longs ;
L’usage de jetons est réduit de 20–30 %, ce qui diminue significativement les coûts de raisonnement.

Caractéristiques techniques

Fenêtre de contexte en entrée : jusqu’à 1 million de jetons, permettant une rétention de contexte étendue.

Jetons en sortie : capable de générer jusqu’à 8,192 jetons par réponse.

Modalités prises en charge : texte, images, audio et vidéo.

Plateformes d’intégration : disponible via Google AI Studio et Vertex AI.

Tarification : modèle compétitif basé sur les jetons, facilitant un déploiement économique.

Détails techniques

Processus de raisonnement dynamique : Met en œuvre une boucle de raisonnement interne où le modèle planifie et décompose les invites complexes avant la sortie finale.

Performances de référence

Dans des évaluations rigoureuses, Gemini 2.5 Flash montre des performances de pointe :

LMArena Hard Prompts : Classé deuxième seulement derrière 2.5 Pro sur le benchmark Hard Prompts, démontrant de fortes capacités de raisonnement multi-étapes.
Score MMLU de 0.809 : Dépasse la performance moyenne des modèles avec une précision MMLU de 0.809, reflétant une vaste connaissance des domaines et une solide capacité de raisonnement.
Latence et débit : Atteint une vitesse de décodage de 271.4 jetons/s avec un Time-to-First-Token de 0.29 s, ce qui le rend idéal pour les charges sensibles à la latence.
Leader prix/performances : À \$0.26/1 M tokens, Flash devance de nombreux concurrents tout en les égalant ou les surpassant sur des benchmarks clés.

Limitations

Bien que puissant, Gemini 2.5 Flash présente certaines limitations :

Risques de sécurité : Le modèle peut adopter un ton moralisateur et produire des sorties plausibles mais incorrectes ou biaisées (hallucinations), en particulier sur des requêtes limites. Une supervision humaine rigoureuse reste essentielle.
Limites de débit : L’utilisation de l’API est contrainte par des limites (10 RPM, 250,000 TPM, 250 RPD sur les niveaux par défaut), ce qui peut affecter le traitement par lots ou les applications à fort volume.
Plancher d’intelligence : Bien que particulièrement performant pour un modèle Flash, il reste moins précis que 2.5 Pro sur les tâches agentiques les plus exigeantes, comme le codage avancé ou la coordination multi-agents.
Compromis de coût : Bien qu’offrant le meilleur rapport prix/performance, l’usage intensif du mode thinking augmente la consommation globale de jetons, faisant grimper les coûts pour les invites nécessitant un raisonnement poussé.

Gemini 2.5 Flash

Plus de modèles

Claude Opus 4.7

Claude Sonnet 4.6

GPT 5.5 Pro

GPT 5.5

GPT Image 2 ALL

GPT 5.5 ALL

Blogs connexes

Nano Banana 2 Flash Prochainement – L’évolution ultrarapide de la génération d’images par IA

Réductions Nano Banana : de vraies économies en 2026 pour les développeurs

L'API Gemini 2.5 Pro gratuite est-elle hors service ? Modifications du quota gratuit en 2025

Guide ultime de la nano-banane : comment l'utiliser et obtenir les meilleurs résultats

Comment utiliser Nano Banana via l'API ? (Gemini-2-5-flash-image)