Name: Gemini 2.5 Flash Lite
Price: 0.08 USD
Availability: InStock

Détails techniques

Raisonnement adaptatif: Gemini 2.5 Flash-Lite prend en charge la réflexion à la demande, ce qui permet aux développeurs d’allouer des ressources de calcul uniquement lorsqu’un raisonnement plus approfondi est requis.
Intégrations d’outils: Compatibilité totale avec les outils natifs de Gemini 2.5, y compris Grounding with Google Search, Code Execution, URL Context et Function Calling pour des flux multimodaux fluides.
Model Context Protocol (MCP): S’appuie sur le MCP de Google pour récupérer des données web en temps réel, garantissant des réponses à jour et contextuellement pertinentes.
Options de déploiement: Disponible via la CometAPI, la Gemini API, Vertex AI et Google AI Studio, avec un canal de préversion pour permettre aux adoptants précoces d’expérimenter et de fournir des retours .

Performances de référence de `Gemini 2.5 Flash-Lite`

Latence: Atteint jusqu’à 50 % de réduction du temps de réponse médian par rapport à Gemini 2.5 Flash, avec des latences typiques inférieures à 100 ms sur des benchmarks standard de classification et de synthèse.
Débit: Optimisé pour des charges à haut volume, soutenant des dizaines de milliers de requêtes par minute sans dégradation des performances.
Rapport prix-performance: Affiche une réduction de 25 % du coût par 1,000 jetons par rapport à sa variante Flash, ce qui en fait le choix optimal au sens de Pareto pour les déploiements sensibles aux coûts.
Adoption par l’industrie: Les premiers utilisateurs signalent une intégration transparente dans les pipelines de production, avec des métriques de performance s’alignant sur ou dépassant les projections initiales .

Gemini 2.5 Flash Lite

Tâches à haute fréquence et faible complexité: Étiquetage automatisé, analyse de sentiment et traduction en masse
Pipelines sensibles aux coûts: Extraction de données depuis de grands corpus de documents, synthèse par lots périodique
Scénarios en périphérie et sur mobile: Lorsque la latence est critique mais que les budgets de ressources sont limités

Statut de préversion: Peut subir des changements d’API avant la GA ; les intégrations doivent tenir compte de possibles montées de version.
Pas de fine-tuning à la volée: Impossible de téléverser des poids personnalisés ; s’appuyer sur l’ingénierie de prompt et les messages système.
Créativité réduite: Ajusté pour des tâches déterministes à haut débit ; moins adapté à la génération ouverte ou à l’écriture « créative ».
Plafond de ressources: Évolue linéairement seulement jusqu’à ~16 vCPUs ; au-delà, les gains de débit diminuent.
Contraintes multimodales: Prend en charge les entrées image/audio mais avec une fidélité limitée ; pas idéal pour des tâches de vision lourdes ou de transcription audio.
Compromis lié à la fenêtre de contexte: Bien qu’il accepte jusqu’à 1 M jetons, l’inférence pratique à cette échelle peut afficher un débit dégradé.

model name	Input ($/1M)	Output ($/1M)
gemini-2.5-flash-lite	0.08	0.32
gemini-2.5-flash-lite-preview-06-17	0.08	0.32
gemini-2.5-flash-lite-thinking	0.08	0.32
gemini-2.5-flash-lite-preview-06-17-thinking	0.08	0.32
gemini-2.5-flash-lite-preview-09-2025	0.08	0.32