模型支持企业博客
500+ AI 模型 API,一次搞定,就在 CometAPI
模型 API
开发者
快速入门文档API 仪表板
资源
AI 模型博客企业更新日志关于
2025 CometAPI。保留所有权利。隐私政策服务条款
Home/Models/Google/Gemini 2.5 Flash Lite
G

Gemini 2.5 Flash Lite

输入:$0.08/M
输出:$0.32/M
上下文:1M
最大输出:65K
一款为高性价比与高吞吐量优化的 Gemini 2.5 Flash 模型。最小、最具性价比的模型,专为大规模使用而构建。
新
商用
Playground
概览
功能亮点
定价
API
版本

Technical Details

  • Adaptive Reasoning: Gemini 2.5 Flash-Lite supports on-demand thinking, allowing developers to allocate compute resources only when deeper reasoning is required.
  • Tool Integrations: Full compatibility with Gemini 2.5’s native tools, including Grounding with Google Search, Code Execution, URL Context, and Function Calling for seamless multimodal workflows.
  • Model Context Protocol (MCP): Leverages Google’s MCP to fetch real-time web data, ensuring responses are up-to-date and contextually relevant.
  • Deployment Options: Available through the CometAPI, Gemini API, Vertex AI, and Google AI Studio, with a preview track for early adopters to experiment and provide feedback .

Benchmark Performance of Gemini 2.5 Flash-Lite

  • Latency: Achieves up to 50% lower median response times compared to Gemini 2.5 Flash, with typical sub-100 ms latencies on standard classification and summarization benchmarks.
  • Throughput: Optimized for high-volume workloads, sustaining tens of thousands of requests per minute without degradation in performance.
  • Price-Performance: Demonstrates a 25% reduction in cost per 1,000 tokens versus its Flash counterpart, making it the Pareto-optimal choice for cost-sensitive deployments.
  • Industry Adoption: Early users report seamless integration into production pipelines, with performance metrics aligning with or exceeding initial projections .

Gemini 2.5 Flash Lite


Ideal Use Cases

  • High-Frequency, Low-Complexity Tasks: Automated tagging, sentiment analysis, and bulk translation
  • Cost-Sensitive Pipelines: Data extraction from large document corpora, periodic batch summarization
  • Edge and Mobile Scenarios: When latency is critical but resource budgets are limited

Limitations of Gemini 2.5 Flash-Lite

  • Preview Status: May undergo API changes before GA; integrations should account for possible version bumps.
  • No On-the-Fly Fine-Tuning: Cannot upload custom weights; rely on prompt engineering and system messages.
  • Reduced Creativity: Tuned for deterministic, high-throughput tasks; less suited for open-ended generation or “creative” writing.
  • Resource Ceiling: Scales linearly only up to ~16 vCPUs; beyond this, throughput gains diminish.
  • Multimodal Constraints: Supports image/audio inputs but with limited fidelity; not ideal for heavy vision or audio transcription tasks.
  • Context-Window Trade-Off : Although it accepts up to 1 M tokens, practical inference at that scale may see degraded throughput.

Gemini 2.5 Flash Lite 的功能

了解 Gemini 2.5 Flash Lite 的核心能力,帮助提升性能与可用性,并改善整体体验。

Gemini 2.5 Flash Lite 的定价

查看 Gemini 2.5 Flash Lite 的竞争性定价,满足不同预算与使用需求,灵活方案确保随需求扩展。
model nameInput ($/1M)Output ($/1M)
gemini-2.5-flash-lite0.080.32
gemini-2.5-flash-lite-preview-06-170.080.32
gemini-2.5-flash-lite-thinking0.080.32
gemini-2.5-flash-lite-preview-06-17-thinking0.080.32
gemini-2.5-flash-lite-preview-09-20250.080.32

Gemini 2.5 Flash Lite 的示例代码与 API

获取完整示例代码与 API 资源,简化 Gemini 2.5 Flash Lite 的集成流程,我们提供逐步指导,助你发挥模型潜能。
POST
/v1beta/models/{model}:{operator}
POST
/v1/chat/completions

Gemini 2.5 Flash Lite 的版本

Gemini 2.5 Flash Lite 可能存在多个快照,原因包括:更新后保持一致性需要保留旧版、给开发者留出迁移窗口,以及全球/区域端点提供的优化差异。具体差异请参考官方文档。
version
gemini-2.5-flash-lite
gemini-2.5-flash-lite-preview-09-2025
gemini-2.5-flash-lite-preview-06-17
gemini-2.5-flash-lite-preview-06-17-thinking
gemini-2.5-flash-lite-thinking

更多模型

A

Claude Opus 4.6

输入:$4/M
输出:$20/M
Claude Opus 4.6 是 Anthropic 的“Opus”级大型语言模型,于 2026 年 2 月发布。其定位为知识工作与研究工作流的主力模型——提升长上下文推理、多步骤规划、工具使用(包括代理型软件工作流),以及计算机使用类任务,如自动生成幻灯片和电子表格。
A

Claude Sonnet 4.6

输入:$2.4/M
输出:$12/M
Claude Sonnet 4.6 是迄今为止我们最强大的 Sonnet 模型。它对模型在编码、计算机使用、长上下文推理、智能体规划、知识工作和设计等方面的能力进行了全面升级。Sonnet 4.6 还在 beta 阶段提供 1M token 上下文窗口。
O

GPT-5.4 nano

输入:$0.16/M
输出:$1/M
GPT-5.4 nano 专为速度和成本最为关键的任务而设计,例如分类、数据提取、排序以及子智能体。
O

GPT-5.4 mini

输入:$0.6/M
输出:$3.6/M
GPT-5.4 mini 将 GPT-5.4 的优势融入到一款更快速、更高效、专为大规模工作负载设计的模型中。
A

Claude Mythos Preview

A

Claude Mythos Preview

即将推出
输入:$60/M
输出:$240/M
Claude Mythos Preview 是我们迄今为止最强大的前沿模型,并显示出 在许多评测基准上的得分相较于我们此前的前沿模型 Claude Opus 4.6 有显著跃升。
X

mimo-v2-pro

输入:$0.8/M
输出:$2.4/M
MiMo-V2-Pro 是 Xiaomi 的旗舰基础模型,拥有超过 1T 的总参数量和 1M 的上下文长度,并针对智能体场景进行了深度优化。它对 OpenClaw 等通用智能体框架具有很强的适配性。在标准 PinchBench 和 ClawBench 基准测试中,它跻身全球第一梯队,感知性能接近 Opus 4.6。MiMo-V2-Pro 旨在作为智能体系统的大脑,协调复杂工作流,推动生产工程任务,并可靠地交付结果。

相关博客

免费版 Gemini 2.5 Pro API 是否出现故障?2025 年免费配额的变更
Dec 11, 2025
gemini-2-5-pro
gemini-2-5-flash

免费版 Gemini 2.5 Pro API 是否出现故障?2025 年免费配额的变更

Google 已大幅收紧 Gemini API 的免费层:Gemini 2.5 Pro 已从免费层移除,Gemini 2.5 Flash 的每日免费请求被大幅削减(据报道:~250 → ~20/天)。这并不意味着该模型在实验用途上已永久“死掉”,但这确实意味着对于许多现实世界的用例,免费访问实际上已被大幅削弱。