Gemini 2.5 Flash-Lite API

Gemini 2.5 Flash-Lite API 是 Google 混合推理模型家族的最新产品，旨在为高并发、对时延敏感的应用提供无与伦比的成本效益与超低时延。

基本信息与特性

于 2025 年 6 月 17 日以预览版本发布，Flash-Lite 与 Flash 和 Pro 一同完善了 Gemini 2.5 产品线，为开发者提供专注于速度、性价比与自适应思考能力的选项。

你可以在代码中指定 “gemini-2.5-flash-lite” 来开始使用 Gemini 2.5 Flash-Lite。如果你正在使用预览版本，可以切换到 “gemini-2.5-flash-lite”，它与预览版本相同。Google 计划于 8 月 25 日移除 Flash-Lite 的预览别名。


稳定（GA）	`gemini-2.5-flash-lite`	July 22, 2025
实验性预览	`gemini-2.5-flash-lite-06-17`	可用窗口：2025 年 6 月 17 日 – 8 月 25 日
最新版本	`gemini-2.5-flash-lite-preview-09-2025`	09-2025

思考控制：通过 API 参数实现动态思考预算，默认关闭思考以最大化速度并降低成本。
低时延：针对极快的首个 token 输出时间（time-to-first-token）而设计，Flash-Lite 将启动开销降至最低，在标准 Google Cloud 基础设施上实现亚 100 ms 的时延。
高吞吐：借助高效的解码管线，持续输出每秒数百个 token，为聊天机器人与流式应用解锁实时体验。
多模态支持：虽主要针对文本优化，Flash-Lite 也可通过 Gemini API 接收图像、音频与视频输入，支持从文档摘要到轻量级视觉任务等多样场景。

技术细节

自适应推理：Gemini 2.5 Flash-Lite 支持按需思考，仅在需要更深层推理时分配计算资源。
工具集成：与 Gemini 2.5 原生工具完全兼容，包括 Grounding with Google Search、Code Execution、URL Context 与 Function Calling，以实现无缝的多模态工作流。
Model Context Protocol (MCP)：利用 Google 的 MCP 获取实时网页数据，确保响应最新且具备上下文相关性。
部署选项：可通过 CometAPI、Gemini API、Vertex AI 与 Google AI Studio 使用，同时提供预览通道，方便早期用户试用与反馈。

`Gemini 2.5 Flash-Lite` 的基准表现

时延：相较 Gemini 2.5 Flash，中位响应时间最多降低 50%，在标准分类与摘要基准上常见亚 100 ms 时延。
吞吐：针对高容量工作负载优化，可在每分钟数万请求规模下持续稳定运行而不降级。
性价比：相较 Flash，每 1,000 tokens 的成本降低 25%，对于成本敏感的部署是帕累托最优选择。
行业采用：早期用户报告其在生产流水线中平滑集成，性能指标与初始预期一致或更优。

Gemini 2.5 Flash-Lite API

理想使用场景

高频低复杂度任务： 自动标签、情感分析与批量翻译
成本敏感流水线： 大型文档语料的数据抽取、周期性批量摘要
边缘与移动场景： 当时延至关重要且资源预算有限时

`Gemini 2.5 Flash-Lite` 的局限

预览状态：在 GA 前可能发生 API 变更；集成应考虑版本升级的可能。
不支持在线微调：无法上传自定义权重；依赖提示工程与系统消息。
创造性降低：面向确定性、高吞吐任务调优；不太适合开放式生成或“创意”写作。
资源上限：仅在约 ~16 vCPU 以内呈线性扩展；超过该规模吞吐提升减弱。
多模态限制：支持图像/音频输入但保真度有限；不适合重度视觉或音频转写任务。
上下文窗口取舍：尽管可接收最多 1 M tokens，在该规模进行推理时吞吐可能下降。

如何通过 CometAPI 调用 `Gemini 2.5 Flash-Lite` API

Gemini 2.5 Flash-Lite 在 CometAPI 的定价，比官方价优惠 20%：

输入 tokens：$0.08/ M tokens
输出 tokens：$0.32/ M tokens

必要步骤

登录 cometapi.com。如果你还不是用户，请先注册
获取该接口的访问凭证 API key。在个人中心的 API token 处点击 “Add Token”，获取 token key：sk-xxxxx 并提交。
获取本站的 url：https://api.cometapi.com/

使用方法

选择 “gemini-2.5-flash-lite” endpoint 发送 API 请求并设置请求体。请求方法与请求体请从我们网站的 API 文档获取。我们的网站也提供 Apifox 测试以便使用。
将 <YOUR_AIMLAPI_KEY> 替换为你账号中的实际 CometAPI key。
将你的问题或请求填入 content 字段——模型会对其进行回答。
处理 API 响应以获取生成的答案。

CometAPI 提供完全兼容的 REST API——实现无缝迁移。关键细节见 API doc：

Base URL： https://api.cometapi.com/v1/chat/completions
Model Names： “gemini-2.5-flash-lite“
Authentication： Bearer YOUR_CometAPI_API_KEY 头

另见 Gemini 2.5 Pro

基本信息与特性

技术细节

`Gemini 2.5 Flash-Lite` 的基准表现

理想使用场景

`Gemini 2.5 Flash-Lite` 的局限

如何通过 CometAPI 调用 `Gemini 2.5 Flash-Lite` API

Gemini 2.5 Flash-Lite 在 CometAPI 的定价，比官方价优惠 20%：

必要步骤

使用方法

阅读更多

一个 API 中超 500 个模型

Gemini 2.5 Flash-Lite API

基本信息与特性

技术细节

Gemini 2.5 Flash-Lite 的基准表现

理想使用场景

Gemini 2.5 Flash-Lite 的局限

如何通过 CometAPI 调用 Gemini 2.5 Flash-Lite API

Gemini 2.5 Flash-Lite 在 CometAPI 的定价，比官方价优惠 20%：

必要步骤

使用方法

阅读更多

一个 API 中超 500 个模型

`Gemini 2.5 Flash-Lite` 的基准表现

`Gemini 2.5 Flash-Lite` 的局限

如何通过 CometAPI 调用 `Gemini 2.5 Flash-Lite` API