Gemini 2.5 Flash-Lite API

CometAPI
AnnaJun 26, 2025
Gemini 2.5 Flash-Lite API

Gemini 2.5 Flash-Lite API 是 Google 混合推理模型家族的最新产品,旨在为高并发、对时延敏感的应用提供无与伦比的成本效益超低时延


基本信息与特性

于 2025 年 6 月 17 日以预览版本发布,Flash-Lite 与 Flash 和 Pro 一同完善了 Gemini 2.5 产品线,为开发者提供专注于速度性价比自适应思考能力的选项。

你可以在代码中指定 “gemini-2.5-flash-lite” 来开始使用 Gemini 2.5 Flash-Lite。如果你正在使用预览版本,可以切换到 “gemini-2.5-flash-lite”,它与预览版本相同。Google 计划于 8 月 25 日移除 Flash-Lite 的预览别名。

稳定(GA)gemini-2.5-flash-liteJuly 22, 2025
实验性预览gemini-2.5-flash-lite-06-17可用窗口:2025 年 6 月 17 日 – 8 月 25 日
最新版本gemini-2.5-flash-lite-preview-09-202509-2025
  • 思考控制:通过 API 参数实现动态思考预算,默认关闭思考以最大化速度并降低成本。
  • 低时延:针对极快的首个 token 输出时间(time-to-first-token)而设计,Flash-Lite 将启动开销降至最低,在标准 Google Cloud 基础设施上实现亚 100 ms 的时延。
  • 高吞吐:借助高效的解码管线,持续输出每秒数百个 token,为聊天机器人与流式应用解锁实时体验。
  • 多模态支持:虽主要针对文本优化,Flash-Lite 也可通过 Gemini API 接收图像音频视频输入,支持从文档摘要到轻量级视觉任务等多样场景。

技术细节

  • 自适应推理Gemini 2.5 Flash-Lite 支持按需思考,仅在需要更深层推理时分配计算资源。
  • 工具集成:与 Gemini 2.5 原生工具完全兼容,包括 Grounding with Google SearchCode ExecutionURL ContextFunction Calling,以实现无缝的多模态工作流。
  • Model Context Protocol (MCP):利用 Google 的 MCP 获取实时网页数据,确保响应最新具备上下文相关性
  • 部署选项:可通过 CometAPIGemini APIVertex AIGoogle AI Studio 使用,同时提供预览通道,方便早期用户试用与反馈。

Gemini 2.5 Flash-Lite 的基准表现

  • 时延:相较 Gemini 2.5 Flash,中位响应时间最多降低 50%,在标准分类与摘要基准上常见亚 100 ms 时延。
  • 吞吐:针对高容量工作负载优化,可在每分钟数万请求规模下持续稳定运行而不降级。
  • 性价比:相较 Flash,每 1,000 tokens 的成本降低 25%,对于成本敏感的部署是帕累托最优选择。
  • 行业采用:早期用户报告其在生产流水线中平滑集成,性能指标与初始预期一致或更优。

Gemini 2.5 Flash-Lite API


理想使用场景

  • 高频低复杂度任务: 自动标签、情感分析与批量翻译
  • 成本敏感流水线: 大型文档语料的数据抽取、周期性批量摘要
  • 边缘与移动场景: 当时延至关重要且资源预算有限时

Gemini 2.5 Flash-Lite 的局限

  • 预览状态:在 GA 前可能发生 API 变更;集成应考虑版本升级的可能。
  • 不支持在线微调:无法上传自定义权重;依赖提示工程与系统消息。
  • 创造性降低:面向确定性、高吞吐任务调优;不太适合开放式生成或“创意”写作。
  • 资源上限:仅在约 ~16 vCPU 以内呈线性扩展;超过该规模吞吐提升减弱。
  • 多模态限制:支持图像/音频输入但保真度有限;不适合重度视觉或音频转写任务。
  • 上下文窗口取舍:尽管可接收最多 1 M tokens,在该规模进行推理时吞吐可能下降。

如何通过 CometAPI 调用 Gemini 2.5 Flash-Lite API

Gemini 2.5 Flash-Lite 在 CometAPI 的定价,比官方价优惠 20%:

  • 输入 tokens:$0.08/ M tokens
  • 输出 tokens:$0.32/ M tokens

必要步骤

  • 登录 cometapi.com。如果你还不是用户,请先注册
  • 获取该接口的访问凭证 API key。在个人中心的 API token 处点击 “Add Token”,获取 token key:sk-xxxxx 并提交。
  • 获取本站的 url:https://api.cometapi.com/

使用方法

  1. 选择 “gemini-2.5-flash-lite” endpoint 发送 API 请求并设置请求体。请求方法与请求体请从我们网站的 API 文档获取。我们的网站也提供 Apifox 测试以便使用。
  2. 将 <YOUR_AIMLAPI_KEY> 替换为你账号中的实际 CometAPI key。
  3. 将你的问题或请求填入 content 字段——模型会对其进行回答。
  4. 处理 API 响应以获取生成的答案。

CometAPI 提供完全兼容的 REST API——实现无缝迁移。关键细节见 API doc

另见 Gemini 2.5 Pro

阅读更多

一个 API 中超 500 个模型

最高 20% 折扣