Gemini 2.5 Flash 的设计旨在在不牺牲输出质量的前提下实现快速响应。它支持多模态输入,包括文本、图像、音频和视频,适用于多种应用场景。该模型可通过 Google AI Studio 和 Vertex AI 等平台访问,为开发者提供将其无缝集成至各类系统所需的工具。
Basic Information (Features)
Gemini 2.5 Flash 引入了若干突出的功能,使其在 Gemini 2.5 系列中脱颖而出:
- Hybrid Reasoning: 开发者可以设置 thinking_budget 参数,以精细控制模型在输出前用于内部推理的 token 数量。
- Pareto Frontier: 位于最优成本-性能点,Flash 在 2.5 模型中提供最佳价格-智能比 。
- Multimodal Support: 原生处理文本、图像、视频和音频,实现更丰富的对话与分析能力 。
- 1 Million-Token Context: 无与伦比的上下文长度,使单次请求即可进行深度分析与长文档理解 。
Model Versioning
Gemini 2.5 Flash 历经以下关键版本:
- gemini-2.5-flash-lite-preview-09-2025: 增强工具可用性:在复杂、多步骤任务上的表现提升,SWE-Bench Verified 分数提高 5%(从 48.9% 提升到 54%)。效率提升:在启用推理时,以更少的 token 获得更高质量的输出,从而降低延迟与成本。
- Preview 04-17: 具备“thinking”能力的早期访问版本,可通过 gemini-2.5-flash-preview-04-17 获取。
- Stable General Availability (GA): 自 2025 年 6 月 17 日起,稳定端点 gemini-2.5-flash 取代预览版,确保生产级可靠性,且与 5 月 20 日的预览版相比无 API 变更 。
- Deprecation of Preview: 预览端点计划于 2025 年 7 月 15 日关闭;用户必须在此日期前迁移到 GA 端点 。
截至 2025 年 7 月,Gemini 2.5 Flash 已公开可用且稳定(与 gemini-2.5-flash-preview-05-20 无差异)。如果你正在使用 gemini-2.5-flash-preview-04-17,现有预览版定价将持续至该模型端点计划于 2025 年 7 月 15 日退役并关闭之时。你可以迁移到普遍可用的模型 "gemini-2.5-flash" 。
Faster, cheaper, smarter:
- 设计目标:低延迟 + 高吞吐 + 低成本;
- 在推理、多模态处理与长文本任务方面整体提速;
- Token 使用量降低 20–30%,显著减少推理成本。
Technical Specifications
输入上下文窗口:最多 1 million 个 token,可实现广泛的上下文保留。
输出 token:每次响应可生成最多 8,192 个 token。
支持的模态:文本、图像、音频和视频。
集成平台:可通过 Google AI Studio 和 Vertex AI 获取。
定价:具竞争力的按 token 计费模型,便于具成本效益的部署。
Technical Details
在底层,Gemini 2.5 Flash 是一种基于 transformer 的大型语言模型,训练数据混合包含网页、代码、图像与视频。关键技术规格包括:
Multimodal Training: 通过对多模态进行对齐训练,Flash 可将文本与图像、视频或音频无缝结合,适用于视频摘要或音频描述等任务 。
Dynamic Thinking Process: 实现内部推理循环,模型会在最终输出前先进行规划并分解复杂提示 。
Configurable Thinking Budgets: 可将 thinking_budget 设置为 0(无推理)到 24,576 tokens,在延迟与答案质量之间进行权衡 。
Tool Integration: 支持 Grounding with Google Search、Code Execution、URL Context 和 Function Calling,可从自然语言提示直接执行现实世界操作 。
Benchmark Performance
在严格评测中,Gemini 2.5 Flash 展现出行业领先的性能:
- LMArena Hard Prompts: 在这一具有挑战性的 Hard Prompts 基准上得分仅次于 2.5 Pro,展现出强大的多步推理能力 。
- MMLU Score of 0.809: 超过平均模型表现,MMLU 准确率为 0.809,体现其广泛的领域知识与推理能力 。
- Latency and Throughput: 实现 271.4 tokens/sec 的解码速度与 0.29 s 首 token 时间(TTFT),非常适合对延迟敏感的工作负载。
- Price-to-Performance Leader: 以 \$0.26/1 M tokens 的价格,在关键基准上可与不少竞品比肩或超越,同时更具成本优势 。
这些结果表明,Gemini 2.5 Flash 在推理、科学理解、数学问题求解、编码、视觉理解与多语言能力方面具备竞争优势:
Limitations
尽管功能强大,Gemini 2.5 Flash 仍存在一些限制:
- Safety Risks: 模型可能表现出**“preachy”语气**,并可能生成貌似合理但实际不正确或带有偏见的输出(即幻觉),尤其在边界类查询中更易出现。因此需要严格的人类监督。
- Rate Limits: API 使用受速率限制(默认档位为 10 RPM、250,000 TPM、250 RPD),可能影响批处理或高并发应用。
- Intelligence Floor: 虽然作为一款 flash 模型表现出色,但在最严苛的代理型任务(如高级编码或多代理协作)上,准确性仍不及 2.5 Pro。
- Cost Trade-Offs: 尽管具备最佳价格-性能,但在大量依赖thinking模式时,整体 token 消耗会增加,从而提高深度推理场景的成本 。




