Gemini 2.5 Flash 的设计旨在在不牺牲输出质量的前提下实现快速响应。它支持多模态输入，包括文本、图像、音频和视频，适用于多种应用场景。该模型可通过 Google AI Studio 和 Vertex AI 等平台访问，为开发者提供将其无缝集成至各类系统所需的工具。

Basic Information (Features)

Gemini 2.5 Flash 引入了若干突出的功能，使其在 Gemini 2.5 系列中脱颖而出：

Hybrid Reasoning: 开发者可以设置 thinking_budget 参数，以精细控制模型在输出前用于内部推理的 token 数量。
Pareto Frontier: 位于最优成本-性能点，Flash 在 2.5 模型中提供最佳价格-智能比。
Multimodal Support: 原生处理文本、图像、视频和音频，实现更丰富的对话与分析能力。
1 Million-Token Context: 无与伦比的上下文长度，使单次请求即可进行深度分析与长文档理解。

Model Versioning

Gemini 2.5 Flash 历经以下关键版本：

gemini-2.5-flash-lite-preview-09-2025: 增强工具可用性：在复杂、多步骤任务上的表现提升，SWE-Bench Verified 分数提高 5%（从 48.9% 提升到 54%）。效率提升：在启用推理时，以更少的 token 获得更高质量的输出，从而降低延迟与成本。
Preview 04-17: 具备“thinking”能力的早期访问版本，可通过 gemini-2.5-flash-preview-04-17 获取。
Stable General Availability (GA): 自 2025 年 6 月 17 日起，稳定端点 gemini-2.5-flash 取代预览版，确保生产级可靠性，且与 5 月 20 日的预览版相比无 API 变更。
Deprecation of Preview: 预览端点计划于 2025 年 7 月 15 日关闭；用户必须在此日期前迁移到 GA 端点。

截至 2025 年 7 月，Gemini 2.5 Flash 已公开可用且稳定（与 gemini-2.5-flash-preview-05-20 无差异）。如果你正在使用 gemini-2.5-flash-preview-04-17，现有预览版定价将持续至该模型端点计划于 2025 年 7 月 15 日退役并关闭之时。你可以迁移到普遍可用的模型 "gemini-2.5-flash" 。

Faster, cheaper, smarter:

设计目标：低延迟 + 高吞吐 + 低成本；
在推理、多模态处理与长文本任务方面整体提速；
Token 使用量降低 20–30%，显著减少推理成本。

Technical Specifications

输入上下文窗口：最多 1 million 个 token，可实现广泛的上下文保留。

输出 token：每次响应可生成最多 8,192 个 token。

支持的模态：文本、图像、音频和视频。

集成平台：可通过 Google AI Studio 和 Vertex AI 获取。

定价：具竞争力的按 token 计费模型，便于具成本效益的部署。

Technical Details

在底层，Gemini 2.5 Flash 是一种基于 transformer 的大型语言模型，训练数据混合包含网页、代码、图像与视频。关键技术规格包括：

Multimodal Training: 通过对多模态进行对齐训练，Flash 可将文本与图像、视频或音频无缝结合，适用于视频摘要或音频描述等任务。

Dynamic Thinking Process: 实现内部推理循环，模型会在最终输出前先进行规划并分解复杂提示 。

Configurable Thinking Budgets: 可将 thinking_budget 设置为 0（无推理）到 24,576 tokens，在延迟与答案质量之间进行权衡。

Tool Integration: 支持 Grounding with Google Search、Code Execution、URL Context 和 Function Calling，可从自然语言提示直接执行现实世界操作。

Benchmark Performance

在严格评测中，Gemini 2.5 Flash 展现出行业领先的性能：

LMArena Hard Prompts: 在这一具有挑战性的 Hard Prompts 基准上得分仅次于 2.5 Pro，展现出强大的多步推理能力。
MMLU Score of 0.809: 超过平均模型表现，MMLU 准确率为 0.809，体现其广泛的领域知识与推理能力。
Latency and Throughput: 实现 271.4 tokens/sec 的解码速度与 0.29 s 首 token 时间（TTFT），非常适合对延迟敏感的工作负载。
Price-to-Performance Leader: 以 \$0.26/1 M tokens 的价格，在关键基准上可与不少竞品比肩或超越，同时更具成本优势。

这些结果表明，Gemini 2.5 Flash 在推理、科学理解、数学问题求解、编码、视觉理解与多语言能力方面具备竞争优势：

Limitations

尽管功能强大，Gemini 2.5 Flash 仍存在一些限制：

Safety Risks: 模型可能表现出**“preachy”语气**，并可能生成貌似合理但实际不正确或带有偏见的输出（即幻觉），尤其在边界类查询中更易出现。因此需要严格的人类监督。
Rate Limits: API 使用受速率限制（默认档位为 10 RPM、250,000 TPM、250 RPD），可能影响批处理或高并发应用。
Intelligence Floor: 虽然作为一款 flash 模型表现出色，但在最严苛的代理型任务（如高级编码或多代理协作）上，准确性仍不及 2.5 Pro。
Cost Trade-Offs: 尽管具备最佳价格-性能，但在大量依赖thinking模式时，整体 token 消耗会增加，从而提高深度推理场景的成本。

Gemini 2.5 Flash 的定价

查看 Gemini 2.5 Flash 的竞争性定价，满足不同预算与使用需求，灵活方案确保随需求扩展。

gemini-2.5-flash (same price across variants)

Model family	Variant (model name)	Input price (USD / 1M tokens)	Output price (USD / 1M tokens)
gemini-2.5-flash	gemini-2.5-flash-thinking	$0.24	$2.00
gemini-2.5-flash	gemini-2.5-flash-all	$0.24	$2.00
gemini-2.5-flash	gemini-2.5-flash	$0.24	$2.00

Gemini 2.5 Flash 的示例代码与 API

Gemini 2.5 Flash API 是 Google 最新的多模态 AI 模型，专为高速、成本高效的任务而设计，具备可控的推理能力，允许开发者通过 Gemini API 开启或关闭高级“思考”功能。

Python
JavaScript
Curl

from google import genai
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com"

client = genai.Client(
    http_options={"api_version": "v1beta", "base_url": BASE_URL},
    api_key=COMETAPI_KEY,
)

response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents="Tell me a three sentence bedtime story about a unicorn.",
)

print(response.text)

Gemini 2.5 Flash 的版本

Gemini 2.5 Flash 可能存在多个快照，原因包括：更新后保持一致性需要保留旧版、给开发者留出迁移窗口，以及全球/区域端点提供的优化差异。具体差异请参考官方文档。

version
gemini-2.5-flash-image-preview
gemini-2.5-flash-lite-preview-06-17
gemini-2.5-flash-preview-09-2025
gemini-2.5-flash-thinking
gemini-2.5-flash-all
gemini-2.5-flash-deepsearch
gemini-2.5-flash-lite
gemini-2.5-flash
gemini-2.5-flash-preview-04-17
gemini-2.5-flash-preview-05-20
gemini-2.5-flash-lite-preview-06-17-thinking
gemini-2.5-flash-lite-thinking
gemini-2.5-flash-lite-preview-09-2025
gemini-2.5-flash-image