模型定价企业
500+ AI 模型 API,一次搞定,就在 CometAPI
模型 API
开发者
快速入门文档API 仪表板
公司
关于我们企业
资源
AI 模型博客更新日志支持
服务条款隐私政策
© 2026 CometAPI · All rights reserved
Home/Models/Google/Gemini 2.5 Flash
G

Gemini 2.5 Flash

输入:$0.24/M
输出:$2/M
上下文:1M
最大输出:65K
Gemini 2.5 Flash 是 Google 开发的 AI 模型,旨在为开发者提供快速且具成本效益的解决方案,尤其适用于需要增强推理能力的应用。 根据 Gemini 2.5 Flash 预览公告,该模型于 2025 年 4 月 17 日以预览形式发布,支持多模态输入,且其上下文窗口为 1 million tokens。 该模型支持的最大上下文长度为 65,536 tokens。
新
商用
Playground
概览
功能亮点
定价
API
版本

Gemini 2.5 Flash 的设计旨在在不牺牲输出质量的前提下实现快速响应。它支持多模态输入,包括文本、图像、音频和视频,适用于多种应用场景。该模型可通过 Google AI Studio 和 Vertex AI 等平台访问,为开发者提供将其无缝集成至各类系统所需的工具。


Basic Information (Features)

Gemini 2.5 Flash 引入了若干突出的功能,使其在 Gemini 2.5 系列中脱颖而出:

  • Hybrid Reasoning: 开发者可以设置 thinking_budget 参数,以精细控制模型在输出前用于内部推理的 token 数量。
  • Pareto Frontier: 位于最优成本-性能点,Flash 在 2.5 模型中提供最佳价格-智能比 。
  • Multimodal Support: 原生处理文本、图像、视频和音频,实现更丰富的对话与分析能力 。
  • 1 Million-Token Context: 无与伦比的上下文长度,使单次请求即可进行深度分析与长文档理解 。

Model Versioning

Gemini 2.5 Flash 历经以下关键版本:

  • gemini-2.5-flash-lite-preview-09-2025: 增强工具可用性:在复杂、多步骤任务上的表现提升,SWE-Bench Verified 分数提高 5%(从 48.9% 提升到 54%)。效率提升:在启用推理时,以更少的 token 获得更高质量的输出,从而降低延迟与成本。
  • Preview 04-17: 具备“thinking”能力的早期访问版本,可通过 gemini-2.5-flash-preview-04-17 获取。
  • Stable General Availability (GA): 自 2025 年 6 月 17 日起,稳定端点 gemini-2.5-flash 取代预览版,确保生产级可靠性,且与 5 月 20 日的预览版相比无 API 变更 。
  • Deprecation of Preview: 预览端点计划于 2025 年 7 月 15 日关闭;用户必须在此日期前迁移到 GA 端点 。

截至 2025 年 7 月,Gemini 2.5 Flash 已公开可用且稳定(与 gemini-2.5-flash-preview-05-20 无差异)。如果你正在使用 gemini-2.5-flash-preview-04-17,现有预览版定价将持续至该模型端点计划于 2025 年 7 月 15 日退役并关闭之时。你可以迁移到普遍可用的模型 "gemini-2.5-flash" 。

Faster, cheaper, smarter:

  • 设计目标:低延迟 + 高吞吐 + 低成本;
  • 在推理、多模态处理与长文本任务方面整体提速;
  • Token 使用量降低 20–30%,显著减少推理成本。

Technical Specifications

输入上下文窗口:最多 1 million 个 token,可实现广泛的上下文保留。

输出 token:每次响应可生成最多 8,192 个 token。

支持的模态:文本、图像、音频和视频。

集成平台:可通过 Google AI Studio 和 Vertex AI 获取。

定价:具竞争力的按 token 计费模型,便于具成本效益的部署。


Technical Details

在底层,Gemini 2.5 Flash 是一种基于 transformer 的大型语言模型,训练数据混合包含网页、代码、图像与视频。关键技术规格包括:

Multimodal Training: 通过对多模态进行对齐训练,Flash 可将文本与图像、视频或音频无缝结合,适用于视频摘要或音频描述等任务 。

Dynamic Thinking Process: 实现内部推理循环,模型会在最终输出前先进行规划并分解复杂提示 。

Configurable Thinking Budgets: 可将 thinking_budget 设置为 0(无推理)到 24,576 tokens,在延迟与答案质量之间进行权衡 。

Tool Integration: 支持 Grounding with Google Search、Code Execution、URL Context 和 Function Calling,可从自然语言提示直接执行现实世界操作 。


Benchmark Performance

在严格评测中,Gemini 2.5 Flash 展现出行业领先的性能:

  • LMArena Hard Prompts: 在这一具有挑战性的 Hard Prompts 基准上得分仅次于 2.5 Pro,展现出强大的多步推理能力 。
  • MMLU Score of 0.809: 超过平均模型表现,MMLU 准确率为 0.809,体现其广泛的领域知识与推理能力 。
  • Latency and Throughput: 实现 271.4 tokens/sec 的解码速度与 0.29 s 首 token 时间(TTFT),非常适合对延迟敏感的工作负载。
  • Price-to-Performance Leader: 以 \$0.26/1 M tokens 的价格,在关键基准上可与不少竞品比肩或超越,同时更具成本优势 。

这些结果表明,Gemini 2.5 Flash 在推理、科学理解、数学问题求解、编码、视觉理解与多语言能力方面具备竞争优势:


Limitations

尽管功能强大,Gemini 2.5 Flash 仍存在一些限制:

  • Safety Risks: 模型可能表现出**“preachy”语气**,并可能生成貌似合理但实际不正确或带有偏见的输出(即幻觉),尤其在边界类查询中更易出现。因此需要严格的人类监督。
  • Rate Limits: API 使用受速率限制(默认档位为 10 RPM、250,000 TPM、250 RPD),可能影响批处理或高并发应用。
  • Intelligence Floor: 虽然作为一款 flash 模型表现出色,但在最严苛的代理型任务(如高级编码或多代理协作)上,准确性仍不及 2.5 Pro。
  • Cost Trade-Offs: 尽管具备最佳价格-性能,但在大量依赖thinking模式时,整体 token 消耗会增加,从而提高深度推理场景的成本 。

Gemini 2.5 Flash 的功能

了解 Gemini 2.5 Flash 的核心能力,帮助提升性能与可用性,并改善整体体验。

Gemini 2.5 Flash 的定价

查看 Gemini 2.5 Flash 的竞争性定价,满足不同预算与使用需求,灵活方案确保随需求扩展。

gemini-2.5-flash (same price across variants)

Model familyVariant (model name)Input price (USD / 1M tokens)Output price (USD / 1M tokens)
gemini-2.5-flashgemini-2.5-flash-thinking$0.24$2.00
gemini-2.5-flashgemini-2.5-flash-all$0.24$2.00
gemini-2.5-flashgemini-2.5-flash$0.24$2.00

Gemini 2.5 Flash 的示例代码与 API

Gemini 2.5 Flash API 是 Google 最新的多模态 AI 模型,专为高速、成本高效的任务而设计,具备可控的推理能力,允许开发者通过 Gemini API 开启或关闭高级“思考”功能。
POST
/v1beta/models/{model}:{operator}
POST
/v1/chat/completions
Python
JavaScript
Curl
from google import genai
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com"

client = genai.Client(
    http_options={"api_version": "v1beta", "base_url": BASE_URL},
    api_key=COMETAPI_KEY,
)

response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents="Tell me a three sentence bedtime story about a unicorn.",
)

print(response.text)

Python Code Example

from google import genai
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com"

client = genai.Client(
    http_options={"api_version": "v1beta", "base_url": BASE_URL},
    api_key=COMETAPI_KEY,
)

response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents="Tell me a three sentence bedtime story about a unicorn.",
)

print(response.text)

JavaScript Code Example

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY;
const base_url = "https://api.cometapi.com/v1beta";
const model = "gemini-2.5-flash";
const operator = "generateContent";

async function main() {
  const response = await fetch(`${base_url}/models/${model}:${operator}`, {
    method: "POST",
    headers: {
      "Content-Type": "application/json",
      Authorization: api_key,
    },
    body: JSON.stringify({
      contents: [
        {
          parts: [
            { text: "Tell me a three sentence bedtime story about a unicorn." },
          ],
        },
      ],
    }),
  });

  const data = await response.json();
  console.log(data.candidates[0].content.parts[0].text);
}

await main();

Curl Code Example

curl "https://api.cometapi.com/v1beta/models/gemini-2.5-flash:generateContent" \
  -H "Authorization: $COMETAPI_KEY" \
  -H 'Content-Type: application/json' \
  -X POST \
  -d '{
    "contents": [
      {
        "parts": [
          {
            "text": "Tell me a three sentence bedtime story about a unicorn."
          }
        ]
      }
    ]
  }'

Gemini 2.5 Flash 的版本

Gemini 2.5 Flash 可能存在多个快照,原因包括:更新后保持一致性需要保留旧版、给开发者留出迁移窗口,以及全球/区域端点提供的优化差异。具体差异请参考官方文档。
version
gemini-2.5-flash-image-preview
gemini-2.5-flash-lite-preview-06-17
gemini-2.5-flash-preview-09-2025
gemini-2.5-flash-thinking
gemini-2.5-flash-all
gemini-2.5-flash-deepsearch
gemini-2.5-flash-lite
gemini-2.5-flash
gemini-2.5-flash-preview-04-17
gemini-2.5-flash-preview-05-20
gemini-2.5-flash-lite-preview-06-17-thinking
gemini-2.5-flash-lite-thinking
gemini-2.5-flash-lite-preview-09-2025
gemini-2.5-flash-image

更多模型

C

Claude Opus 4.7

输入:$3/M
输出:$15/M
用于智能体和编程的最智能模型
A

Claude Sonnet 4.6

输入:$2.4/M
输出:$12/M
Claude Sonnet 4.6 是迄今为止我们最强大的 Sonnet 模型。它对模型在编码、计算机使用、长上下文推理、智能体规划、知识工作和设计等方面的能力进行了全面升级。Sonnet 4.6 还在 beta 阶段提供 1M token 上下文窗口。
O

GPT 5.5 Pro

输入:$24/M
输出:$144/M
一款为应对极其复杂的逻辑和专业需求而设计的先进模型,代表了深度推理能力与精确分析能力的最高标准。
O

GPT 5.5

输入:$4/M
输出:$24/M
一款下一代多模态旗舰模型,在卓越性能与高效响应之间取得平衡,致力于提供全面、稳定的通用人工智能服务。
O

GPT Image 2 ALL

每次请求:$0.04
GPT Image 2 是 OpenAI 的最先进图像生成模型,用于快速、高质量的图像生成与编辑。它支持灵活的图像尺寸和高保真图像输入。
O

GPT 5.5 ALL

输入:$4/M
输出:$24/M
GPT-5.5 在代码编写、在线研究、数据分析以及跨工具操作方面表现出色。该模型不仅提升了其在处理复杂多步任务时的自主性,还在保持与前代相同延迟的情况下,显著提升了推理能力和执行效率,标志着 AI 在办公自动化方面迈出了重要一步。

相关博客

Nano Banana 2 Flash 即将推出 – AI 图像生成的高速演进
Jan 6, 2026
nano-banana-2

Nano Banana 2 Flash 即将推出 – AI 图像生成的高速演进

Google 再次以即将推出的 Nano Banana 2 Flash 颠覆生成式 AI 版图,这是其广受赞誉的“Nano Banana”图像生成家族的最新成员。继去年底 Nano Banana Pro(Gemini 3 Pro Image)取得巨大成功之后,这一全新迭代通过将 Gemini 3 架构的前沿智能与前所未有的速度与效率相结合,承诺将专业级视觉合成大众化。
Nano Banana 优惠:让开发者在 2026 年真正省钱
Dec 25, 2025
nano-banana-pro

Nano Banana 优惠:让开发者在 2026 年真正省钱

结论是:官方 Nano Banana API 不提供任何圣诞、元旦或其他节日折扣。 这是所有计划在 2026 年使用 Nano Banana(包括 Nano Banana Pro)进行图像生成、内容创作或产品集成的开发者必须了解的事实。无论是圣诞节、黑色星期五还是元旦,Google 都不会为 Nano Banana API 提供季节性折扣。官方 API 的定价体系一贯稳定透明,几乎没有折扣空间。 那么问题来了:如果你是一名开发者,且计划在圣诞或元旦期间进行大规模图像生成、模型测试或产品迭代,有没有办法降低使用 Nano Banana 的成本?
免费版 Gemini 2.5 Pro API 是否出现故障?2025 年免费配额的变更
Dec 11, 2025
gemini-2-5-pro
gemini-2-5-flash

免费版 Gemini 2.5 Pro API 是否出现故障?2025 年免费配额的变更

Google 已大幅收紧 Gemini API 的免费层:Gemini 2.5 Pro 已从免费层移除,Gemini 2.5 Flash 的每日免费请求被大幅削减(据报道:~250 → ~20/天)。这并不意味着该模型在实验用途上已永久“死掉”,但这确实意味着对于许多现实世界的用例,免费访问实际上已被大幅削弱。
Nano-Banana 终极指南:如何使用与编写最佳提示词
Sep 8, 2025
gemini-2-5-flash-image

Nano-Banana 终极指南:如何使用与编写最佳提示词

Google 最近发布的 Gemini 2.5 Flash Image — 昵称为“Nano-Banana”,已迅速成为对话式图像编辑的首选:它能保持相似度
如何通过 API 使用 Nano Banana?(Gemini-2-5-flash-image)
Aug 28, 2025
gemini-2-5-flash-image

如何通过 API 使用 Nano Banana?(Gemini-2-5-flash-image)

Nano Banana 是 Google Gemini 2.5 Flash Image 的社区昵称 (以及内部简称) — 一种高质量、低延迟的多模态图像生成 +