Gemini 3.5 Flash 评测:功能、基准测试、定价等

CometAPI
AnnaMay 20, 2026
Gemini 3.5 Flash 评测:功能、基准测试、定价等

Google 于 2026 年 5 月 19 日在 I/O 大会上发布了 Gemini 3.5 Flash,将其定位为一款高智能、速度优化的模型,面向智能体工作流、编码与多模态任务中的持续前沿性能。它在 Gemini 3 Flash 的基础上升级,引入增强的“思考等级”(thinking levels),用于在质量、成本与延迟之间取得平衡。

本指南将全面覆盖:Gemini 3.5 Flash 是什么、关键特性、详细基准表现、定价、与 GPT-5.5、Claude 4.7/4.6 等的对比等。作为领先的 AI API 聚合平台,CometAPI 通过统一计价、简化集成与成本优化工具,帮助开发者接入 Gemini 3.5 Flash(及其竞品)。

Gemini 3.5 Flash 是什么?

Gemini 3.5 Flash 在 Gemini 3 Flash 的推理基础上,加入增强的“思考等级”(minimal、low、medium/default、high),以精细调节质量-延迟-成本之间的权衡。它是原生多模态模型,支持文本、图像、视频、音频与文档(含 PDF),具备 1M token 上下文窗口与最高 65K 输出 token。知识截止时间为 2025 年 1 月。

相较以往 Flash 模型的关键差异点:

  • 在智能体、编码与长时程任务上具备持续前沿性能
  • 思路保留(Thought preservation):无需额外 API 改动,即可在多轮对话中自动维持中间推理
  • 为规模化优化:面向并行智能体执行、迭代式编码与多步骤企业工作流而设计
  • 暂不支持 computer use(但工具使用与函数调用能力有明显增强)

Google 将其定位为面向生产的“最智能 Flash 模型”,在多项智能体与编码基准上超越此前的 Gemini 3.1 Pro,同时保持 Flash 级速度(测试中常见 >280 输出 tokens/秒)。

Gemini 3.5 Flash 在智能体工作流与编码方面表现突出,以优化的延迟与成本接近 Pro 级智能水平,在 Terminal-bench 2.1 取得 76.2%,在 MCP Atlas 多步骤任务上取得 83.6%。

基准性能突破

独立测试确认:它在更高速度下可实现 Pro 级或更强的编码/智能体任务表现;但由于复杂智能体循环中会消耗更多 token,且相较更早的 Flash 模型价格上调 3 倍,整体跑分成本也会随之上升。

Gemini 3.5 Flash 相比前代提升显著,尤其在智能体与编码领域。以下为 Google DeepMind 模型卡与独立评测(截至 2026 年 5 月)的关键结果:

部分基准(Gemini 3.5 Flash vs. 对比模型):

编码

  • Terminal-bench 2.1(智能体终端编码):76.2%(对比:Gemini 3 Flash 58.0%、Gemini 3.1 Pro 70.3%、GPT-5.5 78.2%
  • SWE-Bench Pro(公开,多样化智能体编码):55.1%(对比:3 Flash 49.6%、3.1 Pro 54.2%)

智能体工具使用

  • MCP Atlas(多步骤工作流):83.6%(明显领先)
  • Toolathlon(真实世界通用工具使用):56.5%
  • Finance Agent v2:57.9%(相比 3 Flash 大幅提升 +15.3%)

多模态

  • CharXiv(图表推理):84.2%
  • MMMU-Pro:83.6%(领先众多竞品)

推理与长上下文

  • Humanity’s Last Exam:40.2%
  • ARC-AGI-2:72.1%
  • MRCR v2(128k):77.3%;1M 上下文 pointwise 为 26.6%。

Gemini 3.5 Flash 评测:功能、基准测试、定价等

Artificial Analysis Intelligence Index:Gemini 3.5 Flash(高思考)得分 55,较 Gemini 3 Flash 提升 9 分。其在“智能 vs. 速度”的帕累托前沿上领先,在智能体任务上提升并降低幻觉(幻觉率降至 61%)。它可实现 >280 输出 tokens/秒,但在智能体循环中会带来更高 token 使用量。

它在长上下文(MRCR v2 与 1M pointwise 表现强)、多模态领先(图表、文档)与持续智能体表现方面优势明显,并在部分工作流中减少 token 浪费(例如在 cyber 基准上提升 42%,同时 token 使用减少 72%)。

速度与智能体能力的平衡

Gemini 3.5 Flash 在速度-智能权衡上表现突出:在保持高吞吐(>280 tokens/s)的同时,支持复杂智能体行为,如子智能体部署、并行执行与快速迭代。

默认思考强度现在是 medium,与 Gemini 3 Flash Preview 的 high 相比有所调整。

**思考等级(Thinking Levels)**支持精细控制:

  • Medium(默认):适用于多数复杂编码与智能体任务的最佳平衡
  • High:面向最困难问题的深度推理最大化
  • Low/Minimal:用于更简单查询的超低延迟

Google 报告在真实智能体场景中 token 效率显著提升(例如在部分 cyber 基准相对先前版本减少 72%),使其更适合长时间持续运行的工作流。

权衡点:相较以往 Flash 价格更高,在 token 密集的智能体场景中总体成本会上升(相对 Gemini 3 Flash,Intelligence Index 成本约为 5.5 倍,原因是定价上调 + 使用量增加)。

智能体能力增强

Gemini 3.5 Flash 推动“Gemini 智能体时代”。关键增强包括:

  • 并行智能体执行循环:为复杂问题部署多个子智能体
  • 迭代式编码与原型开发:结合动态工具使用快速探索解法路径
  • 长时程多步骤工作流:依托思路保留处理延展性企业流程
  • 工具使用改进:更严格的函数响应匹配、多模态函数响应,并通过更好的提示与更低的思考等级减少不必要调用;在 OSWorld 与 UI 任务上表现强

它为 Google 的新信息智能体、自主研究与编码流水线提供动力。内部测试显示,它擅长构建复杂系统并管理研究项目。

对开发者而言,新的 Interactions API(beta)简化了服务端历史管理,类似其他生态中的高级模式。

CometAPI 推荐:使用我们的统一 API,将 Gemini 3.5 Flash 与专用模型(例如用 Claude 做深度代码审查,或用 GPT 处理创意任务)在智能体系统中进行链式编排。我们的路由与回退能力可提升可靠性并节省成本。

多模态领先

Google 继续保持多模态理解领先地位。Gemini 3.5 Flash 可原生处理并推理文本 + 图像 + 视频 + 音频 + 文档,在 CharXiv、MMMU-Pro 与视频理解等任务上领先或与顶级模型竞争激烈。

应用场景:图表/数据综合、视频分析、多模态函数调用(例如在工具响应中处理图像)、富媒体智能体。适用于电商、内容创作、科学可视化等应用。

定价:Gemini 3.5 Flash 多少钱?

Gemini API 定价(每 1M tokens,近似全球价格):

  • 输入(文本/图像/视频/音频):$1.50
  • 输出:$9.00
  • 上下文缓存(Context caching):$0.15(对重复提示可显著节省)

这相较 Gemini 3 Flash Preview($0.50/$3)约上涨 ~3 倍,但在能力跃迁下仍具竞争力。其价格接近 Gemini 3.1 Pro($2/$12),同时在许多工作负载中速度更快。

企业/Agent Platform 分层可能随用量折扣与附加功能而变化。使用缓存输入与高效提示(更低思考等级、优化历史)可显著控制成本。

这相较 Gemini 3 Flash Preview($0.50/$3)约上涨 ~3 倍,但在能力跃迁下仍具竞争力。其价格接近 Gemini 3.1 Pro($2/$12),同时在许多工作负载中速度更快。

免费层:可通过 Google AI Studio/Gemini app 获取有限访问;生产使用需付费。

Cometapi 优势:在 Gemini 3.5 Flash API 之外,还可用有竞争力的费率接入 100+ 模型,并提供用量分析与优化工具以减少 token 开销。我们的平台常通过智能路由与批处理带来更优的实际价格。API 价格通常比官方价格低 20%。

Gemini 3.5 Flash vs. GPT-5.5、Claude 4.7/4.6 等

Gemini 3.5 Flash 的优势:

  • 速度 + 智能体平衡:推理速度快于多数前沿模型,同时缩小智能差距
  • 多模态 & 长上下文:原生 1M 上下文与视觉能力领先
  • 规模化成本优势:在许多工作负载中单 token 成本低于顶级 Claude/GPT,尤其结合缓存时
  • Google 生态:与 Search、Workspace、Cloud 的无缝集成

竞品更强的方面:

  • GPT-5.5 往往在纯推理(例如 ARC-AGI)更领先,并可能具备更强的创意/通用能力
  • Claude Opus 4.7/Sonnet 4.6 在谨慎编码(某些情况下 SWE-Bench 更高)与细腻写作/安全性方面更突出
  • token 效率存在差异;智能体循环可能使 3.5 Flash 的总体成本更高

高层对比(近似/节选指标;请始终核对最新榜单):

基准 / 指标Gemini 3.5 FlashGPT-5.5Claude Opus 4.7 / Sonnet 4.6Gemini 3.1 Pro备注
Terminal-bench 2.1(编码)76.2%78.2%~66%70.3%智能体编码
MCP Atlas(智能体)83.6%75.3%79.1% / 69.5%78.2%多步骤工作流
GDPval-AA(智能体知识)1656 Elo176917531314经济价值
MMMU-Pro(多模态)83.6%81.2%~75%80.5%Gemini 优势明显
Intelligence Index(AA)55高(有波动)具竞争力更低速度/智能帕累托
速度(tokens/s)>280更低不固定更慢Flash 优势
输入/输出价格($/1M)1.50 / 9.00更高更高(尤其 Opus)2/12具成本优势的前沿能力
上下文窗口1M具竞争力1M+均为前沿级别

权衡总结

  • Gemini 3.5 Flash 在速度 + 多模态 + 规模化智能体效率方面领先
  • GPT-5.5 往往在纯推理/编码峰值能力上略胜
  • Claude 4.7 Opus 在谨慎、高可靠编码上优势明显,但成本/延迟更高

Gemini 常在多模态与特定智能体套件上领先或持平,同时更快、在高吞吐场景更具性价比。

如何访问与集成 Gemini 3.5 Flash

可通过以下方式接入:

  • Gemini App / Google AI Studio
  • Gemini API(gemini-3.5-flash
  • Google Cloud Vertex AI / Enterprise Agent Platform
  • 第三方聚合平台以获得多供应商灵活性

CometAPI 推荐:用于 Cometapi.com 的生产应用时,可用单一 API Key 一次集成,访问 Gemini 3.5 Flash(以及来自 OpenAI、Anthropic、xAI 等的 500+ 模型),获得 20–40% 更低的实际定价、无厂商绑定与便捷的模型切换能力。

你的项目可获得的收益:

  • 仅需更改模型名即可即时对比 Gemini 3.5 Flash 与 GPT-5.5 或 Claude 4.7
  • 统一账单、回退路由与延迟优化
  • 适用于需要跨供应商可靠性的智能体应用
  • 免费 API Key 注册,提供充足测试额度

示例集成可使用官方 SDK 或 CometAPI 的统一端点——非常适合规模化编码

使用场景与最佳实践

  1. 智能体自动化:构建用于研究、数据分析或客服支持的稳健多智能体系统
  2. 编码与开发:迭代原型、调试与完整流水线生成(在 Antigravity 或 IDE 中)
  3. 多模态应用:图像/视频分析、图表理解、内容生成
  4. 企业工作流:利用缓存与思考等级进行成本控制的长时程流程

建议:使用完整对话历史以实现思路保留;从 medium 思考开始;优化提示以减少工具调用;监控 token 用量以提升成本效率。

限制与注意事项

  • 价格上涨要求对高吞吐应用进行更精细优化
  • 暂无 computer use(关注后续更新)
  • 安全评估表现稳健且语气有所改善,但自动化指标存在波动
  • 幻觉降低明显,但关键输出仍需验证
  • 价格上涨:高于此前 Flash;可通过思考等级与缓存优化
  • 知识截止:2025 年 1 月——涉及时事请使用 grounding/Search 工具

结论:Gemini 3.5 Flash 值得用吗?

值得——尤其适合优先追求速度、智能体可靠性、多模态能力与可规模化性能的开发者与企业。它推动了帕累托前沿,使前沿 AI 更适合生产工作负载。

准备开始构建? 立即访问 CometAPI,在同一仪表盘中将 Gemini 3.5 Flash 与其他顶级模型一起测试。优化你的 AI 技术栈、降低成本、更快交付。

准备好将AI开发成本降低20%了吗?

几分钟内免费开始。包含免费试用额度。无需信用卡。

阅读更多