Gemini 2.5 Pro I/O Edition 是 Google DeepMind 旗舰 AI 模型的一次里程碑式更新,带来无与伦比的编码能力、更强的输入/输出能力,以及更精细的开发者工作流。该预览版本在 Google I/O 2025 之前提前发布,通过登顶 WebDev Arena 排行榜显著提升前端与 UI 开发,同时在视频理解上达到最先进水平,并在函数调用与错误减少方面实现稳健改进。其定价与前代保持一致——输入每百万 tokens $1.25,输出每百万 tokens $10——在维持宽裕的 200,000-token 上下文窗口的同时,较竞争对手更具成本优势。诸如“视频转代码”和单次提示生成应用等多模态 I/O 功能简化了原型制作,行业领袖的背书也凸显了其实用价值。展望未来,Google 计划扩展上下文容量并整合更先进的 I/O 特性,进一步巩固 Gemini 在真实世界编码挑战中的不可或缺地位。
什么是 Gemini 2.5 Pro I/O Edition?
起源与发布时间线
Gemini 2.5 Pro I/O Edition 于 2025 年 5 月 6 日宣布,作为一款提前预览版,旨在在当月稍后的 Google I/O 开发者大会之前让开发者抢先上手。该版本以标记为“05-06”的更新模型取代了 3 月 25 日发布的版本(03-25),并在无需任何操作的情况下自动将现有 Gemini 2.5 Pro 用户路由到新版本。
I/O Edition 有何不同?
不同于以后端优化为主的常规更新,I/O Edition 更加注重前端与基础代码改造方面显著增强的编码能力。它引入了更精细的多模态 I/O 功能——如视频理解与交互式应用生成——将模型的用途从文本与代码扩展到更丰富的媒体领域。
Gemini 2.5 Pro 的核心改进有哪些?
编码性能有哪些提升?
Gemini 2.5 Pro 现已提供“显著提升”的代码生成与重构能力,能够以“资深开发者”级别的抽象与架构选择处理复杂的后端重构任务。在 Cognition 的内部基准测试中,它首次通过了高级开发者测试用例,展示了在无需额外微调的情况下,稳健的模块重设计、API 重写与多步逻辑实现。
此外,其函数调用可靠性得到增强:错误率显著下降、触发率上升,使得串联多次函数调用的智能体工作流构建更加顺畅。现有使用 Gemini API 的开发者将获得无缝过渡,系统会自动默认升级后的模型,无需进行任何代码更改。
前端与 UI 能力有哪些新增?
在前端开发领域,Gemini 2.5 Pro 登上 WebDev Arena 排行榜第 1 位——这是一个基于人类偏好的、面向构建功能完善且美观的网页应用的 AI 模型排名——领先 Claude 3.7 Sonnet 和此前的 Gemini 版本超过 140 ELO 点。
该模型可将设计稿自动转换为可用于生产的 HTML、CSS 和 JavaScript 组件,包含响应式布局与一致的样式。它能够识别按钮交互、字体排印、间距与动效等视觉元素,并忠实复现,确保新的 UI 模块与既有设计系统无缝融合。例如,使用 Gemini 95 Starter App 的开发者可以请求“与项目风格匹配的视频播放器”,模型会推断项目的设计令牌,并在数秒内输出可直接使用的组件。
Gemini 2.5 Pro 如何融合视频理解与代码生成?
Gemini 2.5 Pro 将其原生多模态能力扩展到视频:在新的 VideoMME 基准上取得了 84.8% 的成绩,跻身顶级“视频理解”大模型之列。借助这一优势,开发者可以提供一段 YouTube 视频,即可获得一个完整的交互式学习或演示应用——包含提取的内容、自定义 UI 界面以及底层逻辑脚本。
Google AI Studio 的“Video to Learning App”演示展示了这一流程:系统摄取教程视频,将要点映射到交互式模块,并在无需人工干预的情况下生成完整的教育应用。这一进步标志着多模态 AI 领域从“语言驱动的代码”迈向“视频驱动的产品”创作。
开发者在哪里、如何访问 Gemini 2.5 Pro?
支持哪些平台与定价模式?
Gemini 2.5 Pro I/O Edition 可通过 Google AI Studio 的 Gemini API 即刻使用,也可通过 Vertex AI 面向企业客户提供。该预览版沿用与前代相同的定价,确保早期使用者无需额外成本。
默认情况下,所有指向 Gemini 2.5 端点的现有 API 调用都会自动重定向到新的 Pro 模型(05-06),从而消除开发团队的迁移开销。随发布一并提供了详尽的模型卡,记录了基准结果与功能变更,以确保透明度。
CometAPI 已支持调用 Gemini 2.5 Pro I/O API(模型名称:ggemini-2.5-pro-preview-05-06)。
Gemini 2.5 Pro 与竞品相比如何?

其在 WebDev Arena 排名上有多强势?
凭借 1419.95 的 Arena Score,Gemini 2.5 Pro 位居 WebDev Arena 榜首,显著领先 Claude 3.7 Sonnet(1357.10)与 GPT-4.1(1261.35)。这一跃升反映了用户对 Gemini 在设计还原度、代码可维护性与 UI 打磨方面综合表现的偏好。
更广泛的 AI 基准测试显示了什么?
除前端之外,Gemini 2.5 Pro 在通用推理与编码基准上也具优势。根据 Google DeepMind CEO Demis Hassabis 的说法,在 LMArena——一个由 AI 理解与问题求解测试构成的综合榜单——上,它比最近的对手领先 39 个 ELO 点。
其覆盖文本、音频、图像、视频与代码的多模态实力,持续让其在集成式 AI 推理快速成为基础能力的市场中脱颖而出。
哪些真实场景凸显了其能力?
通过单个提示完成应用原型制作
I/O Edition 最受赞誉的特性之一是能够从一个单独的提示生成完整的交互式网页应用。在 Gemini 应用中,用户可输入设计主题或视觉样式,并获得可运行应用的完整代码,从而大幅缩短原型制作周期。
智能体工作流与集成
增强后的模型支持复杂的智能体工作流,典型例子包括与 Replit Agent 和 Cursor 的代码代理的集成。这些流水线能够以最少的人为干预自动化处理诸如后端路由重构与 UI 组件样式化等复杂任务。
开发者反馈如何?
行业领袖背书
Cognition 的 Silas Alberti 赞扬了该模型的成熟度,称其具备以资深级决策质量执行大规模重构的能力。Replit 的 Michele Catasta 强调其在“能力与延迟”之间的优秀平衡,指出其适用于对延迟敏感的任务。AI 教育者、BlueShell 创始人 Paul Couvert 与 EverArt CEO Pietro Schirano 也通过社交媒体背书,强调其在代码与 UI 生成方面的优势。
在 Replit 与 Cursor 等平台中的集成
Cursor 的内部测试显示工具调用失败更少、可靠性更高,促使该公司将 I/O Edition 集成到其核心代码代理中。同样,Replit 正在探索更深度的集成,用于实时编码辅助,利用该模型改进的函数调用与多模态 I/O 能力。
快速开始
CometAPI 提供对 500 多个 AI 模型的访问,包括用于聊天、图像、代码等的开源与专用多模态模型。其主要优势在于简化传统上复杂的 AI 集成流程。借助它,您可以通过单一、统一的订阅访问诸如 Claude、OpenAI、Deepseek 与 Gemini 等领先 AI 工具。您可以使用 CometAPI 的 API 创作音乐与艺术作品、生成视频,并构建自己的工作流。
CometAPI 提供远低于官方价格的方案,帮助您集成 Gemini 2.5 Pro API,注册并登录后您将获得 $1 账户余额!欢迎注册体验 CometAPI。CometAPI 采用按量计费,Gemini 2.5 Pro API(模型名称:gemini-2.5-pro-preview-05-06)在 CometAPI 的定价如下:
- 输入 Tokens:$1 / M tokens
- 输出 Tokens:$8 / M tokens
快速集成请参考 API 文档
