Gemini 2.5 Pro I/O:功能詳解

CometAPI
AnnaMay 8, 2025
Gemini 2.5 Pro I/O:功能詳解

Gemini 2.5 Pro I/O Edition 代表了 Google DeepMind 旗艦 AI 模型的里程碑更新,提供了無與倫比的編碼能力、擴展的輸入/輸出功能和完善的開發人員工作流程。該預覽版在 Google I/O 2025 之前提前發布,透過在 WebDev Arena 排行榜上佔據首位,提升了前端和 UI 開發,實現了最先進的視訊理解,並在函數呼叫和錯誤減少方面引入了強大的改進。其定價與其前代產品相同(每百萬個代幣輸入 1.25 美元,每百萬個代幣輸出 10 美元),與競爭對手相比,它提供了具有成本效益的解決方案,同時保持了 200,000 個代幣上下文視窗的寬裕度。 「視訊到程式碼」和單提示應用程式生成等多模式 I/O 功能簡化了原型設計,行業領導者的認可強調了其實用價值。展望未來,Google計劃擴展上下文容量並整合先進的 I/O 功能,鞏固 Gemini 作為現實世界編碼挑戰不可或缺工具的地位。

什麼是 Gemini 2.5 Pro I/O Edition?

起源和發佈時間表

Gemini 2.5 Pro I/O Edition 於 6 年 2025 月 25 日發布,作為早期預覽版,旨在讓開發人員在當月晚些時候舉行的 Google I/O 開發者大會之前搶佔先機。此版本以標記為「03-25」的更新模型取代了 05 月 06 日發布的版本(2.5-XNUMX),自動將現有的 Gemini XNUMX Pro 使用者路由到新版本,無需採取任何行動。

I/O 版有何不同?

與專注於後端優化的標準更新不同,I/O 版強調在前端和基本程式碼轉換方面明顯更強大的編碼能力。它引入了精細的多模式 I/O 功能(例如視訊理解和互動式應用程式生成),將模型的實用性從文字和程式碼擴展到更豐富的媒體領域。

Gemini 2.5 Pro 的主要改進是什麼?

編碼效能如何提升?

Gemini 2.5 Pro 現在提供「顯著改進」的程式碼產生和重構功能,透過「高級開發人員」層級的抽象化和架構選擇來處理複雜的後端重組任務。在內部認知基準測試中,它首次通過了高級開發人員測試案例,展示了強大的模組重新設計、API 重寫和多步驟邏輯實現,而無需額外的微調。

此外,其函數呼叫的可靠性也得到了增強:錯誤率大幅下降,而觸發率上升,從而能夠更順暢地建立連結多個函數呼叫的代理工作流程。現有的使用 Gemini API 的開發人員將發現無縫過渡,因為系統會自動預設使用升級後的模型,而無需進行任何程式碼變更。

新增了哪些前端和 UI 功能?

在前端開發領域,Gemini 2.5 Pro 在 WebDev Arena 排行榜上名列第一——該排行榜是人類對用於構建功能性、美觀的 Web 應用程式的 AI 模型的偏好排名——比 Claude 1 Sonnet 和之前的 Gemini 版本高出 3.7 多 ELO 點。

該模型可以自動將設計模型轉換為可用於生產的 HTML、CSS 和 JavaScript 元件,並具有響應式佈局和一致的樣式。它可以識別按鈕互動、排版、間距和動畫等視覺元素,忠實地再現它們,以確保新的 UI 模組與現有的設計系統無縫融合。例如,使用 Gemini 95 Starter App 的開發人員可以要求“風格匹配的視訊播放器”,模型將推斷專案的設計標記並在幾秒鐘內輸出可立即使用的元件。

Gemini 2.5 Pro 如何將影片理解與程式碼生成融合?

Gemini 2.5 Pro 將其原生的多模式功能擴展到視訊領域:它在新的 VideoMME 基準測試中獲得了 84.8% 的得分,躋身頂級「視訊理解」大型模型之列。利用這一優勢,開發人員可以提供 YouTube 剪輯並獲得完全互動的學習或演示應用程式——包含提取的內容、自訂 UI 螢幕和底層邏輯腳本。

Google AI Studio 的「視頻到學習應用程式」演示說明了這一工作流程:提取教程視頻,將關鍵點映射到互動式模組,並在無需人工幹預的情況下生成完成的教育應用程式。這項進步標誌著多模式人工智慧領域從「語言驅動程式碼」向「視訊驅動產品」創造的轉變。

開發人員可以在哪裡以及如何存取 Gemini 2.5 Pro?

適用哪些平台和定價模式?

Gemini 2.5 Pro I/O 版本可立即透過 Google AI Studio 中的 Gemini API 和 Vertex AI 供企業客戶使用。預覽版保留了與先前版本相同的定價,確保早期採用者無需支付額外費用。

預設情況下,所有針對 Gemini 2.5 端點的現有 API 呼叫都會自動重新導向到新的 Pro 模型 (05-06),消除了開發團隊的遷移開銷。為了提高透明度,詳細的模型卡、記錄基準測試結果和功能變更已與版本一起發布。

CometAPI已經支援呼叫Gemini 2.5 Pro I/O API(型號名稱: ggemini-2.5-pro-preview-05-06).

Gemini 2.5 Pro 與競爭對手相比如何?

雙子座2.5專業版

其 WebDev Arena 排名有多強?

Gemini 1419.95 Pro 的競技場得分為 2.5,在 WebDev Arena 排行榜上領先,遠遠超過 Claude 3.7 Sonnet(1357.10)和 GPT-4.1(1261.35)。這一飛躍反映了用戶對 Gemini 的設計保真度、程式碼可維護性和 UI 精緻度的結合的偏好。

更廣泛的人工智慧基準揭示了什麼?

除了前端之外,Gemini 2.5 Pro 還在通用推理和編碼基準測試中擴展了其優勢。據Google DeepMind 執行長 Demis Hassabis 稱,在 LMArena(一項人工智慧理解和問題解決測試的綜合測試)上,它比最接近的競爭對手領先 39 個 ELO 分。

其涵蓋文字、音訊、圖像、視訊和程式碼的多模式能力使其在整合人工智慧推理迅速成為主流的市場中脫穎而出。

哪些現實世界的用例凸顯了它的能力?

透過單一提示進行應用程式原型設計

I/O Edition 最受讚譽的功能之一是它能夠透過單一提示產生完整的互動式 Web 應用程式。在 Gemini 應用程式中,使用者可以輸入設計主題或視覺模式並獲得可運行應用程式的完整程式碼,從而大大縮短原型設計週期。

代理工作流程和集成

增強的模型支援複雜的代理程式工作流程,例如與 Replit Agent 和 Cursor 的程式碼代理程式的整合。這些管道以最少的人工幹預自動執行後端路由重構和 UI 元件樣式等複雜任務。

開發人員提供了什麼回饋?

由業界領袖認可

Cognition 的 Silas Alberti 對該模型的成熟度表示讚賞,稱其能夠以高級決策品質執行大規模重構。 Replit 的 Michele Catasta 強調了卓越的「能力與延遲」平衡,並指出其適用於對延遲敏感的任務。人工智慧教育家、BlueShell 創辦人 Paul Couvert 和 EverArt 執行長 Pietro Schirano 透過社群媒體認可強調了其在程式碼和 UI 生成方面的優勢。

整合到 Replit 和 Cursor 等平台

Cursor 的內部測試顯示工具呼叫失敗次數減少且可靠性增強,這促使該公司將 I/O 版本整合到其核心程式碼代理程式中。同樣,Replit 正在探索更深層的整合以實現即時編碼輔助,利用模型改進的函數呼叫和多模式 I/O。

快速指引

CometAPI 提供超過 500 種 AI 模型,包括用於聊天、映像、程式碼等的開源和專用多模式模型。其主要優勢在於簡化傳統上複雜的人工智慧整合過程。有了它,您可以透過單一、統一的訂閱存取 Claude、OpenAI、Deepseek 和 Gemini 等領先的 AI 工具。您可以使用 CometAPI 中的 API 來創作音樂和藝術品、生成影片以及建立自己的工作流程

彗星API 提供遠低於官方價格的價格,幫助您整合 Gemini 2.5 Pro API,註冊登入後您將在帳戶中獲得1美元!歡迎註冊體驗CometAPI,CometAPI按使用量付費,Gemini 2.5 Pro API (型號名稱: gemini-2.5-pro-preview-05-06) 在 CometAPI 定價中的架構如下:

  • 輸入代幣:1 美元/百萬代幣
  • 輸出代幣:8 美元/百萬代幣

如需快速集成,請參閱 API 文件

SHARE THIS BLOG

閱讀更多

一個 API 中超過 500 個模型

最高 20% 折扣