Gemini 3 Pro (Preview) 是 Google/DeepMind 在 Gemini 3 家族中的最新旗艦多模態推理模型。其定位為「迄今最智能的模型」,專為深度推理、代理式工作流程、進階程式設計,以及長上下文的多模態理解(文字、圖片、音訊、影片、程式碼與工具整合)而設計。
主要特性
- 模態: 文字、圖片、影片、音訊、PDF(以及結構化的工具輸出)。
- 代理/工具: 內建函式呼叫、以搜尋作為工具、程式碼執行、URL 上下文,並支援編排多步代理。思維簽名機制可在多次呼叫間保留多步推理。
- 程式設計與「vibe coding」:針對前端生成、互動式 UI 生成與代理式程式設計進行最佳化(據 Google 報告,該模型在相關排行榜名列前茅)。被宣稱是其迄今最強的「vibe-coding」模型。
- 新的開發者控制項:
thinking_level(low|high)可在成本/延遲與推理深度間取捨,media_resolution可控制每張圖片或影片影格的多模態保真度。這些有助於平衡效能、延遲與成本。
基準測試表現
- Gemini3Pro 在 LMARE 取得第一名,得分 1501,超越 Grok-4.1-thinking 的 1484 分,並領先 Claude Sonnet 4.5 與 Opus 4.1。
- 它也在 WebDevArena 程式設計競技場取得第一名,得分 1487。
- 在 Humanity’s Last Exam 的學術推理中,取得 37.5%(未使用工具);在 GPQA Diamond 的科學測試中,91.9%;在 MathArena Apex 的數學競賽中,23.4%,創下新紀錄。
- 在多模態能力方面,MMMU-Pro 為 81%;在 Video-MMMU 的影片理解中,為 87.6%。

技術細節與架構
- 「Thinking level」參數: Gemini 3 提供
thinking_level控制項,讓開發者在內部推理深度與延遲/成本之間取捨。模型將thinking_level視為對內部多步推理的相對允許,而非嚴格的權杖保證。Pro 的預設通常為high。這是一個明確的新控制項,供開發者調整多步規劃與思考鏈深度。 - 結構化輸出與工具: 模型支援結構化 JSON 輸出,並可結合內建工具(Google Search grounding、URL 上下文、程式碼執行等)。部分結構化輸出+工具功能僅在
gemini-3-pro-preview提供預覽。 - 多模態與代理式整合: Gemini 3 Pro 明確面向代理式工作流程(工具化+多個代理,跨程式碼/終端機/瀏覽器)。
侷限與已知注意事項
- 事實準確性並非完美——仍可能出現幻覺。 儘管 Google 聲稱已大幅提升事實性,在高風險場景(法律、醫療、金融)仍需要有根據的驗證與人工審查。
- 長上下文表現依任務而異。 雖具備 1M 輸入視窗的硬能力,但在極端長度下的實證效果可能下滑(在部分長上下文測試中,於 1M 觀察到逐點下降)。
- 成本與延遲的取捨。 更大的上下文與較高的
thinking_level設定會提高運算、延遲與成本;定價層級依權杖量適用。可透過thinking_level與分塊策略管理成本。 - 安全與內容過濾。 Google 持續施行安全政策與審核層;特定內容與動作仍受限制,或會觸發拒絕模式。
Gemini 3 Pro Preview 與其他頂尖模型的比較
高層次比較(預覽 → 定性):
相較於 Gemini 2.5 Pro: 在推理、代理式工具使用與多模態整合上有躍進式提升;上下文處理能力更加龐大,長篇理解更佳。DeepMind 在學術推理、程式設計與多模態任務上展現持續增進。
相較於 GPT-5.1 與 Claude Sonnet 4.5(據報導): 在 Google/DeepMind 的基準測試組合上,Gemini 3 Pro 被呈現為在多項代理式、多模態與長上下文指標領先(見 Terminal-Bench、MMMU-Pro、AIME)。具體比較結果因任務而異。
常見與高價值使用情境
- 大型文件/書籍摘要與問答: 長上下文支援使其對法律、研究與合規團隊具吸引力。
- 在程式碼庫規模的程式理解與生成: 與程式設計工具鏈整合與強化的推理,有助於大型程式碼庫重構與自動化程式碼審查流程。
- 多模態產品助理: 圖片+文字+音訊工作流程(客服可處理螢幕截圖、通話片段與文件)。
- 媒體生成與編輯(照片 → 影片): 較早的 Gemini 系列功能現已包含 Veo/Flow 風格的照片→影片能力;預覽顯示在原型與媒體工作流程上具備更深入的多媒體生成。