雙子座 3 深度思考 是Google/DeepMind最新基礎模型系列——Gemini 3——中一種全新的、專門的推理模式,旨在對複雜、多步驟、多模態的問題進行更多的時間和內部「深思熟慮」。它被宣傳為Gemini系列中將最先進的推理和智能體問題解決能力推向新的高度的版本,超越了以往的版本。
Gemini 3 Deep Think究竟是什麼?
定義和定位
Gemini 3 Deep Think 並不是一個獨立的模型系列,它並非獨立發布的、完全不同的神經網路架構——它是一個 增強推理模式 在Google稱之為「進一步拓展智慧邊界」的 Gemini 3 系列中,Deep Think 被明確定義為當您需要模型進行更深層次的思考、考慮多種假設並在做出響應前評估各種方案時的最佳模式——它有效地讓系統以延遲為代價,換取更高品質、更具深思熟慮的輸出。 Google將 Deep Think 定位為專為最複雜、新穎和多步驟推理任務而優化的版本(最初僅對安全測試和 Google AI Ultra 訂閱用戶開放)。
Deep Think 與標準版 Gemini 3 Pro 有何不同
從概念上講,Gemini 3 Pro 旨在提供平衡、低延遲的體驗,適用於通用智能體應用和開發者整合(例如,新的 Antigravity IDE 和 Vertex AI 整合)。 Deep Think 屬於同一系列,但配置為:
- 推理優先解碼和思維鏈內化。 谷歌將 Gemini 3 描述為採用了改進的內部「思考」流程,使模型能夠更可靠地執行多步驟規劃和內部討論。 Deep Think 似乎強化了這個過程——在生成過程中分配更多內部運算資源、延長內部討論鏈並採用更嚴格的驗證啟發式方法。這些改變旨在減少脆弱的單步驟反應,並提升解決新任務的能力。
- 更大的推理範圍(工具+模擬)。 Deep Think 經過最佳化,能夠呼叫各種工具模擬(例如模擬瀏覽器、計算器、程式碼運行器或外部 API),並將智能體工作流程視為模型推理循環的一部分。這意味著模型可以進行規劃、假設、測試(透過模擬工具)和修改——這種內部實驗形式有利於處理複雜的編碼、數學或研究問題。
- 更高的運算能力/延遲權衡。 為了實現更深入的推理,Deep Think 的推理成本和延遲都高於 Pro 版本。谷歌歷來在其模型中提供此類權衡,例如提供高級「專家」模式;Deep Think 也遵循此模式,優先考慮品質和可靠性。
Gemini 3 深度思考是如何運作的?
要理解「如何」實現,需要將產品模式(Deep Think)與底層模型系列(Gemini 3)區分開來。 Deep Think 並非一個單獨的、可下載的模型檔案;而是一種配置——一個訓練好的能力層和推理堆疊——它能夠解鎖更多的計算資源、內部推理例程和專門的解碼行為,從而優先考慮深度和正確性,而不是延遲或成本。
更緊密的工具集成
Deep Think 利用了與 Gemini 3 Pro 相同的代理工具呼叫和沙箱原語,但採用了更保守的策略,並對每次工具呼叫都增加了額外的驗證步驟(這對研究工作流程中的安全性很重要)。
深度思考的權衡取捨和推理策略
Deep Think 被明確描述為交易 潛伏 對於 深度它每次查詢需要運行更多計算(更長的內部思考時間或更徹底地搜尋候選推理路徑),並依賴選擇性程式碼執行或多步驟驗證等輔助機制來解決新問題。這使得它在「前沿」基準測試(新穎、創造性或多階段問題)中表現更佳,但在生產環境中可能速度更慢、成本更高。
思路鏈、草稿紙和迭代改進
「深度思考」方法依賴研究界和企業已成功應用的機制:鍊式推理、內部草稿紙和分階段推理(即在整合之前先解決和驗證子問題)。模型採用多種方法來分解問題、檢查中間步驟,並將解決方案重新組合成穩健的最終輸出。
Gemini 3 Deep Think 的效能基準是什麼?
谷歌公佈了一系列基準測試數據,這些數據充分展現了Gemini 3(尤其是Deep Think配置)所宣稱的效能提升幅度。 Gemini 3 Deep Think配置最引人注目的公開數據包括:
- ARC-AGI(抽象視覺推理,程式碼執行變體): 據報道,Gemini 3 Pro 的續航時間約為 31.1%,而 Gemini 3 深度思考達到約 45.1% 在 ARC-AGI-2 基準測試中取得了巨大進步,此前該基準測試一直未能達到高效能。
- GPQA Diamond(進階問答): 據報道,Gemini 3 Pro 的成績約為 91.9%,而 Deep Think 在公開測試中得分約為 93.8%。這些優異的性能水準使得 Gemini 3 在發布之初躋身多個排行榜的前列。
- 人類的最後考試(無需工具挑戰): Google 的資料報告顯示,Gemini 3 Deep Think 在無工具的情況下表現大幅提升(Google 給出的數字約為 41.0%),在最苛刻的考試題型上也優於 Gemini 3 Pro。
這些數據為何重要? 這些基準測試結果的提升並非在所有任務中都一致:在需要多步驟推理、抽象視覺問題解決以及模型必須掌握和處理大量上下文資訊的任務中,提升最為顯著。這與Deep Think的功能目標相符:展現穩健的高階推理能力,而不僅僅是更優的表面文本預測。
Gemini 3 Deep Think 與 Gemini 2.5 專業版對比
Deep Think 在 Gemini 2.x 的基礎上進行了改進。
推理與問題解決能力: 最顯著的提升體現在推理基準測試和需要複雜內部邏輯鏈的任務。與 Gemini 2.5 Pro 相比,Gemini 3 Deep Think 在 ARC-AGI、Humanity's Last Exam 和其他推理測驗套件中的得分大幅提高。這種提升似乎既源自於演算法層面(不同的訓練/微調),也源自於操作層面(Deep Think 的推理即時思考)。

多模態理解: Gemini 3 擴展了對更豐富的多模態輸入的支持,包括視訊分析、手寫+語音融合以及更精細的圖像文字推理,而 Deep Think 則進一步增強了處理混合媒體類型的任務的能力。 Gemini 2.x 在處理多模態任務方面已經表現出色,而 Gemini 3 的 Deep Think 則在準確性和上下文感知能力方面都更勝一籌。
代理商和工具的使用: Gemini 3 對智慧體工作流程(建立可在編輯器、終端機、瀏覽器和 API 呼叫之間運作的智慧體)的重視標誌著一次質的飛躍。 Deep Think 透過增強內部模擬和工具編排,在與外部工具互動時提供了更完善的規劃和驗證——這項功能在早期的 Gemini 版本中仍處於萌芽階段。谷歌的 Antigravity IDE 就是一個早期整合實例,充分展現了這一點。
編碼和開發人員人體工學: Gemini 3 Pro 已經改進了單次編碼和「概念編碼」(高級規格 → 腳手架式應用生成)。 Deep Think 增強了該模型規劃大型專案、產生更連貫的多檔案程式碼以及跨上下文偵錯的能力。早期基準測試和合作夥伴回饋表明,與 2.x 版本相比,開發人員的生產力顯著提高。
建築與行為差異(H3)
與 Gemini 2.x 相比,其優勢體現在多個方面,並且這些方面相互促進:
- 教育部骨幹網路改良與專家路由調優從而實現更有效率的專業化和規模化。
- 統一多模態堆疊 它更好地融合了跨模態推理(這對 ARC-AGI 的視覺子問題很重要)。
- 諸如深度思考之類的操作模式 有意延長內部討論和假設檢驗時間,以計算/延遲為代價換取準確性。
使用者實際成果
對於開發者和研究人員而言,這意味著:
- 提升了自動化更高價值工作流程(例如科學文獻綜合、架構設計、高階調試)的能力,而早期的 Gemini 版本在這方面的成功有限。
- 更少的幻覺,以及對複雜提示更站得住腳的循序漸進的推理鏈。
- 當任務需要對長文件、程式碼庫或混合媒體進行推理時,效能更佳。
如何存取 Gemini 3 深度思考
方案 A — 消費者/進階使用者路線:Gemini 應用 + Google AI
根據Google官方公告,Gemini 3 Deep Think 是 尚未廣泛上市 在正式發布版本中,該功能將首先面向安全測試人員推出,然後再推廣到「Ultra」訂閱等級。
谷歌AI超級: 每月 249.99 美元 (在美國)Ultra 級別,包括“深度思考、雙子特工(僅限美國,僅限英語)和最高限額”。
訂閱方式: 請透過 Gemini 應用程式/Google One/Google AI 方案頁面訂閱您所在地區的服務。訂閱控制台會顯示您的帳號是否已啟用 Deep Think。
方案 B — 開發者/企業級路線:API
對於需要 API 存取權限的開發者:Gemini 3 API 已開放給「Pro」版本預覽。如果您需要使用「Deep Think」版本,請使用其對應的 API 版本。 API 存取採用按需付費模式,以每百萬個輸入/輸出令牌計費。
好消息 — CometAPI 現已集成 Gemini 3 Pro 預覽版 API您還可以存取最新的 ChatGPT 5.1 版本。 API 價格比官方價格便宜:
| 型號 | gemini-3-pro-preview | gemini-3-pro-preview-thinking |
| 輸入令牌 | $1.60 | $1.60 |
| 輸出代幣 | $9.60 | $9.60 |
準備出發了嗎? → 立即註冊 CometAPI !
如果您想了解更多有關 AI 的提示、指南和新聞,請關注我們 VK, X 不和!
結論
Gemini 3 Deep Think 代表著一種深思熟慮且務實的嘗試,旨在將產品化。 更深的 機器推理:認為某些任務受益於內在的、分階段的思考和整合工具的使用,而不是一次性的反應。



