Google 已透過釋出預覽版的 Gemini 3 Pro 正式開啟 Gemini 3 時代,且初步訊號十分明確:這是在多模態推理、程式代理與長上下文理解方面的重大躍進。該模型被定位為 Google 迄今最強的推理與多模態模型,針對代理式工作流程、編碼、長上下文任務與多模態理解進行了最佳化。它內建全新的「Deep Think」推理模式,在代理/程式基準上有劇烈提升(Terminal-Bench 2.0 報告為 54.2%),並可立即透過 Google AI Studio、API(Vertex AI 整合)與 Google Antigravity 等開發者工具使用。
什麼是 Gemini 3 Pro 預覽版?
Google 將 Gemini 3 描述為 Gemini 家族的次世代、最智慧的成員——聚焦更深層的推理、更豐富的多模態理解(文字、影像、影片、音訊、程式碼)與更好的代理行為(可使用工具進行規劃與執行的模型)。
核心特性
- 原生多模態理解 — 能同時接收並推理文字、影像、音訊與影片(包含長/影片輸入)。非常適合混合文件、截圖、逐字稿與影片。
- 超大上下文視窗(最高約 ~1,000,000 tokens) — 可在單一工作階段中導入/保持極長的文件、大型程式碼庫,或數小時的逐字稿。這是深度研究、程式碼審查與多文件綜整的核心賣點。
- 代理式/工具使用能力 — 為可呼叫工具、操作終端機、管理任務計畫並協調多步驟工作流程的自主代理而設計(已用於 Google Antigravity 與其他 IDE 整合)。這使其在編碼、協作編排與多步驟自動化方面尤其強大。
- 更強的推理與編碼 — Google 將 Gemini 3 Pro 定位為其在複雜推理、數學與程式任務上的頂級「思考」模型(基準與終端/工具表現皆有提升)。
與 Gemini 2.5 Pro 等相比,Gemini 3 Pro 有哪些新變化?
哪些能力提升最大?
Gemini 3 Pro 被宣傳為在推理(數學與科學推理)、多模態空間/視覺推理與工具使用方面的大幅躍進。Google 強調其相較 Gemini 2.5 Pro 在多套基準與真實代理任務(如編碼與終端機自動化)上都有明確優勢。團隊釋出的指標包括:
| 基準/任務 | Gemini 3 Pro(報告) | Gemini 2.5 Pro(報告) | 絕對差距(百分點) |
|---|---|---|---|
| Humanity’s Last Exam(學術推理,無工具) | 37.5% | 21.6% | +15.9。 |
| GPQA Diamond(科學/事實問答) | 91.9% | 86.4% | +5.5。 |
| AIME 2025(數學,無工具) | 95.0% | 88.0% | +7.0。 |
| AIME(含程式碼執行) | 100.0% | (2.5 Pro: — ) | —(配合執行 3 Pro 獲得滿分)。 |
| ARC-AGI-2(視覺推理謎題) | 31.1% | 4.9% | +26.2 — 多模態的大幅提升。 |
| SimpleQA Verified(參數式知識) | 72.1% | 54.5% | +17.6。 |
這些數據顯示,Gemini 3 Pro 已針對多步驟推理、複雜工具使用與高度整合的多模態任務(如結合影片畫面、圖表推理與程式碼生成)做過最佳化。
以代理為先的開發者工具:Antigravity
為展示代理式工作流程,Google 發佈了 Antigravity —— 一款「以代理為先」的 IDE,以 Gemini 3 Pro 為基礎打造多代理編碼工作流。Antigravity 讓代理可直接與編輯器、終端機與瀏覽器互動,並產出「Artifacts」(任務清單、截圖、瀏覽紀錄)以記錄代理行為——解決代理式開發中的可追溯性與可重現性問題。這使得 Gemini 3 Pro 相較僅聚焦文字生成的模型,更貼近真實開發工作流程的實用需求。
更出色的工具使用與編碼
Google 報告在以終端機為核心的基準(Terminal-Bench 2.0)上有顯著進步,該基準衡量模型透過終端機操作電腦的能力:Gemini 3 Pro 在該測試中獲得 54.2%——相較先前的 Gemini 版本有大幅提升,顯示在自主工具使用與程式碼生成方面的真實進展。

ly 當被要求運行腳本、協調工具或管理多步驟開發任務時。在實務中,這意味著當模型執行指令時更少幻覺、更好的錯誤處理,以及更強的從失敗步驟中恢復的能力。
Gemini 3 Pro 在各項基準上的表現如何
Google 在 Gemini 3 的部落格中發佈了涵蓋傳統 NLP 推理、多模態理解、程式碼生成與代理式工具使用的廣泛基準對比。Google 直接報告的關鍵數字包含:
- LMArena:Gemini 3 Pro 獲得 1501 Elo,在競賽型排行榜上名列前茅(以成對比對衡量一般推理/答案品質)。
- MMMU-Pro(多模態基準):81% —— 相較先前模型有顯著提升。
- Video-MMMU:在影片感知的多模態任務上達 87.6%。
- SimpleQA Verified:72.1%,顯示在複雜輸入的事實問答上有所提升。
- WebDev Arena:1487 Elo(網頁開發/程式推理)。
- Terminal-Bench 2.0 與 SWE-bench Verified:代理式工具使用與程式代理表現大幅進步。
- Deep Think:在最高難度測試上有進一步提升(例如 Humanity’s Last Exam 在某些指標上由 37.5% 提升至 41.0%,如報告所示)。

以上皆顯示該模型更偏向深度而非表面文字生成的調校方向。
因此:是的,Gemini 3 Pro 在許多測試上持續位居上層梯隊——但「碾壓」與否仍視任務而定。針對純程式碼生成,一些競品仍不相上下;而在長上下文、數學與多模態綜合方面,Gemini 3 Pro 在 2025 年 11 月上旬的測試中經常被報告為同級最佳。
如何取得 Gemini 3 Pro 預覽版?
官方入口
Google 已在多個介面提供 Gemini 3 Pro 預覽版:
- Gemini app(消費者/Pro 用戶): 隨著「Gemini 3」時代啟動,模型正逐步於 Gemini app 中推出。
- Google AI Studio / Gemini Developer API: 開發者可透過 AI Studio 與 Gemini Developer API 嘗試。API 提供 REST 與 SDK 介面,並支援函數呼叫與串流等進階功能。
- Vertex AI(Google Cloud): 企業與團隊可透過 Vertex AI 存取 Gemini 3 Pro,以支援生產級與 MLOps 工作流程。Vertex 提供 Python、Node、Java、Go 與 curl 範例。
- Third-party integrations (CometAPI): CometAPI 提供 Gemini 3 Pro API 的存取,呼叫名稱為 gemini-3-pro-preview。CometAPI 提供遠低於官方的價格,協助你完成整合。
快速上手:Python 範例(官方 SDK 模式)
以下為從 Google 的 Gemini 快速上手範例調整而來的精簡實用 Python 範例,示範透過 Google 的 GenAI 用戶端呼叫 Gemini API。將 GEMINI_API_KEY 替換為你從 Google AI Studio 或 GCP 專案取得的 API 金鑰。
# Example: call Gemini 3 Pro Preview using Google GenAI Python SDK
# Requires: pip install google-generativeai
import os
from google import genai
# Set API key in environment:
# export GEMINI_API_KEY="YOUR_API_KEY"
client = genai.Client() # client picks up GEMINI_API_KEY from env
# Use the preview model identifier. The exact model ID may vary; use the ID listed in the API docs.
model_id = "gemini-3-pro-preview" # or "gemini-3-pro" depending on availability
prompt = """
You are an assistant that writes a short Python function to fetch JSON from a URL,
handle HTTP errors, and return parsed JSON or None on failure.
"""
resp = client.models.generate_content(model=model_id, contents=prompt)
print("MODEL RESPONSE:\n", resp.text)
如果你選擇 CometAPI,請將 url 替換為 https://api.cometapi.com/v1/chat/completions,並將 key 替換為你從 CometAPI 取得的金鑰。
如何獲得最佳結果 — 提示模式與技巧
對於難題使用「thinking」模式
若你正在處理漸進式推理或複雜的數學/程式任務,啟用預覽中的「thinking」變體(若可用)——它會分配更多內部推理步驟,通常能在多階段任務中得到更可靠的解。請在主控台檢查模型名稱是否帶有 -thinking 後綴。
函數呼叫與工具編排
使用宣告式函數(Vertex AI/GenAI 的函數呼叫)以獲得可靠、結構化的輸出並降低幻覺風險。讓模型提出函數呼叫,再在你的環境中以確定性方式執行。函數呼叫文件包含回傳型別化 JSON 參數的範例,可讓你安全執行。
需要最新資料時使用 Grounding
若你的應用依賴即時網路資訊,可開啟 web grounding,但請留意 grounded 提示的成本與速率限制。Grounding 很強大——它允許 Gemini 查詢 Search 或 Maps——但每個 grounded 提示都可能影響計費與延遲。
Gemini 3 Pro 在真實任務中的表現(用例)
程式碼生成與開發者生產力
Gemini 3 Pro 在多檔案推理、長倉庫上下文,以及同時產出測試/文件與程式碼的綜合能力上有所提升。結合函數呼叫與終端代理,它能比舊版更快為中等規模專案搭建腳手架並進行驗證。社群測試顯示 LiveCodeBench/Elo 編碼分數提升。
研究與 STEM 工作流程
模型的 Deep Think 能力與更大的推理預算,使其非常適合需要多步驟數學推導、資料集綜整或多文件論文摘要的研究任務。早期基準結果顯示其在多個 STEM 數據集位居前列或近乎頂尖。
內容設計與多模態創作工作流程
Gemini 3 Pro 的多模態輸出與對 Veo/Whisk/Flow 的整合,使其非常適合混合文字、影像與影片的流程——從行銷分鏡到自動化影片草稿。Google 在 AI Ultra 中為創作者捆綁了某些創作工具,滿足更高的使用上限需求。
結論:Gemini 3 Pro 是否碾壓其他模型?
Gemini 3 Pro 預覽版是一大步。就廣泛的基準與早期真實測試而言,它在許多領域經常領先或持平當前最佳模型,特別是在:
- 複雜推理(數學/STEM)
- 多模態理解與綜合
- 代理式工作流程與函數呼叫
然而,優勢幅度會因任務而異。對某些窄域任務(特定創作風格或高度專業的領域知識),其他競品仍可能更具競爭力,或在成本/延遲與生態適配上更合適。基準與泄漏分數顯示 Gemini 3 Pro 常居頂尖梯隊,但是否「碾壓」視任務而定——對許多企業與開發者用例而言,Gemini 3 Pro 現已成為首選評估的模型。
如何開始使用 CometAPI
CometAPI 是一個整合超過 500 款來自頂級供應商的 AI 模型(例如 OpenAI 的 GPT 系列、Google 的 Gemini、Anthropic 的 Claude、Midjourney、Suno 等)的統一 API 平台。透過一致的驗證、請求格式與回應處理,CometAPI 大幅簡化了你在應用中整合 AI 能力的流程。無論你要打造聊天機器人、圖像生成、音樂創作,或資料驅動的分析管線,CometAPI 讓你迭代更快、控管成本、維持供應商中立,同時把握 AI 生態系的最新突破。
開發者可透過 CometAPI 存取 Gemini 3 Pro Preview API。開始之前,先在Playground中探索 CometAPI 的模型能力,並參考 API 指南以取得詳細說明。存取前請先登入 CometAPI 並取得 API 金鑰。CometAPI 提供遠低於官方的價格,協助你完成整合。
準備好了嗎?→ 立即註冊 CometAPI
