Google 於 2025 年 12 月 17–18 日宣布推出 Gemini 3 Flash,作為 Gemini 3 家族中低延遲、具成本效益的成員。它在 Flash 級別的體量中帶來 Pro 級推理能力,支援廣泛的多模態輸入(文字、圖片、音訊、影片),引入 thinking_level 與媒體解析度控制,並可透過 Google AI Studio、Gemini API(REST / SDKs)、Vertex AI、Gemini CLI 取得,且已成為 Google 搜尋/Gemini 應用的預設模型。
What is Gemini 3 Flash and why it matters
Gemini 3 Flash 是 Google 3 系列模型的一部分。其設計目標是推進品質、成本與延遲之間的 Pareto 前沿:在大幅提升速度與降低成本的同時,提供與 Gemini 3 Pro 相近的推理能力。這種組合讓它非常適合高頻互動情境(聊天機器人、IDE 助手、即時代理式流程)、對延遲敏感的大規模內容生成,以及需要低負擔多模態推理(圖片 + 文字 + 音訊)的應用。
Key high-level points:
- 它明確針對速度 + 低成本進行最佳化,同時保留強大的推理能力與多模態保真度(比舊的 Gemini 2.5 Pro 快三倍;保留 Gemini 3 的頂級推理能力)。
- 它被定位為代理式循環與開發者迭代工作流程(例如程式碼助理、多輪代理)的「甜蜜點」。
- Flexible: 可以依據問題的複雜度「調整思考時間」——對簡單問題立即作答,對複雜任務則考慮更多步驟。
Technical Performance and Benchmark Results
Gemini 3 Flash 在速度、智慧與成本方面實現三重突破:
1) Agentic loops and multimodal understanding
Gemini 3 Flash 延續了 Gemini 3 家族的架構與訓練改進,展現強大的多模態能力(文字、圖片、影片、音訊輸入)與相較早期 Flash 模型更佳的推理表現。Google 將 Flash 定位為可處理文件分析(OCR + 推理)、影片摘要、圖文問答,以及多模態程式任務。這種多模態能力結合低延遲,是該模型的關鍵技術賣點之一。
Google 發布的內部基準聲稱突顯其強勁的代理式編碼表現(針對代理式編碼流程的 SWE-bench Verified 約 78%),並指出 Flash 在許多任務上接近 Pro 級推理,同時仍足夠快速,適用於代理式循環與近即時工作流程。
| Benchmark | Gemini 3 Flash Score | Comparison Model | Improvement |
|---|---|---|---|
| GPQA Diamond(PhD-level reasoning) | 90.4% | 超越 Gemini 2.5 Pro | 顯著 |
| Humanity’s Last Exam(General knowledge test) | 33.7%(no tools) | 接近 Gemini 3 Pro | 高級推理 |
| MMMU Pro(Multimodal understanding) | 81.2% | 與 Gemini 3 Pro 相當 | — |
| SWE-bench Verified(Coding capability benchmark) | 78% | 高於 Gemini 3 Pro 與 2.5 系列 | 優秀 |
2) Cost and efficiency
Gemini 3 Flash 的研發理念是「Pareto Frontier」,也就是在速度、品質與成本之間找到最佳平衡。Gemini 3 Flash 明確針對價格效能進行最佳化。Google 列示 Flash 的定價相較 Pro 在相當任務上顯著更低,並將其定位為可用更低營運成本處理大量請求。對許多工作負載而言,Flash 變體旨在成為具成本效益的預設選擇——例如,Flash preview 階段的定價大約為每 1M input tokens $0.50、每 1M output tokens $3.00。實務上,這讓高頻任務在 Pro 較高的每 token 費率之下仍具可行性。
Efficiency indicators
- 速度:比 Gemini 2.5 Pro 快 3 倍(基於 Artificial Analysis 測試)。
- Token 效率:平均使用少 30% 的 tokens 完成相同任務。換言之,以相同預算取得更快、更好的結果。
- Gemini 3 Flash 具備「Dynamic Thinking Mode」——可依任務複雜度調整推理深度;需要時「多想一下」,簡單任務則快速回應。
Practical implications: 較低的每 token 或每次呼叫成本意味著在相同預算下可以執行更多查詢、更長的上下文,或更高的取樣率。效率提升也可降低基礎設施複雜度(需要的熱實例更少),並改善回應時間保證。
3) Performance benchmark
Gemini 3 Flash 在多項學術與應用基準上達到「frontier-class」表現,同時在延遲與成本方面優於早期的 Pro 模型。Google 提供了在複雜推理與知識基準(例如 GPQA 變體)上的高分數來展示其能力。

How do I use the Gemini 3 Flash API?
Which access method should I use?
- Recommended (simple + robust): 採用 Comet 展示的 SDK 整合樣式——只需將現有的 GenAI SDK 指向 Comet 的 base URL 並提供你的 Comet API key。這可避免自行重現請求/串流解析。
- Alternate (raw/log HTTP / curl / custom stacks): 可直接 POST 至 CometAPI 端點(Comet 接受 OpenAI 風格或供應商特定格式)。使用
Authorization: Bearer <sk-...>(Comet 範例使用 Bearer 標頭),並在 body 中指定模型字串gemini-3-flash。請在 Comet 的 API 文件中確認欲使用模型的確切路徑與查詢參數。
Quick summary — what you’ll do
- 在 CometAPI 註冊並建立 API token。
- 選擇存取方式(建議:如下所示的 SDK wrapper 模式;備選:raw HTTP/cURL)。
- 透過 CometAPI 的 base URL 呼叫
gemini-3-flash模型(Comet 會將你的請求轉送至 Google 的 Gemini 後端)。 - 按模型需求處理串流/函式呼叫/多模態輸入(詳情如下)。
以下是一個簡潔範例(基於 CometAPI 的範例樣式)說明如何透過 CometAPI 呼叫 gemini-3-flash;將 <YOUR_COMETAPI_KEY> 替換為你的實際金鑰。以下模型 ID 與端點與 CometAPI 文件相符。
from google import genaiimport os# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it hereCOMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"BASE_URL = "https://api.cometapi.com"client = genai.Client( http_options={"api_version": "v1beta", "base_url": BASE_URL}, api_key=COMETAPI_KEY,)response = client.models.generate_content( model="gemini-3-flash", contents="Explain how AI works in a few words",)print(response.text)
Key request parameters to consider
thinking_level—— 控制內部推理深度:MINIMAL、LOW、MEDIUM、HIGH。當不需要深層多步推理時,使用MINIMAL以獲得最低延遲與成本。media_resolution—— 用於視覺/影片輸入:low、medium、high、ultra_high。較低解析度可降低 token 等值與延遲。streamGenerateContentvsgenerateContent—— 需要逐步收到部分回覆時,使用串流以提升感知延遲體驗。- Function calling / JSON Mode —— 當需要可機器解析的輸出時,使用結構化回應。
Sending multimodal inputs (practical pointers)
- Images/PDFs: 大型媒體建議使用 Cloud Storage URI(gs://);小型圖片多數 API 接受 base64。注意模態 token 計價——PDF 可能依端點計入圖片/文件配額。
- Video/audio: 短片可傳遞 URI;長媒體請使用批次處理流程或分段串流。請查閱 API 文件中的最大輸入大小與編碼限制。
- Function calling / tools: 使用結構化函式結構以取得 JSON 輸出並啟用安全的工具調用。Gemini 3 Flash 支援串流式函式呼叫以改善使用體驗。
Where can I access Gemini 3 Flash?
Gemini 3 Flash 可在 Google 的消費者與開發者平臺上取得:
- Google Search 與 Gemini 應用 —— Flash 已作為搜尋中 AI 模式的預設模型,並整合至 Gemini 應用體驗中供終端使用者使用。
- Google AI Studio —— 開發者立即可用的實驗場所,亦可產生測試用 API 金鑰。
- Gemini API(Generative Language / AI Developer API) —— 以
gemini-3-flash-preview提供(文件/發佈說明中使用的模型 ID),並可透過標準的 generateContent/streamGenerateContent 端點存取。 - Vertex AI(Google Cloud) —— 透過 Vertex AI 的生成式模型 API 進行生產級存取,提供適合企業工作負載的定價與配額。
- Gemini CLI —— 用於終端機式開發與腳本工作流程。
Third-party gateway CometAPI
CometAPI 已將 gemini-3-flash 納入其型錄,並在該模型頁面說明如何透過 CometAPI 的統一端點呼叫。其提供的模型 API 價格為官方價格的 20%。
What are best practices when using Gemini 3 Flash?
1) Choose thinking_level per task and tune
- 對於簡單問答與高頻互動任務,設定
MINIMAL/LOW。 - 對需要更深層思維鏈或多步規劃的任務,選擇性使用
MEDIUM/HIGH。 - 當你變更
thinking_level時,請基準測試成本與品質。Google 文件提醒thinking_level會改變內部思考軌跡與延遲。
2) Use media_resolution to control vision compute
如果傳入圖片或影片,為該任務選擇能接受的最低 media_resolution;例如,縮圖與批次抽取用 low,視覺設計評析用 high。此舉可降低影像的 token 等值並降低延遲。
3) Prefer structured outputs for automation
當你的應用需要機器可解析的輸出(例如實體抽取、工具調用),請使用 JSON Mode/函式呼叫。這將大幅簡化下游處理。盡可能強制執行嚴格的 JSON Schema,並在客戶端進行驗證。
4) Make liberal use of streaming for long responses
對長回應使用 streamGenerateContent 可降低感知延遲,並允許 UI 漸進式渲染。對長時間的多模態任務,串流部分輸出讓使用者即時看到進度。
5) Control costs with caching and context management
- 對重複引用使用上下文快取(不同模型的定價與 token 規則可能不同)。
- 避免在非必要時傳送過長上下文——偏好簡潔提示,並對大型知識庫使用檢索與落地(grounding)。
Typical usage scenarios for Gemini 3 Flash
High-volume conversational agents
Flash 天然適合需要低延遲、低成本推理的聊天機器人與客服助手。結合串流支援與高 tokens/sec,Flash 可降低使用者等待時間並降低營運成本。
sopmodal assistants and document pipelines
由於 Flash 能良好處理圖片、PDF 與短影片,常見應用包括發票抽取、手冊的多模態問答、帶圖片的客服,以及將 PDF 納入知識庫。
Real-time video analytics and moderation
據報在發佈前測試中具備高輸出速度(≈218 t/s),可在合適架構下實現近即時的短影片分析與摘要、亮點偵測,以及即時內容審核流程。
Agentic developer tooling and coding assistance
SWE-bench 成績與回報的編碼表現使 Flash 成為快速程式助理、CLI 幫手與其他優先考量低延遲的開發者工作流程的理想選擇。
Conclusion — should you adopt Gemini 3 Flash now?
Gemini 3 Flash 是一項策略性產品,專為需要在不承擔高階 Pro 模型延遲與成本的情況下,仍擁有強大推理與多模態智慧的團隊而設計。該模型尤其適合代理式編碼助理、互動式多模態代理、文件處理流水線,以及任何以低延遲與大規模為主要考量的系統。早期基準(包括 Google 與獨立分析)顯示 Flash 在品質上具競爭力,同時提供可觀的吞吐與成本優勢。
要開始,請在 Gemini 3 Flash 的 Playground 中探索其能力,並查閱 API guide 以獲得詳細指引。在存取之前,請確保你已登入 CometAPI 並取得 API key。CometAPI 提供遠低於官方的價格,協助你快速整合。
Ready to Go?→ Free trial of Gemini 3 Flash !
