如何使用 Gemini 3 Flash API

CometAPI
AnnaDec 18, 2025
如何使用 Gemini 3 Flash API

Google 於 2025 年 12 月 17–18 日宣布推出 Gemini 3 Flash,作為 Gemini 3 家族中低延遲、具成本效益的成員。它在 Flash 級別的體量中帶來 Pro 級推理能力,支援廣泛的多模態輸入(文字、圖片、音訊、影片),引入 thinking_level 與媒體解析度控制,並可透過 Google AI Studio、Gemini API(REST / SDKs)、Vertex AI、Gemini CLI 取得,且已成為 Google 搜尋/Gemini 應用的預設模型。

What is Gemini 3 Flash and why it matters

Gemini 3 Flash 是 Google 3 系列模型的一部分。其設計目標是推進品質、成本與延遲之間的 Pareto 前沿:在大幅提升速度與降低成本的同時,提供與 Gemini 3 Pro 相近的推理能力。這種組合讓它非常適合高頻互動情境(聊天機器人、IDE 助手、即時代理式流程)、對延遲敏感的大規模內容生成,以及需要低負擔多模態推理(圖片 + 文字 + 音訊)的應用。

Key high-level points:

  • 它明確針對速度 + 低成本進行最佳化,同時保留強大的推理能力與多模態保真度(比舊的 Gemini 2.5 Pro 快三倍;保留 Gemini 3 的頂級推理能力)。
  • 它被定位為代理式循環與開發者迭代工作流程(例如程式碼助理、多輪代理)的「甜蜜點」。
  • Flexible: 可以依據問題的複雜度「調整思考時間」——對簡單問題立即作答,對複雜任務則考慮更多步驟。

Technical Performance and Benchmark Results

Gemini 3 Flash 在速度、智慧與成本方面實現三重突破:

1) Agentic loops and multimodal understanding

Gemini 3 Flash 延續了 Gemini 3 家族的架構與訓練改進,展現強大的多模態能力(文字、圖片、影片、音訊輸入)與相較早期 Flash 模型更佳的推理表現。Google 將 Flash 定位為可處理文件分析(OCR + 推理)、影片摘要、圖文問答,以及多模態程式任務。這種多模態能力結合低延遲,是該模型的關鍵技術賣點之一。

Google 發布的內部基準聲稱突顯其強勁的代理式編碼表現(針對代理式編碼流程的 SWE-bench Verified 約 78%),並指出 Flash 在許多任務上接近 Pro 級推理,同時仍足夠快速,適用於代理式循環與近即時工作流程。

BenchmarkGemini 3 Flash ScoreComparison ModelImprovement
GPQA Diamond(PhD-level reasoning)90.4%超越 Gemini 2.5 Pro顯著
Humanity’s Last Exam(General knowledge test)33.7%(no tools)接近 Gemini 3 Pro高級推理
MMMU Pro(Multimodal understanding)81.2%與 Gemini 3 Pro 相當
SWE-bench Verified(Coding capability benchmark)78%高於 Gemini 3 Pro 與 2.5 系列優秀

2) Cost and efficiency

Gemini 3 Flash 的研發理念是「Pareto Frontier」,也就是在速度、品質與成本之間找到最佳平衡。Gemini 3 Flash 明確針對價格效能進行最佳化。Google 列示 Flash 的定價相較 Pro 在相當任務上顯著更低,並將其定位為可用更低營運成本處理大量請求。對許多工作負載而言,Flash 變體旨在成為具成本效益的預設選擇——例如,Flash preview 階段的定價大約為每 1M input tokens $0.50、每 1M output tokens $3.00。實務上,這讓高頻任務在 Pro 較高的每 token 費率之下仍具可行性。

Efficiency indicators

  • 速度:比 Gemini 2.5 Pro 快 3 倍(基於 Artificial Analysis 測試)。
  • Token 效率:平均使用少 30% 的 tokens 完成相同任務。換言之,以相同預算取得更快、更好的結果。
  • Gemini 3 Flash 具備「Dynamic Thinking Mode」——可依任務複雜度調整推理深度;需要時「多想一下」,簡單任務則快速回應。

Practical implications: 較低的每 token 或每次呼叫成本意味著在相同預算下可以執行更多查詢、更長的上下文,或更高的取樣率。效率提升也可降低基礎設施複雜度(需要的熱實例更少),並改善回應時間保證。

3) Performance benchmark

Gemini 3 Flash 在多項學術與應用基準上達到「frontier-class」表現,同時在延遲與成本方面優於早期的 Pro 模型。Google 提供了在複雜推理與知識基準(例如 GPQA 變體)上的高分數來展示其能力。

如何使用 Gemini 3 Flash API

How do I use the Gemini 3 Flash API?

Which access method should I use?

  • Recommended (simple + robust): 採用 Comet 展示的 SDK 整合樣式——只需將現有的 GenAI SDK 指向 Comet 的 base URL 並提供你的 Comet API key。這可避免自行重現請求/串流解析。
  • Alternate (raw/log HTTP / curl / custom stacks): 可直接 POST 至 CometAPI 端點(Comet 接受 OpenAI 風格或供應商特定格式)。使用 Authorization: Bearer <sk-...>(Comet 範例使用 Bearer 標頭),並在 body 中指定模型字串 gemini-3-flash。請在 Comet 的 API 文件中確認欲使用模型的確切路徑與查詢參數。

Quick summary — what you’ll do

  • 在 CometAPI 註冊並建立 API token。
  • 選擇存取方式(建議:如下所示的 SDK wrapper 模式;備選:raw HTTP/cURL)。
  • 透過 CometAPI 的 base URL 呼叫 gemini-3-flash 模型(Comet 會將你的請求轉送至 Google 的 Gemini 後端)。
  • 按模型需求處理串流/函式呼叫/多模態輸入(詳情如下)。

以下是一個簡潔範例(基於 CometAPI 的範例樣式)說明如何透過 CometAPI 呼叫 gemini-3-flash;將 <YOUR_COMETAPI_KEY> 替換為你的實際金鑰。以下模型 ID 與端點與 CometAPI 文件相符。

from google import genaiimport os​# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it hereCOMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"BASE_URL = "https://api.cometapi.com"​client = genai.Client(    http_options={"api_version": "v1beta", "base_url": BASE_URL},    api_key=COMETAPI_KEY,)​response = client.models.generate_content(    model="gemini-3-flash",    contents="Explain how AI works in a few words",)​print(response.text)

Key request parameters to consider

  • thinking_level —— 控制內部推理深度:MINIMALLOWMEDIUMHIGH。當不需要深層多步推理時,使用 MINIMAL 以獲得最低延遲與成本。
  • media_resolution —— 用於視覺/影片輸入:lowmediumhighultra_high。較低解析度可降低 token 等值與延遲。
  • streamGenerateContent vs generateContent —— 需要逐步收到部分回覆時,使用串流以提升感知延遲體驗。
  • Function calling / JSON Mode —— 當需要可機器解析的輸出時,使用結構化回應。

Sending multimodal inputs (practical pointers)

  • Images/PDFs: 大型媒體建議使用 Cloud Storage URI(gs://);小型圖片多數 API 接受 base64。注意模態 token 計價——PDF 可能依端點計入圖片/文件配額。
  • Video/audio: 短片可傳遞 URI;長媒體請使用批次處理流程或分段串流。請查閱 API 文件中的最大輸入大小與編碼限制。
  • Function calling / tools: 使用結構化函式結構以取得 JSON 輸出並啟用安全的工具調用。Gemini 3 Flash 支援串流式函式呼叫以改善使用體驗。

Where can I access Gemini 3 Flash?

Gemini 3 Flash 可在 Google 的消費者與開發者平臺上取得:

  • Google Search 與 Gemini 應用 —— Flash 已作為搜尋中 AI 模式的預設模型,並整合至 Gemini 應用體驗中供終端使用者使用。
  • Google AI Studio —— 開發者立即可用的實驗場所,亦可產生測試用 API 金鑰。
  • Gemini API(Generative Language / AI Developer API) —— 以 gemini-3-flash-preview 提供(文件/發佈說明中使用的模型 ID),並可透過標準的 generateContent/streamGenerateContent 端點存取。
  • Vertex AI(Google Cloud) —— 透過 Vertex AI 的生成式模型 API 進行生產級存取,提供適合企業工作負載的定價與配額。
  • Gemini CLI —— 用於終端機式開發與腳本工作流程。

Third-party gateway CometAPI

CometAPI 已將 gemini-3-flash 納入其型錄,並在該模型頁面說明如何透過 CometAPI 的統一端點呼叫。其提供的模型 API 價格為官方價格的 20%。

What are best practices when using Gemini 3 Flash?

1) Choose thinking_level per task and tune

  • 對於簡單問答與高頻互動任務,設定 MINIMALLOW
  • 對需要更深層思維鏈或多步規劃的任務,選擇性使用 MEDIUMHIGH
  • 當你變更 thinking_level 時,請基準測試成本與品質。Google 文件提醒 thinking_level 會改變內部思考軌跡與延遲。

2) Use media_resolution to control vision compute

如果傳入圖片或影片,為該任務選擇能接受的最低 media_resolution;例如,縮圖與批次抽取用 low,視覺設計評析用 high。此舉可降低影像的 token 等值並降低延遲。

3) Prefer structured outputs for automation

當你的應用需要機器可解析的輸出(例如實體抽取、工具調用),請使用 JSON Mode/函式呼叫。這將大幅簡化下游處理。盡可能強制執行嚴格的 JSON Schema,並在客戶端進行驗證。

4) Make liberal use of streaming for long responses

對長回應使用 streamGenerateContent 可降低感知延遲,並允許 UI 漸進式渲染。對長時間的多模態任務,串流部分輸出讓使用者即時看到進度。

5) Control costs with caching and context management

  • 對重複引用使用上下文快取(不同模型的定價與 token 規則可能不同)。
  • 避免在非必要時傳送過長上下文——偏好簡潔提示,並對大型知識庫使用檢索與落地(grounding)。

Typical usage scenarios for Gemini 3 Flash

High-volume conversational agents

Flash 天然適合需要低延遲、低成本推理的聊天機器人與客服助手。結合串流支援與高 tokens/sec,Flash 可降低使用者等待時間並降低營運成本。

sopmodal assistants and document pipelines

由於 Flash 能良好處理圖片、PDF 與短影片,常見應用包括發票抽取、手冊的多模態問答、帶圖片的客服,以及將 PDF 納入知識庫。

Real-time video analytics and moderation

據報在發佈前測試中具備高輸出速度(≈218 t/s),可在合適架構下實現近即時的短影片分析與摘要、亮點偵測,以及即時內容審核流程。

Agentic developer tooling and coding assistance

SWE-bench 成績與回報的編碼表現使 Flash 成為快速程式助理、CLI 幫手與其他優先考量低延遲的開發者工作流程的理想選擇。

Conclusion — should you adopt Gemini 3 Flash now?

Gemini 3 Flash 是一項策略性產品,專為需要在不承擔高階 Pro 模型延遲與成本的情況下,仍擁有強大推理與多模態智慧的團隊而設計。該模型尤其適合代理式編碼助理、互動式多模態代理、文件處理流水線,以及任何以低延遲與大規模為主要考量的系統。早期基準(包括 Google 與獨立分析)顯示 Flash 在品質上具競爭力,同時提供可觀的吞吐與成本優勢。

要開始,請在 Gemini 3 FlashPlayground 中探索其能力,並查閱 API guide 以獲得詳細指引。在存取之前,請確保你已登入 CometAPI 並取得 API key。CometAPI 提供遠低於官方的價格,協助你快速整合。

Ready to Go?→ Free trial of Gemini 3 Flash !

閱讀更多

一個 API 中超過 500 個模型

最高 20% 折扣