如何使用 Gemini 3.5 Flash API

CometAPI
AnnaMay 20, 2026
如何使用 Gemini 3.5 Flash API

Google 在 Google I/O 2026 發布了 Gemini 3.5 Flash,作為其 Flash 系列的最新產品,以 Flash 等級的速度與成本提供前沿級智慧能力。於 2026 年 5 月 19 日前後推出,兼具進階推理、強大的智能體能力與多模態理解,同時維持低延遲。

此模型特別適合需要高效能 AI、但不想承擔大型「Pro」模型負擔的開發者、企業與 AI 構建者。在關鍵的智能體與程式碼基準上可與先前的 Pro 模型匹敵甚至超越,同時提供更優的速度與效率。

Key Highlights(精選摘要結構):

  • 效能:在 Terminal-Bench 2.1 上超越 Gemini 3.1 Pro(76.2% vs. 70.3%)、MCP Atlas(83.6%)等。
  • 速度:以 Flash 等級的延遲支援即時與高吞吐量情境。
  • 上下文:最多 1M 輸入 token、64k 輸出 token。
  • 多模態:原生處理文字、影像、影片、音訊、PDF。
  • 定價:約 $1.50 / 百萬輸入 token、$9 / 百萬輸出 token(依供應商/平台而異)。

為了無縫整合,CometAPI 提供對 Gemini(與其他多種模型)的統一可靠代理,具備更高的頻率限制、簡化的計費、回退路由與使用分析——非常適合以 Gemini 3.5 Flash 擴張至量產的應用。

什麼是 Gemini 3.5 Flash?

Gemini 3.5 Flash 是 Google 最智慧的 Flash 等級模型,旨在以規模化方式在智能體與程式碼任務上提供持續的前沿表現。它建立於 Gemini 3 系列之上,結合近似 Pro 的推理能力與 Flash 級效率。

不同於一味追求成本的「Lite」變體,或追求極致智慧的 Pro 模型,3.5 Flash 在真實世界的多步驟情境中表現突出:部署子智能體、快速程式碼反覆迭代(「vibe coding」)、並行工具使用,以及需要在多輪互動中維持脈絡的長期流程。

Core Capabilities:

  • 多模態輸入:文字、影像、影片、音訊、PDF。
  • 工具與智能體特性:函式呼叫、程式碼執行、搜尋對齊(grounding)、檔案搜尋、URL 脈絡。(尚未支援 Computer Use。)
  • 思考模式:可設定的努力等級,以平衡深度與速度。
  • 可用於量產:GA 正式版,具穩定版本管理(gemini-3.5-flash)。

它支援 1M token 上下文,能處理巨量文件、程式碼庫或對話歷史——這對複雜智能體至關重要。

Gemini 3.5 Flash 有哪些新特性

與 Gemini 3 Flash 與 3.1 Pro 相比,3.5 Flash 帶來顯著升級:

  • 智能體表現提升:在長距多輪網攻基準上提升 42%,且在部分情境中 token 使用量降低 72%。
  • 更佳的程式碼能力:在 Terminal-Bench 與 SWE-Bench 變體上領先,貼近真實開發流程。
  • 增強的多模態推理:在 CharXiv(84.2%)與 MMMU-Pro 上取得頂尖表現。
  • 平行子智能體協作:原生支援複雜的多智能體編排(於 Antigravity 範例中展示,如程式碼庫遷移與遊戲開發)。
  • 效率提升:在提升智慧的同時維持或改善速度,適合高量產環境。

Benchmark Comparison Table:

BenchmarkGemini 3.5 FlashGemini 3 FlashGemini 3.1 Pro備註
Terminal-Bench 2.1 (Agentic)76.2%58.0%70.3%程式碼領先表現
MCP Atlas (Multi-step)83.6%62.0%78.2%智能體工作流程
CharXiv (Multimodal)84.2%80.3%83.3%圖表推理
GDPval-AA (Elo)165612041314知識型工作
MMMU-Pro83.6%81.2%80.5%多模態

真實用戶(如 Shopify、Macquarie Bank、Salesforce)在預測、文件處理與企業自動化方面報告了效益。

行為調整與關鍵變更

Google 引入了重要的行為更新,以提升效率與一致性。

新的預設努力等級:Medium

預設的 thinking_level 從先前預覽版的高,調整為「medium」。這對大多數任務提供優異結果,同時降低延遲與成本。對最複雜的推理任務再使用 high。

Effort Level 比較表:

Effort Level最適用於延遲/成本影響建議用例
minimal快速回應最低聊天、簡單事實、基本路由
low少步驟的智能體/程式碼分析、寫作、快速工具
medium (default)多數任務平衡複雜程式碼、標準智能體
high深度推理較高困難數學、最具挑戰的智能體任務

Code Example(Python - 設定思考等級):

Python

from google import genai
from google.genai import types

client = genai.Client()  # 假設已透過環境變數或認證設定 API 金鑰

response = client.models.generate_content(
    model="gemini-3.5-flash",
    contents="證明 √2 是無理數。",
    config=types.GenerateContentConfig(
        thinking_config=types.ThinkingConfig(thinking_level="high")
    ),
)
print(response.text)

JavaScript、REST 等亦採用類似模式。

思路保留

當提供完整歷史(包含思考簽章)時,模型會自動在多輪對話中維持中間推理。這可提升在反覆除錯、重構與長時段智能體工作階段中的表現——對 Interactions API 無需額外更動;對 GenerateContent 而言,提供完整歷史即可受益。

參數更新(Gemini 3.x 最佳實務)

  • 避免手動設定 temperature、top_p、top_k——預設值已過最佳化。
  • 使用 thinking_level,而非數值型 thinking_budget。
  • 嚴格比對函式回應(id、name、count)對避免空回應至關重要。

如何存取並使用 Gemini 3.5 Flash API

1. 存取選項:

  1. Google AI Studio(最易測試)——提供免費額度。
  2. Gemini API(以 API key 直接存取)。
  3. Vertex AI / Gemini Enterprise Agent Platform(企業功能、更高配額)。
  4. 第三方如 CometAPI(建議,用於簡化多供應商存取、分析與可靠性)。

Get Started with CometAPI:CometAPI 以單一端點匯聚 Gemini 模型存取,提供更好的錯誤處理、使用儀表板與成本警示。至 Cometapi.com 註冊取得金鑰,並以極少程式碼更動將請求路由至 gemini-3.5-flash(或同等模型 ID)。非常適合在無需管理多組 API 金鑰與速率限制的情況下擴張。

2. 基本設定與 Hello World

Python 快速上手:

import osfrom google import genaifrom google.genai import types​# 設定用戶端(API 金鑰可來自環境變數或 Google 認證)genai.configure(api_key=os.environ["GEMINI_API_KEY"])  # 或以預設值使用 Client()​client = genai.Client()​response = client.models.generate_content(    model="gemini-3.5-flash",    contents="請用三句話說明平行智能體執行。",)print(response.text)

JavaScript 範例:

import { GoogleGenAI } from "@google/genai";​const ai = new GoogleGenAI({});​async function main() {  const response = await ai.models.generateContent({    model: "gemini-3.5-flash",    contents: "請用三句話說明平行智能體執行。",  });  console.log(response.text);}​main();

REST API Curl:

curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-3.5-flash:generateContent" \  -H "x-goog-api-key: $GEMINI_API_KEY" \  -H 'Content-Type: application/json' \  -X POST \  -d '{    "contents": [{      "parts": [{"text": "Hello, Gemini 3.5 Flash!"}]    }]  }'```<grok-card data-id="a39ea3" data-type="citation_card" data-plain-type="render_inline_citation" ></grok-card>​​

3. 進階用法:多模態、函式呼叫與智能體

多模態範例(影像 + 文字):

# 假設你已取得影像檔或位元組資料
image_part = types.Part.from_bytes(data=image_bytes, mime_type="image/jpeg")​
response = client.models.generate_content(    model="gemini-3.5-flash",    contents=[image_part, "詳細描述此影像並提出改進建議。"],)

用於智能體工作流程的函式呼叫:

定義工具,讓模型呼叫它們,然後提供回應(需嚴格比對 id/name)。

結構化輸出:

使用回應綱要(schema)以獲得可可靠解析的 JSON——非常適合資料擷取管線。

程式碼執行工具:

啟用後可在沙箱中執行 Python 以進行數學計算、資料分析等。

若需完整的智能體架構,可考慮 Google 的 Managed Agents(預覽),或使用 Cometapi.com 自建編排、記錄與成本控制。

Gemini 3.5 Flash API 建議

  1. 善用預設的 Medium 努力等級——僅在必要時覆寫。
  2. 在聊天/智能體情境傳遞完整歷史,以利思路保留。
  3. 對重覆的大型提示使用上下文快取,可大幅節省成本。
  4. 嚴格處理工具回應,避免失敗。
  5. 監控 Token——1M 上下文功能強大,但濫用成本高。
  6. 結合 Cometapi.com——實作智慧路由(如對簡單查詢回退至 Flash-Lite)、快取層、使用儀表板與統一錯誤處理,最佳化高吞吐或關鍵任務的成本與可靠性。

使用 Gemini 3.5 Flash API 的最佳實務

提示工程:

  • 使用清晰、結構化的提示與角色(System + User)。
  • 指定輸出格式(JSON、Markdown 表格)。
  • 思維鏈(Chain-of-Thought):「一步一步地思考……」

成本最佳化:

  • 使用預設的「medium」努力等級。
  • 使用快取(若支援)。
  • 透過 CometAPI 儀表板監控 token 使用量。
  • 將非緊急任務批次處理。

錯誤處理與可靠性:

  • 實作具指數退避的重試。
  • 使用 CometAPI 自動回退至其他模型。

智能體設計:

  • 將複雜任務拆分為子智能體。
  • 以聊天會話或外部記憶維持狀態。
  • 與 Antigravity 或自訂編排結合。

實際應用與案例研究

  • 程式碼智能體:在快速回饋循環中進行反覆開發。
  • 企業自動化:文件處理、資料擷取(例如 Box Life Sciences 的成效)。
  • 多模態分析:影片/音訊 + 文字的深度洞察。
  • 客服智能體:長上下文對話處理。

透過 Cometapi.com 整合,團隊可對提示/模型進行 A/B 測試、追蹤各工作流程的投資報酬,並在無基礎設施負擔下擴張。

比較:Gemini 3.5 Flash 與競品與前代模型

Gemini 3.5 Flash 在智能體/程式碼用例上具備極佳的性價比。對許多任務而言,它往往比完整的 Pro 模型更快、更具成本效益,同時在原始智慧上縮小差距。

何時選擇:

  • 高吞吐應用(聊天機器人、程式碼助理)。
  • 智能體自動化。
  • 對速度有要求的多模態分析。
  • 需要控管預算的量產場景。

限制:仍存在預覽/穩定性的細節差異;某些輸出相較舊版 Flash 等級定價更高。請充分測試。

Performance Comparison Table(約略,基於公開報告):

Model智能體強度速度成本(輸入/輸出)最適用於
Gemini 3.5 Flash高(前沿)非常高$1.50 / $9智能體、程式碼、規模化
Gemini 3 Flash中高較低一般快速任務
Gemini 3.1 Pro非常高較高追求最高智慧
Lite Variants最高最低高量、簡單任務

常見陷阱與疑難排解

  • 函式回應不匹配 → 輸出為空。
  • 過度使用「high」努力等級 → 成本/延遲上升。
  • 對重覆上下文未使用快取。
  • 長會話中的 token 限制超出預期。

結論:立即開始以 Gemini 3.5 Flash 構建

Gemini 3.5 Flash 讓更多速度敏感、成本意識強的應用能用上前沿 AI 能力。其 GA 正式發布,加上如預設 medium 努力等級與思路保留等行為更新,讓它成為量產利器。

Action Steps:

  1. 取得 API key 並開始測試。
  2. 依上述程式碼範例透過 SDK 實作。
  3. 以 Cometapi.com 作為代理、最佳化、監控與多 LLM 支援,智慧擴張。
  4. 嘗試智能體樣式並分享成果。

遵循本指南,你將能有效運用 Gemini 3.5 Flash,同時將風險與成本降至最低。若需要針對現代 AI 工作流程的無縫 API 管理,請前往 CometAPI 立即整合。

準備好將 AI 開發成本降低 20% 了嗎?

幾分鐘內免費開始。包含免費試用點數。無需信用卡。

閱讀更多