Google 在 Google I/O 2026 發布了 Gemini 3.5 Flash,作為其 Flash 系列的最新產品,以 Flash 等級的速度與成本提供前沿級智慧能力。於 2026 年 5 月 19 日前後推出,兼具進階推理、強大的智能體能力與多模態理解,同時維持低延遲。
此模型特別適合需要高效能 AI、但不想承擔大型「Pro」模型負擔的開發者、企業與 AI 構建者。在關鍵的智能體與程式碼基準上可與先前的 Pro 模型匹敵甚至超越,同時提供更優的速度與效率。
Key Highlights(精選摘要結構):
- 效能:在 Terminal-Bench 2.1 上超越 Gemini 3.1 Pro(76.2% vs. 70.3%)、MCP Atlas(83.6%)等。
- 速度:以 Flash 等級的延遲支援即時與高吞吐量情境。
- 上下文:最多 1M 輸入 token、64k 輸出 token。
- 多模態:原生處理文字、影像、影片、音訊、PDF。
- 定價:約 $1.50 / 百萬輸入 token、$9 / 百萬輸出 token(依供應商/平台而異)。
為了無縫整合,CometAPI 提供對 Gemini(與其他多種模型)的統一可靠代理,具備更高的頻率限制、簡化的計費、回退路由與使用分析——非常適合以 Gemini 3.5 Flash 擴張至量產的應用。
什麼是 Gemini 3.5 Flash?
Gemini 3.5 Flash 是 Google 最智慧的 Flash 等級模型,旨在以規模化方式在智能體與程式碼任務上提供持續的前沿表現。它建立於 Gemini 3 系列之上,結合近似 Pro 的推理能力與 Flash 級效率。
不同於一味追求成本的「Lite」變體,或追求極致智慧的 Pro 模型,3.5 Flash 在真實世界的多步驟情境中表現突出:部署子智能體、快速程式碼反覆迭代(「vibe coding」)、並行工具使用,以及需要在多輪互動中維持脈絡的長期流程。
Core Capabilities:
- 多模態輸入:文字、影像、影片、音訊、PDF。
- 工具與智能體特性:函式呼叫、程式碼執行、搜尋對齊(grounding)、檔案搜尋、URL 脈絡。(尚未支援 Computer Use。)
- 思考模式:可設定的努力等級,以平衡深度與速度。
- 可用於量產:GA 正式版,具穩定版本管理(
gemini-3.5-flash)。
它支援 1M token 上下文,能處理巨量文件、程式碼庫或對話歷史——這對複雜智能體至關重要。
Gemini 3.5 Flash 有哪些新特性
與 Gemini 3 Flash 與 3.1 Pro 相比,3.5 Flash 帶來顯著升級:
- 智能體表現提升:在長距多輪網攻基準上提升 42%,且在部分情境中 token 使用量降低 72%。
- 更佳的程式碼能力:在 Terminal-Bench 與 SWE-Bench 變體上領先,貼近真實開發流程。
- 增強的多模態推理:在 CharXiv(84.2%)與 MMMU-Pro 上取得頂尖表現。
- 平行子智能體協作:原生支援複雜的多智能體編排(於 Antigravity 範例中展示,如程式碼庫遷移與遊戲開發)。
- 效率提升:在提升智慧的同時維持或改善速度,適合高量產環境。
Benchmark Comparison Table:
| Benchmark | Gemini 3.5 Flash | Gemini 3 Flash | Gemini 3.1 Pro | 備註 |
|---|---|---|---|---|
| Terminal-Bench 2.1 (Agentic) | 76.2% | 58.0% | 70.3% | 程式碼領先表現 |
| MCP Atlas (Multi-step) | 83.6% | 62.0% | 78.2% | 智能體工作流程 |
| CharXiv (Multimodal) | 84.2% | 80.3% | 83.3% | 圖表推理 |
| GDPval-AA (Elo) | 1656 | 1204 | 1314 | 知識型工作 |
| MMMU-Pro | 83.6% | 81.2% | 80.5% | 多模態 |
真實用戶(如 Shopify、Macquarie Bank、Salesforce)在預測、文件處理與企業自動化方面報告了效益。
行為調整與關鍵變更
Google 引入了重要的行為更新,以提升效率與一致性。
新的預設努力等級:Medium
預設的 thinking_level 從先前預覽版的高,調整為「medium」。這對大多數任務提供優異結果,同時降低延遲與成本。對最複雜的推理任務再使用 high。
Effort Level 比較表:
| Effort Level | 最適用於 | 延遲/成本影響 | 建議用例 |
|---|---|---|---|
| minimal | 快速回應 | 最低 | 聊天、簡單事實、基本路由 |
| low | 少步驟的智能體/程式碼 | 低 | 分析、寫作、快速工具 |
| medium (default) | 多數任務 | 平衡 | 複雜程式碼、標準智能體 |
| high | 深度推理 | 較高 | 困難數學、最具挑戰的智能體任務 |
Code Example(Python - 設定思考等級):
Python
from google import genai
from google.genai import types
client = genai.Client() # 假設已透過環境變數或認證設定 API 金鑰
response = client.models.generate_content(
model="gemini-3.5-flash",
contents="證明 √2 是無理數。",
config=types.GenerateContentConfig(
thinking_config=types.ThinkingConfig(thinking_level="high")
),
)
print(response.text)
JavaScript、REST 等亦採用類似模式。
思路保留
當提供完整歷史(包含思考簽章)時,模型會自動在多輪對話中維持中間推理。這可提升在反覆除錯、重構與長時段智能體工作階段中的表現——對 Interactions API 無需額外更動;對 GenerateContent 而言,提供完整歷史即可受益。
參數更新(Gemini 3.x 最佳實務)
- 避免手動設定 temperature、top_p、top_k——預設值已過最佳化。
- 使用 thinking_level,而非數值型 thinking_budget。
- 嚴格比對函式回應(id、name、count)對避免空回應至關重要。
如何存取並使用 Gemini 3.5 Flash API
1. 存取選項:
- Google AI Studio(最易測試)——提供免費額度。
- Gemini API(以 API key 直接存取)。
- Vertex AI / Gemini Enterprise Agent Platform(企業功能、更高配額)。
- 第三方如 CometAPI(建議,用於簡化多供應商存取、分析與可靠性)。
Get Started with CometAPI:CometAPI 以單一端點匯聚 Gemini 模型存取,提供更好的錯誤處理、使用儀表板與成本警示。至 Cometapi.com 註冊取得金鑰,並以極少程式碼更動將請求路由至 gemini-3.5-flash(或同等模型 ID)。非常適合在無需管理多組 API 金鑰與速率限制的情況下擴張。
2. 基本設定與 Hello World
Python 快速上手:
import osfrom google import genaifrom google.genai import types# 設定用戶端(API 金鑰可來自環境變數或 Google 認證)genai.configure(api_key=os.environ["GEMINI_API_KEY"]) # 或以預設值使用 Client()client = genai.Client()response = client.models.generate_content( model="gemini-3.5-flash", contents="請用三句話說明平行智能體執行。",)print(response.text)
JavaScript 範例:
import { GoogleGenAI } from "@google/genai";const ai = new GoogleGenAI({});async function main() { const response = await ai.models.generateContent({ model: "gemini-3.5-flash", contents: "請用三句話說明平行智能體執行。", }); console.log(response.text);}main();
REST API Curl:
curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-3.5-flash:generateContent" \ -H "x-goog-api-key: $GEMINI_API_KEY" \ -H 'Content-Type: application/json' \ -X POST \ -d '{ "contents": [{ "parts": [{"text": "Hello, Gemini 3.5 Flash!"}] }] }'```<grok-card data-id="a39ea3" data-type="citation_card" data-plain-type="render_inline_citation" ></grok-card>
3. 進階用法:多模態、函式呼叫與智能體
多模態範例(影像 + 文字):
# 假設你已取得影像檔或位元組資料
image_part = types.Part.from_bytes(data=image_bytes, mime_type="image/jpeg")
response = client.models.generate_content( model="gemini-3.5-flash", contents=[image_part, "詳細描述此影像並提出改進建議。"],)
用於智能體工作流程的函式呼叫:
定義工具,讓模型呼叫它們,然後提供回應(需嚴格比對 id/name)。
結構化輸出:
使用回應綱要(schema)以獲得可可靠解析的 JSON——非常適合資料擷取管線。
程式碼執行工具:
啟用後可在沙箱中執行 Python 以進行數學計算、資料分析等。
若需完整的智能體架構,可考慮 Google 的 Managed Agents(預覽),或使用 Cometapi.com 自建編排、記錄與成本控制。
Gemini 3.5 Flash API 建議
- 善用預設的 Medium 努力等級——僅在必要時覆寫。
- 在聊天/智能體情境傳遞完整歷史,以利思路保留。
- 對重覆的大型提示使用上下文快取,可大幅節省成本。
- 嚴格處理工具回應,避免失敗。
- 監控 Token——1M 上下文功能強大,但濫用成本高。
- 結合 Cometapi.com——實作智慧路由(如對簡單查詢回退至 Flash-Lite)、快取層、使用儀表板與統一錯誤處理,最佳化高吞吐或關鍵任務的成本與可靠性。
使用 Gemini 3.5 Flash API 的最佳實務
提示工程:
- 使用清晰、結構化的提示與角色(System + User)。
- 指定輸出格式(JSON、Markdown 表格)。
- 思維鏈(Chain-of-Thought):「一步一步地思考……」
成本最佳化:
- 使用預設的「medium」努力等級。
- 使用快取(若支援)。
- 透過 CometAPI 儀表板監控 token 使用量。
- 將非緊急任務批次處理。
錯誤處理與可靠性:
- 實作具指數退避的重試。
- 使用 CometAPI 自動回退至其他模型。
智能體設計:
- 將複雜任務拆分為子智能體。
- 以聊天會話或外部記憶維持狀態。
- 與 Antigravity 或自訂編排結合。
實際應用與案例研究
- 程式碼智能體:在快速回饋循環中進行反覆開發。
- 企業自動化:文件處理、資料擷取(例如 Box Life Sciences 的成效)。
- 多模態分析:影片/音訊 + 文字的深度洞察。
- 客服智能體:長上下文對話處理。
透過 Cometapi.com 整合,團隊可對提示/模型進行 A/B 測試、追蹤各工作流程的投資報酬,並在無基礎設施負擔下擴張。
比較:Gemini 3.5 Flash 與競品與前代模型
Gemini 3.5 Flash 在智能體/程式碼用例上具備極佳的性價比。對許多任務而言,它往往比完整的 Pro 模型更快、更具成本效益,同時在原始智慧上縮小差距。
何時選擇:
- 高吞吐應用(聊天機器人、程式碼助理)。
- 智能體自動化。
- 對速度有要求的多模態分析。
- 需要控管預算的量產場景。
限制:仍存在預覽/穩定性的細節差異;某些輸出相較舊版 Flash 等級定價更高。請充分測試。
Performance Comparison Table(約略,基於公開報告):
| Model | 智能體強度 | 速度 | 成本(輸入/輸出) | 最適用於 |
|---|---|---|---|---|
| Gemini 3.5 Flash | 高(前沿) | 非常高 | $1.50 / $9 | 智能體、程式碼、規模化 |
| Gemini 3 Flash | 中高 | 高 | 較低 | 一般快速任務 |
| Gemini 3.1 Pro | 非常高 | 中 | 較高 | 追求最高智慧 |
| Lite Variants | 中 | 最高 | 最低 | 高量、簡單任務 |
常見陷阱與疑難排解
- 函式回應不匹配 → 輸出為空。
- 過度使用「high」努力等級 → 成本/延遲上升。
- 對重覆上下文未使用快取。
- 長會話中的 token 限制超出預期。
結論:立即開始以 Gemini 3.5 Flash 構建
Gemini 3.5 Flash 讓更多速度敏感、成本意識強的應用能用上前沿 AI 能力。其 GA 正式發布,加上如預設 medium 努力等級與思路保留等行為更新,讓它成為量產利器。
Action Steps:
- 取得 API key 並開始測試。
- 依上述程式碼範例透過 SDK 實作。
- 以 Cometapi.com 作為代理、最佳化、監控與多 LLM 支援,智慧擴張。
- 嘗試智能體樣式並分享成果。
遵循本指南,你將能有效運用 Gemini 3.5 Flash,同時將風險與成本降至最低。若需要針對現代 AI 工作流程的無縫 API 管理,請前往 CometAPI 立即整合。
