Gemini 3.5 Flash 評測:功能、基準測試、定價與更多

CometAPI
AnnaMay 20, 2026
Gemini 3.5 Flash 評測:功能、基準測試、定價與更多

Google 於 2026 年 5 月 19 日在 I/O 發布 Gemini 3.5 Flash,將其定位為針對代理式工作流程、程式開發與多模態任務、具備持續前沿表現的高智能、速度優化模型。它基於 Gemini 3 Flash 的基礎,強化「思考等級」,以在品質、成本與延遲之間取得平衡。

本全面指南涵蓋一切:Gemini 3.5 Flash 是什麼、其關鍵特性、詳細基準表現、定價、與 GPT-5.5、Claude 4.7/4.6 等的比較。作為領先的 AI API 聚合商,CometAPI 透過統一計費、簡化整合與成本優化工具,協助開發者存取 Gemini 3.5 Flash(及其競品)。

什麼是 Gemini 3.5 Flash?

Gemini 3.5 Flash 建構於 Gemini 3 Flash 推理基礎之上,強化了「思考等級」(minimal、low、medium/default、high),可微調品質—延遲—成本的取捨。它是原生多模態模型,支援文字、圖片、影片、音訊與文件(含 PDF),具備 1M Token 上下文視窗與最多 65K 輸出 Token。知識截斷為 2025 年 1 月。

相較先前 Flash 模型的關鍵差異:

  • 持續的前沿表現:在代理式、編碼與長期任務上表現卓越。
  • 思維保留:在多輪對話中自動維持中間推理,無需額外 API 更動。
  • 針對規模優化:為平行代理執行、迭代編碼與企業級多步驟流程而設計。
  • 尚未支援電腦使用,但在工具使用與函式呼叫上有顯著改進。

Google 將其定位為「最智能的 Flash 模型」,適合生產環境使用;在多項代理式與編碼基準上超越先前的 Gemini 3.1 Pro,同時提供 Flash 級別的速度(測試中常見 >280 輸出 Token/秒)。

Gemini 3.5 Flash 在代理式工作流程與程式開發中表現突出,以優化的延遲與成本達到近 Pro 級智能,在 Terminal-bench 2.1 取得 76.2%,在 MCP Atlas 多步任務取得 83.6%。

基準表現突破

獨立測試證實,它以更高速度在編碼/代理式任務中提供 Pro 級或更佳表現,但由於複雜代理迴圈會使用更多 Token,且相較先前 Flash 模型價格提高 3 倍,因此總體基準成本上升。

Gemini 3.5 Flash 對比前代在代理式與編碼領域進步顯著。以下為 Google DeepMind 模型卡與獨立評測(截至 2026 年 5 月)的重點結果:

精選基準(Gemini 3.5 Flash 對比同類):

程式開發

  • Terminal-bench 2.1(代理式終端編碼):76.2%(對比:Gemini 3 Flash 58.0%、Gemini 3.1 Pro 70.3%、GPT-5.5 78.2%
  • SWE-Bench Pro(公開、多樣化代理編碼):55.1%(對比:3 Flash 49.6%、3.1 Pro 54.2%)

代理式工具使用

  • MCP Atlas(多步工作流程):83.6%(領先)
  • Toolathlon(真實世界通用工具使用):56.5%
  • Finance Agent v2:57.9%(較 3 Flash 大幅 +15.3%)

多模態

  • CharXiv(圖表推理):84.2%
  • MMMU-Pro:83.6%(領先多數競品)

推理與長上下文

  • Humanity’s Last Exam:40.2%
  • ARC-AGI-2:72.1%
  • MRCR v2(128k):77.3%;1M 上下文逐點為 26.6%,表現強勁。

Gemini 3.5 Flash 評測:功能、基準測試、定價與更多

Artificial Analysis Intelligence Index:Gemini 3.5 Flash 得分 55(高思考),較 Gemini 3 Flash 提升 9 分。它領先於智能—速度的帕累托前沿,在代理式任務上進步並降低幻覺(降至 61% 幻覺率)。其輸出速度可達 >280 Token/秒,但在代理式迴圈中 Token 使用量更高。

它在長上下文(MRCR v2 與 1M 逐點表現)與多模態(圖表、文件)領域領先,並在持續代理式表現中於部分流程減少 Token 浪費(例如在某些網安基準上提升 42%、Token 降低 72%)。

速度與代理能力的平衡

Gemini 3.5 Flash 在「速度—智能取捨」上表現出色。它在提供高吞吐量(>280 Token/秒)的同時,支援複雜的代理行為,如子代理部署、平行執行與快速迭代。

預設思考強度現為 medium,自 Gemini 3 Flash Preview 的 high 調整而來。

思考等級可精準控制:

  • 中等(預設):多數複雜程式與代理任務的最佳平衡。
  • :面向最困難問題的深度推理最大化。
  • 低/極低:面向簡單查詢的超低延遲。

Google 報告顯示,在真實世界的代理場景中 Token 效率有顯著提升(例如相較前一版本在部分網安基準中 Token 減少 72%),使其適用於持續、長時間運行的工作流程。

取捨:相較先前 Flash 模型更高的價格,會在 Token 密集的代理場景中推高總成本(由於定價與使用量,對比 Gemini 3 Flash 的 Intelligence Index 成本達 5.5 倍)。

智慧代理的強化能力

Gemini 3.5 Flash 推進了「代理式 Gemini 時代」。關鍵增強包括:

  • 平行代理執行循環:為複雜問題部署多個子代理。
  • 迭代編碼與原型設計:結合動態工具使用,快速探索解法。
  • 長期多步驟工作流程:搭配思維保留處理延展的企業流程。
  • 工具使用改進:嚴格的函式回應匹配、多模態函式回應,且透過更佳提示與較低思考等級減少不必要呼叫。於 OSWorld 與 UI 任務表現強勁。

它為 Google 的新資訊代理、自主研究與編碼流程提供動力。在內部測試中,擅長搭建複雜系統與管理研究專案。

對開發者而言,全新的 Interactions API(beta)簡化了伺服器端歷史管理,類似於其他生態系中的進階範式。

CometAPI 推薦:在代理式系統中,透過我們的統一 API 將 Gemini 3.5 Flash 與專長模型鏈接(例如,用 Claude 進行深度程式碼審查或用 GPT 處理創意任務)。我們的路由與回退功能可確保可靠性並節省成本。

多模態領先

Google 持續在多模態理解上領先。Gemini 3.5 Flash 原生處理並推理文字 + 圖像 + 影片 + 音訊 + 文件,在 CharXiv、MMMU-Pro 與影片理解等基準上領先或緊追。

使用情境:圖表/資料綜合、影片分析、多模態函式呼叫(例如在工具回應中處理影像),以及豐富媒體代理。非常適合電商、內容創作、科學可視化等應用。

定價:Gemini 3.5 Flash 多少錢?

Gemini API 定價(每 1M Token,全球近似價格):

  • 輸入(文字/圖片/影片/音訊):$1.50
  • 輸出:$9.00
  • 上下文快取:$0.15(對重複提示有顯著節省)

這相較 Gemini 3 Flash Preview($0.50/$3)約提高 3 倍,但就能力躍升而言仍具競爭力。其價格接近 Gemini 3.1 Pro($2/$12),同時對多數工作負載提供更佳速度。

這相較 Gemini 3 Flash Preview($0.50/$3)約提高 3 倍,但就能力躍升而言仍具競爭力。其價格接近 Gemini 3.1 Pro($2/$12),同時對多數工作負載提供更佳速度。

免費方案:可透過 Google AI Studio/Gemini 應用取得有限使用;生產環境需付費。

Cometapi 優勢:透過 Gemini 3.5 Flash API 與 100+ 模型的整合,我們以具競爭力的費率、使用分析與優化工具,幫助你降低 Token 花費。平台常以智慧路由與批次處理帶來更佳的實際定價。API 價格通常比官方價低 20%。

Gemini 3.5 Flash 對比 GPT-5.5、Claude 4.7/4.6 等

Gemini 3.5 Flash 的優勢:

  • 速度 + 代理平衡:推理速度快於多數前沿模型,同時縮小智能差距。
  • 多模態與長上下文:原生 1M 上下文與視覺領先。
  • 大規模成本:相較頂級 Claude/GPT,在許多工作負載上每 Token 更便宜,特別搭配快取。
  • Google 生態系:無縫整合 Search、Workspace、Cloud。

競品優勢所在:

  • GPT-5.5 在純推理(如 ARC-AGI)上常領先,且可能在創意/通用能力更強。
  • Claude Opus 4.7/Sonnet 4.6 在嚴謹編碼(某些情況下 SWE-Bench 較高)與細膩寫作/安全性方面表現突出。
  • Token 效率因模型而異;代理迴圈可能使 3.5 Flash 的整體成本更高。

高層比較(近似/節選指標;請隨時查驗最新排行榜):

Benchmark / MetricGemini 3.5 FlashGPT-5.5Claude Opus 4.7 / Sonnet 4.6Gemini 3.1 ProNotes
Terminal-bench 2.1 (Coding)76.2%78.2%~66%70.3%代理式編碼
MCP Atlas (Agentic)83.6%75.3%79.1% / 69.5%78.2%多步驟工作流程
GDPval-AA (Agentic Knowledge)1656 Elo176917531314經濟價值
MMMU-Pro (Multimodal)83.6%81.2%~75%80.5%Gemini 領先明顯
Intelligence Index (AA)55High (varies)CompetitiveLower速度/智能帕累托
Speed (tokens/s)>280LowerVariableSlowerFlash 優勢
Input/Output Price ($/1M)1.50 / 9.00HigherHigher (esp. Opus)2/12具成本效益的前沿
Context Window1MCompetitiveStrong1M+皆為前沿級別

取捨總結

  • Gemini 3.5 Flash 在速度 + 多模態 + 代理效率上勝出,適合規模化。
  • GPT-5.5 在純推理/編碼峰值上常占上風。
  • Claude 4.7 Opus 在高可靠性、謹慎編碼上表現優秀,但成本/延遲更高。

Gemini 在多模態與特定代理套件中經常領先或持平,同時更快且更適合高量使用的成本。

如何存取與整合 Gemini 3.5 Flash

可透過以下方式使用:

  • Gemini App / Google AI Studio
  • Gemini API(gemini-3.5-flash
  • Google Cloud Vertex AI / Enterprise Agent Platform
  • 第三方聚合商,獲得多供應商彈性

CometAPI 推薦:在 Cometapi.com 的生產應用中,透過單一 API 金鑰即可存取 Gemini 3.5 Flash(以及 OpenAI、Anthropic、xAI 等 500+ 模型),有效價格降低 20–40%、無供應商綁定,並可輕鬆切換模型。

對你的專案的好處:

  • 僅需更換模型名稱,即可即時對比 Gemini 3.5 Flash 與 GPT-5.5 或 Claude 4.7。
  • 統一計費、回退路由與延遲優化。
  • 適合需要跨供應商可靠性的代理式應用。
  • 免費 API 金鑰註冊,提供寬鬆的測試額度。

以官方 SDK 或 CometAPI 的統一端點進行整合都相當容易——非常適合擴展程式開發

使用情境與最佳實務

  1. 代理式自動化:為研究、資料分析或客服打造穩健的多代理系統。
  2. 程式與開發:在 Antigravity 或 IDE 中進行迭代原型、偵錯與端到端產出。
  3. 多模態應用:影像/影片分析、圖表理解、內容生成。
  4. 企業工作流程:長期多步驟流程,透過快取與思考等級控成本。

提示:提供完整對話歷史以利思維保留。以 medium 思考起步。優化提示以減少工具呼叫。監控 Token 使用以提升成本效率。

限制與注意事項

  • 價格升高,對高流量應用需精打細算。
  • 目前不支援電腦使用(請持續追蹤更新)。
  • 安全評估整體穩健,語氣有所改善,但自動化指標結果不一。
  • 幻覺降低顯著,但對關鍵輸出務必驗證。
  • 價格提升:高於先前 Flash 模型;建議搭配思考等級與快取優化。
  • 知識截斷:2025 年 1 月——針對時事請使用接地/搜尋工具。

結論:Gemini 3.5 Flash 值得嗎?

值得——對重視速度、代理可靠性、多模態能力與可擴展表現的開發者與企業而言尤甚。它推進了帕累托前沿,使前沿 AI 更易於投入生產。

準備開始建置了嗎? 前往 CometAPI 即刻在同一儀表板測試 Gemini 3.5 Flash 與其他頂級模型。優化你的 AI 技術棧、降低成本、加速上線。

準備好將 AI 開發成本降低 20% 了嗎?

幾分鐘內免費開始。包含免費試用點數。無需信用卡。

閱讀更多