Gemini 2.5 Flash 旨在在不犧牲輸出品質的前提下,提供快速回應。它支援多模態輸入,包括文字、圖片、音訊與影片,適用於各類應用情境。該模型可透過 Google AI Studio 與 Vertex AI 等平台取得,為開發者提供無縫整合至各種系統所需的工具。
基本資訊(功能)
Gemini 2.5 Flash 引入多項突出的功能,使其在 Gemini 2.5 系列中脫穎而出:
- 混合式推理:開發者可設定 thinking_budget 參數,精細控制模型在輸出前用於內部推理的 Token 數量。
- 帕累托前沿:定位於成本與效能的最優點,Flash 在 2.5 系列中提供最佳的價格與智能比。
- 多模態支援:原生處理文字、圖片、影片與音訊,帶來更豐富的對話與分析能力。
- 100 萬 Token 上下文:超長的上下文長度,允許在單次請求中進行深度分析與長文理解。
模型版本
Gemini 2.5 Flash 歷經以下關鍵版本:
- gemini-2.5-flash-lite-preview-09-2025:增強工具可用性:在複雜的多步驟任務上表現更佳,SWE-Bench Verified 分數提升 5%(由 48.9% 提升至 54%)。效率提升:啟用推理時,以更少的 Token 產生更高品質輸出,降低延遲與成本。
- Preview 04-17:提供「thinking」能力的早期體驗版,可透過 gemini-2.5-flash-preview-04-17 取得。
- Stable General Availability (GA):自 2025 年 6 月 17 日起,穩定端點 gemini-2.5-flash 取代預覽版,確保生產等級可靠性,且與 5 月 20 日的預覽版相比無 API 變更。
- Deprecation of Preview:預覽端點預計於 2025 年 7 月 15 日關閉;使用者需在此日期前遷移至 GA 端點。
截至 2025 年 7 月,Gemini 2.5 Flash 已公開且穩定(與 gemini-2.5-flash-preview-05-20 相比無變更)。如果您使用 gemini-2.5-flash-preview-04-17,現有的預覽定價將持續至該端點於 2025 年 7 月 15 日退役並關閉。您可以遷移至一般可用的模型「gemini-2.5-flash」。
更快、更便宜、更聰明:
- 設計目標:低延遲 + 高吞吐量 + 低成本;
- 在推理、多模態處理與長文本任務上整體加速;
- Token 使用量降低 20–30%,顯著降低推理成本。
技術規格
輸入上下文視窗:最多可達 100 萬個 Token,支援大規模上下文保留。
輸出 Token:每次回應最多可產生 8,192 個 Token。
支援的模態:文字、圖片、音訊與影片。
整合平台:可透過 Google AI Studio 與 Vertex AI 使用。
定價:具競爭力的 Token 式計費模型,促進具成本效益的部署。
技術細節
在底層,Gemini 2.5 Flash 是一個基於 Transformer 的大型語言模型,訓練資料涵蓋網頁、程式碼、圖片與影片等混合來源。關鍵技術規格包括:
多模態訓練:經過多模態對齊訓練,Flash 能無縫融合文字與圖片、影片或音訊,適用於影片摘要、音訊描述等任務。
動態思考流程:實作內部推理迴圈,模型會在輸出最終結果前進行規劃並拆解複雜提示。
可配置的思考配額:thinking_budget 可從 0(無推理)設定至 24,576 tokens,可在延遲與答案品質之間做權衡。
工具整合:支援 Grounding with Google Search、Code Execution、URL Context 與 Function Calling,可直接從自然語言提示執行實際操作。
基準表現
在嚴格評測中,Gemini 2.5 Flash 展現出業界領先的表現:
- LMArena Hard Prompts:在具挑戰性的 Hard Prompts 基準上表現為僅次於 2.5 Pro 的第二名,展現強大的多步推理能力。
- MMLU 分數 0.809:以 0.809 的 MMLU 準確率超越平均水準,反映其廣泛的領域知識與推理實力。
- 延遲與吞吐量:具備 271.4 tokens/sec 的解碼速度與 0.29 s Time-to-First-Token,非常適合對延遲敏感的工作負載。
- 性價比領先:以 \$0.26/1 M tokens 的價格,在多項關鍵基準下達到相當或更佳表現,同時優於許多競品的成本。
這些結果表明,Gemini 2.5 Flash 在推理、科學理解、數學解題、程式撰寫、視覺解讀與多語言能力方面具備競爭優勢:
侷限
雖然功能強大,Gemini 2.5 Flash 仍存在一些限制:
- 安全風險:模型可能呈現「說教式」語氣,且在邊界情況的查詢中,可能產生看似合理但錯誤或帶有偏見的輸出(幻覺)。因此,嚴格的人為審查仍然不可或缺。
- 速率限制:API 使用受限於頻率配額(預設級別為 10 RPM、250,000 TPM、250 RPD),可能影響批次處理或高流量應用。
- 智慧基線:作為Flash模型已極具能力,但在如高階編碼或多代理協作等最嚴苛的代理型任務上,準確度仍不及 2.5 Pro。
- 成本權衡:儘管具備最佳的性價比,大量使用 thinking 模式會提升整體 Token 耗用,對需要深度推理的提示而言將增加成本。




