Gemini 2.5 Flash 旨在在不犧牲輸出品質的前提下，提供快速回應。它支援多模態輸入，包括文字、圖片、音訊與影片，適用於各類應用情境。該模型可透過 Google AI Studio 與 Vertex AI 等平台取得，為開發者提供無縫整合至各種系統所需的工具。

基本資訊（功能）

Gemini 2.5 Flash 引入多項突出的功能，使其在 Gemini 2.5 系列中脫穎而出：

混合式推理：開發者可設定 thinking_budget 參數，精細控制模型在輸出前用於內部推理的 Token 數量。
帕累托前沿：定位於成本與效能的最優點，Flash 在 2.5 系列中提供最佳的價格與智能比。
多模態支援：原生處理文字、圖片、影片與音訊，帶來更豐富的對話與分析能力。
100 萬 Token 上下文：超長的上下文長度，允許在單次請求中進行深度分析與長文理解。

模型版本

Gemini 2.5 Flash 歷經以下關鍵版本：

gemini-2.5-flash-lite-preview-09-2025：增強工具可用性：在複雜的多步驟任務上表現更佳，SWE-Bench Verified 分數提升 5%（由 48.9% 提升至 54%）。效率提升：啟用推理時，以更少的 Token 產生更高品質輸出，降低延遲與成本。
Preview 04-17：提供「thinking」能力的早期體驗版，可透過 gemini-2.5-flash-preview-04-17 取得。
Stable General Availability (GA)：自 2025 年 6 月 17 日起，穩定端點 gemini-2.5-flash 取代預覽版，確保生產等級可靠性，且與 5 月 20 日的預覽版相比無 API 變更。
Deprecation of Preview：預覽端點預計於 2025 年 7 月 15 日關閉；使用者需在此日期前遷移至 GA 端點。

截至 2025 年 7 月，Gemini 2.5 Flash 已公開且穩定（與 gemini-2.5-flash-preview-05-20 相比無變更）。如果您使用 gemini-2.5-flash-preview-04-17，現有的預覽定價將持續至該端點於 2025 年 7 月 15 日退役並關閉。您可以遷移至一般可用的模型「gemini-2.5-flash」。

更快、更便宜、更聰明：

設計目標：低延遲 + 高吞吐量 + 低成本；
在推理、多模態處理與長文本任務上整體加速；
Token 使用量降低 20–30%，顯著降低推理成本。

技術規格

輸入上下文視窗：最多可達 100 萬個 Token，支援大規模上下文保留。

輸出 Token：每次回應最多可產生 8,192 個 Token。

支援的模態：文字、圖片、音訊與影片。

整合平台：可透過 Google AI Studio 與 Vertex AI 使用。

定價：具競爭力的 Token 式計費模型，促進具成本效益的部署。

技術細節

在底層，Gemini 2.5 Flash 是一個基於 Transformer 的大型語言模型，訓練資料涵蓋網頁、程式碼、圖片與影片等混合來源。關鍵技術規格包括：

多模態訓練：經過多模態對齊訓練，Flash 能無縫融合文字與圖片、影片或音訊，適用於影片摘要、音訊描述等任務。

動態思考流程：實作內部推理迴圈，模型會在輸出最終結果前進行規劃並拆解複雜提示。

可配置的思考配額：thinking_budget 可從 0（無推理）設定至 24,576 tokens，可在延遲與答案品質之間做權衡。

工具整合：支援 Grounding with Google Search、Code Execution、URL Context 與 Function Calling，可直接從自然語言提示執行實際操作。

基準表現

在嚴格評測中，Gemini 2.5 Flash 展現出業界領先的表現：

LMArena Hard Prompts：在具挑戰性的 Hard Prompts 基準上表現為僅次於 2.5 Pro 的第二名，展現強大的多步推理能力。
MMLU 分數 0.809：以 0.809 的 MMLU 準確率超越平均水準，反映其廣泛的領域知識與推理實力。
延遲與吞吐量：具備 271.4 tokens/sec 的解碼速度與 0.29 s Time-to-First-Token，非常適合對延遲敏感的工作負載。
性價比領先：以 \$0.26/1 M tokens 的價格，在多項關鍵基準下達到相當或更佳表現，同時優於許多競品的成本。

這些結果表明，Gemini 2.5 Flash 在推理、科學理解、數學解題、程式撰寫、視覺解讀與多語言能力方面具備競爭優勢：

侷限

雖然功能強大，Gemini 2.5 Flash 仍存在一些限制：

安全風險：模型可能呈現「說教式」語氣，且在邊界情況的查詢中，可能產生看似合理但錯誤或帶有偏見的輸出（幻覺）。因此，嚴格的人為審查仍然不可或缺。
速率限制：API 使用受限於頻率配額（預設級別為 10 RPM、250,000 TPM、250 RPD），可能影響批次處理或高流量應用。
智慧基線：作為Flash模型已極具能力，但在如高階編碼或多代理協作等最嚴苛的代理型任務上，準確度仍不及 2.5 Pro。
成本權衡：儘管具備最佳的性價比，大量使用 thinking 模式會提升整體 Token 耗用，對需要深度推理的提示而言將增加成本。

Gemini 2.5 Flash 的定價

探索 Gemini 2.5 Flash 的競爭性定價，專為滿足各種預算和使用需求而設計。我們靈活的方案確保您只需為實際使用量付費，讓您能夠隨著需求增長輕鬆擴展。了解 Gemini 2.5 Flash 如何在保持成本可控的同時提升您的專案效果。

gemini-2.5-flash (same price across variants)

Model family	Variant (model name)	Input price (USD / 1M tokens)	Output price (USD / 1M tokens)
gemini-2.5-flash	gemini-2.5-flash-thinking	$0.24	$2.00
gemini-2.5-flash	gemini-2.5-flash-all	$0.24	$2.00
gemini-2.5-flash	gemini-2.5-flash	$0.24	$2.00

Gemini 2.5 Flash 的範例程式碼和 API

Gemini 2.5 Flash API 是 Google 最新的多模態 AI 模型，為高速且具成本效益的任務而設計，具備可控的推理能力，允許開發者透過 Gemini API 開啟或關閉進階「思考」功能。

Python
JavaScript
Curl

from google import genai
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com"

client = genai.Client(
    http_options={"api_version": "v1beta", "base_url": BASE_URL},
    api_key=COMETAPI_KEY,
)

response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents="Tell me a three sentence bedtime story about a unicorn.",
)

print(response.text)

Gemini 2.5 Flash的版本

Gemini 2.5 Flash擁有多個快照的原因可能包括：更新後輸出結果存在差異需保留舊版快照以確保一致性、為開發者提供適應與遷移的過渡期，以及不同快照對應全球或區域端點以優化使用者體驗等潛在因素。各版本間的具體差異請參閱官方文件說明。

version
gemini-2.5-flash-image-preview
gemini-2.5-flash-lite-preview-06-17
gemini-2.5-flash-preview-09-2025
gemini-2.5-flash-thinking
gemini-2.5-flash-all
gemini-2.5-flash-deepsearch
gemini-2.5-flash-lite
gemini-2.5-flash
gemini-2.5-flash-preview-04-17
gemini-2.5-flash-preview-05-20
gemini-2.5-flash-lite-preview-06-17-thinking
gemini-2.5-flash-lite-thinking
gemini-2.5-flash-lite-preview-09-2025
gemini-2.5-flash-image