Gemini 2.5 Flash-Lite API 代表谷歌混合推理模型系列的最新產品,旨在提供 無與倫比的成本效益 超低延遲 適用於大容量、延遲敏感的應用程式。
基本資訊和功能
Flash-Lite 於 17 年 2025 月 2.5 日發布預覽版,與 Flash 和 Pro 一起完善了 Gemini XNUMX 產品線,為開發人員提供了針對 速度, 性價比和 適應性思維 能力 。
您可以透過在程式碼中指定「gemini-2.5-flash-lite」來開始使用 Gemini 2.5 Flash-Lite。如果您使用的是預覽版,可以切換到“gemini-2.5-flash-lite”,它與預覽版相同。 Google 計劃於 25 月 XNUMX 日移除 Flash-Lite 的預覽版別名。
| 穩定性 | 型號 | 日期 |
| 穩定(GA) | gemini-2.5-flash-lite | 2025 年 7 月 22 日 |
| 實驗預覽 | gemini-2.5-flash-lite-06-17 | 發售日期:17年25月2025日至XNUMX月XNUMX日 |
| 最新版本 | gemini-2.5-flash-lite-preview-09-2025 | 09-2025 |
- 思維控制:實現 動態思維預算 透過 API 參數,思考 默認禁用 最大限度地提高速度並降低成本。
- 低延遲:專為 快速到達第一個令牌,Flash-Lite 最大限度地減少了啟動開銷,在標準 Google Cloud 基礎架構上實現了低於 100 毫秒的延遲。
- 高通量:憑藉強大的解碼管道,它能夠維持 每秒數百個令牌,解鎖聊天機器人和串流媒體應用程式中的即時用戶體驗。
- 多式聯運支援:雖然 Flash-Lite 主要針對文字進行了最佳化,但它也接受 圖片, 音頻和 視頻 透過 Gemini API 輸入,實現從文件摘要到光視覺任務的多種用例。
技術細節
- 自適應推理:
Gemini 2.5 Flash-Lite支援按需 思維,允許開發人員僅在需要更深入的推理時分配計算資源。 - 工具集成:與 Gemini 2.5 的原生工具完全相容,包括 Google 搜尋基礎, 代碼執行, URL 上下文和 函數呼叫 實現無縫多模式工作流程。
- 模型上下文協定 (MCP):利用 Google 的 MCP 獲取即時網路數據,確保回應 跟上時代的 上下文相關.
- 部署選項:可透過 彗星API, 雙子座API, 頂點人工智能和 谷歌人工智慧工作室,為早期採用者提供預覽軌道以進行實驗並提供回饋。
基準性能 Gemini 2.5 Flash-Lite
- 潛伏:達到 平均反應時間縮短 50% 與 Gemini 2.5 Flash 相比, 低於 100 毫秒 標準分類和摘要基準的延遲。
- 倉庫工作量統計:優化為 高音量 工作負載,每分鐘維持數萬個請求而不會降低效能。
- 性價比:示範 每 25 個代幣成本降低 1,000% 與 Flash 版本相比, 帕累托最優 成本敏感型部署的選擇。
- 行業採用:早期用戶報告無縫整合到生產流程,性能指標符合或超過初始預測。

理想用例
- 高頻率、低複雜度的任務: 自動標記、情緒分析和批量翻譯
- 成本敏感型管道: 從大型文檔語料庫中提取數據,定期批量匯總
- 邊緣和移動場景: 當延遲至關重要但資源預算有限時
局限性 Gemini 2.5 Flash-Lite
- 預覽狀態:在 GA 之前可能會發生 API 變化;整合應該考慮到可能的版本波動。
- 無需即時微調:無法上傳自訂重量;依賴提示工程和系統訊息。
- 創造力下降:針對確定性、高吞吐量任務進行調整;較不適合開放式生成或「創意」寫作。
- 資源上限:僅線性擴展到最多約 16 個 vCPU;超過此數量,吞吐量增益就會減少。
- 多模態約束:支援影像/音訊輸入,但保真度有限;不適合繁重的視覺或音訊轉錄任務。
- 上下文視窗權衡 :儘管它最多可接受 1 M 個令牌,但以該規模進行實際推理可能會導致吞吐量下降。
如何致電 Gemini 2.5 Flash-Lite 來自 CometAPI 的 API
雙子座 2.5 Flash-Lite CometAPI 中的 API 定價,比官方價格便宜 20%:
- 輸入代幣:$0.08/百萬代幣
- 輸出代幣:0.32 美元/百萬代幣
所需步驟
- 登錄到 cometapi.com。如果您還不是我們的用戶,請先註冊
- 取得介面的存取憑證API key。在個人中心的API token處點選“新增Token”,取得Token金鑰:sk-xxxxx並提交。
- 取得此網站的 URL: https://api.cometapi.com/
使用方法
- 選擇“
gemini-2.5-flash-lite「端點發送 API 請求並設定請求體。請求方法和請求體可從我們網站的 API 文件取得。為了方便您使用,我們網站也提供了 Apifox 測試。 - 代替使用您帳戶中的實際 CometAPI 金鑰。
- 將您的問題或請求插入內容欄位 - 這是模型將會回應的內容。
- 。處理 API 回應以取得產生的答案。
CometAPI 提供完全相容的 REST API,以實現無縫遷移。關鍵細節如下: API 文件:
- 基本網址: https://api.cometapi.com/v1/chat/completions
- 型號名稱: “
gemini-2.5-flash-lite“ - 驗證:
Bearer YOUR_CometAPI_API_KEY頭
參見 雙子座2.5專業版
