模型定價企業
500+ AI 模型 API,全部整合在一個 API 中。就在 CometAPI
模型 API
開發者
快速入門說明文件API 儀表板
公司
關於我們企業
資源
AI模型部落格更新日誌支援
服務條款隱私政策
© 2026 CometAPI · All rights reserved
Home/Models/Google/Gemini 3.1 Flash-Lite
G

Gemini 3.1 Flash-Lite

輸入:$0.2/M
輸出:$1.2/M
Gemini 3.1 Flash-Lite 是 Google 的 Gemini 3 系列中一款極具成本效益且低延遲的 Tier-3 模型,專為在吞吐量與速度比最大化推理深度更為重要的大規模生產級 AI 工作流程而設計。它結合了大型多模態上下文視窗與高效的推理效能,且成本低於多數旗艦級對應產品。
新
商業用途
Playground
概覽
功能
定價
API
版本

📊 技術規格

規格詳細資料
模型系列Gemini 3 (Flash-Lite)
上下文視窗最多 1 million tokens(多模態文本、圖像、音訊、視訊)
輸出 token 上限最多 64 K tokens
輸入類型文字、圖像、音訊、視訊
核心架構基礎基於 Gemini 3 Pro
部署管道Gemini API(Google AI Studio)、Vertex AI
定價(預覽)~$0.25/每 1M 個輸入 tokens,~$1.50/每 1M 個輸出 tokens
推理控制可調節的「thinking levels」(例如:從最低到較高)

🔍 什麼是 Gemini 3.1 Flash-Lite?

Gemini 3.1 Flash-Lite 是 Google 的 Gemini 3 系列中具成本效益且佔用資源更輕量的變體,專為大規模 AI 工作負載最佳化——特別適用於降低延遲、降低每 token 成本與提升吞吐量的場景。它在保留 Gemini 3 Pro 的多模態推理核心的同時,聚焦於批量處理用例,如翻譯、分類、內容審核、UI 生成與結構化資料合成。

✨ 主要功能

  1. 超大型上下文視窗: 可處理多達 1 M tokens 的多模態輸入,支援長文檔推理與影片/音訊的上下文處理。
  2. 具成本效益的執行: 相較於早期的 Flash-Lite 模型與同類產品,顯著降低每 token 成本,支援高用量場景。
  3. 高吞吐與低延遲: 相較於 Gemini 2.5 Flash,首次 token 時間快約 ~2.5×,輸出吞吐量快約 ~45 %。
  4. 動態推理控制: 「thinking levels」允許開發者按請求在效能與更深層推理之間調校。
  5. 多模態支援: 可在統一的上下文空間中原生處理圖像、音訊、視訊與文字。
  6. 靈活的 API 存取: 可透過 Google AI Studio 的 Gemini API 與企業級 Vertex AI 工作流程使用。

📈 基準測試表現

以下指標展示了與早期 Flash/Lite 變體與其他模型相比,Gemini 3.1 Flash-Lite 的效率與能力(2026 年 3 月公布):

基準測試Gemini 3.1 Flash-LiteGemini 2.5 Flash DynamicGPT-5 Mini
GPQA Diamond(科學知識)86.9 %66.7 %82.3 %
MMMU-Pro(多模態推理)76.8 %51.0 %74.1 %
CharXiv(複雜圖表推理)73.2 %55.5 %75.5 % (+python)
Video-MMMU84.8 %60.7 %82.5 %
LiveCodeBench(程式碼推理)72.0 %34.3 %80.4 %
1M Long-Context12.3 %5.4 %Not supported

這些分數顯示,即便以效率為導向的設計,Flash-Lite 仍保持具競爭力的推理與多模態理解能力,且在多項關鍵基準上經常優於較早的 Flash 變體。

⚖️ 與相關模型的比較

功能Gemini 3.1 Flash-LiteGemini 3.1 Pro
每 token 成本較低(入門級)較高(高階)
延遲 / 吞吐量針對速度最佳化在深度與速度之間均衡
推理深度可調整,但較淺更強的深層推理
使用場景重點批量管線、審核、翻譯關鍵任務的深度推理
上下文視窗1 M tokens1 M tokens(相同)

Flash-Lite 著重於規模與成本;Pro 著重於高精度與深度推理。

🧠 企業級使用情境

  • 大規模翻譯與審核: 低延遲的即時語言與內容管線。
  • 批量資料擷取與分類: 提供大型語料處理的高效 token 經濟性。
  • UI/UX 生成: 結構化 JSON、儀表板模板與前端腳手架。
  • 模擬式提示: 在延展互動中進行邏輯狀態追蹤。
  • 多模態應用: 在統一上下文中整合視訊、音訊與圖像資訊進行推理。

🧪 限制

  • 在複雜、關鍵任務中,推理深度與分析精度可能落後於 Gemini 3.1 Pro。 :
  • 某些基準(如長上下文融合)的表現相較旗艦模型仍有改進空間。
  • 動態推理控制在速度與完整性之間取捨;不同層級不保證相同的輸出品質。

GPT-5.3 Chat (Alias: gpt-5.3-chat-latest) — 概覽

GPT-5.3 Chat 是 OpenAI 最新的生產級聊天模型,透過官方 API 的 gpt-5.3-chat-latest 端點提供,並為 ChatGPT 的日常對話體驗提供支援。它著重於提升日常互動品質——使回應更流暢、更準確、脈絡關聯更佳——同時保留 GPT-5 系列的強大技術能力。 :contentReference[oaicite:1]{index=1}


📊 技術規格

規格詳細資料
模型名稱/別名GPT-5.3 Chat / gpt-5.3-chat-latest
提供者OpenAI
上下文視窗128,000 tokens
每次請求的最大輸出 tokens16,384 tokens
知識截止日期2025 年 8 月 31 日
輸入模態文字與圖像輸入(僅視覺)
輸出模態文字
函式呼叫支援
結構化輸出支援
串流回應支援
微調不支援
蒸餾 / 嵌入不支援蒸餾;支援嵌入
常用端點Chat completions, Responses, Assistants, Batch, Realtime
函式呼叫與工具啟用函式呼叫;透過 Responses API 支援網頁與檔案搜尋

🧠 GPT-5.3 Chat 的獨特之處

GPT-5.3 Chat 是 GPT-5 系列在聊天導向能力上的漸進式改良。此變體的核心目標是提供比早期模型(如 GPT-5.2 Instant)更自然、上下文連貫且友善的對話回應,同時維持強健的技術能力。改進重點包括:

  • 更動態、自然的語氣,減少無益的免責聲明,提供更直接的答案。
  • 在常見聊天場景中擁有更好的脈絡理解與相關性。
  • 與多輪對話、摘要與對話式助理等豐富聊天用例更順暢整合。

GPT-5.3 Chat 建議用於需要最新對話體驗改良、但不需要即將推出的「Thinking」或「Pro」GPT-5.3 變體(更偏重專門推理深度)的開發者與互動式應用。


🚀 主要功能

  • 大型聊天上下文視窗: 128K tokens 支援豐富的對話歷史與長脈絡追蹤。 :contentReference[oaicite:17]{index=17}
  • 改良的回應品質: 更流暢的對話流程,減少不必要的保留與過度審慎的拒答。 :contentReference[oaicite:18]{index=18}
  • 官方 API 支援: 完整支援聊天、批處理、結構化輸出與即時工作流程等端點。
  • 多元輸入支援: 接受並理解文字與圖像輸入,適用於多模態聊天用例。
  • 函式呼叫與結構化輸出: 透過 API 支援結構化與互動式應用模式。 :contentReference[oaicite:21]{index=21}
  • 廣泛的生態系相容性: 可與 v1/chat/completions、v1/responses、Assistants 與其他現代 OpenAI API 介面協作。

📈 典型基準與行為

📈 基準測試表現

OpenAI 與第三方報告顯示其實際場景表現有所提升:

指標GPT-5.3 Instant vs GPT-5.2 Instant
搭配網路搜尋的幻覺率−26.8%
未使用搜尋時的幻覺率−19.7%
使用者標記的事實性錯誤(網路)~−22.5%
使用者標記的事實性錯誤(內部)~−9.6%

值得注意的是,GPT-5.3 著重於「真實世界對話品質」,因此基準測試分數(如標準化 NLP 指標)的提升並非此版本的主要亮點——改進更清楚地體現在使用者體驗指標上,而非單純的測試分數。

在產業比較中,GPT-5 系列的聊天變體在日常對話的相關性與脈絡追蹤方面往往優於早期的 GPT-4 模組,但在專門的推理任務上,仍可能建議使用「Pro」變體或針對推理最佳化的端點。


🤖 使用情境

GPT-5.3 Chat 適合:

  • 客服機器人 與對話助理
  • 互動式教學或教育型代理
  • 摘要與對話式搜尋
  • 內部知識代理與團隊聊天助理
  • 多模態問答(文字 + 圖像)

其在對話品質與 API 多樣性上的平衡,使其非常適合將自然對話與結構化資料輸出相結合的互動式應用。

🔍 限制

  • 非最深層推理變體: 對於高風險、需深度分析的關鍵任務,較適合選擇即將推出的 GPT-5.3 Thinking 或 Pro 模型。
  • 多模態輸出有限: 雖支援圖像輸入,但完整的圖像/影片生成或更豐富的多模態輸出工作流程並非此變體的重點。
  • 不支援微調: 不提供微調,但可透過系統提示引導模型行為。

如何存取 Gemini 3.1 flash lite API

步驟 1:註冊以取得 API 金鑰

登入 cometapi.com。若您尚未成為用戶,請先註冊。登入您的 CometAPI console。取得接口的存取憑證 API key。在個人中心的 API token 中點擊「Add Token」,取得 token 金鑰:sk-xxxxx 並提交。

cometapi-key

步驟 2:向 Gemini 3.1 flash lite API 發送請求

選擇 “` gemini-3.1-flash-lite” 端點發送 API 請求並設定請求體。請求方法與請求體可從我們的網站 API 文件取得。我們的網站也提供 Apifox 測試以便您使用。將 <YOUR_API_KEY> 替換為您帳戶中的實際 CometAPI key。base url is Gemini Generating Content

將您的問題或請求插入 content 欄位——模型將回應該內容。處理 API 回應以取得生成的答案。

步驟 3:擷取並驗證結果

處理 API 回應以取得生成的答案。處理完成後,API 會回傳任務狀態與輸出資料。

常見問題

What tasks is Gemini 3.1 Flash-Lite best suited for?

Gemini 3.1 Flash-Lite 針對高量、對延遲敏感的工作流程進行了最佳化,例如翻譯、內容審核、分類、UI/儀表板生成,以及模擬提示管線,在這些場景中速度與低成本是優先考量。

What is the context window and output capability of Gemini 3.1 Flash-Lite?

Gemini 3.1 Flash-Lite 支援高達 1 million tokens 的大型上下文視窗,適用於包含文字、圖片、音訊與視訊的多模態輸入,並可輸出最多 64 K tokens。

How does Gemini 3.1 Flash-Lite compare to Gemini 2.5 Flash in performance and cost?

與 Gemini 2.5 Flash 模型相比,Gemini 3.1 Flash-Lite 可將首次答覆時間加快約 ~2.5×,輸出吞吐量提升約 ~45 %,同時在輸入與輸出的每百萬 tokens 成本上顯著更低。 }

Does Gemini 3.1 Flash-Lite support adjustable reasoning depth?

是 — 它提供多種推理或「思考」層級(例如:minimal、low、medium、high),讓開發者可在複雜任務上在速度與更深入的推理之間進行取捨。 :contentReference[oaicite:3]{index=3}

What are typical benchmark strengths of Gemini 3.1 Flash-Lite?

在 GPQA Diamond(科學知識)和 MMMU Pro(多模態理解)等基準測試上,Gemini 3.1 Flash-Lite 相較於先前的 Flash-Lite 模型表現出色,官方評測中 GPQA 約為 ~86.9 %、MMMU 約為 ~76.8 %。

How can I access Gemini 3.1 Flash-Lite via API?

您可以透過 CometAPI 使用 gemini-3.1-flash-lite-preview 端點以進行企業級整合。

When should I choose Gemini 3.1 Flash-Lite vs Gemini 3.1 Pro?

當大量任務以吞吐量、延遲與成本為優先時,選擇 Flash-Lite;若任務需要最高的推理深度、分析精度或對關鍵任務的準確理解,則選擇 Pro。

Gemini 3.1 Flash-Lite 的功能

探索 Gemini 3.1 Flash-Lite 的核心功能,專為提升效能和可用性而設計。了解這些功能如何為您的專案帶來效益並改善使用者體驗。

Gemini 3.1 Flash-Lite 的定價

探索 Gemini 3.1 Flash-Lite 的競爭性定價,專為滿足各種預算和使用需求而設計。我們靈活的方案確保您只需為實際使用量付費,讓您能夠隨著需求增長輕鬆擴展。了解 Gemini 3.1 Flash-Lite 如何在保持成本可控的同時提升您的專案效果。
彗星價格 (USD / M Tokens)官方價格 (USD / M Tokens)折扣
輸入:$0.2/M
輸出:$1.2/M
輸入:$0.25/M
輸出:$1.5/M
-20%

Gemini 3.1 Flash-Lite 的範例程式碼和 API

存取完整的範例程式碼和 API 資源,以簡化您的 Gemini 3.1 Flash-Lite 整合流程。我們詳盡的文件提供逐步指引,協助您在專案中充分發揮 Gemini 3.1 Flash-Lite 的潛力。
POST
/v1/chat/completions
POST
/v1beta/models/{model}:{operator}
Python
JavaScript
Curl
from google import genai
import os

# Get your CometAPI key from https://www.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com"

client = genai.Client(
    http_options={"api_version": "v1beta", "base_url": BASE_URL},
    api_key=COMETAPI_KEY,
)

response = client.models.generate_content(
    model="gemini-3.1-flash-lite-preview",
    contents="Explain how AI works in a few words",
)

print(response.text)

Python Code Example

from google import genai
import os

# Get your CometAPI key from https://www.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com"

client = genai.Client(
    http_options={"api_version": "v1beta", "base_url": BASE_URL},
    api_key=COMETAPI_KEY,
)

response = client.models.generate_content(
    model="gemini-3.1-flash-lite-preview",
    contents="Explain how AI works in a few words",
)

print(response.text)

JavaScript Code Example

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY || "<YOUR_COMETAPI_KEY>";
const base_url = "https://api.cometapi.com/v1beta";
const model = "gemini-3.1-flash-lite-preview";
const operator = "generateContent";

const response = await fetch(`${base_url}/models/${model}:${operator}`, {
  method: "POST",
  headers: {
    "Content-Type": "application/json",
    Authorization: api_key,
  },
  body: JSON.stringify({
    contents: [
      {
        parts: [{ text: "Explain how AI works in a few words" }],
      },
    ],
  }),
});

const data = await response.json();
console.log(data.candidates[0].content.parts[0].text);

Curl Code Example

curl "https://api.cometapi.com/v1beta/models/gemini-3.1-flash-lite-preview:generateContent" \
  -H "Authorization: $COMETAPI_KEY" \
  -H 'Content-Type: application/json' \
  -X POST \
  -d '{
    "contents": [
      {
        "parts": [
          {
            "text": "Explain how AI works in a few words"
          }
        ]
      }
    ]
  }'

Gemini 3.1 Flash-Lite的版本

Gemini 3.1 Flash-Lite擁有多個快照的原因可能包括:更新後輸出結果存在差異需保留舊版快照以確保一致性、為開發者提供適應與遷移的過渡期,以及不同快照對應全球或區域端點以優化使用者體驗等潛在因素。各版本間的具體差異請參閱官方文件說明。
Model id描述可用性請求
gemini-3-1-flash自動指向最新模型✅Gemini 內容生成
gemini-3-1-flash-preview官方預覽版✅Gemini 內容生成
gemini-3.1-flash-lite-preview-thinkingthinking 版本✅Gemini 內容生成
gemini-3.1-flash-lite-thinkingthinking 版本✅Gemini 內容生成

更多模型

C

Claude Opus 4.7

輸入:$4/M
輸出:$20/M
用於智能體與程式設計的最智能模型
C

Claude Opus 4.6

輸入:$4/M
輸出:$20/M
Claude Opus 4.6 是 Anthropic 的「Opus」級大型語言模型,於 2026 年 2 月發布。它被定位為知識工作與研究工作流程的主力,著重提升長上下文推理、多步規劃、工具使用(包括代理型軟體工作流程),以及電腦操作任務,例如自動化製作投影片與試算表。
A

Claude Sonnet 4.6

輸入:$2.4/M
輸出:$12/M
Claude Sonnet 4.6 是我們迄今為止最強大的 Sonnet 模型。它對模型在程式設計、電腦操作、長上下文推理、代理規劃、知識工作與設計等方面的能力進行了全面升級。Sonnet 4.6 亦提供 1M 詞元的上下文視窗,目前處於 Beta 階段。
O

GPT-5.4 nano

輸入:$0.16/M
輸出:$1/M
GPT-5.4 nano 專為速度與成本最為關鍵的任務而設計,例如分類、資料擷取、排序與子智能體。
O

GPT-5.4 mini

輸入:$0.6/M
輸出:$3.6/M
GPT-5.4 mini 將 GPT-5.4 的優勢帶入一個更快速、更高效、專為大量工作負載設計的模型。
Q

Qwen3.6-Plus

輸入:$0.32/M
輸出:$1.92/M
Qwen 3.6-Plus 現已推出,具備增強的程式開發能力與在多模態辨識與推理方面更高的效率,進一步提升 Vibe Coding 的體驗。

相關部落格

如何取得 Gemini 3.1 Deep Think
Mar 13, 2026

如何取得 Gemini 3.1 Deep Think

Gemini 3.1 Deep Think 是由 Google 與 Google DeepMind 開發的進階推理模式,使 AI 系統能夠執行多步驟推理、科學分析與解決複雜問題。目前主要透過 Google AI Ultra 訂閱、Gemini 應用程式,以及 Gemini API 和 AI Studio 等開發者工具提供。
Google 推出 Gemini 3.1 Flash-Lite——一款快速、低成本的 LLM
Mar 5, 2026
gemini-3-1-flash-lite

Google 推出 Gemini 3.1 Flash-Lite——一款快速、低成本的 LLM

Google 推出 Gemini 3.1 Flash-Lite,這是 Gemini 3 系列的最新成員,專為開發者與企業級工作負載設計的高吞吐量、低延遲且具成本效益的引擎。Google 將 Flash-Lite 定位為 Gemini 3 系列中「速度最快且最具成本效益」的模型:一款輕量級變體,旨在以遠低於其 Pro 對應產品的價位,提供串流式互動、大規模背景處理,以及高頻率生產任務(例如翻譯、抽取、UI 生成與大量分類)。