Home/Models/Aliyun/Qwen 3.5 Flash
Q

Qwen 3.5 Flash

輸入:$0.16/M
輸出:$0.96/M
作為原生視覺語言模型,Qwen3.5 系列的 QWEN3.5-397B-A17B 在推理、程式設計、代理能力以及多模態理解等綜合基準評測中表現出色,幫助開發者與企業大幅提升生產力。該模型採用創新的混合架構,將線性注意力(Gated Delta Networks)與稀疏混合專家(MoE)結合,實現卓越的推理效率:總參數量達 3970 億,且每次前向傳播僅啟用 170 億參數,在維持能力的同時優化速度與成本。我們還將語言與方言支援從 119 種擴展至 201 種,為全球使用者提供更廣泛的可用性與更完善的支援。
新
商業用途
Playground
概覽
功能
定價
API
版本

技術規格(快速參考表)

項目Qwen3.5-122B-A10BQwen3.5-27BQwen3.5-35B-A3BQwen3.5-Flash(託管)
參數規模~122B(中大型)~27B(稠密)~35B(MoE / A3B 混合)對應 35B-A3B 權重(託管)
架構說明混合式(同系列中採用 gated delta + MoE attention)稠密 Transformer稀疏 / 專家混合(Mixture-of-Experts)變體(A3B)與 35B-A3B 相同架構,具備生產級功能
輸入 / 輸出模態文字、視覺語言(早期融合多模態 token);聊天式 I/O文字、支援 V+L文字 + 視覺(支援 agentic tool calls)文字 + 視覺;官方工具整合與 API 輸出
預設最大上下文(本地 / 標準)可配置(大)——該系列支援超長上下文可配置262,144 tokens(標準本地配置示例)1,000,000 tokens(託管 Flash 的預設值)
部署 / API相容於 OpenAI 風格的 chat completions;建議使用 vLLM / SGLang / Transformers相同相同(模型卡中提供 CLI / vLLM 指令示例)託管 API(Alibaba Cloud Model Studio / Qwen Chat);另提供生產級可觀測性與擴展能力。
典型使用場景Agents、推理、程式碼輔助、長文件任務、多模態助理輕量 / 單 GPU 推理、較小資源占用的 agentic 任務生產級 agent 部署、長上下文多模態任務生產級 agent SaaS:長上下文、工具使用、託管推理

什麼是 Qwen-3.5 Flash

Qwen-3.5 Flash 是 Qwen3.5 家族的生產 / 託管版本,對應 35B-A3B 的開放權重,但增加了生產級能力:更長的預設上下文(託管產品宣稱最高可達 1M tokens)、官方工具整合,以及託管推理端點,以簡化 agentic 工作流程與擴展。簡而言之:Flash = 雲端託管、可投入生產的 35B A3B 變體,並額外針對長上下文、工具使用與吞吐量做了工程化強化。

Qwen-3.5 Flash Series 屬於更廣泛的 Qwen 3.5「中型模型系列」,其中包含多個模型,例如:

  • Qwen3.5-Flash
  • Qwen3.5-35B-A3B
  • Qwen3.5-122B-A10B
  • Qwen3.5-27B

在這個產品線中,Qwen3.5-Flash 是生產 API 版本——本質上就是面向開發者與企業優化的、可快速部署的 35B 模型版本。👉 Flash 本質上是構建在 35B-A3B 模型之上的**「企業執行時層」**。


Qwen-3.5 Flash 的主要特性

  • 統一的視覺語言基礎 —— 使用早期融合多模態 token 進行訓練,因此文字與影像會在一致的流中處理(可提升推理與視覺 agentic 任務的表現)。
  • 混合式 / 高效率架構 —— 在部分規模中採用 gated delta networks + 稀疏 Mixture-of-Experts(MoE)模式(A3B 表示一種稀疏變體),在計算成本與能力之間取得更佳權衡。
  • 長上下文支援 —— 該系列支援非常長的本地上下文(配置示例顯示本地最高可達 262,144 tokens),而託管版 Flash 產品在生產工作流程中預設提供 1,000,000-token 上下文。這對 agentic 鏈路、文件問答與多文件綜合特別有利。
  • Agentic 工具使用 —— 原生支援工具呼叫與解析器、推理流程,以及 “thinking” 或 speculative sampling,使模型能以結構化方式規劃並呼叫外部 API 或工具。

Qwen-3.5 Flash 的基準測試表現

基準測試 / 類別Qwen3.5-122B-A10BQwen3.5-27BQwen3.5-35B-A3B(Flash 與 35B-A3B 對齊)
MMLU-Pro(知識)86.786.185.3(35B)Flash ≈ 35B-A3B 已發佈的性能概況。
C-Eval(中文考試)91.990.590.2
IFEval(指令遵循)93.495.091.9
AA-LCR(長上下文推理)66.966.158.5(本地配置示例顯示可支援最高 262k tokens 的長上下文設置;Flash 宣稱預設為 1M。)

**總結:**Qwen3.5 的中型與更小型變體(例如 27B、122B A10B)在多項知識與指令基準上縮小了與前沿模型的差距,而 35B-A3B(以及 Flash)則著重於生產場景下的權衡(吞吐量 + 長上下文),同時在 MMLU/C-Eval 等指標上相對更大型模型仍具競爭力。

🆚 Qwen-3.5 Flash 在 Qwen 3.5 家族中的定位

可以這樣理解這個系列:

模型角色
Qwen3.5-Flash⚡ 快速生產 API
Qwen3.5-35B-A3B🧠 核心均衡模型
Qwen3.5-122B-A10B🏆 更強的推理能力
Qwen3.5-27B💻 更小、更高效率的本地模型

👉 Flash = 與 35B 相同的智慧等級,但針對部署進行了最佳化。

何時使用 Qwen-3.5 Flash

如果你需要以下能力,可以使用它:

  • 即時 AI(聊天機器人、助理)
  • 搭配工具的 AI agents(搜尋、API、自動化)
  • 大型文件或程式碼分析
  • 高規模生產 API

如何存取 Qwen-3.5 Flash API

步驟 1:註冊 API Key

登入 cometapi.com。如果你還不是我們的使用者,請先註冊。登入你的 CometAPI console。取得介面的存取憑證 API key。在個人中心的 API token 處點擊「Add Token」,取得 token key:sk-xxxxx,然後提交。

cometapi-key

步驟 2:向 Qwen-3.5 Flash API 發送請求

選擇「qwen3.5-flash」端點來發送 API 請求並設定 request body。請求方法與 request body 可從我們網站的 API 文件取得。我們的網站也提供 Apifox 測試以方便你使用。請將 <YOUR_API_KEY> 替換為你帳戶中的實際 CometAPI key。base url 為 Chat Completions

將你的問題或請求填入 content 欄位中——模型將對此進行回應。處理 API 回應以取得生成的答案。

步驟 3:擷取並驗證結果

處理 API 回應以取得生成的答案。處理完成後,API 會回傳任務狀態與輸出資料。

常見問題

Can Qwen3.5-Flash API handle million-token inputs?

是的,Qwen3.5-Flash 支援最多 1,000,000 個 token 的上下文視窗,無需分段即可進行完整文件與長時段推理。

How does Qwen3.5-Flash compare to GPT-4o or GPT-5-class models?

對於生產工作負載,Qwen3.5-Flash 具有更高的成本效益且速度更快,而 GPT-4o 或 GPT-5-class 模型通常提供更高的峰值推理準確度。

Does Qwen3.5-Flash API support function calling and tools?

是的,它包含原生的函式呼叫與內建工具支援,允許與 API 互動並執行多步驟的代理工作流程。

Is Qwen3.5-Flash suitable for real-time applications?

是的,它針對低延遲與高吞吐量進行了專門優化,非常適合用於聊天機器人、copilots 與即時 AI 代理。

What modalities does Qwen3.5-Flash support?

它可接受文字、圖片與影片輸入,但僅產生文字輸出。

What makes Qwen3.5-Flash efficient compared to other models?

其 Mixture-of-Experts 架構每個 token 只啟用約 3B 個參數,以較低的運算成本提供強勁效能。

When should I use Qwen3.5-Flash instead of Qwen3.5-35B-A3B?

對於需要速度與規模的生產 API,建議使用 Qwen3.5-Flash;而在需要更高準確度或自託管的情境下,Qwen3.5-35B-A3B 更為合適。

Qwen 3.5 Flash 的功能

探索 Qwen 3.5 Flash 的核心功能,專為提升效能和可用性而設計。了解這些功能如何為您的專案帶來效益並改善使用者體驗。

Qwen 3.5 Flash 的定價

探索 Qwen 3.5 Flash 的競爭性定價,專為滿足各種預算和使用需求而設計。我們靈活的方案確保您只需為實際使用量付費,讓您能夠隨著需求增長輕鬆擴展。了解 Qwen 3.5 Flash 如何在保持成本可控的同時提升您的專案效果。

qwen3.5

variant / aliasPrice
qwen3.5-397b-a17b$0.48 / $2.88
qwen3.5-plus-2026-02-15$0.32 / $1.92
qwen3.5-122b-a10b$0.40 / $2.40
qwen3.5-plus-thinking$0.32 / $1.92
qwen3.5-plus$0.32 / $1.92
qwen3.5-27b$0.24 / $1.44
qwen3.5-35b-a3b$0.24 / $1.44
qwen3.5-flash$0.16 / $0.96

Qwen 3.5 Flash 的範例程式碼和 API

存取完整的範例程式碼和 API 資源,以簡化您的 Qwen 3.5 Flash 整合流程。我們詳盡的文件提供逐步指引,協助您在專案中充分發揮 Qwen 3.5 Flash 的潛力。

Qwen 3.5 Flash的版本

Qwen 3.5 Flash擁有多個快照的原因可能包括:更新後輸出結果存在差異需保留舊版快照以確保一致性、為開發者提供適應與遷移的過渡期,以及不同快照對應全球或區域端點以優化使用者體驗等潛在因素。各版本間的具體差異請參閱官方文件說明。
version
qwen3.5-flash

更多模型