技術規格(快速參考表)
| Item | Qwen3.5-122B-A10B | Qwen3.5-27B | Qwen3.5-35B-A3B | Qwen3.5-Flash(託管) |
|---|---|---|---|---|
| Parameter scale | ~122B(中大型) | ~27B(稠密) | ~35B(MoE / A3B 混合) | 對應 35B-A3B 權重(託管) |
| Architecture notes | 混合(gated delta + MoE attention;系列機型) | 稠密 Transformer | 稀疏 / Mixture-of-Experts 變體(A3B) | 與 35B-A3B 相同架構,提供生產級特性 |
| Input / output modalities | 文本、視覺-語言(早期融合多模態 tokens);對話式 I/O | 文本,V+L 支援 | 文本 + 視覺(支援代理式工具呼叫) | 文本 + 視覺;官方工具整合與 API 輸出 |
| Default maximum context (local / standard) | 可配置(大)— 該系列支援超長上下文 | 可配置 | 262,144 tokens(本地標準配置範例) | 1,000,000 tokens(託管版 Flash 的預設值)。 |
| Serving / API | 相容 OpenAI 風格的聊天補全;建議使用 vLLM / SGLang / Transformers | 相同 | 相同(模型卡提供 CLI / vLLM 命令範例) | 託管 API(阿里雲 Model Studio / Qwen Chat);提供額外的生產級可觀測性與擴展能力。 |
| Typical use cases | 代理、推理、程式輔助、長文檔任務、多模態助理 | 輕量/單 GPU 推理、較小資源的代理式任務 | 生產級代理部署、長上下文多模態任務 | 生產級代理 SaaS:長上下文、工具使用、託管推理 |
什麼是 Qwen-3.5 Flash
Qwen-3.5 Flash 是 Qwen3.5 家族的生產/託管產品,對應 35B-A3B 的開放權重,同時加入生產級能力:擴展的預設上下文(託管產品宣稱可達 1M tokens)、官方工具整合,以及託管推理端點,簡化代理式工作流與擴展。簡而言之:Flash = 雲端託管、可投入生產的 35B A3B 變體,並針對長上下文、工具使用與吞吐量進行額外工程優化。
Qwen-3.5 Flash 系列屬於更廣義的 Qwen 3.5「中階模型系列」的一部分,其中包括:
- Qwen3.5-Flash
- Qwen3.5-35B-A3B
- Qwen3.5-122B-A10B
- Qwen3.5-27B
在此產品線中,Qwen3.5-Flash 是生產 API 版本——本質上是為開發者與企業優化的 35B 模型快速可部署版本。👉 Flash 本質上是建立在 35B-A3B 模型之上的「企業級執行時層」。
Qwen-3.5 Flash 的主要特性
- 統一的視覺-語言基礎——採用早期融合的多模態 tokens 訓練,讓文本與圖像在同一條管線中一致處理(提升推理與視覺代理式任務)。
- 混合/高效架構——在部分型號中使用 gated delta 網路 + 稀疏 Mixture-of-Experts(MoE)模式(A3B 表示稀疏變體),在算力與能力之間取得高性價比。
- 長上下文支援——系列支援超長本地上下文(示例配置顯示本地可達 262,144 tokens),而 Flash 託管產品預設提供 1,000,000-token 上下文,針對代理鏈、文檔問答與多文檔綜合而調優。
- 代理式工具使用——原生支援與解析工具呼叫、推理管線,以及「thinking」或推測採樣,使模型能以結構化方式規劃並呼叫外部 API 或工具。
Qwen-3.5 Flash 的基準表現
| Benchmark / Category | Qwen3.5-122B-A10B | Qwen3.5-27B | Qwen3.5-35B-A3B | (Flash 與 35B-A3B 對齊) |
|---|---|---|---|---|
| MMLU-Pro(知識) | 86.7 | 86.1 | 85.3(35B) | Flash ≈ 35B-A3B 已發佈配置。 |
| C-Eval(中文考試) | 91.9 | 90.5 | 90.2 | |
| IFEval(指令遵循) | 93.4 | 95.0 | 91.9 | |
| AA-LCR(長上下文推理) | 66.9 | 66.1 | 58.5 | (本地配置顯示長上下文可達 262k tokens;Flash 宣稱預設 1M)。 |
摘要:Qwen3.5 中階與更小變體(如 27B、122B A10B)在許多知識與指令基準上縮小與前沿模型的差距,而 35B-A3B(及 Flash)則在吞吐與長上下文方面追求生產級權衡,同時在 MMLU/C-Eval 上維持相對於更大模型的競爭力。
🆚 Qwen-3.5 Flash 在 Qwen 3.5 家族中的定位
想像此系列如下:
| Model | Role |
|---|---|
| Qwen3.5-Flash | ⚡ 高速生產級 API |
| Qwen3.5-35B-A3B | 🧠 核心均衡模型 |
| Qwen3.5-122B-A10B | 🏆 更強的推理能力 |
| Qwen3.5-27B | 💻 更小、更高效的本地模型 |
👉 Flash = 與 35B 同一智力層級,但針對部署進行了優化。
什麼時候使用 Qwen-3.5 Flash
如果你需要:
- 即時 AI(聊天機器人、助理)
- 帶工具的 AI 代理(搜尋、API、自動化)
- 大型文檔或程式碼分析
- 大規模生產級 API
如何存取 Qwen-3.5 Flash API
步驟 1:註冊取得 API Key
登入 cometapi.com。若你尚未成為我們的使用者,請先註冊。登入你的 CometAPI console。獲取介面的存取憑證 API key。在個人中心的 API token 處點擊「Add Token」,取得金鑰:sk-xxxxx 並提交。

步驟 2:向 Qwen-3.5 Flash API 發送請求
選擇 “qwen3.5-flash” 端點發送 API 請求並設定請求體。請求方法與請求體可從我們網站的 API 文檔獲取。我們的網站也提供 Apifox 測試以供方便。將 <YOUR_API_KEY> 替換為你帳號中的實際 CometAPI key。base url is Chat Completions
將你的問題或請求插入 content 欄位——模型將對其作出回應。處理 API 回應以獲取生成的答案。
步驟 3:擷取並驗證結果
處理 API 回應以獲取生成的答案。處理完成後,API 會回傳任務狀態與輸出資料。