Home/Models/Aliyun/qwen3.5-397b-a17b
Q

qwen3.5-397b-a17b

輸入:$0.48/M
輸出:$2.88/M
Qwen3.5 系列 397B-A17B 原生視覺語言模型採用將線性注意力機制與稀疏專家混合模型整合的混合架構,實現更高的推理效率。
新
商業用途
Playground
概覽
功能
定價
API

Qwen3.5-397B-A17B 的技術規格

項目Qwen3.5-397B-A17B (open-weight post-trained)
模型家族Qwen3.5 (Tongyi Qwen series, Alibaba)
架構Hybrid Mixture-of-Experts (MoE) + Gated DeltaNet; 早期融合的多模態訓練
總參數量~397 billion(總計)
活動參數(A17B)~17 billion 每個 token 活動(稀疏路由)
輸入類型Text, Image, Video(多模態早期融合)
輸出類型Text(chat, code, RAG outputs)、image-to-text、多模態回應
原生上下文視窗262,144 tokens(原生 ISL)
可擴展上下文透過 YaRN/ RoPE 擴展可達 ~1,010,000 tokens(依平台而定)
最大輸出 tokens取決於框架/服務(指南中的範例顯示為 81,920–131,072)
語言200+ 種語言與方言
發佈日期2026 年 2 月 16 日(開放權重發布)
授權條款Apache‑2.0(在 Hugging Face / ModelScope 上開放權重)

什麼是 Qwen3.5-397B-A17B

Qwen3.5-397B-A17B 是 Alibaba 的 Qwen3.5 家族首個開放權重版本:一個大型、多模態的專家混合基礎模型,採用早期融合的視覺—語言目標進行訓練,並為代理式工作流程優化。該模型在使用稀疏路由(“A17B”後綴)的同時,展現 397B 參數架構的全部容量,使得每個 token 僅有 ~17B 參數處於活動狀態——在知識容量與推理效率之間取得平衡。

此版本面向需要開放、可部署的多模態基礎模型的研究人員與工程團隊,該模型可進行長上下文推理、視覺理解,以及檢索增強/代理式應用。


Qwen3.5-397B-A17B 的主要特性

  • 具有效參數效率的稀疏 MoE: 具備大型全局容量(397B),每個 token 的活動量可比擬 17B 稠密模型,在保留知識多樣性的同時降低每個 token 的 FLOPS。
  • 原生多模態(早期融合): 透過統一的標記化與編碼器策略進行訓練,可處理文字、圖像與影片並進行跨模態推理。
  • 超長上下文支援: 原生輸入序列長度為 262K tokens,並提供使用 RoPE/YARN 擴展至 ~1M+ tokens 的方法,用於檢索與長文檔流程。
  • 思考模式與代理工具: 支援內部推理軌跡與代理式執行模式;示例包括啟用工具調用與整合程式碼解譯器。
  • 開放權重與廣泛相容性: 在 Hugging Face 與 ModelScope 以 Apache‑2.0 發佈,提供針對 Transformers、vLLM、SGLang 以及社群框架的官方整合指南。
  • 企業友善的語言覆蓋: 進行了廣泛的多語訓練(200+ 種語言),並提供大規模部署的指引與配方。

Qwen3.5-397B-A17B 與選定模型對比

模型上下文視窗(原生)優勢典型權衡
Qwen3.5-397B-A17B262K(原生)多模態 MoE、開放權重、397B 容量且 17B 活動模型工件較大,完整性能需要分散式託管
GPT-5.2(代表性封閉)~400K(部分變體據報導)高單模型稠密推理準確度權重封閉,在大規模下推理成本更高
LLaMA‑style 稠密 70B~128K(視情況而定)推理棧更簡單,稠密執行時所需 VRAM 更低相較於 MoE 的全局知識,參數容量較小

已知限制與運行考量

  • 記憶體佔用:稀疏 MoE 仍需存放大型權重檔案;與 17B 稠密副本相比,託管需要大量儲存與裝置記憶體。
  • 工程複雜度:達到最佳吞吐需謹慎設計並行(張量/流水線)及使用如 vLLM 或 SGLang 的框架;天真式單 GPU 託管不可行。
  • Token 經濟性:雖然每個 token 的計算降低了,但超長上下文仍會增加 I/O、KV 快取大小,以及在託管供應商的計費。
  • 安全與防護柵欄:開放權重提升了靈活性,但也將安全過濾、監控與部署防護的責任轉移給運營方。

代表性使用情境

  1. 研究與模型分析:開放權重支援可重現研究與社群驅動的評測。
  2. 本地多模態服務:需要資料駐留的企業可在本地部署並運行視覺+文字工作負載。
  3. RAG 與長文檔流程:原生長上下文支援有助於對大型語料進行單次推理。
  4. 程式碼智能與代理工具:分析單一倉庫、生成補丁,並在受控環境中執行代理式工具調用循環。
  5. 多語應用:高覆蓋的語言支援以服務全球產品。

如何存取並整合 Qwen3.5-397B-A17B

步驟 1:註冊取得 API Key

登入 cometapi.com。如果您尚未成為我們的用戶,請先註冊。登入您的 CometAPI console。取得介面的存取憑證 API key。在個人中心的 API token 處點擊“Add Token”,獲取 token key:sk-xxxxx 並提交。

步驟 2:向 Qwen3.5-397B-A17B API 發送請求

選擇 “Qwen3.5-397B-A17B” 端點發送 API 請求並設定請求主體。請求方法與請求主體可於我們的網站 API 文件獲得。我們的網站也提供 Apifox 測試以供方便。將 <YOUR_API_KEY> 替換為您帳戶中的實際 CometAPI key。呼叫位置:Chat 格式。

將您的問題或請求填入 content 欄位——模型將對此作出回應。處理 API 回應以獲取生成的答案。

步驟 3:擷取並驗證結果

處理 API 回應以獲取生成的答案。處理後,API 會返回任務狀態與輸出資料。

常見問題

Is Qwen3.5-397B-A17B available as open weights for local hosting and research?

Yes. The Qwen3.5-397B-A17B weights are released under Apache-2.0 on Hugging Face and ModelScope, and the project provides serving recipes for Transformers, vLLM, and SGLang.

What does the "A17B" suffix mean in Qwen3.5-397B-A17B?

A17B indicates the model's sparse routing design uses roughly 17 billion active parameters per token (active experts), while the global model capacity is ~397 billion parameters.

What is the native context window and can I extend it for very long documents?

The model ships with a native input sequence length of 262,144 tokens and includes documented methods to extend context to ~1,010,000 tokens via YaRN/RoPE scaling, depending on serving framework.

Which input modalities does Qwen3.5-397B-A17B support?

It is a unified vision-language model trained with early-fusion; supported inputs include text, images, and video tokens for multimodal reasoning and generation.

How does inference efficiency compare to a 17B dense model?

Per-token inference compute is similar to 17B dense-class models thanks to sparse MoE routing, but model artifacts and memory requirements are larger because full weights must be stored and distributed across devices.

qwen3.5-397b-a17b 的功能

探索 qwen3.5-397b-a17b 的核心功能,專為提升效能和可用性而設計。了解這些功能如何為您的專案帶來效益並改善使用者體驗。

qwen3.5-397b-a17b 的定價

探索 qwen3.5-397b-a17b 的競爭性定價,專為滿足各種預算和使用需求而設計。我們靈活的方案確保您只需為實際使用量付費,讓您能夠隨著需求增長輕鬆擴展。了解 qwen3.5-397b-a17b 如何在保持成本可控的同時提升您的專案效果。
彗星價格 (USD / M Tokens)官方價格 (USD / M Tokens)折扣
輸入:$0.48/M
輸出:$2.88/M
輸入:$0.6/M
輸出:$3.6/M
-20%

qwen3.5-397b-a17b 的範例程式碼和 API

存取完整的範例程式碼和 API 資源,以簡化您的 qwen3.5-397b-a17b 整合流程。我們詳盡的文件提供逐步指引,協助您在專案中充分發揮 qwen3.5-397b-a17b 的潛力。
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="qwen3.5-397b-a17b",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello!"},
    ],
)

print(completion.choices[0].message.content)

更多模型