在農曆除夕(2026 年 2 月 16–17 日),阿里巴巴集團發布了其下一代模型 Qwen 3.5——一款面向公司所稱「代理型 AI」時代的多模態、具代理能力的模型。業界報導重點關注其在效率與成本上的大幅提升,以及硬體與雲端供應商的快速支援。CometAPI 是為希望使用託管 API 存取或與 OpenAI 相容整合的開發者提供的選項;同時,AMD 宣布在其 Instinct 系列上為該模型提供 Day-0 GPU 支援。ByteDance 作為主要的國內競爭者之一,也在相近的節日檔期推出升級。OpenAI 仍然是基準測試與整合風格比較的參考點。
什麼是 Qwen 3.5?
阿里巴巴的 Qwen 3.5 是公司最新一代的多模態大型語言模型(LLM),定位於所謂的「代理型 AI」時代——這類模型不僅能回答問題,還能編排多步驟工作流程、呼叫工具、處理影像/影片,並跨越應用邊界行動。該模型於農曆新年期間公開宣布(發布窗口報導為 2026 年 2 月 16 日左右),這是中國市場中用於產品宣傳以及在假期流量高峰抓住使用者注意力的策略時點。Qwen 3.5 在成本與吞吐方面相較前代有顯著提升,同時聚焦長上下文與代理式自動化。
概覽來看,Qwen 3.5 的技術與商業主張包括:
- 原生多模態架構,支援文字、影像與影片的輸入與輸出(代理式工作流程)。在模型內新增呼叫工具、作用於瀏覽器內容與串接步驟的能力(代理行為)。這些功能解鎖自動化——如表單填寫、端到端工作流程——但也需要更強的安全控制。
- 混合式專家混合(Mixture-of-Experts)架構,總參數量非常大,但每次前向傳遞僅啟用較小子集——公開技術說明指出,有一個用於高效服務的 Qwen 3.5 變體採用類似「397B total / 17B active」的架構。此設計在推理效率改善的同時仍保有高能力。
- 與全球領先的閉源模型相比具有競爭力的基準表現,阿里巴巴聲稱在許多實用任務上具備成本優勢與同等或更佳的結果。
你會遇到的版本
- qwen3.5-397b-a17b(開放/權重釋出):可下載的檢查點與社群分支(用於在地部署與自訂部署)。請參閱官方專案倉庫與鏡像。
- qwen3.5-plus(託管「Plus」變體):在 Alibaba Cloud Model Studio 上完全託管,擁有最大的上下文視窗與內建工具(工具呼叫、程式碼助理、網頁擷取)。企業客戶為了可靠性與規模,可能會透過 API 呼叫此版本。
Qwen-3.5 的重點功能是什麼?
架構與訓練重點
以下是隨發布提供的精簡功能表:
| 功能 | Qwen-3.5(公開細節) | 實際影響 |
|---|---|---|
| 架構 | 混合:線性注意力 + 稀疏 MoE + 稠密 Transformer 主幹。 | 相較純稠密模型有更佳的解碼吞吐與擴展效率。 |
| 多模態 | 原生視覺—語言代理能力(可在各種 UI 中採取動作)。 | 不僅限於文字與圖片問答,還能進行應用控制/多步代理。 |
| 模型系列與開放權重 | 至少公開釋出一個「開放權重」變體(例如 Qwen3.5-397B-A17B)。 | 允許在地與第三方微調;加速社群評估。 |
| 語言 | >200 種語言與方言(發布宣稱)。 | 為在地化與多語代理提供廣泛的國際覆蓋。 |
| 強化學習 / 代理 | 大規模 RL 環境擴展與代理訓練流程。 | 提升實際任務中的長期規劃與行動排序。 |
多模態與代理行動
Qwen-3.5 明確針對「代理式工作流程」而設計——這代表模型不只回答問題,還能規劃、串接動作(API、UI 互動、檔案操作),並將視覺輸入(螢幕截圖、UI DOM、影像)納入決策迴圈。阿里巴巴強調原生的視覺—語言融合與更緊密的控制介面,以便在行動與桌面應用邊界之間執行任務。
混合式架構(效率優先)
阿里巴巴的資料與業界摘要指出,Qwen-3.5 採用線性注意力與稀疏 MoE 的混合,讓常見提示下的「有效」參數啟用遠低於總參數數量。實際效益:單位運算可獲得更高能力、推理成本更低——官方聲稱相對前代可達到 ~60% 部署成本降低。
情境視窗與多語支援
公開資訊顯示(在 Qwen 家族的一些開放權重變體中)上下文視窗擴展(提到 256k tokens),且語言覆蓋更廣(阿里巴巴在多代 Qwen 中持續擴張語言/方言支援)。結果是更好的長文件與跨語代理任務表現。
我如何透過 CometAPI 存取 Qwen 3.5?
CometAPI 提供統一、與 OpenAI 相容的閘道,涵蓋 500+ 模型(包括託管或第三方端點上的 Qwen)。此抽象讓你的程式碼能以最小摩擦切換供應商,同時 CometAPI 會標準化回應並提供使用分析與按量計費。
步驟:透過 CometAPI 呼叫 Qwen 3.5 的基本流程
- 從 CometAPI 儀表板註冊並取得 API 金鑰。
- 在 CometAPI 的模型清單中選擇 Qwen 3.5 變體(例如
qwen3.5-plus或qwen3.5-397b-a17b)。CometAPI 通常以字串形式在model欄位暴露供應商特定的模型名稱。 - 使用其與 OpenAI 相容的端點送出 Chat Completion 請求(基本 URL 範例:
https://api.cometapi.com/v1). 你可以使用 OpenAI SDK 或原始 HTTP。CometAPI 的文件同時展示兩種方式,並建議將你的程式庫 base URL 綁定到 CometAPI 端點,以便現有的 OpenAI 程式碼幾乎不需變更就能運作。
最小範例
cURL(簡單對話呼叫)
export COMETAPI_KEY="sk-xxxx"
curl -s -X POST "https://api.cometapi.com/v1/chat/completions" \
-H "Authorization: Bearer $COMETAPI_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "qwen3.5-plus",
"messages":[
{"role":"system","content":"You are a concise engineering assistant."},
{"role":"user","content":"Summarize the tradeoffs between retrieval-augmented generation and fine-tuning."}
],
"max_tokens": 512
}'
Python(OpenAI 客戶端,覆寫 base_url)
# Using the OpenAI-compatible client pattern many API hubs support:
from openai import OpenAI
client = OpenAI(api_key="YOUR_COMETAPI_KEY", base_url="https://api.cometapi.com/v1")
resp = client.chat.completions.create(
model="qwen3.5-plus",
messages=[
{"role":"system","content":"You are a concise engineering assistant."},
{"role":"user","content":"Explain how to implement streaming responses in production (short)."}
],
max_tokens=400
)
print(resp.choices[0].message.content)
注意:CometAPI 會標準化許多供應商差異;請參閱 CometAPI 的模型清單以選擇每個 Qwen 變體的準確字串名稱。
透過閘道呼叫影像/多模態能力
若要使用視覺功能(影像 + 文字),CometAPI 通常透過單一 API 暴露供應商能力,但可能需要附加二進位/影像資料或簽名 URL。一般模式是包含 input_image(或供應商特定參數),並將 model 設為對應的多模態 Qwen-3.5 變體。
Qwen 3.5 的成本是多少?
Aliyun 的 API 與 Token 定價
| 模型 | 每次請求的輸入 Token | 輸入價格(每 100 萬 Token) | 輸出價格(每 100 萬 Token) | 免費額度(註) | |
|---|---|---|---|---|---|
| 非思考模式 | 思考模式(CoT + 回覆) | ||||
| qwen3.5-plus | 0<Token≤256K | $0.4 | $2.4 | $2.4 | 每項 100 萬 Token;有效期:啟用 Model Studio 後 90 天 |
| 256K<Token≤1M | $1.2 | $7.2 | $7.2 | ||
| qwen3.5-plus-2026-02-15 | 0<Token≤256K | $0.4 | $2.4 | $2.4 | |
| 256K<Token≤1M | $1.2 | $7.2 | $7.2 |
CometAPI 中 qwen3.5-plus 的定價
CometAPI 提供按量計費並幫助集中管理跨供應商的帳務;其每 Token 收費取決於上游供應商與 CometAPI 所適用的利潤/折扣。實務上,使用像 CometAPI 這樣的閘道能以小幅額外成本簡化供應商切換與使用分析——對希望做多供應商冗餘或比較效能與價格且不想重構的團隊來說很有用。
探索適用於不同預算與使用需求的 qwen3.5-plus 競爭性定價。我們的彈性方案確保你只為實際使用付費,讓你能隨需求成長輕鬆擴展。了解 qwen3.5-plus 如何在控管成本的同時提升你的專案。
| Comet 價格(USD / 百萬 Token) | 官方價格(USD / 百萬 Token) | 折扣 |
|---|---|---|
| 輸入:$0.32/M;輸出:$1.92/M | 輸入:$0.4/M;輸出:$2.4/M | -20% |
我可以在本地或自訂基礎設施上執行 Qwen 3.5 嗎?
可以,但有注意事項:
- 大型變體(數千億參數)需要專用硬體(多張 A100/H100 或 AMD Instinct 叢集)。Qwen 3.5 在 AMD Instinct GPU 上提供 Day-0 支援;社群專案(vLLM、HF)也提供部署最佳化推理堆疊的配方。若要達到生產規模,預期需要大量工程投入與高昂硬體成本。
- 較輕量的 Qwen 家族變體(較小參數集、類 Qwen-Turbo 權重)更容易託管,並在許多生產任務上有可接受的品質/成本權衡。
若合規或資料在地化要求在地部署,可考慮混合方式:在本地運行 embeddings 與檢索,將複雜的多模態或代理式任務交給託管版 Qwen。
有哪些雲端或託管選項?
- Alibaba Cloud Model Studio:提供託管 Qwen 端點、與 OpenAI 相容的介面,以及整合工具(RAG、工具包)。適合已使用 Alibaba Cloud 的團隊。
- 第三方 API(CometAPI 等):可快速進行多模型實驗、供應商中立的切換與成本比較。
- 開放權重 / 自行託管:若需要完整資料在地性,可下載開放權重並在你的叢集上服務(NCCL/ROCm 或 CUDA 堆疊)。
硬體:可用的 GPU 與技術堆疊?
- Day-0 AMD 支援:AMD 宣布在 Instinct GPU 上為 Qwen 3.5 提供 Day-0 ROCm 工具與容器——若你部署於 AMD 硬體上會很有幫助。對使用 NVIDIA 的團隊而言,最佳化容器與 Triton 支援也可能很快推出。
- 推理最佳化:量化(INT8/4)、張量切片與 MoE 轉送調整可降低記憶體與運算需求;請依需求選擇模型大小。若要即時代理,偏好參數較少的模型,並採用積極的批次處理與較小的 beam 寬度。
整合 Qwen 3.5 的最佳實務
以下是根據供應商文件、早期評測與標準 LLM 工程實務整理的規則與工程模式,用於打造穩健、可擴展且具成本效率的系統。
提示與系統訊息規範
- 使用明確的 system 訊息設定角色、Token 預算與輸出格式。
- 偏好簡短、結構化的提示以獲得可預測的 JSON 或函數輸出;僅在必要時使用冗長的 chain-of-thought 提示(其成本更高且可能增加延遲)。「Thinking」與「Non-Thinking」模式——對於需要確定性的簡單回覆選用「Non-Thinking」,重推理時切換到「Thinking」。
Token 與上下文管理(在 1M 視窗下尤為關鍵)
- 切分長文件,以檢索增強方式維持較小的活躍上下文;即便 Qwen Plus 支援 1M Token,於每次呼叫傳遞巨大上下文仍代價高昂。建議:先索引文件、取回相關片段,僅包含必要摘錄。
- 先使用 embeddings + 向量資料庫進行檢索;再以取回的上下文與精簡指令呼叫模型。此 RAG 模式可降低 Token 成本與延遲。
成本優化策略
- 以
max_tokens與明確的「在 N 個字內回答」指示來控制輸出大小。 - 對模板與短回答使用非思考模式;僅在品質提升值得成本時使用 chain-of-thought。阿里巴巴文件明確映射混合思考模式的成本/效能權衡。
- 批次處理請求(一次包含多個提示),以分攤吞吐導向工作負載的開銷。
- 透過供應商分析(CometAPI 提供使用儀表板)追蹤每次請求的 Token 與 延遲。監控成本前 N 高的提示以找出優化目標。
可靠性與速率限制
- 為 429/503 錯誤實作指數退避 + 抖動。
- 使用閘道(CometAPI)或供應商儀表板監控配額並設置警示。CometAPI 的使用分析能快速協助發現成本異常。
函數呼叫 / 工具 / 代理設計
將工具呼叫視為獨立階段:模型提出工具與參數,你在伺服器端驗證/授權後才執行。絕不要盲目執行不受信任的工具指令。Qwen 3.5 宣稱提供內建工具模式;請採用嚴格的輸入驗證與存取控制。
結語觀點:接下來值得關注什麼
Qwen 3.5 的農曆新年檔期發布具策略意義:其將先進的代理功能、大上下文處理與更低營運成本整合到開放權重與託管版本中。對開發者而言,立即上手的途徑充足:可透過託管 API(如 CometAPI)、雲端(Alibaba Cloud)或自託管權重試用,且硬體支援(AMD)進展快速。
開發者現在即可透過 CometAPI 存取 Qwen 3.5 API。開始之前,請在 Playground 探索模型能力,並參閱 API guide 取得詳細說明。使用前請先登入 CometAPI 並取得 API 金鑰。CometAPI 提供遠低於官方價格的方案,協助你快速整合。
準備好了嗎?→ 今天註冊 Qwen-3.5!
