三款近期面向中國市場的旗艦模型——阿里巴巴集團的 Qwen 3.5、MiniMax 的 MiniMax M2.5,以及智譜 AI 的 GLM-5——在數週內相繼發佈,並各自呈現不同的取捨。Qwen 3.5 聚焦於超大稀疏規模下的代理式多模態能力,並宣稱在成本效率上有顯著提升;MiniMax M2.5 強調在更低服務成本下的均衡真實生產力(尤其是程式設計);而 GLM-5 旨在成為在推理、編碼與代理任務上的開放權重最佳表現者,並針對國產晶片運行進行了工程優化。選擇“哪個更好”高度取決於你的目標:大規模企業級代理部署(Qwen)、開發者生產力與成本敏感度(MiniMax),或研究/開源採用與透明度(GLM)。
什麼是 Qwen 3.5、MiniMax M2.5、智譜的 GLM-5?
Qwen 3.5 — 是什麼?
Qwen 3.5 是阿里巴巴於 2026 年推出的新一代開放權重多模態模型家族(尤其是 Qwen-3.5-397B 變體),面向「代理式」工作負載——亦即能使用工具進行推理、與 GUI 互動,並可處理文本、圖像與影片輸入的模型。阿里巴巴將 Qwen 3.5 定位為稀疏/稠密混合模型,聲稱在多模態與代理任務上的高表現同時,單 token 成本遠低於許多西方閉源模型。發佈時間選在除夕夜,顯示其在產品與定價上的進取姿態。
已公開的關鍵規格與主張:
- 參數級別: 總計約 ~397B,採用稀疏 Mixture-of-Experts(MoE)路由策略,且在多數推理場景下的實際啟用參數數遠低。
- 多模態: 原生視覺 + 文字訓練;支援圖像與擴展影片推理。
- 上下文視窗/長文本: Qwen 平台變體(Plus)標稱超長上下文視窗(託管方案提供面向多數十萬至近百萬 token 的配置)。
- 商業賣點: 代理式動作(App GUI 互動)、每 token 成本低,並在對比先前 Qwen 版本及部分競品主張的基準中表現強勁。
MiniMax M2.5 — 是什麼?
MiniMax M2.5 是 MiniMax 團隊(獨立 AI 實驗室/創業公司)的最新發佈,定位為務實、高實用價值的模型,針對程式設計、代理工具使用與生產力工作流程進行優化。MiniMax 強調以強化學習驅動的微調與真實世界任務的 RLHF 來提升代理在生產環境中的表現。
已公開的關鍵規格與主張:
- 聚焦領域: 程式設計(SWE 任務)、代理工具編排,以及搜尋/辦公自動化。
- 聲稱的基準: 在 SWE-Bench Verified、Multi-SWE 與 BrowseComp 風格代理測試上獲得高分(供應商數據顯示 SWE-Bench Verified 80.2%;部分已發佈跑分在 BrowseComp 基準約 76.3%)。
- 開放性: MiniMax 已釋出模型權重,並透過常見推理棧與倉庫(如 Ollama)提供訪問。
智譜的 GLM-5 — 是什麼?
GLM-5 是智譜(Z.AI / Zhipu AI)的旗艦發佈,延續 GLM-4.x 的快速迭代。GLM-5 定位為廣泛能力的開放權重模型,強調程式設計、推理、代理序列,以及對國產硬體的相容性(在華為昇騰、昆侖芯等國產加速器上訓練與優化)。智譜將 GLM-5 定位為在多項公開學術基準上領先的開放模型。
正面比較表
| 維度 | Qwen-3.5 | GLM-5 (Zhipu) | MiniMax M2.5 |
|---|---|---|---|
| 發佈時間 | 2026 除夕(部分變體開放權重)。 | 2026 年 2 月上旬;開放模型,強調國產硬體。 | 2026 年 2 月更新;M2.5 聚焦代理速度與 SWE-bench。 |
| 核心強項 | 原生多模態代理 + 吞吐效率。 | 強大的程式設計 + 代理能力;強調國產晶片棧。 | 真實世界代理速度、分解啟發式、低延遲。 |
| 基準表現 | 開源排行榜頂尖;供應商對閉源 SOTA 的對比主張。 | 聲稱在部分測試中勝過 Gemini 3 Pro 與部分閉源模型。 | 優秀速度;準確率具競爭力,部分社群測試中每任務成本更低。 |
| 部署與硬體 | 開放權重 → 基礎設施選擇靈活;優化解碼。 | 以本土晶片(華為昇騰、昆侖芯)設計/訓練,重視主權與相容性。 | 優化的執行時棧;強調 SWE-bench 吞吐。 |
| 生態系 | 阿里雲 + 開放權重帶動社群。 | 智譜生態 + 香港上市;面向國內外擴張。 | 聚焦產品與速度供給;商業合作。 |
解讀: 三者雖有重疊,但競爭定位各異。Qwen-3.5 被定位為能力全面的多模態代理,兼具基礎設施效率與開放權重。GLM-5 以國產硬體供應鏈為重心,對程式設計與代理能力有強烈主張。MiniMax M2.5 強調執行時速度與工程落地,服務生產級代理任務。
Qwen 3.5 vs Minimax M2.5 vs GLM 5:架構比較
架構差異會強烈影響模型在推理、程式設計、代理工作流程與多模態理解等任務上的表現。
以下是核心架構特徵的並列比較:
| 特徵 | Qwen 3.5 | MiniMax M2.5 | GLM 5 |
|---|---|---|---|
| 總參數量 | ~397 B | ~230 B | ~744 B |
| 啟用參數(推理時) | ~17 B | ~10 B | ~40 B |
| 架構類型 | 稀疏 MoE + Gated Delta(混合注意力) | 稀疏 MoE | 稀疏 MoE + DeepSeek 稀疏注意力 |
| 上下文支援 | 最高約 ~1 M tokens | 最高約 ~205 K tokens | 約 ~200 K tokens |
| 多模態 | 是(原生文字 + 圖像 + 影片) | 以文字為中心但上下文延長 | 是(文字 + 可透過生態整合多模態) |
| 主要優化方向 | 代理效率與多模態任務 | 實務工作流程中的週期效率表現 | 長程推理與工程化設計 |
解讀:
- Qwen 3.5 的設計 透過稀疏架構與稠密元素結合,兼顧規模與效率,支撐超大上下文視窗與豐富多模態輸出。
- MiniMax M2.5 更偏向於當下的高效推理與生產力,降低計算成本、加快工具呼叫,適合真實世界代理任務。
- GLM 5 的大規模 與較高的活躍參數配置,瞄準基準測試與長步任務,有望對標部分閉源領先者。
Qwen 3.5 — 稀疏/稠密混合,面向代理的管線設計
- 核心思路: 採用 MoE 式稀疏結構,並對多模態 token 使用稠密路由,總參數高(如 ~397B),但推理時僅啟用部分參數,從而降低常見請求的計算與記憶體負擔。
- 影響: 對知識與模態融合具有大的表徵能力,且可控的推理成本。若託管基礎設施支援稀疏核心,適合長上下文與重多模態負載。
MiniMax M2.5 — 任務優化的強化學習 + 精實骨幹
- 核心思路: 強調以大規模 RLHF/環境內強化學習與工具使用微調;M2.5 採用更精實但高效的骨幹,針對程式設計與代理序列進行調優。
- 影響: 較少追求極端參數規模,更關注行為對齊、開發者體驗與代理可靠性。在程式設計場景的「每單位算力產出」上常更具實用價值。
GLM-5 — 面向吞吐的工程化大型模型
- 核心思路: GLM-5 是大型模型,針對訓練吞吐與後訓練迭代(部分模型卡稱為 “slime” 的非同步 RL 基礎設施)進行優化;並明確面向國產加速器棧做相容性優化。
- 影響: 擁有強的一般推理與程式設計能力,工程選型使其能快速迭代,並與中國本土晶片生態相容。
基準測試對比如何?
直接的跨模型基準測試是評估推理、編碼與綜合理解等核心能力的有力方式。
以下是重點已報告結果與背景。
整體推理與知識
| 基準 | Qwen 3.5 | MiniMax M2.5 | GLM 5 | 備註 |
|---|---|---|---|---|
| MMLU-Pro / 知識 | 據報高分 | 無大規模公開數據 | 宣稱強勁 | Qwen 3.5 在內部報告中明確聲稱推理能力強。 |
| 多步推理 | 強代理能力宣稱 | 良好的代理工作流程 | 強勁 | GLM 5 聚焦長程任務。 |
| SWE Bench Verified(程式設計) | 無公開數據 | ~80.2% | GLM 5 具競爭力 | M2.5 在 SWE-Bench Verified 上達到約 80.2% 的強勁表現。 |
代理工作流程與程式設計
- MiniMax M2.5 在真實世界的程式設計基準上表現強勁,80.2%(SWE-Bench Verified),並具備穩健的多步任務管理能力。
- GLM 5 據報在部分指標上接近閉源領導者,並在某些編碼與代理度量上超過如 Gemini 3 Pro 的表現。
- Qwen 3.5 廣泛被報導為可與頂級閉源模型(如 Gemini 3 Pro 與 GPT-5.2)相當,但更全面的第三方基準仍在持續出現中。
多模態表現
| 任務領域 | Qwen 3.5 | MiniMax M2.5 | GLM 5 |
|---|---|---|---|
| 圖像 + 文字 | 是 | 受限 | 可透過生態整合 |
| 影片理解 | 是 | 否 | 可整合 |
| 長上下文推理 | 卓越(約 ~1M tokens) | 高但較低 | 高(約 ~200K tokens) |
整體而言,Qwen 3.5 的多模態支援與超長上下文視窗使其在長文本對話、影片理解,以及需長時間維持上下文的代理任務上具潛在優勢。
各自擅長與基準表現:
- Qwen3.5: 擅長多模態代理任務(VITA、BFCL、TAU2),在多模態文件/影片理解上突出,並在程式設計與一般推理上具競爭力。Qwen 的商業優勢在於順暢接入阿里生態,並以代理賦能電商與工具為產品策略重點。
- MiniMax M2.5: 主打成本與吞吐,在代理任務上展現穩健、務實的表現;其優勢在於大規模高頻代理迴圈的經濟性。獨立再測快照顯示,MiniMax 在生產力指標上具競爭力,但未必在每個學術排行榜上絕對領先。
- GLM-5 (Zhipu): 在程式設計與 SWE 套件上表現突出(SWE-bench Verified ~77.8,Terminal-Bench ~56.2),擁有很大的上下文視窗與強勁的開放權重表現——截至 2026 年 2 月上旬,GLM-5 很可能是重度程式設計/工程代理工作負載的開放權重首選。
實務建議
若你的主要工作負載是代理式多模態編排(工具呼叫、GUI 自動化、多模態文件、電商代理整合),Qwen3.5 是極佳選擇之一,且在亞洲平台化優勢明顯。若你需要最佳的開放權重程式設計工程模型,GLM-5 目前在開發者導向的編碼基準上看起來更強。若成本/吞吐是大規模代理迴圈的單一最重要約束,MiniMax M2.5 具備明確的性價比優勢。也可採用混合策略:例如以 GLM-5 處理重度程式碼生成、Qwen3.5 作為多模態代理前端編排、MiniMax M2.5 支撐高頻低延遲的代理迴圈。
那麼——哪個更好:Qwen 3.5、MiniMax M2.5,還是 GLM-5?
簡短回答
沒有單一「更好」的模型——各自在不同軸線領先:
- Qwen 3.5:最適合多模態代理應用與超大規模、對成本極敏感的部署(強供應商定價與原生視覺 + 行動能力)。
- MiniMax M2.5:最適合程式設計與務實的代理工具鏈,在開發者體驗與真實世界的程式設計基準上表現突出。
- GLM-5:最佳的廣義開放模型通才,對中國本土部署、重視國產硬體相容與開放權重彈性的組織更具吸引力。
實務能力比較
除了原始基準分數,真實世界的價值還取決於模型在企業與開發者關切的任務(如程式設計、推理、多模態處理、連貫的思維鏈執行)上的表現。
以下為相對優勢與典型使用場景摘要:
| 能力 | Qwen 3.5 | MiniMax M2.5 | GLM 5 |
|---|---|---|---|
| 一般推理 | 卓越 | 強 | 非常強 |
| 程式設計與開發工具 | 高 | 開放模型中的同級最佳 | 非常強 |
| 多模態(視覺/影片) | 原生內建支援 | 受限 | 中等 |
| 代理工作流程 | 卓越 | 非常好 | 卓越 |
| 長上下文深度工作 | 領先(1M tokens) | 高 | 高(200K) |
| 速度與推理成本 | 中等 | 領先(快速且便宜) | 成本較高且較慢 |
關鍵洞見:
- MiniMax M2.5 在生產工作流中表現亮眼——速度快、成本低,且在程式設計與代理基準上競爭力強。
- Qwen 3.5 擅長多模態深度理解與超長上下文計算,適合複雜研究任務。
- GLM 5 展現強大的代理推理,適用於企業工程類任務。
價格與成本比較
成本效率是企業採用的關鍵差異化因素——尤其對高頻使用者而言。
| 模型 | 輸入價格(約) | 輸出價格(約) | 備註 |
|---|---|---|---|
| Qwen 3.5 | ~¥0.8 / 1M tokens (~$0.12) | 可比 | 每 token 成本非常低(據報)。 |
| MiniMax M2.5 | ~$0.30 / 1M tokens (input) | ~$1.20 / 1M tokens | 成本效率顯著。 |
| GLM 5 | ~$1.00 / 1M tokens | ~$3.20 / 1M tokens | 較高但仍具競爭力。 |
解讀:
- MiniMax M2.5 在每百萬 token 定價上最具效率,適合高頻大規模部署。
- Qwen 3.5 的定價 低於多數主要競品,包括閉源模型與部分開源方案。
- GLM 5 單 token 價格較高,但或可憑藉長程代理表現與工程能力獲得性價比。
CometAPI 目前整合了這三個模型,且其 API 價格始終有折扣。如果你不想更換供應商並適配不同供應商的定價策略,CometAPI 是最佳選擇。它只需要一把金鑰即可透過聊天格式訪問。
結論
在2026 年初的語境下,Qwen 3.5、MiniMax M2.5 與 GLM 5 各自具備明確分工的吸引力。三者共同表明開放權重、高性能 AI 的持續演進:
- Qwen 3.5 在多模態、長上下文推理與全球多語種支援上領先。
- MiniMax M2.5 推進了高效的真實生產力與代理工作流程。
- GLM 5 以大活躍參數規模承載高工程強度任務。
選擇合適的模型取決於你的具體需求——是多模態推理能力、程式設計表現、上下文規模,還是成本效率。
開發者現在即可透過 Qwen 3.5 API、MiniMax M2.5 與 GLM-5 (Zhipu) 於 CometAPI 訪問。要開始使用,請先在 Playground 探索模型能力,並參考 API guide 取得詳細指引。在訪問前,請確保已登入 CometAPI 並取得 API 金鑰。CometAPI 提供遠低於官方的價格,協助你完成整合。
Ready to Go?→ Sign up fo Qwen-3.5 today !
