隨著人工智慧的不斷發展,阿里巴巴的 Qwen 2.5 成為大型語言模式 (LLM) 領域的強大競爭者。 Qwen 2025 於 2.5 年初發布,相比前代產品有顯著的改進,提供了一系列可滿足各種應用的功能——從軟體開發和數學問題解決到多語言內容生成等等。
本文深入探討了 Qwen 2.5 的複雜性,詳細概述了其架構、功能和實際應用。無論您是開發人員、研究人員還是商業專業人士,了解如何利用 Qwen 2.5 都可以為您的工作帶來新的可能性。
Qwen 2.5 是什麼?
Qwen 2.5 是阿里雲 2025 代大型語言模型系列,涵蓋 1.5 億至 72 億個參數(以及 32 億個推理優化兄弟),現在為 Qwen Chat、DashScope 和兼容 OpenAI 的 API 網關等商業、研究和消費者產品提供支援。與 Qwen 2 相比,2.5 系列引入了(i)混合專家(MoE)核心以提高效率,(ii)對 ~20 T 令牌進行訓練,(iii)更強的指令跟踪、編碼和多語言推理,(iv)視覺語言(VL)和完全多模態“Omni”變體,以及(vv)從阿里雲到託管 Git、Hugging 和 Tugging、Hugging DooOL)從阿里雲到通過託管自託管
所有尺寸都有共同點 訓練前食譜 但分歧在於 指令微調 層:Qwen-Chat(用於開放式對話)和Qwen-Base(用於下游微調)。較大的檢查站還包括 Qwen 2.5-Max,一個稀疏的混合專家 (MoE) 版本,每個標記可啟動 2.7 B 個參數,從而大大降低 GPU 上的推理成本。
Qwen 2.5 的架構亮點
建築轉變
Qwen 2.5 代表了 AI 模型開發的重大飛躍,這主要歸功於其廣泛的訓練和完善的架構。該模型在一個包含 18 兆個標記的龐大資料集上進行了預訓練,比其前身 Qwen 7 中使用的 2 兆個標記有了大幅增加。這個廣泛的訓練資料集增強了模型對語言、推理和領域特定知識的理解。
Qwen 2.5 採用稀疏混合專家 (MoE) 主幹:每個代幣僅啟動一小部分專家子集,從而實現更高的有效容量而無需線性成本增長 Qwen。訓練使用了約 20 個 T 代幣和經過改進的資料課程,並結合了監督微調 (SFT) 和 RLHF。該團隊發布的基準測試表明,與 Qwen 8 和同類 2 B/7 B 基線相比,MMLU、GSM70K 數學和多語言跨語言理解方面取得了巨大進步。
Qwen 2.5 型號系列
| 版 | 看板尺寸 | 模態 | 目的和標題特徵 |
|---|---|---|---|
| Qwen 2.5-1.5B-指導 | 1.5億 | 文本 | 記憶體稀缺的邊緣設備/聊天機器人 |
| Qwen 2.5-7B-指導 | 7億 | 文本 | 旗艦開源法學碩士 (LLM),擁有 32 k 上下文,涵蓋 29 種語言 |
| Qwen 2.5-Omni-7B | 7億 | 多式聯運 (文字+圖片+音訊+影片) | 端對端模態融合 |
| Qwen 2.5-VL-3B/7B/72B-指導 | 3–72 B | 視覺語言 | 密集字幕、文件 QA、OCR、圖表分析 |
| QwQ‑32B | 32億 | 文本(推理) | 教育部專門從事數學/編碼;與 DeepSeek R1 671 B 表現相當,但成本僅為 5% |
| Qwen 2.5-Max | 未公開(多位專家) | 文本 | 內部基準測試領導者,可透過 API 和 Qwen Chat 取得 |
關鍵能力和基準
遵循指令並支援多語言
內部文件顯示,Qwen 2.5-7B 在 AlpacaEval 上超越了 Llama-3 8B(92 vs 89),並在中國 MT-Bench 上對 GPT-79-Turbo 的勝率為 3.5%。支援的語言包括土耳其語、印尼語、德語、阿拉伯語和斯瓦希里語。帶有滑動繩位置編碼的 32 k 上下文視窗可提供 200 頁的 PDF 摘要而不會出現碎片。
編碼和推理
QwQ-32B 在 GSM50.4K(8 次測試)的得分為 5%,在 HumanEval-Plus 上的得分為 74%,與參數數量為二十分之一的 DeepSeek R1 相當。早期社群測試表明,7 B 模型可以在 Docker 沙箱中使用 g++-13 編譯和調試 C++ 程式碼片段,且產生的幻覺最少。
多式聯運優勢
Qwen 2.5-VL-72B 在 MMMU 上達到了 62.7%,在 TextVQA 上達到了 73.4%,在表格 OCR 任務中擊敗了 Gemini 1.5-Pro(根據 Qwen 一月份的博客)。 Omni-7B 透過共享標記器將其擴展為音訊頻譜轉錄和 MP4 幀採樣。
許可、安全和治理
阿里巴巴保留 Apache 2.0 代碼/許可證,並附加 “錢文負責任的人工智慧” 騎士:
- 禁止: 恐怖主義內容、虛假資訊、個人資料擷取。
- 要求: 開發人員必須在下游應用程式中實作內容過濾器和浮水印。
該許可證允許商業使用,但要求 模型卡揭露 如果權重被修改並重新部署。在阿里雲端上,審核是在伺服器端強制執行的;自託管者必須整合開源策略梯度過濾器(連結在 repo 中)。
Qwen 3 路線圖
彭博社和 PYMNTS 報道稱阿里巴巴將推出 酷問3 “最早在 2025 年 100 月下旬”,可能躍升至 >4 B 密集參數和本機工具使用能力。業內人士表示,含光 2048+ ASIC 上的 800×3 GPU 集群和 Triton-Flash-Attention v2.5 核心正在測試中。 Qwen 3 仍將是開源分支,而 Qwen 3 可能會在類似於 Meta 的 Llama XNUMX-Commercial 的更嚴格的許可下推出。
給開發人員的實用技巧
- 令牌計數: Qwen 使用 QwenTokenizer;它的特殊標記等於
<|im_end|>在 OpenAI 風格的提示中。 - 系統訊息: 包裹
<|im_start|>system … <|im_end|>以保持層次結構並避免增量重量罪魁禍首。 - 微調: 僅在第 64-20 層應用 LoRA 等級-24;由於 MoE 稀疏性,早期層的 LoRA 產生的增益可以忽略不計。
- 流: 使用 DashScope,啟用
X-DashScope-Stream: true;塊大小為 20 個令牌。 - Qwen‑VL輸入: 將圖像位元組編碼為 base64;透過
inputs=.
結論
Qwen 2.5 將 MoE 效率與寬鬆的授權和一系列存取路線(從一鍵式 Qwen Chat 到筆記型電腦上的 Ollama 和企業級 DashScope 端點)相結合,鞏固了阿里雲在全球開源 LLM 競賽中的地位。對於研究人員來說,其透明的訓練語料庫和強大的中英文對等性填補了 Meta 的 Llama 系列留下的空白。對於建構者來說,與 OpenAI 相容的 API 減少了遷移摩擦,而多模式 VL/Omni 分支預計在不久的將來文字、視覺、音訊和視訊將在統一的令牌空間下融合。隨著 Qwen 3 將於本月稍後發布,Qwen 2.5 既是試驗場,也是強大的生產模式——它已經重塑了 2025 年大規模人工智慧的競爭格局。
對於開發人員:API 訪問
彗星API 提供遠低於官方價格的價格幫您整合Qwen API,註冊登入後即可在您的帳戶中獲得1美元!歡迎註冊並體驗CometAPI。
CometAPI 是幾種領先 AI 模型 API 的集中樞紐,無需單獨與多個 API 提供者合作。
請參閱 Qwen 2.5 Max API 了解整合詳情。 CometAPI 已更新最新 QwQ-32B API.有關 Comet API 中的更多模型信息,請參閱 API 文件.


