解讀 Qwen3 的訓練:深入探究

CometAPI
AnnaMay 28, 2025
解讀 Qwen3 的訓練:深入探究

阿里巴巴最新混合推理大型語言模型(LLM)Qwen3的推出,再次重塑了人工智慧研究和應用的格局。其卓越能力的背後是精心設計的訓練過程,涵蓋對不同資料的大規模預訓練、架構創新和多階段後訓練流程。本文解開了 Qwen3 如何訓練探索從原始資料提取到推理和部署微調的每個階段,回答推動其設計和效能的關鍵問題。

哪些數據為 Qwen3 的預訓練提供動力?

擴大代幣數量:從數萬億到數十萬億

Qwen3 的基礎建立在前所未有的語料庫之上——超過 36 兆個代幣 涵蓋超過 119 種語言和方言。這幾乎是其前身 Qwen2.5 所使用的令牌量兩倍,後者使用了 18 兆個代幣進行訓練。透過擴展資料量,Qwen3 可以吸收更豐富的語言模式、世界知識和特定領域的內容。

利用多種資料來源:網路、PDF 和合成內容

為了收集這個龐大的資料集,阿里巴巴將網路爬蟲與 類似 PDF 的文檔 透過Qwen2.5-VL處理,確保高品質地提取技術文本和學術材料。此外,利用 Qwen2.5-Math 和 Qwen2.5-Coder 的有針對性的合成資料生成為語料庫增加了數百萬個數學問題解決方案和程式碼片段,增強了 STEM 和程式設計流暢性。

Qwen3 的預訓練流程是怎麼樣的?

第一階段:建立基礎知識

In 第一階段(S1),Qwen3 接受過訓練 超過 30 兆個代幣 使用標準 4K 上下文 Transformer 主幹。這一階段灌輸基本的語言理解和一般領域的知識,類似於人類識字的「學習字母」。

第二階段:豐富知識密集能力

搬入 第一階段(S2),數據集重新平衡以強調 知識密集內容—STEM 文本、編碼挑戰和推理任務。額外的 5 萬億代幣 被吸收,從而提高了模型解決複雜學術和技術問題的能力。

第三階段:擴展上下文長度

最後, 長上下文預訓練階段 利用高品質文件將 Qwen3 的原生上下文視窗擴展至 32K 代幣使其能夠處理和推理冗長的輸入,例如研究論文或多步驟指令。

哪些架構創新成就了 Qwen3 的效能?

密集模型 vs. 混合專家 (MoE) 模型

Qwen3 提供 混合式專家 (MoE) 變體。密集模型的範圍從 0.6B 到 32B 個參數,而 MoE 版本每個令牌僅激活一小部分專家(例如,8 個專家中的 128 個),在不犧牲性能的情況下將主動計算量削減高達 90%。

注意力和規範化增強

創新如 人均 QK 規範化 重新設計的注意力偏差可以提高尺度穩定性。這些改進使更深的模型(Qwen94-3B-A235B 中最多 22 層)能夠有效收斂,確保在增加容量的同時獲得持續的收益。

Qwen3如何實現混合推理?

思考模式 vs. 非思考模式

Qwen3 的一大特點是 混合推理:

  • 思維模式:採取思路鏈 (CoT) 推理,將問題分解為中間步驟,然後得出最終答案。
  • 非思考模式:無需明確的中間推理即可提供快速回應。
    用戶可以透過 enable_thinking 標誌或內嵌標籤(/think, /no_think),根據任務的複雜度調整推理。

控制推理預算

透過將「計算預算」分配給推理步驟,Qwen3 確保了成本和品質的平衡。更困難的任務可以觸發更深層的推理(更多的計算),而更簡單的查詢仍然保持快速,從而提供 對推理權衡的細粒度控制 .

Qwen3 的訓練後流程涉及什麼?

利用思路鏈冷啟動進行微調

第一個訓練後階段 對 Qwen3 進行微調 多樣化的長期 CoT 數據,涵蓋數學、邏輯謎題和編碼問題。這個「冷啟動」階段在強化學習之前就啟動了模型的明確推理能力。

強化學習推理

第 2 階段擴大計算規模 基於規則的強化學習(RL),使用手工製作的獎勵函數來指導推理路徑的探索。這磨練了模型產生連貫的中間步驟的能力,而不會偏離任務。

思維模式融合與通用強化學習

在第三階段,推理和指令調整資料合併—思維模式融合—將深層推理與一般指示遵循結合。最後,第 4 階段將 RL 應用於 20 多個通用領域任務(例如,格式遵守、代理功能),糾正不良行為並提高流暢性。

Qwen3 與 Qwen2.5 有何不同?

Qwen2.5 確立了阿里巴巴在開放式 LLM 領域的領導地位,而 Qwen3 則帶來了幾項關鍵的增強:

獨特之處Qwen2.5Qwen3
參數尺度高達 72B(密集)高達 235B (MoE) + 密集選項
上下文窗口16K 代幣128K 代幣(大多數變體)
語言覆蓋範圍29語言119種語言和方言
推理整合分離推理模型統一思維/非思維模式
無限制重量可用性是(Apache 2.0)是(Apache 2.0)

這些升級轉化為更通用、準確且全球可存取的模型。

Qwen3 如何針對即時部署進行最佳化?

除了訓練之外,Qwen3 的工程還強調低延遲推理和可擴展部署,以支援生產級代理和副駕駛。

Cerebras 上的硬體加速

Cerebras 已經展示了使用 Qwen3-32B 的即時推理能力,透過利用其晶圓級引擎和針對 Qwen1.2 架構優化的專用推理內核,可以在 60 秒內做出回應,比同類推理模型快 3 倍。

雲端部署和 API 準備

阿里雲透過其 API 套件提供 Qwen3,具有自動擴展的 GPU 叢集和推理優化的 CPU 節點。開發人員可以使用內建的 LoRA 支援對 Qwen3 變體進行微調和部署,以減少資源消耗,從而使大規模 AI 服務具有成本效益且易於存取。

開發人員如何利用 Qwen3?

阿里巴巴發布了 Qwen3 阿帕奇2.0 許可證,邀請全球研究界和企業開發人員採用、調整和擴展模型系列以用於專門的應用。

有哪些變體可用?

  • 密集模型(0.6B、3B、22B、32B)
    這些變體非常適合內部部署和邊緣場景,可透過直接整合提供強大的功能。
  • MoE 模型(共 235B 個參數;22B 個有效參數)
    這些更大的配置專為高吞吐量雲端服務而設計,可提供最大的推理深度和多語言流暢性,並優化資源利用率。

API 和本機選項有何不同?

開發人員可以選擇:

  • 阿里雲API:具有自動縮放功能的託管端點,可實現快速原型設計和全球分發。
  • 自託管部署:提供 Docker 容器和 Kubernetes 清單,以促進資料駐留和安全性至關重要的合規性要求高的場景。
  • 彗星API:開發人員可以訪問 啟文3 透過 API 彗星API。 CometAPI 提供了統一的 REST 接口,聚合了數百種 AI 模型。

有哪些社區和生態系統支援?

  • 開源儲存庫:Qwen GitHub 託管模型權重、訓練腳本和微調工具包,鼓勵社群驅動的創新。
  • 預建集成:流行的 ML 框架(TensorFlow、PyTorch)和第三方平台(LangChain、Hugging Face)的插件可加快價值實現時間。
  • 研究合作:阿里巴巴在 arXiv 上發布了完整的 Qwen3 技術報告,為架構決策和培訓方法提供了透明度。

透過大規模、多階段的預訓練、架構突破和複雜的後訓練流程,Qwen3 在混合推理方面達到了新的基準。其靈活的思維模式、高效的 MoE 變體和豐富的部署生態系統使其處於開源 AI 的前沿,使研究人員和開發人員能夠建立下一代智慧代理。

入門

CometAPI 提供了一個統一的 REST 接口,在一致的端點下聚合了數百個 AI 模型,並具有內建的 API 金鑰管理、使用配額和計費儀表板。而不需要處理多個供應商 URL 和憑證。

開發人員可以訪問 啟文3 透過 API 彗星API。首先,在 Playground 中探索模型的功能,並查閱 API指南 以獲得詳細說明。造訪前請確保您已經登入CometAPI並取得API金鑰。

閱讀更多

一個 API 中超過 500 個模型

最高 20% 折扣