解码 Qwen3 的训练：深度解析

Qwen3 的发布是 Alibaba 最新的混合推理大型语言模型（LLM），再次重塑了 AI 研究与应用的版图。其非凡能力背后，是一套精心设计的训练流程，涵盖多样数据上的大规模预训练、架构创新，以及多阶段的后训练管线。本文深入解构Qwen3 如何训练，从原始数据摄取到面向推理与部署的微调，逐一回答驱动其设计与性能的关键问题。

Qwen3 的预训练由哪些数据驱动？

扩展 token 数量：从数万亿到数十万亿

Qwen3 的基础建立在前所未有的语料之上——超过 36 万亿个 token，覆盖 119+ 种语言和方言。这几乎是其前代 Qwen2.5 的两倍，后者训练使用了 18 万亿个 token。通过扩大数据规模，Qwen3 吸收了更丰富的语言模式、世界知识与领域内容。

利用多样数据源：网页、PDF 与合成内容

为构建这一庞大数据集，Alibaba 将网页抓取与通过 Qwen2.5-VL 处理的类似 PDF 的文档相结合，确保高质量提取技术文本与学术材料。此外，还采用针对性的合成数据生成——借助 Qwen2.5-Math 与 Qwen2.5-Coder——以数百万条数学题解与代码片段增强语料，提升 STEM 与编程能力。

Qwen3 的预训练流程如何构建？

阶段 1：构建基础知识

在阶段 1（S1），Qwen3 使用标准 4K 上下文的 Transformer 主干，在超过 30 万亿个 token上进行训练。该阶段灌注基础语言理解与通用领域知识，类似于人类读写能力中的“学习字母”。

阶段 2：强化知识密集型能力

进入阶段 2（S2）后，数据集被重新平衡以突出知识密集型内容——STEM 文本、编程挑战与推理任务。再摄入额外 5 万亿个 token，强化模型解决复杂学术与技术问题的能力。

阶段 3：扩展上下文长度

最后，进行长上下文预训练阶段，利用高质量文档将 Qwen3 的原生上下文窗口扩展至32K tokens，使其能够处理并推理诸如研究论文或多步指令等长输入。

哪些架构创新支撑了 Qwen3 的性能？

稠密模型 vs. Mixture-of-Experts (MoE) 模型

Qwen3 同时提供稠密与Mixture-of-Experts (MoE) 变体。稠密模型参数规模从 0.6B 到 32B，而 MoE 版本在每个 token 上仅激活少量专家（例如 128 个专家中的 8 个），在不牺牲性能的情况下将活跃算力削减最高达 90%。

注意力与归一化增强

诸如按头的 QK 归一化与重新设计的注意力偏置等创新，提升了大规模训练的稳定性。这些改进使更深的模型（如 Qwen3-235B-A22B 的 94 层）能够高效收敛，确保随容量增加而持续带来性能提升。

Qwen3 如何实现混合推理？

思考模式 vs. 非思考模式

Qwen3 的一个标志性特性是其混合推理：

思考模式：启用 chain-of-thought (CoT) 推理，在给出最终答案前将问题分解为中间步骤。
非思考模式：在不进行显式中间推理的情况下快速给出响应。
用户可通过 enable_thinking 标志或内联标签（/think、/no_think）切换模式，以适配任务复杂度。

控制推理预算

通过为推理步骤分配“计算预算”，Qwen3 在成本与质量之间实现平衡。更难的任务会触发更深的推理（更多计算），而简单的查询保持快速，从而提供对推理取舍的精细化控制。

Qwen3 的后训练流程包括什么？

使用 chain-of-thought 冷启动进行微调

第一阶段后训练在多样的长 CoT 数据上微调 Qwen3，涵盖数学、逻辑谜题与编程问题。在强化学习之前，此“冷启动”阶段预先激活模型的显式推理能力。

面向推理的强化学习

第二阶段扩大算力规模，进行基于规则的强化学习（RL），使用手工设计的奖励函数引导推理路径探索。这一过程打磨模型生成连贯中间步骤的能力，避免偏离任务。

思考模式融合与通用 RL

第三阶段将推理数据与指令微调数据合并——即思考模式融合——将深度推理与通用指令遵循相结合。最后，第四阶段将 RL 扩展到 20+ 个通用领域任务（例如格式遵循、代理型功能），纠正不期望行为并提升流畅度。

Qwen3 与 Qwen2.5 有何不同？

尽管 Qwen2.5 奠定了 Alibaba 在开源 LLM 领域的领先地位，Qwen3 带来了多项关键增强：

特性	Qwen2.5	Qwen3
参数规模	最高至 72B（稠密）	最高至 235B（MoE）+ 稠密选项
上下文窗口	16K tokens	128K tokens（多数变体）
语言覆盖	29 种语言	119 种语言与方言
推理集成	独立推理模型	统一的思考/非思考模式
开放权重可用性	是（Apache 2.0）	是（Apache 2.0）

这些升级带来更通用、更准确且全球可及的模型。

Qwen3 如何为实时部署进行优化？

除了训练之外，Qwen3 的工程实践强调低延迟推理与可扩展部署，以支持生产级代理与辅助系统。

基于 Cerebras 的硬件加速

Cerebras 展示了基于 Qwen3-32B 的实时推理，响应时间可达 1.2 秒——比同类推理模型快最多 60×——这得益于其晶圆级引擎与针对 Qwen3 架构优化的专用推理内核。

云端部署与 API 就绪性

Alibaba Cloud 通过其 API 套件提供 Qwen3，配备自动伸缩的 GPU 集群与面向推理优化的 CPU 节点。开发者可使用内置的 LoRA 支持对 Qwen3 变体进行微调与部署，以降低资源消耗，使大规模 AI 服务更具成本效益且易于获取。

开发者如何利用 Qwen3？

Alibaba 以Apache 2.0许可发布了 Qwen3，邀请全球研究社区与企业开发者采用、适配并扩展该模型家族用于专用场景。

可用的变体有哪些？

稠密模型（0.6B、3B、22B、32B）
适合本地部署与边缘场景，这些变体具备稳健能力且集成简便。
MoE 模型（总参数 235B；活跃参数 22B）
面向高吞吐云服务，这些更大的配置在优化资源利用的同时，提供最大化的推理深度与多语言流畅度。

API 与本地部署有何不同？

开发者可选择：

Alibaba Cloud API：托管端点支持自动伸缩，便于快速原型与全球分发。
自托管部署：提供 Docker 容器与 Kubernetes 清单，适用于数据驻留与安全为优先的合规场景。
CometAPI：开发者可通过CometAPI访问Qwen 3 API。CometAPI 提供统一的 REST 接口，聚合数百个 AI 模型。

社区与生态支持有哪些？

开源仓库：Qwen 的 GitHub 提供模型权重、训练脚本与微调工具包，鼓励社区驱动的创新。
预构建集成：针对主流 ML 框架（TensorFlow、PyTorch）与第三方平台（LangChain、Hugging Face）的插件，加速价值实现。
研究合作：Alibaba 在 arXiv 发布了完整的 Qwen3 技术报告，透明披露架构决策与训练方法。

通过大规模、分阶段的预训练、架构突破与精细的后训练管线，Qwen3 在混合推理上树立了新标杆。其灵活的思考模式、高效的 MoE 变体以及完善的部署生态，使其处于开源 AI 的前沿，赋能研究者与开发者构建新一代智能代理。

入门

CometAPI 提供统一的 REST 接口，聚合数百个 AI 模型——在一个一致的端点下，内置 API Key 管理、使用配额与计费仪表盘。无需再同时处理多个供应商的 URL 与凭证。

开发者可通过CometAPI访问Qwen 3 API。开始之前，请在 Playground 探索模型能力，并查阅API 指南以获取详细说明。在访问前，请确保已登录 CometAPI 并获得 API Key。