Qwen3 的发布是 Alibaba 最新的混合推理大型语言模型(LLM),再次重塑了 AI 研究与应用的版图。其非凡能力背后,是一套精心设计的训练流程,涵盖多样数据上的大规模预训练、架构创新,以及多阶段的后训练管线。本文深入解构Qwen3 如何训练,从原始数据摄取到面向推理与部署的微调,逐一回答驱动其设计与性能的关键问题。
Qwen3 的预训练由哪些数据驱动?
扩展 token 数量:从数万亿到数十万亿
Qwen3 的基础建立在前所未有的语料之上——超过 36 万亿个 token,覆盖 119+ 种语言和方言。这几乎是其前代 Qwen2.5 的两倍,后者训练使用了 18 万亿个 token。通过扩大数据规模,Qwen3 吸收了更丰富的语言模式、世界知识与领域内容。
利用多样数据源:网页、PDF 与合成内容
为构建这一庞大数据集,Alibaba 将网页抓取与通过 Qwen2.5-VL 处理的类似 PDF 的文档相结合,确保高质量提取技术文本与学术材料。此外,还采用针对性的合成数据生成——借助 Qwen2.5-Math 与 Qwen2.5-Coder——以数百万条数学题解与代码片段增强语料,提升 STEM 与编程能力。
Qwen3 的预训练流程如何构建?
阶段 1:构建基础知识
在阶段 1(S1),Qwen3 使用标准 4K 上下文的 Transformer 主干,在超过 30 万亿个 token上进行训练。该阶段灌注基础语言理解与通用领域知识,类似于人类读写能力中的“学习字母”。
阶段 2:强化知识密集型能力
进入阶段 2(S2)后,数据集被重新平衡以突出知识密集型内容——STEM 文本、编程挑战与推理任务。再摄入额外 5 万亿个 token,强化模型解决复杂学术与技术问题的能力。
阶段 3:扩展上下文长度
最后,进行长上下文预训练阶段,利用高质量文档将 Qwen3 的原生上下文窗口扩展至32K tokens,使其能够处理并推理诸如研究论文或多步指令等长输入。
哪些架构创新支撑了 Qwen3 的性能?
稠密模型 vs. Mixture-of-Experts (MoE) 模型
Qwen3 同时提供稠密与Mixture-of-Experts (MoE) 变体。稠密模型参数规模从 0.6B 到 32B,而 MoE 版本在每个 token 上仅激活少量专家(例如 128 个专家中的 8 个),在不牺牲性能的情况下将活跃算力削减最高达 90%。
注意力与归一化增强
诸如按头的 QK 归一化与重新设计的注意力偏置等创新,提升了大规模训练的稳定性。这些改进使更深的模型(如 Qwen3-235B-A22B 的 94 层)能够高效收敛,确保随容量增加而持续带来性能提升。
Qwen3 如何实现混合推理?
思考模式 vs. 非思考模式
Qwen3 的一个标志性特性是其混合推理:
- 思考模式:启用 chain-of-thought (CoT) 推理,在给出最终答案前将问题分解为中间步骤。
- 非思考模式:在不进行显式中间推理的情况下快速给出响应。
用户可通过enable_thinking标志或内联标签(/think、/no_think)切换模式,以适配任务复杂度。
控制推理预算
通过为推理步骤分配“计算预算”,Qwen3 在成本与质量之间实现平衡。更难的任务会触发更深的推理(更多计算),而简单的查询保持快速,从而提供对推理取舍的精细化控制。
Qwen3 的后训练流程包括什么?
使用 chain-of-thought 冷启动进行微调
第一阶段后训练在多样的长 CoT 数据上微调 Qwen3,涵盖数学、逻辑谜题与编程问题。在强化学习之前,此“冷启动”阶段预先激活模型的显式推理能力。
面向推理的强化学习
第二阶段扩大算力规模,进行基于规则的强化学习(RL),使用手工设计的奖励函数引导推理路径探索。这一过程打磨模型生成连贯中间步骤的能力,避免偏离任务。
思考模式融合与通用 RL
第三阶段将推理数据与指令微调数据合并——即思考模式融合——将深度推理与通用指令遵循相结合。最后,第四阶段将 RL 扩展到 20+ 个通用领域任务(例如格式遵循、代理型功能),纠正不期望行为并提升流畅度。
Qwen3 与 Qwen2.5 有何不同?
尽管 Qwen2.5 奠定了 Alibaba 在开源 LLM 领域的领先地位,Qwen3 带来了多项关键增强:
| 特性 | Qwen2.5 | Qwen3 |
|---|---|---|
| 参数规模 | 最高至 72B(稠密) | 最高至 235B(MoE)+ 稠密选项 |
| 上下文窗口 | 16K tokens | 128K tokens(多数变体) |
| 语言覆盖 | 29 种语言 | 119 种语言与方言 |
| 推理集成 | 独立推理模型 | 统一的思考/非思考模式 |
| 开放权重可用性 | 是(Apache 2.0) | 是(Apache 2.0) |
这些升级带来更通用、更准确且全球可及的模型。
Qwen3 如何为实时部署进行优化?
除了训练之外,Qwen3 的工程实践强调低延迟推理与可扩展部署,以支持生产级代理与辅助系统。
基于 Cerebras 的硬件加速
Cerebras 展示了基于 Qwen3-32B 的实时推理,响应时间可达 1.2 秒——比同类推理模型快最多 60×——这得益于其晶圆级引擎与针对 Qwen3 架构优化的专用推理内核。
云端部署与 API 就绪性
Alibaba Cloud 通过其 API 套件提供 Qwen3,配备自动伸缩的 GPU 集群与面向推理优化的 CPU 节点。开发者可使用内置的 LoRA 支持对 Qwen3 变体进行微调与部署,以降低资源消耗,使大规模 AI 服务更具成本效益且易于获取。
开发者如何利用 Qwen3?
Alibaba 以Apache 2.0许可发布了 Qwen3,邀请全球研究社区与企业开发者采用、适配并扩展该模型家族用于专用场景。
可用的变体有哪些?
- 稠密模型(0.6B、3B、22B、32B)
适合本地部署与边缘场景,这些变体具备稳健能力且集成简便。 - MoE 模型(总参数 235B;活跃参数 22B)
面向高吞吐云服务,这些更大的配置在优化资源利用的同时,提供最大化的推理深度与多语言流畅度。
API 与本地部署有何不同?
开发者可选择:
- Alibaba Cloud API:托管端点支持自动伸缩,便于快速原型与全球分发。
- 自托管部署:提供 Docker 容器与 Kubernetes 清单,适用于数据驻留与安全为优先的合规场景。
- CometAPI:开发者可通过CometAPI访问Qwen 3 API。CometAPI 提供统一的 REST 接口,聚合数百个 AI 模型。
社区与生态支持有哪些?
- 开源仓库:Qwen 的 GitHub 提供模型权重、训练脚本与微调工具包,鼓励社区驱动的创新。
- 预构建集成:针对主流 ML 框架(TensorFlow、PyTorch)与第三方平台(LangChain、Hugging Face)的插件,加速价值实现。
- 研究合作:Alibaba 在 arXiv 发布了完整的 Qwen3 技术报告,透明披露架构决策与训练方法。
通过大规模、分阶段的预训练、架构突破与精细的后训练管线,Qwen3 在混合推理上树立了新标杆。其灵活的思考模式、高效的 MoE 变体以及完善的部署生态,使其处于开源 AI 的前沿,赋能研究者与开发者构建新一代智能代理。
入门
CometAPI 提供统一的 REST 接口,聚合数百个 AI 模型——在一个一致的端点下,内置 API Key 管理、使用配额与计费仪表盘。无需再同时处理多个供应商的 URL 与凭证。
开发者可通过CometAPI访问Qwen 3 API。开始之前,请在 Playground 探索模型能力,并查阅API 指南以获取详细说明。在访问前,请确保已登录 CometAPI 并获得 API Key。
