2025 年 4 月,Alibaba Cloud 推出了 Qwen3,这是 Qwen 系列大语言模型(LLMs)的最新版本。作为人工智能领域的重要进展,Qwen3 在语言理解、推理、多模态处理与计算效率方面展现出卓越能力。该模型支持 119 种语言,基于包含 36 万亿个 token 的数据集进行训练,并提供从 0.6 billion 到 235 billion 参数的多种模型规模。本文将深入探讨 Qwen3 的定义、特性、使用方法、接入方式、与其他模型的对比,以及其对 AI 领域的潜在影响,旨在为开发者、研究人员与企业提供全面参考。
什么是 Qwen3?
Qwen3 是一系列旨在理解与生成类人文本的大语言模型,适用于从日常对话到复杂推理任务的多种场景。它是 Alibaba Cloud 开发的 Qwen 系列的第三代产品,继 2023 年发布 Qwen 与 2024 年的 Qwen2 之后,后者在性能与功能方面进行了改进。
Qwen 系列简史
Qwen 系列始于 2023 年 4 月发布的 Qwen 模型,最初名为“通义千问”,基于 Meta AI 的 Llama 架构。2023 年 9 月获得中国政府批准后,Qwen 面向公众正式发布。2023 年 12 月,Qwen 72B 与 1.8B 模型开源;随后在 2024 年 6 月推出 Qwen2,采用专家混合(MoE)架构。Qwen3 于 2025 年 4 月推出,引入混合推理能力与多模态功能,成为该系列迄今为止最先进的版本。
Qwen3 的特性
Qwen3 提供一系列创新特性,使其在全球 AI 模型领域中脱颖而出:
多语言支持
Qwen3 支持 119 种语言,覆盖主要的全球语言体系。这使其成为跨文化与多语言应用(如国际客户支持与多语内容生成)的理想选择。
大规模训练数据
Qwen3 的训练数据集由近 36 万亿个 token 构成,约合 270 billion 个词。其内容覆盖广泛,包括教材、问答对、代码片段与 AI 生成内容,主要为中文与英文。如此规模确保了其在语言理解与生成方面的出色表现。
多样化模型规模
Qwen3 提供从 0.6 billion 到 235 billion 参数的多种模型规模:
- 小型模型(0.6B、1.7B):适用于轻量级应用,可在智能手机等设备上运行。
- 中型模型(4B、8B、14B、32B):在性能与资源需求间取得平衡,适用于大多数开发场景。
- 大型模型(235B):为企业级任务提供顶级性能。
| Model Name | Parameter Size | Context Window (tokens) | Applicable Scenarios |
|---|---|---|---|
| Qwen3-0.6B | 0.6 billion | 32,768 | 移动设备,轻量级应用 |
| Qwen3-1.7B | 1.7 billion | 32,768 | 嵌入式系统,快速推理 |
| Qwen3-4B | 4 billion | 131,072 | 中小型项目,研究 |
| Qwen3-8B | 8 billion | 131,072 | 通用应用,开发 |
| Qwen3-32B | 32 billion | 131,072 | 高性能任务,企业应用 |
| Qwen3-235B-A22B | 235 billion | 131,072 | 顶级性能,复杂推理(未公开提供) |
混合推理能力
Qwen3 引入“混合推理”特性,使模型能够在回答复杂问题前进行逐步推理。该能力在逻辑推理、数学问题与编程任务中尤为突出。用户可通过设置启用或禁用该模式(例如 enable_thinking=True)。
专家混合(MoE)模型
Qwen3 包含专家混合模型,如 Qwen3-30B-A3B(30 billion 参数,3 billion 活跃)与 Qwen3-235B-A22B(235 billion 参数,22 billion 活跃)。这些模型通过仅激活部分参数来加速推理,同时保持高性能,非常适合大规模部署。
扩展的 Token 限制
部分 Qwen3 模型支持最高 131,072 个 token 的上下文窗口(4B 及以上模型),相较 Qwen2 的 32,768 个 token 有显著提升。这一改进使模型能够处理更长的对话与更复杂的文本生成任务。

Qwen 3 基准测试
该模型在代码生成、调试与数学问题求解方面表现出色,是软件开发与数据分析的有力工具。

如何使用 Qwen3
应用场景
Qwen3 的多样性使其适用于多种场景:
- 聊天机器人与虚拟助手:为客户支持与个人助手应用提供自然、具备上下文感知的响应。
- 内容生成:生成文章、故事、代码以及其他创意或技术内容。
- 数据分析:协助解释与总结大型数据集,用于研究与商业智能。
- 教育工具:帮助学生完成作业、提供讲解并支持个性化学习体验。
- 科学研究:支持文献综述、假设生成与科学问题求解。
项目集成
开发者可使用以下框架与工具集成 Qwen3:
- Transformers:需要
transformers>=4.51.0。示例代码片段:
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen3-8B")
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen3-8B")
inputs = tokenizer("Hello, how can I assist you?", return_tensors="pt")
outputs = model.generate(**inputs, enable_thinking=True)
print(tokenizer.decode(outputs))
用户可以使用 enable_thinking=True 或通过 /think 和 /nothink 控制。
- llama.cpp:需要
llama.cpp>=b5092。命令行示例:
./llama-cli -hf Qwen/Qwen3-8B-GGUF:Q8_0 --jinja --color -ngl 99 -fa -sm row --temp 0.6 --top-k 20 --top-p 0.95 --min-p 0 -c 40960 -n 32768 --no-context-shift
- Ollama:需要
Ollama v0.6.6或更高版本。运行命令:
ollama run qwen3:8b
支持参数如 num_ctx 40960 与 num_predict 32768。
- 部署选项:
- SGLang:需要
sglang>=0.4.6.post1。启动命令:python -m sglang.launch_server --model-path Qwen/Qwen3-8B --port 30000 --reasoning-parser qwen3 - vLLM:需要
vllm>=0.8.5。服务命令:vllm serve Qwen/Qwen3-8B --port 8000 --enable-reasoning --reasoning-parser deepseek_r1 - MindIE:支持 Ascend NPU;访问 Modelers 获取详情。
工具使用
Qwen-Agent 支持 Qwen3 与外部工具与 API 的交互,适用于需要动态数据访问的任务。该特性也受到 SGLang、vLLM、Transformers、llama.cpp 与 Ollama 的支持。
微调
Qwen3 可通过 Axolotl、UnSloth、Swift 与 Llama-Factory 等框架进行微调,支持监督微调(SFT)、直接偏好优化(DPO)与分组稳健偏好优化(GRPO)等技术。
结论
Qwen3 代表了大语言模型领域的一次突破,提供更强的功能性、多样性与可及性。凭借多语言支持、混合推理以及面向视觉、数学与音频任务的专项版本,Qwen3 成为 AI 领域的重要参与者。其在 Codeforces、AIME 与 BFCL 等基准中的竞争力表现,以及其开源特性,使其成为开发者、研究人员与企业的理想选择。随着 AI 技术的不断进步,Qwen3 标志着迈向更能理解、推理并以愈加复杂方式与世界交互的智能系统的重要一步。
入门
开发者可通过 Qwen 3 API 经由 CometAPI 进行访问。开始之前,可在 Playground 中探索模型能力,并查阅 API guide 获取详细说明。请注意,部分开发者在使用该模型前可能需要完成组织验证。
