Qwen3 如何運作？

Qwen3 代表了開源大型語言模型 (LLM) 的重大飛躍，它將複雜的推理能力與高效率和廣泛的可訪問性融為一體。 Qwen3 由阿里巴巴的研究和雲端運算團隊開發，旨在與 OpenAI 的 GPT-4x 和Google的 PaLM 等領先的專有系統相媲美，同時在 Apache 2.0 許可證下保持完全開放。本文深入探討了 Qwen3 的構思、底層機制、打造其功能的訓練方案，以及全球開發者如何運用其強大功能。

Qwen3 是什麼？它為什麼重要？

大型語言模型徹底改變了自然語言理解和生成，為從對話代理到程式碼助理等各種應用提供支援。 Qwen3 是阿里巴巴 Qwen 家族繼 Qwen2.5 及其變體之後的最新成員，體現了多項旗艦創新：

混合推理：將「思考」和「非思考」模式無縫整合到單一架構中，允許根據任務複雜性動態分配運算資源。
混合專家 (MoE) 選項：提供每個查詢僅啟動專門專家模組子集的模型，從而提高效率而不犧牲效能。
規模多樣性：範圍從輕量級的 0.6 億參數密集模型到海量 235 億參數稀疏 MoE 變體，滿足多樣化的部署場景。
擴充上下文視窗：大多數較大的變體支援高達 128K 的令牌上下文，從而促進長格式文件、程式碼庫和多模式對話。
多語言廣度：涵蓋 36 種語言和方言的 119 兆個標記進行訓練，為真正的全球應用程式提供支援。

這些特性使 Qwen3 不僅在程式碼產生、數學推理和代理任務的基準測試中表現出色，而且還是實際部署的靈活、經濟高效的解決方案。

Qwen3 採用什麼架構？

統一推理框架

傳統的 LLM 生態系統通常會將聊天最佳化模型（例如 GPT-4o）與專門的推理模型（例如 QwQ-32B）區分開來。 Qwen3 透過將快速的上下文驅動的「非思考」推理與深度、多步驟的「思考」過程嵌入到同一模型中，打破了這種劃分。模式標記或 API 標誌可以觸發用於簡單任務的輕量級注意層，或用於複雜查詢的更深層的迭代推理流程。

混合專家（MoE）變體

一些 Qwen3 模型採用了 MoE 結構，其中網路包含數百個專家子模組，但在運行時僅啟動一小部分與任務相關的子集。這顯著節省了計算資源——只有最相關的專家模組才會處理每個 token——同時在推理基準測試中保持了最高的準確率。

密集和混合專家模型

為了平衡效率和容量，Qwen3 系列包含六個密集模型（0.6B、1.7B、4B、8B、14B 和 32B 個參數），以及兩個 MoE 變體（30B 包含 3B 個活動參數，以及 235B 包含 22B 個活動參數）。密集模型為資源受限的環境提供了精簡的推理，而 MoE 架構則利用稀疏活化來維持高容量，而不會線性增加運算成本。

混合專家 (MoE) 架構透過為每個標記僅啟動一小部分網路參數，減輕了大型密集模型的記憶體和運算負擔。 Qwen3 提供兩種稀疏變體：

30B參數MoE （每個令牌 3 億個啟動參數）
235B參數MoE （每個令牌 22 億個啟動參數）

這些稀疏模型系列在基準測試中達到甚至超越了同類密集模型的效能，同時降低了推理成本——這對於即時應用和大規模部署尤其重要。阿里巴巴的內部測試表明，在 Cerebras 晶圓級引擎等專用硬體上，MoE 變體的推理速度最高可提高 60 倍。

思考模式與非思考模式

Qwen3 的標誌性創新是其雙模式設計： 思維模式 用於複雜的、多步驟的推理任務，以及 非思考模式 實現快速、情境驅動的回應。 Qwen3 無需維護單獨的專用模型，而是將兩種功能整合在一個統一的架構下。這是透過動態 思考預算機制，它在推理過程中自適應地分配計算資源，讓模型根據輸入的複雜性靈活地權衡延遲和推理深度。

動態模式切換

收到提示後，Qwen3 會根據預先定義的閾值評估所需的推理複雜度。簡單的查詢會觸發非思考模式，並在幾毫秒內給予回應；而複雜的多跳任務（例如數學證明或策略規劃）則會啟動思考模式，並根據需要分配額外的轉換層和注意力頭。開發者還可以透過聊天範本或 API 參數自訂模式切換觸發器，從而根據特定應用程式自訂使用者體驗。

非思考模式：分配最少的層/專家調用，優化延遲和吞吐量。
思考模式：動態擴展計算圖，實現多跳推理和內部連結子問題。
自適應切換：如果查詢的複雜性需要額外的推理步驟，則模型可以在推理過程中自主地在模式之間切換。

推理效率和延遲

透過與 Cerebras Systems 等硬體合作夥伴的合作，Qwen3-32B 實現了即時推理效能。 Cerebras 推理平台的基準測試表明，複雜推理任務的反應時間低於 1.2 秒，比 DeepSeek R60 和 OpenAI o1-mini 等同類模型快 3 倍。這種低延遲性能可在互動式環境中解鎖生產級代理和副駕駛，從客戶支援聊天機器人到即時決策支援系統。

部署和可訪問性

開源發布與集成

28年2025月3日，阿里巴巴正式發布基於Apache 2.0許可證的Qwen3，允許在GitHub和Hugging Face上不受限制地存取權重、程式碼和文件。在發布後的幾週內，QwenXNUMX系列已可在Ollama、LM Studio、SGLang和vLLM等主要LLM平台上部署，從而為全球開發者和企業簡化本地推理。

靈活的格式和量化支持

為了適應多樣化的部署場景——從高吞吐量資料中心推理到低功耗邊緣設備——Qwen3 支援多種權重格式，包括 GPT 生成的統一格式、啟動感知量化和通用訓練後量化。早期研究表明，4 到 8 位訓練後量化仍能保持良好的性能，儘管超低（1-2 位）精度會導致準確度顯著下降，這為高效 LLM 壓縮的未來研究方向指明了方向。

性能和基準測試

排行榜排名

根據截至 6 年 2025 月 3 日的 LiveBench 排行榜，旗艦模型 Qwen235-22B-A7B 位居開源法學碩士 (LLM) 榜首，在開放和封閉模型中均位居第七，並在指令跟踪任務中取得最高分。這項里程碑凸顯了 Qwen3 與 GPT-4 和 DeepSeek R1 等專有模式的競爭力。

比較評估

TechCrunch 和 VentureBeat 的獨立評估凸顯了 Qwen3 在編碼和數學基準測試中的卓越表現。與 DeepSeek R1、OpenAI 的 o1 和Google的 Gemini 2.5-Pro 等領先解決方案相比，Qwen3-235B-A22B 在從演算法綜合到形式化證明生成的一系列任務中都展現出相當甚至更佳的結果。

qwen3

特殊變異：Qwen3-Math 和 QwenLong-L1

Qwen3-數學

Qwen3-Math 是專為數學推理任務設計的變體。它擴展了對思維鏈 (CoT) 和工具整合推理 (TIR) 的支持，用於解決中英文數學問題。 TIR 增強了模型執行精確計算、符號操作和演算法處理的能力，從而解決了對計算精度要求較高的任務中的挑戰。

QwenLong-L1

QwenLong-L1 是一個框架，它透過漸進式情境擴展，將短上下文大型推理模型適應於長上下文場景。它利用預熱監督微調階段來建立穩健的初始策略，然後採用課程指導的分階段強化學習技術來穩定策略演進。這種方法能夠在資訊密集型環境中實現穩健的推理。

挑戰和未來方向

幻覺與健壯性

儘管量化指標強勁，Qwen3 在事實或語境模糊的場景中偶爾會表現出「幻覺」。正在進行的研究重點是改進檢索增強的生成和基礎機制，以提高事實準確性，初步分析表明，整合外部知識庫後，幻覺發生率可降低 15% 至 20%。

量化和邊緣部署

雖然適度量化可以保留 Qwen3 的核心功能，但極端壓縮仍然是一項挑戰。混合精度訓練、硬體感知量化演算法和高效 Transformer 架構的進一步發展，對於在智慧型手機、物聯網感測器和嵌入式系統等受限設備上實現複雜的 AI 普及至關重要。

結論

Qwen3 的開發反映了一種範式轉變，即向統一、動態自適應的 LLM 架構轉變，該架構將對話流暢性與深度推理連接起來。透過開源其權重並提供從雲端推理到設備端加速的多種部署選項，阿里巴巴 Qwen 團隊推動了人工智慧領域的全球合作與創新。隨著研究界不斷攻克模型穩健性、量化和多模態整合的挑戰，Qwen3 有望成為跨產業下一代智慧系統的基礎平台。

入門

CometAPI 提供了一個統一的 REST 接口，該接口在一致的端點下聚合了數百個 AI 模型（包括 ChatGPT 系列），並具有內建的 API 金鑰管理、使用配額和計費儀表板。而不需要處理多個供應商 URL 和憑證。