Việc ra mắt Qwen3, mô hình ngôn ngữ lớn (LLM) lý luận lai mới nhất của Alibaba, một lần nữa định hình lại đường nét của nghiên cứu và ứng dụng AI. Đằng sau những khả năng đáng chú ý của nó là một quy trình đào tạo được thiết kế tỉ mỉ, bao gồm quá trình đào tạo trước khổng lồ về dữ liệu đa dạng, đổi mới kiến trúc và quy trình đào tạo sau nhiều giai đoạn. Bài viết này sẽ giải thích Qwen3 luyện tập như thế nào, khám phá từng giai đoạn từ thu thập dữ liệu thô đến tinh chỉnh để suy luận và triển khai, trả lời các câu hỏi chính thúc đẩy thiết kế và hiệu suất của nó.
Dữ liệu nào cung cấp năng lượng cho quá trình đào tạo trước của Qwen3?
Mở rộng số lượng token: từ hàng nghìn tỷ lên hàng chục nghìn tỷ
Nền tảng của Qwen3 được xây dựng trên một nền tảng chưa từng có—hơn 36 nghìn tỷ token bao gồm hơn 119 ngôn ngữ và phương ngữ. Con số này gần gấp đôi khối lượng token được sử dụng trong phiên bản tiền nhiệm của nó, Qwen2.5, được đào tạo trên 18 nghìn tỷ token. Bằng cách mở rộng quy mô dữ liệu, Qwen3 thu thập được một bức tranh phong phú hơn về các mẫu ngôn ngữ, kiến thức thế giới và nội dung cụ thể theo từng miền.
Khai thác nhiều nguồn dữ liệu khác nhau: web, PDF và nội dung tổng hợp
Để tập hợp bộ dữ liệu khổng lồ này, Alibaba đã kết hợp các trang web thu thập thông tin với Tài liệu dạng PDF được xử lý thông qua Qwen2.5-VL, đảm bảo trích xuất chất lượng cao các văn bản kỹ thuật và tài liệu học thuật. Hơn nữa, việc tạo dữ liệu tổng hợp có mục tiêu—tận dụng Qwen2.5-Math và Qwen2.5-Coder—đã tăng cường kho dữ liệu với hàng triệu giải pháp toán học và đoạn mã, củng cố STEM và sự lưu loát trong lập trình.
Quy trình đào tạo trước của Qwen3 được cấu trúc như thế nào?
Giai đoạn 1: Xây dựng kiến thức nền tảng
In Giai đoạn 1 (S1), Qwen3 được đào tạo về hơn 30 nghìn tỷ token sử dụng xương sống Transformer ngữ cảnh 4K chuẩn. Giai đoạn này truyền đạt hiểu biết ngôn ngữ cơ bản và kiến thức chung, tương tự như “học bảng chữ cái” cho khả năng đọc viết của con người.
Giai đoạn 2: Tăng cường năng lực chuyên sâu về kiến thức
Di chuyển vào Giai đoạn 2 (S2), tập dữ liệu được cân bằng lại để nhấn mạnh nội dung có nhiều kiến thức—Văn bản STEM, thử thách mã hóa và nhiệm vụ lý luận. Một bổ sung 5 nghìn tỷ mã thông báo được hấp thụ, giúp nâng cao khả năng giải quyết các vấn đề học thuật và kỹ thuật phức tạp của mô hình.
Giai đoạn 3: Mở rộng độ dài ngữ cảnh
Cuối cùng, một giai đoạn tiền đào tạo ngữ cảnh dài tận dụng các tài liệu chất lượng cao để mở rộng cửa sổ ngữ cảnh gốc của Qwen3 thành 32 nghìn mã thông báo, cho phép nó xử lý và lý luận các dữ liệu đầu vào dài như các bài nghiên cứu hoặc hướng dẫn nhiều bước.
Những cải tiến về kiến trúc nào giúp Qwen3 có hiệu suất cao hơn?
Mô hình dày đặc so với mô hình hỗn hợp chuyên gia (MoE)
Qwen3 cung cấp cả hai ngu si và Hỗn hợp chuyên gia (MoE) các biến thể. Các mô hình dày đặc có phạm vi từ 0.6B đến 32B tham số, trong khi các phiên bản MoE chỉ kích hoạt một phần nhỏ chuyên gia (ví dụ: 8 trong số 128) cho mỗi mã thông báo, cắt giảm tới 90% khả năng tính toán đang hoạt động mà không làm giảm hiệu suất.
Cải tiến sự chú ý và chuẩn hóa
Những đổi mới như chuẩn hóa QK theo đầu người và các thiên kiến chú ý được thiết kế lại thúc đẩy tính ổn định ở quy mô lớn. Những cải tiến này cho phép các mô hình sâu hơn (lên đến 94 lớp trong Qwen3-235B-A22B) hội tụ hiệu quả, đảm bảo lợi ích nhất quán với khả năng bổ sung.
Qwen3 triển khai lý luận lai như thế nào?
Chế độ suy nghĩ so với chế độ không suy nghĩ
Một đặc điểm nổi bật của Qwen3 là lý luận lai ghép:
- Chế độ suy nghĩ: Áp dụng lý luận chuỗi suy nghĩ (CoT), chia nhỏ vấn đề thành các bước trung gian trước khi đưa ra câu trả lời cuối cùng.
- Chế độ không suy nghĩ: Đưa ra phản hồi nhanh chóng mà không cần lý luận trung gian rõ ràng.
Người dùng có thể chuyển đổi chế độ thông quaenable_thinkingcờ hoặc thẻ nội tuyến (/think,/no_think), điều chỉnh suy luận theo độ phức tạp của nhiệm vụ.
Kiểm soát ngân sách lý luận
Bằng cách phân bổ “ngân sách tính toán” cho các bước lập luận, Qwen3 đảm bảo cân bằng chi phí-chất lượng. Các tác vụ khó hơn có thể kích hoạt lập luận sâu hơn (tính toán nhiều hơn), trong khi các truy vấn đơn giản hơn vẫn nhanh, cung cấp kiểm soát chi tiết đối với sự đánh đổi suy luận .
Quy trình đào tạo sau khi hoàn thành của Qwen3 bao gồm những gì?
Tinh chỉnh với khởi động lạnh chuỗi suy nghĩ
giai đoạn đầu tiên sau đào tạo tinh chỉnh Qwen3 trên dữ liệu CoT dài đa dạng, bao gồm toán học, câu đố logic và các vấn đề mã hóa. Giai đoạn "khởi động lạnh" này khởi động khả năng suy luận rõ ràng của mô hình trước khi học tăng cường.
Học tăng cường cho lý luận
Giai đoạn 2 mở rộng quy mô tính toán cho học tăng cường dựa trên quy tắc (RL), sử dụng các hàm phần thưởng thủ công để hướng dẫn khám phá các đường dẫn lý luận. Điều này cải thiện khả năng của mô hình trong việc tạo ra các bước trung gian mạch lạc mà không bị chệch hướng khỏi nhiệm vụ.
Sự kết hợp chế độ suy nghĩ và RL nói chung
Ở Giai đoạn 3, dữ liệu lý luận và dữ liệu được điều chỉnh theo hướng dẫn được hợp nhất—chế độ suy nghĩ hợp nhất—để kết hợp lý luận sâu sắc với hướng dẫn chung sau đây. Cuối cùng, Giai đoạn 4 áp dụng RL trên 20+ nhiệm vụ chung (ví dụ: tuân thủ định dạng, chức năng tác nhân), sửa các hành vi không mong muốn và trau dồi sự trôi chảy.
Qwen3 khác với Qwen2.5 như thế nào?
Trong khi Qwen2.5 khẳng định vị thế dẫn đầu của Alibaba trong LLM mở thì Qwen3 mang đến một số cải tiến quan trọng:
| Tính năng | Qwen2.5 | Qwen3 |
|---|---|---|
| Thang đo tham số | Lên đến 72B (dày đặc) | Lên đến 235B (MoE) + tùy chọn dày đặc |
| cửa sổ ngữ cảnh | 16 nghìn mã thông báo | 128K token (nhiều biến thể nhất) |
| Phạm vi ngôn ngữ | 29 ngôn ngữ | 119 ngôn ngữ và phương ngữ |
| Tích hợp lý luận | Mô hình lý luận riêng biệt | Chế độ suy nghĩ thống nhất/không suy nghĩ |
| Khả năng mở trọng lượng | Có (Apache 2.0) | Có (Apache 2.0) |
Những nâng cấp này mang lại những mô hình linh hoạt hơn, chính xác hơn và có thể truy cập toàn cầu.
Qwen3 được tối ưu hóa như thế nào để triển khai theo thời gian thực?
Ngoài đào tạo, kỹ thuật của Qwen3 nhấn mạnh vào suy luận độ trễ thấp và triển khai có khả năng mở rộng để hỗ trợ các tác nhân và phi công phụ cấp sản xuất.
Tăng tốc phần cứng trên Cerebras
Cerebras đã chứng minh khả năng suy luận thời gian thực với Qwen3-32B, đưa ra phản hồi trong vòng 1.2 giây—nhanh hơn tới 60 lần so với các mô hình suy luận tương đương—bằng cách tận dụng công cụ quy mô wafer và hạt nhân suy luận chuyên biệt được tối ưu hóa cho kiến trúc của Qwen3.
Triển khai đám mây và sự sẵn sàng của API
Alibaba Cloud cung cấp Qwen3 thông qua bộ API của mình, với các cụm GPU tự động mở rộng và các nút CPU được tối ưu hóa suy luận. Các nhà phát triển có thể tinh chỉnh và triển khai các biến thể Qwen3 bằng cách sử dụng hỗ trợ LoRA tích hợp để giảm mức tiêu thụ tài nguyên, giúp các dịch vụ AI quy mô lớn tiết kiệm chi phí và dễ tiếp cận.
Các nhà phát triển có thể tận dụng Qwen3 như thế nào?
Alibaba đã phát hành Qwen3 theo Apache 2.0 giấy phép, mời cộng đồng nghiên cứu toàn cầu và các nhà phát triển doanh nghiệp áp dụng, điều chỉnh và mở rộng họ mô hình cho các ứng dụng chuyên biệt.
Có những phiên bản nào?
- Mô hình dày đặc (0.6B, 3B, 22B, 32B)
Thích hợp cho việc triển khai tại chỗ và các tình huống ngoại vi, các biến thể này cung cấp khả năng mạnh mẽ với khả năng tích hợp đơn giản. - Mô hình MoE (tổng cộng 235B tham số; 22B hoạt động)
Được thiết kế cho các dịch vụ đám mây có thông lượng cao, các cấu hình lớn hơn này cung cấp độ sâu suy luận tối đa và khả năng sử dụng đa ngôn ngữ với khả năng sử dụng tài nguyên được tối ưu hóa.
Sự khác biệt giữa API và tùy chọn tại chỗ là gì?
Các nhà phát triển có thể lựa chọn giữa:
- API đám mây Alibaba: Điểm cuối được quản lý với khả năng tự động mở rộng, cho phép tạo mẫu nhanh và phân phối toàn cầu.
- Triển khai tự lưu trữ: Các container Docker và bản kê khai Kubernetes được cung cấp, tạo điều kiện thuận lợi cho các tình huống tuân thủ nghiêm ngặt, trong đó lưu trữ dữ liệu và bảo mật là tối quan trọng.
- Sao chổiAPI: Các nhà phát triển có thể truy cập Qwen 3 API thông qua Sao chổiAPI. CometAPI cung cấp giao diện REST thống nhất tổng hợp hàng trăm mô hình AI.
Có những hỗ trợ nào cho cộng đồng và hệ sinh thái?
- Kho lưu trữ nguồn mở:Qwen GitHub lưu trữ trọng số mô hình, tập lệnh đào tạo và bộ công cụ tinh chỉnh, khuyến khích sự đổi mới do cộng đồng thúc đẩy.
- Tích hợp được xây dựng sẵn:Các plugin cho các nền tảng ML phổ biến (TensorFlow, PyTorch) và các nền tảng của bên thứ ba (LangChain, Hugging Face) giúp rút ngắn thời gian tạo giá trị.
- Hợp tác nghiên cứu:Alibaba đã công bố báo cáo kỹ thuật Qwen3 đầy đủ trên arXiv, cung cấp sự minh bạch về các quyết định về kiến trúc và phương pháp đào tạo.
Thông qua quá trình đào tạo trước nhiều giai đoạn, đột phá về kiến trúc và quy trình đào tạo sau tinh vi, Qwen3 đạt được chuẩn mực mới về lý luận lai. Các chế độ tư duy linh hoạt, các biến thể MoE hiệu quả và hệ sinh thái triển khai phong phú đưa nó lên vị trí hàng đầu trong AI nguồn mở, trao quyền cho các nhà nghiên cứu và nhà phát triển xây dựng thế hệ tác nhân thông minh tiếp theo.
Bắt đầu
CometAPI cung cấp giao diện REST thống nhất tổng hợp hàng trăm mô hình AI—dưới một điểm cuối nhất quán, với quản lý khóa API tích hợp, hạn ngạch sử dụng và bảng điều khiển thanh toán. Thay vì phải xử lý nhiều URL và thông tin xác thực của nhà cung cấp.
Các nhà phát triển có thể truy cập Qwen 3 API thông qua Sao chổiAPI.Để bắt đầu, hãy khám phá các khả năng của mô hình trong Sân chơi và tham khảo Hướng dẫn API để biết hướng dẫn chi tiết. Trước khi truy cập, vui lòng đảm bảo bạn đã đăng nhập vào CometAPI và lấy được khóa API.
