Thông số kỹ thuật của Qwen3.5-397B-A17B
| Hạng mục | Qwen3.5-397B-A17B (trọng số mở, hậu huấn luyện) |
|---|---|
| Dòng mô hình | Qwen3.5 (dòng Tongyi Qwen, Alibaba) |
| Kiến trúc | Hỗn hợp Mixture‑of‑Experts (MoE) + Gated DeltaNet; huấn luyện đa phương thức kết hợp sớm |
| Tổng số tham số | ~397 tỷ (tổng) |
| Tham số hoạt động (A17B) | ~17 tỷ hoạt động mỗi token (định tuyến thưa) |
| Loại đầu vào | Văn bản, Hình ảnh, Video (đa phương thức kết hợp sớm) |
| Loại đầu ra | Văn bản (chat, mã, đầu ra RAG), chuyển ảnh thành văn bản, phản hồi đa phương thức |
| Cửa sổ ngữ cảnh gốc | 262.144 token (ISL gốc) |
| Ngữ cảnh có thể mở rộng | Tối đa ~1.010.000 token qua mở rộng YaRN/ RoPE (phụ thuộc nền tảng) |
| Số token đầu ra tối đa | Phụ thuộc framework/serve (ví dụ trong hướng dẫn cho thấy 81,920–131,072) |
| Ngôn ngữ | 200+ ngôn ngữ và phương ngữ |
| Ngày phát hành | 16 tháng 2, 2026 (phát hành trọng số mở) |
| Giấy phép | Apache‑2.0 (trọng số mở trên Hugging Face / ModelScope) |
Qwen3.5-397B-A17B là gì
Qwen3.5-397B-A17B là bản phát hành trọng số mở đầu tiên trong gia đình Qwen3.5 của Alibaba: một mô hình nền tảng hỗn hợp chuyên gia đa phương thức lớn, được huấn luyện với mục tiêu thị giác–ngôn ngữ kết hợp sớm và tối ưu cho các luồng công việc dựa trên tác tử. Mô hình khai thác đầy đủ năng lực của kiến trúc 397B tham số đồng thời sử dụng định tuyến thưa (hậu tố “A17B”) để chỉ có khoảng ~17B tham số hoạt động trên mỗi token — mang lại sự cân bằng giữa dung lượng tri thức và hiệu quả suy luận.
Bản phát hành này dành cho các nhóm nghiên cứu và kỹ thuật cần một mô hình nền tảng đa phương thức, mở, có thể triển khai, có khả năng suy luận ngữ cảnh dài, hiểu thị giác, và hỗ trợ ứng dụng kết hợp truy xuất/dựa trên tác tử.
Tính năng chính của Qwen3.5-397B-A17B
- MoE thưa với hiệu suất tham số hoạt động: Dung lượng toàn cục lớn (397B) với mức hoạt động mỗi token tương đương mô hình dense 17B, giảm FLOPS trên mỗi token đồng thời giữ đa dạng tri thức.
- Đa phương thức gốc (kết hợp sớm): Được huấn luyện để xử lý văn bản, hình ảnh và video thông qua chiến lược token hóa và bộ mã hóa thống nhất cho suy luận xuyên phương thức.
- Hỗ trợ ngữ cảnh rất dài: Độ dài chuỗi đầu vào gốc 262K token và các phương pháp được tài liệu hóa để mở rộng tới ~1M+ token bằng mở rộng RoPE/YARN cho truy xuất và pipeline tài liệu dài.
- Chế độ suy nghĩ & công cụ tác tử: Hỗ trợ dấu vết suy luận nội bộ và mẫu thực thi dạng tác tử; ví dụ gồm bật gọi công cụ và tích hợp trình thông dịch mã.
- Trọng số mở & tương thích rộng: Phát hành theo Apache‑2.0 trên Hugging Face và ModelScope, kèm hướng dẫn tích hợp chính thức cho Transformers, vLLM, SGLang và các framework cộng đồng.
- Phủ ngôn ngữ thân thiện doanh nghiệp: Huấn luyện đa ngôn ngữ rộng (200+ ngôn ngữ), cùng hướng dẫn và quy trình triển khai ở quy mô lớn.
Qwen3.5-397B-A17B so với các mô hình chọn lọc
| Mô hình | Cửa sổ ngữ cảnh (gốc) | Điểm mạnh | Đánh đổi điển hình |
|---|---|---|---|
| Qwen3.5-397B-A17B | 262K (gốc) | MoE đa phương thức, trọng số mở, dung lượng 397B với 17B hoạt động | Tạo phẩm mô hình lớn, cần triển khai phân tán để đạt hiệu năng đầy đủ |
| GPT-5.2 (đại diện, đóng) | ~400K (báo cáo với một số biến thể) | Độ chính xác suy luận dense cao của một mô hình đơn | Trọng số đóng, chi phí suy luận cao hơn ở quy mô |
| LLaMA‑style dense 70B | ~128K (thay đổi) | Ngăn xếp suy luận đơn giản hơn, nhu cầu VRAM thấp hơn cho runtime dense | Dung lượng tham số thấp hơn so với tri thức toàn cục của MoE |
Hạn chế đã biết & cân nhắc vận hành
- Dấu chân bộ nhớ: MoE thưa vẫn cần lưu trữ các tệp trọng số lớn; việc lưu trữ/vận hành đòi hỏi dung lượng và bộ nhớ thiết bị đáng kể so với bản dense 17B.
- Độ phức tạp kỹ thuật: Thông lượng tối ưu cần song song hóa cẩn trọng (tensor/pipeline) và các framework như vLLM hoặc SGLang; vận hành đơn giản trên một GPU là không thực tế.
- Kinh tế token: Dù tính toán trên mỗi token giảm, ngữ cảnh rất dài vẫn tăng I/O, kích thước bộ nhớ đệm KV và chi phí với nhà cung cấp quản lý.
- An toàn & rào chắn: Trọng số mở tăng tính linh hoạt nhưng chuyển trách nhiệm lọc an toàn, giám sát và rào chắn triển khai sang phía vận hành.
Trường hợp sử dụng tiêu biểu
- Nghiên cứu & phân tích mô hình: Trọng số mở cho phép nghiên cứu có thể tái lập và đánh giá do cộng đồng dẫn dắt.
- Dịch vụ đa phương thức tại chỗ: Doanh nghiệp cần lưu trú dữ liệu có thể triển khai và chạy khối lượng công việc thị giác + văn bản tại chỗ.
- RAG và pipeline tài liệu dài: Hỗ trợ ngữ cảnh dài gốc giúp suy luận một lượt trên tập dữ liệu lớn.
- Trí tuệ mã & công cụ tác tử: Phân tích monorepo, tạo patch và chạy vòng lặp gọi công cụ dạng tác tử trong môi trường kiểm soát.
- Ứng dụng đa ngôn ngữ: Phủ ngôn ngữ rộng cho sản phẩm toàn cầu.
Cách truy cập và tích hợp Qwen3.5-397B-A17B
Bước 1: Đăng ký API Key
Đăng nhập vào cometapi.com. Nếu bạn chưa phải là người dùng của chúng tôi, vui lòng đăng ký trước. Đăng nhập vào CometAPI console. Lấy khóa truy cập API của giao diện. Nhấp “Add Token” tại mục API token trong trung tâm cá nhân, nhận khóa token: sk-xxxxx và gửi.
Bước 2: Gửi yêu cầu tới API Qwen3.5-397B-A17B
Chọn endpoint “Qwen3.5-397B-A17B” để gửi yêu cầu API và thiết lập request body. Phương thức yêu cầu và nội dung yêu cầu được lấy từ tài liệu API trên website của chúng tôi. Website cũng cung cấp Apifox để thử nghiệm cho bạn. Thay <YOUR_API_KEY> bằng khóa CometAPI thực tế từ tài khoản của bạn. Gọi ở đâu: định dạng Chat.
Chèn câu hỏi hoặc yêu cầu của bạn vào trường content — đây là nội dung mô hình sẽ phản hồi. Xử lý phản hồi API để lấy câu trả lời được tạo.
Bước 3: Truy xuất và xác minh kết quả
Xử lý phản hồi API để lấy câu trả lời được tạo. Sau khi xử lý, API phản hồi trạng thái tác vụ và dữ liệu đầu ra.