Thông số kỹ thuật của Qwen3.5-397B-A17B
| Mục | Qwen3.5-397B-A17B (post-trained trọng số mở) |
|---|---|
| Họ mô hình | Qwen3.5 (Chuỗi Tongyi Qwen, Alibaba) |
| Kiến trúc | Mixture-of-Experts (MoE) lai + Gated DeltaNet; huấn luyện đa phương thức hợp nhất sớm |
| Tổng số tham số | ~397 tỷ (tổng) |
| Tham số hoạt động (A17B) | ~17 tỷ hoạt động mỗi token (định tuyến thưa) |
| Loại đầu vào | Văn bản, Hình ảnh, Video (đa phương thức hợp nhất sớm) |
| Loại đầu ra | Văn bản (chat, code, đầu ra RAG), chuyển ảnh thành văn bản, phản hồi đa phương thức |
| Cửa sổ ngữ cảnh gốc | 262,144 token (ISL gốc) |
| Ngữ cảnh có thể mở rộng | Tối đa ~1,010,000 token thông qua mở rộng YaRN/ RoPE (phụ thuộc nền tảng) |
| Số token đầu ra tối đa | Phụ thuộc framework/serve (các ví dụ trong hướng dẫn cho thấy 81,920–131,072) |
| Ngôn ngữ | 200+ ngôn ngữ và phương ngữ |
| Ngày phát hành | 16 tháng 2, 2026 (phát hành trọng số mở) |
| Giấy phép | Apache‑2.0 (trọng số mở trên Hugging Face / ModelScope) |
Qwen3.5-397B-A17B là gì
Qwen3.5-397B-A17B là bản phát hành trọng số mở đầu tiên trong họ Qwen3.5 của Alibaba: một mô hình nền tảng Mixture‑of‑Experts đa phương thức lớn được huấn luyện với mục tiêu thị giác–ngôn ngữ hợp nhất sớm và tối ưu cho các quy trình tác tử. Mô hình phô bày toàn bộ năng lực của kiến trúc 397B tham số trong khi sử dụng định tuyến thưa (hậu tố “A17B”) để chỉ ~17B tham số hoạt động trên mỗi token—mang lại cân bằng giữa dung lượng tri thức và hiệu suất suy luận.
Bản phát hành này dành cho các nhà nghiên cứu và đội ngũ kỹ thuật cần một mô hình nền tảng đa phương thức, có thể triển khai, mở, có khả năng suy luận ngữ cảnh dài, hiểu thị giác, và ứng dụng RAG/tác tử.
Tính năng chính của Qwen3.5-397B-A17B
- Hiệu quả tham số hoạt động với MoE thưa: Dung lượng toàn cục lớn (397B) với hoạt động trên mỗi token tương đương mô hình dense 17B, giảm FLOPS mỗi token nhưng vẫn giữ đa dạng tri thức.
- Đa phương thức gốc (hợp nhất sớm): Được huấn luyện để xử lý văn bản, hình ảnh và video thông qua chiến lược mã hóa và mã hóa đồng nhất phục vụ suy luận liên phương thức.
- Hỗ trợ ngữ cảnh rất dài: Độ dài chuỗi đầu vào gốc 262K token và lộ trình đã được ghi nhận để mở rộng lên ~1M+ token bằng mở rộng RoPE/YaRN cho RAG và pipeline tài liệu dài.
- Chế độ suy nghĩ & công cụ tác tử: Hỗ trợ dấu vết suy luận nội bộ và mẫu thực thi tác tử; ví dụ gồm bật gọi công cụ và tích hợp trình thông dịch mã.
- Trọng số mở & tương thích rộng: Phát hành theo Apache‑2.0 trên Hugging Face và ModelScope, có hướng dẫn tích hợp chính chủ với Transformers, vLLM, SGLang và các framework cộng đồng.
- Phủ ngôn ngữ thân thiện với doanh nghiệp: Huấn luyện đa ngôn ngữ rộng (200+ ngôn ngữ), kèm hướng dẫn và công thức triển khai ở quy mô lớn.
Qwen3.5-397B-A17B so với một số mô hình
| Mô hình | Cửa sổ ngữ cảnh (gốc) | Thế mạnh | Điểm đánh đổi điển hình |
|---|---|---|---|
| Qwen3.5-397B-A17B | 262K (gốc) | MoE đa phương thức, trọng số mở, dung lượng 397B với 17B hoạt động | Tạo tác mô hình lớn, cần lưu trữ phân tán để đạt hiệu năng đầy đủ |
| GPT-5.2 (đóng, đại diện) | ~400K (được báo cáo cho một số biến) | Độ chính xác suy luận của mô hình dense đơn cao | Trọng số đóng, chi phí suy luận cao hơn ở quy mô lớn |
| Dense kiểu LLaMA 70B | ~128K (thay đổi) | Ngăn xếp suy luận đơn giản hơn, yêu cầu VRAM thấp hơn cho runtime dense | Dung lượng tham số kém hơn so với tri thức toàn cục của MoE |
Hạn chế đã biết & lưu ý vận hành
- Yêu cầu bộ nhớ: MoE thưa vẫn cần lưu trữ các tệp trọng số lớn; việc lưu trữ đòi hỏi dung lượng và bộ nhớ thiết bị đáng kể so với một bản dense 17B.
- Độ phức tạp kỹ thuật: Thông lượng tối ưu cần song song hóa cẩn thận (tensor/pipeline) và các framework như vLLM hoặc SGLang; triển khai một GPU đơn giản là không thực tế.
- Kinh tế token: Mặc dù tính toán trên mỗi token giảm, ngữ cảnh rất dài vẫn làm tăng I/O, kích thước bộ đệm KV và chi phí với các nhà cung cấp dịch vụ.
- An toàn & hàng rào bảo vệ: Trọng số mở tăng linh hoạt nhưng chuyển trách nhiệm lọc an toàn, giám sát và hàng rào triển khai sang phía vận hành.
Trường hợp sử dụng tiêu biểu
- Nghiên cứu & phân tích mô hình: Trọng số mở cho phép nghiên cứu tái lập và đánh giá do cộng đồng dẫn dắt.
- Dịch vụ đa phương thức on‑premise: Doanh nghiệp cần lưu trú dữ liệu có thể triển khai và chạy tác vụ thị giác + văn bản tại chỗ.
- RAG và pipeline tài liệu dài: Hỗ trợ ngữ cảnh dài gốc giúp suy luận một lượt trên kho tư liệu lớn.
- Trí tuệ mã & công cụ tác tử: Phân tích monorepos, tạo bản vá và chạy vòng lặp gọi công cụ trong môi trường kiểm soát.
- Ứng dụng đa ngôn ngữ: Hỗ trợ phạm vi ngôn ngữ rộng cho sản phẩm toàn cầu.
Cách truy cập và tích hợp Qwen3.5-397B-A17B
Bước 1: Đăng ký API Key
Đăng nhập cometapi.com. Nếu bạn chưa là người dùng của chúng tôi, vui lòng đăng ký trước. Đăng nhập vào CometAPI console. Lấy API key thông tin truy cập của giao diện. Nhấp “Add Token” tại mục API token trong trung tâm cá nhân, lấy khóa token: sk-xxxxx và gửi.
Bước 2: Gửi yêu cầu tới API Qwen3.5-397B-A17B
Chọn endpoint “Qwen3.5-397B-A17B” để gửi yêu cầu API và đặt request body. Phương thức yêu cầu và request body được lấy từ tài liệu API trên trang web của chúng tôi. Trang web của chúng tôi cũng cung cấp Apifox test để bạn thuận tiện thử nghiệm. Thay <YOUR_API_KEY> bằng CometAPI key thực tế từ tài khoản của bạn. Nơi gọi: định dạng Chat.
Chèn câu hỏi hoặc yêu cầu của bạn vào trường content—đây là phần mà mô hình sẽ phản hồi. Xử lý phản hồi API để lấy câu trả lời được tạo.
Bước 3: Truy xuất và xác minh kết quả
Xử lý phản hồi API để lấy câu trả lời được tạo. Sau khi xử lý, API phản hồi trạng thái tác vụ và dữ liệu đầu ra.