Thông số kỹ thuật của Qwen3.5-397B-A17B

Hạng mục	Qwen3.5-397B-A17B (trọng số mở, hậu huấn luyện)
Dòng mô hình	Qwen3.5 (dòng Tongyi Qwen, Alibaba)
Kiến trúc	Hỗn hợp Mixture‑of‑Experts (MoE) + Gated DeltaNet; huấn luyện đa phương thức kết hợp sớm
Tổng số tham số	~397 tỷ (tổng)
Tham số hoạt động (A17B)	~17 tỷ hoạt động mỗi token (định tuyến thưa)
Loại đầu vào	Văn bản, Hình ảnh, Video (đa phương thức kết hợp sớm)
Loại đầu ra	Văn bản (chat, mã, đầu ra RAG), chuyển ảnh thành văn bản, phản hồi đa phương thức
Cửa sổ ngữ cảnh gốc	262.144 token (ISL gốc)
Ngữ cảnh có thể mở rộng	Tối đa ~1.010.000 token qua mở rộng YaRN/ RoPE (phụ thuộc nền tảng)
Số token đầu ra tối đa	Phụ thuộc framework/serve (ví dụ trong hướng dẫn cho thấy 81,920–131,072)
Ngôn ngữ	200+ ngôn ngữ và phương ngữ
Ngày phát hành	16 tháng 2, 2026 (phát hành trọng số mở)
Giấy phép	Apache‑2.0 (trọng số mở trên Hugging Face / ModelScope)

Qwen3.5-397B-A17B là gì

Qwen3.5-397B-A17B là bản phát hành trọng số mở đầu tiên trong gia đình Qwen3.5 của Alibaba: một mô hình nền tảng hỗn hợp chuyên gia đa phương thức lớn, được huấn luyện với mục tiêu thị giác–ngôn ngữ kết hợp sớm và tối ưu cho các luồng công việc dựa trên tác tử. Mô hình khai thác đầy đủ năng lực của kiến trúc 397B tham số đồng thời sử dụng định tuyến thưa (hậu tố “A17B”) để chỉ có khoảng ~17B tham số hoạt động trên mỗi token — mang lại sự cân bằng giữa dung lượng tri thức và hiệu quả suy luận.

Bản phát hành này dành cho các nhóm nghiên cứu và kỹ thuật cần một mô hình nền tảng đa phương thức, mở, có thể triển khai, có khả năng suy luận ngữ cảnh dài, hiểu thị giác, và hỗ trợ ứng dụng kết hợp truy xuất/dựa trên tác tử.

Tính năng chính của Qwen3.5-397B-A17B

MoE thưa với hiệu suất tham số hoạt động: Dung lượng toàn cục lớn (397B) với mức hoạt động mỗi token tương đương mô hình dense 17B, giảm FLOPS trên mỗi token đồng thời giữ đa dạng tri thức.
Đa phương thức gốc (kết hợp sớm): Được huấn luyện để xử lý văn bản, hình ảnh và video thông qua chiến lược token hóa và bộ mã hóa thống nhất cho suy luận xuyên phương thức.
Hỗ trợ ngữ cảnh rất dài: Độ dài chuỗi đầu vào gốc 262K token và các phương pháp được tài liệu hóa để mở rộng tới ~1M+ token bằng mở rộng RoPE/YARN cho truy xuất và pipeline tài liệu dài.
Chế độ suy nghĩ & công cụ tác tử: Hỗ trợ dấu vết suy luận nội bộ và mẫu thực thi dạng tác tử; ví dụ gồm bật gọi công cụ và tích hợp trình thông dịch mã.
Trọng số mở & tương thích rộng: Phát hành theo Apache‑2.0 trên Hugging Face và ModelScope, kèm hướng dẫn tích hợp chính thức cho Transformers, vLLM, SGLang và các framework cộng đồng.
Phủ ngôn ngữ thân thiện doanh nghiệp: Huấn luyện đa ngôn ngữ rộng (200+ ngôn ngữ), cùng hướng dẫn và quy trình triển khai ở quy mô lớn.

Qwen3.5-397B-A17B so với các mô hình chọn lọc

Mô hình	Cửa sổ ngữ cảnh (gốc)	Điểm mạnh	Đánh đổi điển hình
Qwen3.5-397B-A17B	262K (gốc)	MoE đa phương thức, trọng số mở, dung lượng 397B với 17B hoạt động	Tạo phẩm mô hình lớn, cần triển khai phân tán để đạt hiệu năng đầy đủ
GPT-5.2 (đại diện, đóng)	~400K (báo cáo với một số biến thể)	Độ chính xác suy luận dense cao của một mô hình đơn	Trọng số đóng, chi phí suy luận cao hơn ở quy mô
LLaMA‑style dense 70B	~128K (thay đổi)	Ngăn xếp suy luận đơn giản hơn, nhu cầu VRAM thấp hơn cho runtime dense	Dung lượng tham số thấp hơn so với tri thức toàn cục của MoE

Hạn chế đã biết & cân nhắc vận hành

Dấu chân bộ nhớ: MoE thưa vẫn cần lưu trữ các tệp trọng số lớn; việc lưu trữ/vận hành đòi hỏi dung lượng và bộ nhớ thiết bị đáng kể so với bản dense 17B.
Độ phức tạp kỹ thuật: Thông lượng tối ưu cần song song hóa cẩn trọng (tensor/pipeline) và các framework như vLLM hoặc SGLang; vận hành đơn giản trên một GPU là không thực tế.
Kinh tế token: Dù tính toán trên mỗi token giảm, ngữ cảnh rất dài vẫn tăng I/O, kích thước bộ nhớ đệm KV và chi phí với nhà cung cấp quản lý.
An toàn & rào chắn: Trọng số mở tăng tính linh hoạt nhưng chuyển trách nhiệm lọc an toàn, giám sát và rào chắn triển khai sang phía vận hành.

Trường hợp sử dụng tiêu biểu

Nghiên cứu & phân tích mô hình: Trọng số mở cho phép nghiên cứu có thể tái lập và đánh giá do cộng đồng dẫn dắt.
Dịch vụ đa phương thức tại chỗ: Doanh nghiệp cần lưu trú dữ liệu có thể triển khai và chạy khối lượng công việc thị giác + văn bản tại chỗ.
RAG và pipeline tài liệu dài: Hỗ trợ ngữ cảnh dài gốc giúp suy luận một lượt trên tập dữ liệu lớn.
Trí tuệ mã & công cụ tác tử: Phân tích monorepo, tạo patch và chạy vòng lặp gọi công cụ dạng tác tử trong môi trường kiểm soát.
Ứng dụng đa ngôn ngữ: Phủ ngôn ngữ rộng cho sản phẩm toàn cầu.

Cách truy cập và tích hợp Qwen3.5-397B-A17B

Bước 1: Đăng ký API Key

Đăng nhập vào cometapi.com. Nếu bạn chưa phải là người dùng của chúng tôi, vui lòng đăng ký trước. Đăng nhập vào CometAPI console. Lấy khóa truy cập API của giao diện. Nhấp “Add Token” tại mục API token trong trung tâm cá nhân, nhận khóa token: sk-xxxxx và gửi.

Bước 2: Gửi yêu cầu tới API Qwen3.5-397B-A17B

Chọn endpoint “Qwen3.5-397B-A17B” để gửi yêu cầu API và thiết lập request body. Phương thức yêu cầu và nội dung yêu cầu được lấy từ tài liệu API trên website của chúng tôi. Website cũng cung cấp Apifox để thử nghiệm cho bạn. Thay <YOUR_API_KEY> bằng khóa CometAPI thực tế từ tài khoản của bạn. Gọi ở đâu: định dạng Chat.

Chèn câu hỏi hoặc yêu cầu của bạn vào trường content — đây là nội dung mô hình sẽ phản hồi. Xử lý phản hồi API để lấy câu trả lời được tạo.

Bước 3: Truy xuất và xác minh kết quả

Xử lý phản hồi API để lấy câu trả lời được tạo. Sau khi xử lý, API phản hồi trạng thái tác vụ và dữ liệu đầu ra.

qwen3.5-397b-a17b

Thông số kỹ thuật của Qwen3.5-397B-A17B

Qwen3.5-397B-A17B là gì

Tính năng chính của Qwen3.5-397B-A17B

Qwen3.5-397B-A17B so với các mô hình chọn lọc

Hạn chế đã biết & cân nhắc vận hành

Trường hợp sử dụng tiêu biểu

Cách truy cập và tích hợp Qwen3.5-397B-A17B

Bước 1: Đăng ký API Key

Bước 2: Gửi yêu cầu tới API Qwen3.5-397B-A17B

Bước 3: Truy xuất và xác minh kết quả

Câu hỏi thường gặp

Is Qwen3.5-397B-A17B available as open weights for local hosting and research?

What does the "A17B" suffix mean in Qwen3.5-397B-A17B?

What is the native context window and can I extend it for very long documents?

Which input modalities does Qwen3.5-397B-A17B support?

How does inference efficiency compare to a 17B dense model?

Tính năng cho qwen3.5-397b-a17b

Giá cả cho qwen3.5-397b-a17b

Mã mẫu và API cho qwen3.5-397b-a17b

Thêm mô hình