Is Qwen3.5-397B-A17B available as open weights for local hosting and research?

Có. Bộ trọng số Qwen3.5-397B-A17B được phát hành theo giấy phép Apache-2.0 trên Hugging Face và ModelScope, và dự án cung cấp hướng dẫn triển khai cho Transformers, vLLM và SGLang.

What does the "A17B" suffix mean in Qwen3.5-397B-A17B?

A17B cho biết thiết kế định tuyến thưa của mô hình sử dụng khoảng 17 tỷ tham số hoạt động trên mỗi token (expert đang hoạt động), trong khi dung lượng tổng thể của mô hình khoảng ~397 tỷ tham số.

What is the native context window and can I extend it for very long documents?

Mô hình đi kèm với độ dài chuỗi đầu vào gốc là 262,144 token và bao gồm các phương pháp được tài liệu hóa để mở rộng ngữ cảnh lên đến ~1,010,000 token thông qua scaling YaRN/RoPE, tùy thuộc vào framework phục vụ.

Which input modalities does Qwen3.5-397B-A17B support?

Đây là một mô hình thị giác-ngôn ngữ hợp nhất được huấn luyện với early-fusion; các đầu vào được hỗ trợ bao gồm văn bản, hình ảnh và token video để suy luận và sinh đa phương thức.

How does inference efficiency compare to a 17B dense model?

Chi phí tính toán suy luận trên mỗi token tương tự các mô hình dense 17B nhờ định tuyến MoE thưa, nhưng artifact mô hình và yêu cầu bộ nhớ lớn hơn vì toàn bộ trọng số phải được lưu trữ và phân phối trên các thiết bị.

API qwen3.5-397b-a17b Giá Phải Chăng | text-to-text

Thông số kỹ thuật của Qwen3.5-397B-A17B

Hạng mục	Qwen3.5-397B-A17B (trọng số mở, post‑trained)
Dòng mô hình	Qwen3.5 (Tongyi Qwen series, Alibaba)
Kiến trúc	Hybrid Mixture‑of‑Experts (MoE) + Gated DeltaNet; huấn luyện đa phương thức hợp nhất sớm
Tổng số tham số	~397 billion (tổng)
Tham số hoạt động (A17B)	~17 billion hoạt động mỗi token (định tuyến thưa)
Loại đầu vào	Văn bản, Hình ảnh, Video (đa phương thức hợp nhất sớm)
Loại đầu ra	Văn bản (trò chuyện, mã, đầu ra RAG), image‑to‑text, phản hồi đa phương thức
Cửa sổ ngữ cảnh gốc	262,144 token (native ISL)
Ngữ cảnh mở rộng	Tối đa ~1,010,000 token qua mở rộng YaRN/ RoPE (phụ thuộc nền tảng)
Số token đầu ra tối đa	Phụ thuộc framework/serve (ví dụ trong hướng dẫn cho thấy 81,920–131,072)
Ngôn ngữ	200+ ngôn ngữ và phương ngữ
Ngày phát hành	16 tháng 2, 2026 (phát hành trọng số mở)
Giấy phép	Apache‑2.0 (open weights trên Hugging Face / ModelScope)

Qwen3.5-397B-A17B là gì

Qwen3.5-397B-A17B là bản phát hành trọng số mở đầu tiên trong dòng Qwen3.5 của Alibaba: một mô hình nền tảng đa phương thức, mixture‑of‑experts quy mô lớn được huấn luyện với các mục tiêu thị giác–ngôn ngữ hợp nhất sớm và tối ưu cho các quy trình tác tử. Mô hình phơi lộ toàn bộ năng lực của kiến trúc 397B tham số trong khi sử dụng định tuyến thưa (hậu tố “A17B”) để chỉ ~17B tham số hoạt động mỗi token—mang lại cân bằng giữa dung lượng tri thức và hiệu quả suy luận.

Bản phát hành này dành cho các nhà nghiên cứu và đội ngũ kỹ thuật cần một mô hình nền tảng mở, có thể triển khai và đa phương thức, có khả năng suy luận ngữ cảnh dài, hiểu thị giác và các ứng dụng tăng cường truy xuất/tác tử.

Tính năng chính của Qwen3.5-397B-A17B

Hiệu quả tham số hoạt động với MoE thưa: Dung lượng toàn cục lớn (397B) với mức hoạt động mỗi token tương đương mô hình dense 17B, giảm FLOPS mỗi token trong khi vẫn bảo toàn sự đa dạng tri thức.
Đa phương thức gốc (hợp nhất sớm): Được huấn luyện để xử lý văn bản, hình ảnh và video thông qua chiến lược mã hóa và gom token thống nhất nhằm suy luận xuyên phương thức.
Hỗ trợ ngữ cảnh rất dài: Độ dài chuỗi đầu vào gốc 262K token và có lộ trình mở rộng tới ~1M+ token bằng mở rộng RoPE/YARN cho truy xuất và pipeline tài liệu dài.
Chế độ suy nghĩ & công cụ tác tử: Hỗ trợ dấu vết suy luận nội bộ và mẫu thực thi mang tính tác tử; ví dụ gồm bật gọi công cụ và tích hợp trình thông dịch mã.
Trọng số mở & tương thích rộng: Phát hành theo Apache‑2.0 trên Hugging Face và ModelScope, kèm hướng dẫn tích hợp chính chủ cho Transformers, vLLM, SGLang và các framework cộng đồng.
Phủ rộng ngôn ngữ thân thiện doanh nghiệp: Huấn luyện đa ngôn ngữ rộng (200+ ngôn ngữ), cùng hướng dẫn và công thức triển khai ở quy mô lớn.

Qwen3.5-397B-A17B so với một số mô hình

Mô hình	Cửa sổ ngữ cảnh (gốc)	Điểm mạnh	Những đánh đổi điển hình
Qwen3.5-397B-A17B	262K (gốc)	MoE đa phương thức, trọng số mở, dung lượng 397B với 17B hoạt động	Tạo tác mô hình lớn, cần lưu trữ/phục vụ phân tán để đạt hiệu năng tối đa
GPT-5.2 (đại diện, đóng)	~400K (báo cáo với một số biến thể)	Độ chính xác suy luận dạng dense cao trên một mô hình đơn	Trọng số đóng, chi phí suy luận cao ở quy mô
LLaMA‑style dense 70B	~128K (thay đổi)	Ngăn xếp suy luận đơn giản hơn, VRAM thấp hơn cho runtime dense	Dung lượng tham số ít hơn so với tri thức toàn cục của MoE

Hạn chế đã biết và cân nhắc vận hành

Yêu cầu bộ nhớ: MoE thưa vẫn cần lưu trữ tệp trọng số lớn; lưu trữ/thiết bị đòi hỏi nhiều dung lượng so với bản dense 17B tương đương.
Độ phức tạp kỹ thuật: Thông lượng tối ưu cần song song hóa cẩn thận (tensor/pipeline) và các framework như vLLM hoặc SGLang; chạy ngây trên một GPU là không thực tế.
Kinh tế token: Dù tính toán mỗi token giảm, ngữ cảnh rất dài vẫn làm tăng I/O, kích thước bộ đệm KV và chi phí trên các nhà cung cấp quản lý.
An toàn & hàng rào bảo vệ: Trọng số mở tăng tính linh hoạt nhưng chuyển trách nhiệm lọc an toàn, giám sát và hàng rào triển khai sang phía vận hành.

Trường hợp sử dụng tiêu biểu

Nghiên cứu & phân tích mô hình: Trọng số mở cho phép nghiên cứu tái lập và đánh giá do cộng đồng dẫn dắt.
Dịch vụ đa phương thức on‑premise: Doanh nghiệp cần lưu trú dữ liệu có thể triển khai và chạy khối lượng công việc thị giác+văn bản tại chỗ.
RAG và pipeline tài liệu dài: Hỗ trợ ngữ cảnh dài gốc giúp suy luận một lượt trên tập tư liệu lớn.
Trí tuệ mã & công cụ tác tử: Phân tích monorepo, tạo bản vá và chạy vòng lặp gọi công cụ tác tử trong môi trường kiểm soát.
Ứng dụng đa ngôn ngữ: Hỗ trợ ngôn ngữ phủ rộng cho sản phẩm toàn cầu.

Cách truy cập và tích hợp Qwen3.5-397B-A17B

Bước 1: Đăng ký lấy API Key

Đăng nhập vào cometapi.com. Nếu bạn chưa là người dùng của chúng tôi, vui lòng đăng ký trước. Đăng nhập vào Bảng điều khiển CometAPI. Lấy API key thông tin truy cập. Nhấp “Add Token” tại mục API token trong trung tâm cá nhân, lấy khóa token: sk-xxxxx và gửi.

Bước 2: Gửi yêu cầu đến API Qwen3.5-397B-A17B

Chọn endpoint “Qwen3.5-397B-A17B” để gửi yêu cầu API và thiết lập request body. Phương thức yêu cầu và request body được lấy từ tài liệu API trên website của chúng tôi. Trang web cũng cung cấp thử nghiệm Apifox để bạn tiện sử dụng. Thay thế <YOUR_API_KEY> bằng CometAPI key thực tế từ tài khoản của bạn. Nơi gọi: định dạng Chat.

Chèn câu hỏi hoặc yêu cầu của bạn vào trường content—đây là nội dung mô hình sẽ phản hồi. Xử lý phản hồi API để lấy câu trả lời được tạo.

Bước 3: Truy xuất và xác minh kết quả

Xử lý phản hồi API để lấy câu trả lời được tạo. Sau khi xử lý, API sẽ phản hồi trạng thái tác vụ và dữ liệu đầu ra.

qwen3.5-397b-a17b