Thông số kỹ thuật (bảng tham chiếu nhanh)
| Mục | Qwen3.5-122B-A10B | Qwen3.5-27B | Qwen3.5-35B-A3B | Qwen3.5-Flash (hosted) |
|---|---|---|---|---|
| Quy mô tham số | ~122B (trung bình-lớn) | ~27B (dense) | ~35B (MoE / lai A3B) | Tương ứng với trọng số 35B-A3B (hosted) |
| Ghi chú về kiến trúc | Lai (gated delta + attention MoE trong cùng họ) | Dense transformer | Biến thể thưa / Mixture-of-Experts (A3B) | Cùng kiến trúc với 35B-A3B, có các tính năng production |
| Phương thức đầu vào / đầu ra | Văn bản, vision-language (token đa phương thức hợp nhất sớm); I/O kiểu chat | Văn bản, hỗ trợ V+L | Văn bản + vision (hỗ trợ gọi công cụ theo kiểu agent) | Văn bản + vision; tích hợp công cụ chính thức & đầu ra API |
| Ngữ cảnh tối đa mặc định (cục bộ / tiêu chuẩn) | Có thể cấu hình (lớn) — họ model hỗ trợ ngữ cảnh rất dài | Có thể cấu hình | 262.144 token (ví dụ cấu hình cục bộ tiêu chuẩn) | 1.000.000 token (mặc định cho Flash hosted). |
| Phục vụ / API | Tương thích với OpenAI-style chat completions; khuyến nghị vLLM / SGLang / Transformers | Tương tự | Tương tự (ví dụ lệnh CLI / vLLM trong model card) | Hosted API (Alibaba Cloud Model Studio / Qwen Chat); bổ sung khả năng quan sát production & mở rộng quy mô. |
| Trường hợp sử dụng điển hình | Agent, suy luận, hỗ trợ lập trình, tác vụ tài liệu dài, trợ lý đa phương thức | Suy luận nhẹ / trên một GPU, tác vụ agent với footprint nhỏ hơn | Triển khai agent production, tác vụ đa phương thức ngữ cảnh dài | SaaS agent production: ngữ cảnh dài, dùng công cụ, suy luận được quản lý |
Qwen-3.5 Flash là gì
Qwen-3.5 Flash là bản cung cấp production / hosted của họ Qwen3.5, ánh xạ tới trọng số mở 35B-A3B nhưng bổ sung các năng lực production: ngữ cảnh mặc định mở rộng (được quảng bá lên tới 1M token cho sản phẩm hosted), tích hợp công cụ chính thức và endpoint suy luận được quản lý để đơn giản hóa quy trình agent và mở rộng quy mô. Tóm lại: Flash = biến thể 35B A3B chạy trên đám mây, sẵn sàng cho production, với phần kỹ thuật bổ sung cho ngữ cảnh dài, sử dụng công cụ và thông lượng.
Dòng Qwen-3.5 Flash là một phần của dòng “Medium model series” Qwen 3.5 rộng hơn, bao gồm nhiều model như:
- Qwen3.5-Flash
- Qwen3.5-35B-A3B
- Qwen3.5-122B-A10B
- Qwen3.5-27B
Trong dòng sản phẩm này, Qwen3.5-Flash là phiên bản API production — về cơ bản là phiên bản 35B nhanh, có thể triển khai được tối ưu cho nhà phát triển và doanh nghiệp. 👉 Flash về bản chất là “lớp runtime doanh nghiệp” được xây trên model 35B-A3B.
Các tính năng chính của Qwen-3.5 Flash
- Nền tảng vision-language hợp nhất — được huấn luyện với token đa phương thức hợp nhất sớm để văn bản và hình ảnh được xử lý trong cùng một luồng nhất quán (cải thiện suy luận và các tác vụ agent thị giác).
- Kiến trúc lai / hiệu quả — mạng gated delta + các mẫu sparse Mixture-of-Experts (MoE) ở một số kích thước (A3B biểu thị biến thể sparse), mang lại sự đánh đổi giữa năng lực cao và chi phí tính toán.
- Hỗ trợ ngữ cảnh dài — họ model hỗ trợ ngữ cảnh cục bộ rất dài (ví dụ cấu hình cho thấy lên tới 262.144 token cục bộ) và sản phẩm Flash hosted mặc định ngữ cảnh 1.000.000 token cho các quy trình production. Điều này được tinh chỉnh cho chuỗi agent, hỏi đáp tài liệu và tổng hợp nhiều tài liệu.
- Sử dụng công cụ theo kiểu agent — hỗ trợ gốc và parser cho tool-calls, pipeline suy luận và “thinking” hoặc speculative sampling, cho phép model lập kế hoạch và gọi API hoặc công cụ bên ngoài theo cách có cấu trúc.
Hiệu năng benchmark của Qwen-3.5 Flash
| Benchmark / Category | Qwen3.5-122B-A10B | Qwen3.5-27B | Qwen3.5-35B-A3B | (Flash aligns w/ 35B-A3B) |
|---|---|---|---|---|
| MMLU-Pro (kiến thức) | 86.7 | 86.1 | 85.3 (35B) | Flash ≈ hồ sơ đã công bố của 35B-A3B. |
| C-Eval (bài thi tiếng Trung) | 91.9 | 90.5 | 90.2 | |
| IFEval (tuân theo chỉ dẫn) | 93.4 | 95.0 | 91.9 | |
| AA-LCR (suy luận ngữ cảnh dài) | 66.9 | 66.1 | 58.5 | (cấu hình cục bộ cho thấy thiết lập ngữ cảnh dài lên tới 262k token; Flash quảng bá mặc định 1M). |
Tóm tắt: các biến thể medium và nhỏ hơn của Qwen3.5 (ví dụ: 27B, 122B A10B) thu hẹp khoảng cách với các model hàng đầu trên nhiều benchmark về tri thức và tuân theo chỉ dẫn, trong khi 35B-A3B (và Flash) hướng tới sự đánh đổi cho production (thông lượng + ngữ cảnh dài) với điểm MMLU/C-Eval cạnh tranh so với các model lớn hơn.
🆚 Qwen-3.5 Flash phù hợp thế nào trong họ Qwen 3.5
Hãy hình dung dòng model như sau:
| Model | Vai trò |
|---|---|
| Qwen3.5-Flash | ⚡ API production tốc độ cao |
| Qwen3.5-35B-A3B | 🧠 Model lõi cân bằng |
| Qwen3.5-122B-A10B | 🏆 Khả năng suy luận cao hơn |
| Qwen3.5-27B | 💻 Model cục bộ nhỏ hơn, hiệu quả |
👉 Flash = cùng tầng trí tuệ như 35B, nhưng được tối ưu cho triển khai.
Khi nào nên dùng Qwen-3.5 Flash
Hãy dùng nếu bạn cần:
- AI thời gian thực (chatbot, trợ lý)
- AI agent có công cụ (tìm kiếm, API, tự động hóa)
- Phân tích tài liệu lớn hoặc mã nguồn
- API production quy mô cao
Cách truy cập API Qwen-3.5 Flash
Bước 1: Đăng ký API Key
Đăng nhập vào cometapi.com. Nếu bạn chưa là người dùng của chúng tôi, vui lòng đăng ký trước. Đăng nhập vào CometAPI console của bạn. Lấy API key dùng để truy cập giao diện. Nhấp vào “Add Token” tại mục API token trong trung tâm cá nhân, lấy token key: sk-xxxxx và gửi đi.

Bước 2: Gửi yêu cầu tới API Qwen-3.5 Flash
Chọn endpoint “qwen3.5-flash” để gửi yêu cầu API và thiết lập request body. Phương thức request và request body được lấy từ tài liệu API trên website của chúng tôi. Website của chúng tôi cũng cung cấp bài test Apifox để thuận tiện cho bạn. Thay thế <YOUR_API_KEY> bằng CometAPI key thực tế từ tài khoản của bạn. base url là Chat Completions
Chèn câu hỏi hoặc yêu cầu của bạn vào trường content — đây là nội dung mà model sẽ phản hồi. Xử lý phản hồi API để lấy câu trả lời được tạo.
Bước 3: Lấy và xác minh kết quả
Xử lý phản hồi API để lấy câu trả lời được tạo. Sau khi xử lý, API sẽ phản hồi trạng thái tác vụ và dữ liệu đầu ra.