Ngày 16 tháng 2 năm 2026 — được tính giờ trùng với thời điểm có mức độ chú ý cao của Đêm Giao thừa Tết Nguyên đán — Alibaba thông báo ra mắt Qwen 3.5, bản nâng cấp lớn tiếp theo của dòng mô hình ngôn ngữ lớn và đa phương thức chủ lực.
Các biến thể Qwen đang thu hẹp khoảng cách với các mô hình đóng hàng đầu, trong khi những phát hành khác từ Trung Quốc như GLM-5 và MiniMax M2.5 cũng đẩy biên công nghệ tiến xa hơn. Về trần điểm benchmark thuần túy, một số cấu hình độc quyền (các biến thể chuyên biệt của GPT/Gemini/Claude) vẫn dẫn đầu ở những ngách hẹp, nhưng sự kết hợp giữa trọng số mở, tính năng agent đa phương thức và chi phí vận hành thấp hơn nhiều của Qwen-3.5 khiến nó trở thành sự xuất hiện gây xáo trộn nhất đầu năm 2026.
Qwen3.5 chính xác là gì?
Qwen3.5 là thế hệ mới nhất của dòng mô hình nền tảng đa phương thức với trọng số mở của Alibaba (trọng số mở cho một số biến thể cùng với tầng đóng/“plus” cho phiên bản hiệu năng cao hơn) được thiết kế cho các quy trình “mang tính tác nhân” — tức là các mô hình có thể cảm nhận (thị giác + văn bản), suy luận qua nhiều bước và kích hoạt công cụ hoặc hành động. Thông báo của Alibaba mô tả Qwen3.5 là bước nhảy về hiệu năng + chi phí so với Qwen3 và các biến thể trước đó, với năng lực ngôn ngữ–thị giác/agent tích hợp sẵn và hỗ trợ cửa sổ ngữ cảnh lớn.
Các phiên bản phát hành
Alibaba công bố ít nhất hai biến thể:
| Phiên bản mô hình | Tổng số tham số | Tham số hoạt động | Đặc điểm chính |
|---|---|---|---|
| Qwen3.5-397B-A17B | ~397 tỷ | 17 tỷ | Flagship trọng số mở; suy luận hiệu quả; đa phương thức |
| Qwen3.5-Plus | ~tương đương 3970 tỷ | ~170 tỷ | Biến thể dung lượng đầy đủ chạy trên đám mây dành cho sử dụng API |
Những tính năng chính của Qwen3.5 là gì?
Dưới đây là tổng quan chi tiết về các đổi mới chủ đạo của Qwen3.5 và cách chúng so sánh với các mô hình đóng hàng đầu:
1. Kiến trúc lai và hiệu suất suy luận
Qwen3.5 kết hợp:
- Các lớp MoE thưa — để mở rộng hiệu quả
- Gated Delta Networks với attention tuyến tính — để xử lý token nhanh hơn
- Cửa sổ ngữ cảnh khổng lồ — lên tới 1M token (có thể mở rộng), cho phép chuỗi tác vụ kéo dài như video dài hoặc codebase mà không phải đánh đổi bằng placeholder
| Tính năng | Qwen3.5 | GPT-5.2 | Claude Opus 4.5 | Gemini 3 Pro |
|---|---|---|---|---|
| Kiến trúc | MoE + Gated Delta | Dense transformer | Dense transformer | Dense transformer |
| Độ dài ngữ cảnh | Tối đa 1M token | ~100–200K token | ~100–200K token | ~100–200K token |
| Đa phương thức (native) | Có | Có | Có | Có |
| Ngôn ngữ hỗ trợ | 201+ | ~100+ | ~100+ | ~100+ |
| Hiệu suất suy luận | Rất cao | Trung bình | Trung bình | Trung bình |
Đánh giá: Kiến trúc lai của Qwen3.5 đặc biệt phù hợp cho suy luận với số token lớn và hiệu quả, đây là lợi thế cạnh tranh trong triển khai thực tế nơi thông lượng và chi phí là yếu tố quan trọng.
2. Năng lực tác nhân
“Agentic AI” ám chỉ các mô hình tự vận hành tác vụ — đưa ra quyết định, thao tác trên mục tiêu GUI, hoặc thực hiện logic nhiều bước mà không cần nhắc lệnh từ con người.
Thông báo chính thức của Alibaba khẳng định Qwen3.5:
- Thực thi các tác vụ nhiều bước một cách tự động trên ứng dụng di động và máy tính để bàn
- Hỗ trợ công việc tác nhân dựa trên thị giác, như thao tác GUI và hiểu video
- Bao gồm suy luận mở rộng và lập kế hoạch tác vụ
Điều này định vị Qwen3.5 không chỉ là một LLM hội thoại, mà còn là nền tảng cho các quy trình AI tự động — hiện là một mặt trận đang nổi lên trong nghiên cứu và triển khai AI.
3. Đa phương thức và phạm vi ngôn ngữ
Một trong những điểm nổi bật của Qwen3.5 là năng lực đa phương thức nguyên bản: xử lý văn bản, hình ảnh và video một cách liền mạch — dấu ấn của hệ thống AI thế hệ tiếp theo. Ngoài ra, hỗ trợ ngôn ngữ đã mở rộng đáng kể, hiện bao phủ 201 ngôn ngữ và phương ngữ (tăng từ 119 ở Qwen3), qua đó mở rộng mạnh mẽ khả năng ứng dụng toàn cầu.
4. Trí tuệ đa phương thức
Khác với hầu hết các mô hình ngôn ngữ truyền thống vốn chỉ mạnh ở văn bản, tích hợp ngôn ngữ–thị giác của Qwen 3.5 cho phép các chức năng như:
- Hiểu video dài — được báo cáo hỗ trợ tới 2 giờ đầu vào video liên tục.
- Suy luận và diễn giải hình ảnh — cho các tác vụ như nhận diện ảnh, tạo chú thích, và diễn giải lệnh trực quan.
- Tổng hợp GUI và mã — ví dụ, chuyển các bản mockup UI trực quan thành mã chạy được.
Những tính năng này định vị nó không chỉ là một LLM mà còn là nền tảng đa phương thức cho các tác nhân tự động.
Qwen-3.5 thể hiện ra sao trên các benchmark

Đánh giá cốt lõi về suy luận và kiến thức
Bảng sau tóm tắt các số liệu benchmark đã công bố so sánh Qwen3.5 với các đối thủ độc quyền lớn:
| Benchmark | Qwen3.5 | GPT-5.2 | Claude 4.5 | Gemini 3 Pro |
|---|---|---|---|---|
| MMLU-Pro (kiến thức) | 87.8 | ~85+ | n/a | ~86+ |
| GPQA (suy luận cấp Tiến sĩ) | 88.4 | ~87 | ~87 | ~88 |
| IFBench (theo hướng dẫn) | 76.5 | ~74–75 | ~75 | ~74 |
| BFCL-V4 (tác nhân tổng quát) | >Gemini 3 Pro | Mốc cơ bản | Thấp hơn Qwen3.5 | Xem ghi chú |
- TAU2-Bench (thực thi công cụ + suy luận): Qwen3.5 (biến thể mở 397B) — ~87.1; các cấu hình GPT-5.2 thường nằm trong khoảng 80 cao–90 trên các bộ TAU theo bảng của nhà cung cấp.
- BFCL-V4 (gọi hàm/công cụ): Qwen3.5 — ~72.9; các mô hình đóng hàng đầu trong bảng xếp hạng nhà cung cấp cho giá trị cao hơn (các biến thể GPT-5.2 / Claude Opus vào khoảng ~77–78 cho một số cấu hình). BFCL đo lường chọn hàm chính xác, lắp đối số và điều phối công cụ.
- VITA-Bench (tương tác tác nhân đa phương thức): Qwen3.5 — ~49.7; các mô hình đóng cạnh tranh cho thấy độ phân tán: một số có khả năng suy luận thị giác đơn mô hình cao hơn nhưng số liệu tác nhân đa phương thức tích hợp của Qwen mang tính cạnh tranh.
- DeepPlanning (lập kế hoạch dài hạn): Qwen3.5 — ~34.3; DeepPlanning là bài kiểm tra mới hơn, khó hơn tập trung vào lập kế hoạch nhiều ngày và các bước dài hạn (bài: arXiv). Điểm số trên các mô hình tuyến đầu đều còn dư địa cải thiện; giá trị của Qwen là đang cải thiện năng lực tác nhân dài hạn so với các phiên bản Qwen trước.
- MMLU / MMMLU / tác vụ kiến thức: Qwen3.5 — MMLU/biến thể được báo cáo ~88–89 (số liệu nhà cung cấp), xếp vào nhóm cao cho kiến thức chung / suy luận so với các phiên bản Qwen trước.
Ý nghĩa của các con số này: Qwen3.5 đạt điểm đặc biệt tốt trên các bảng xếp hạng tác nhân đa công cụ và đa phương thức (BFCL, TAU2, VITA), phù hợp với mục tiêu sản phẩm của Alibaba (tác nhân hành động trong ứng dụng). Trên các phần suy luận hoặc lập trình chuẩn, mô hình cạnh tranh nhưng không vượt trội tuyệt đối trên mọi mặt so với hệ thống đóng mạnh nhất — đúng hơn, nó nằm trong nhóm đầu và thu hẹp khoảng cách ở nhiều lĩnh vực thực tiễn. Qwen3.5 ít nhất đạt tương đương hoặc nhỉnh hơn các mô hình đóng hàng đầu trên các tác vụ chọn lọc — đặc biệt là suy luận kiến thức, hiểu đa phương thức và quy trình tác nhân.
Qwen3.5 có vượt trội hơn các mô hình đóng hàng đầu năm 2026 không?
Đây là câu hỏi trọng tâm — và câu trả lời cần sự tinh tế. Hầu hết các nhà phân tích AI trung lập sẽ mô tả Qwen3.5 là cạnh tranh với tầng cao nhất của các mô hình đóng năm 2026, và — xét theo tỷ lệ chi phí–giá trị thực tế — thường vượt trội cho nhiều tình huống ứng dụng, đặc biệt nơi đa phương thức và độ dài ngữ cảnh là then chốt.
Có — Trong một số benchmark và thước đo chi phí cụ thể
Hiệu quả và giá: Về chi phí token, tốc độ suy luận và khả năng triển khai với chi phí hợp lý, Qwen3.5 vượt trội đáng kể.
Hiệu năng benchmark: Kết quả báo cáo cho thấy Qwen3.5 khớp hoặc vượt GPT-5.2 và Gemini 3 Pro trong suy luận kiến thức (MMLU-Pro) và các benchmark suy luận nâng cao. Ở các tác vụ mang tính tác nhân, mô hình tuyên bố hiệu năng vượt Gemini 3 Pro và GPT-5.2.
Năng lực tác nhân: Kiến trúc của Qwen3.5 có vẻ đặc biệt mạnh trên các bộ tác vụ tác nhân nơi đa phương thức và ngữ cảnh kéo dài là quan trọng. Ở các tác vụ mang tính tác nhân, mô hình tuyên bố hiệu năng vượt Gemini 3 Pro và GPT-5.2.
Kịch bản nơi Qwen-3.5 có khả năng vượt trội
- Các cụm suy luận quy mô lớn, nhạy độ trễ nơi cải thiện thông lượng chuyển thành tiết kiệm chi phí trực tiếp (ví dụ: chat khách hàng khối lượng lớn, sinh mã hàng loạt). Tuyên bố về thông lượng của Qwen-3.5 khiến nó trở nên hấp dẫn.
- Triển khai on-premise, nhạy cảm về quyền riêng tư nơi trọng số mở và tinh chỉnh cục bộ là thiết yếu (y tế, lĩnh vực bị quản lý). Giấy phép mở giảm khóa chặt nhà cung cấp.
- Pipeline tác nhân đa phương thức tích hợp vào ứng dụng sở hữu nơi các đường dẫn từ thị giác tới hành động nguyên bản giúp giảm độ phức tạp tích hợp và tăng tỷ lệ thành công end-to-end.
Giá và ưu đãi: Hiệu quả chi phí như một lợi thế cạnh tranh
Một trong những yếu tố khác biệt nổi bật nhất của Qwen3.5 là giá — cả chi phí tuyệt đối và so sánh với các hệ thống độc quyền tại Mỹ.
Giá API và token
| Mô hình | Giá API mỗi 1M token | Chỉ số chi phí tương đối* |
|---|---|---|
| Qwen3.5-Plus (Alibaba) | ~0,8 CNY (~$0,11) | 1× |
| Gemini 3 Pro | ~14,4 CNY (~$2,00) | ~18× |
| GPT-5.2 | ~12–20 CNY (~$1,70–$2,80) | ~15–25× |
| Claude Opus 4.5 | ~12–15 CNY (~$1,70–$2,10) | ~15–18× |
*Chuyển đổi từ mức giá địa phương được báo cáo; giá trị xấp xỉ để tham chiếu so sánh.
Nhận định: Giá gốc của Qwen3.5 — khoảng bằng 1/18 một số mô hình độc quyền — về căn bản thay đổi tỷ lệ chi phí–hiệu năng cho hệ sinh thái doanh nghiệp và nhà phát triển. Chi phí token thấp làm giảm đáng kể chi phí triển khai, đặc biệt cho các tác vụ suy luận khối lượng lớn.
Tác động chiến lược và thị trường
Sự kết hợp giữa giấy phép mở (Apache 2.0), năng lực đa phương thức, sẵn sàng cho tác nhân, và giá thấp của Qwen3.5 có thể tái định hình mô hình triển khai AI toàn cầu — đặc biệt cho các nhà phát triển quốc tế ưu tiên chi phí và tính linh hoạt.
Bên cạnh đó, phát hành này có thể thúc đẩy động lực cạnh tranh:
- Tăng áp lực lên nhà cung cấp mô hình đóng để đưa ra mức giá tốt hơn hoặc mở trọng số.
- Nhiều doanh nghiệp địa phương ứng dụng AI hơn trong hệ thống nội bộ nơi hạn chế chi phí từng kìm hãm triển khai.
- Gia tăng đổi mới nghiên cứu nhờ quyền truy cập mở và đóng góp cộng đồng trên các nền tảng như Hugging Face và hệ sinh thái nhà phát triển của Alibaba.
Kết luận
Màn ra mắt Qwen3.5 vào Đêm Giao thừa đã đặt ra chuẩn mực mới cho bối cảnh AI năm 2026. Dù các hệ thống độc quyền như GPT-5.2, Claude Opus 4.5 và Gemini 3 Pro vẫn rất mạnh, Qwen3.5 đạt tương đương hoặc vượt hiệu năng của họ trên nhiều tác vụ — và làm được điều đó với chi phí thấp hơn đáng kể cùng năng lực đa phương thức rộng.
Trong các đánh giá benchmark, nhiều thước đo hàng đầu xếp Qwen3.5 ở cùng hoặc trên tầng hiệu năng của các mô hình đóng hàng đầu; về chi phí và hiệu suất suy luận, mô hình vượt trội rõ rệt.
Các nhà phát triển có thể truy cập API Qwen 3.5 qua CometAPI ngay bây giờ. Để bắt đầu, hãy khám phá năng lực của mô hình trong Playground và tham khảo Hướng dẫn API để biết hướng dẫn chi tiết. Trước khi truy cập, vui lòng đảm bảo bạn đã đăng nhập vào CometAPI và lấy khóa API. CometAPI cung cấp mức giá thấp hơn nhiều so với giá chính thức để hỗ trợ bạn tích hợp.
Sẵn sàng bắt đầu?→ Đăng ký Qwen-3.5 ngay hôm nay!
Nếu bạn muốn biết thêm mẹo, hướng dẫn và tin tức về AI hãy theo dõi chúng tôi trên VK, X và Discord!
