Home/Models/Aliyun/Qwen 3.5 Flash
Q

Qwen 3.5 Flash

Đầu vào:$0.16/M
Đầu ra:$0.96/M
Là một mô hình thị giác–ngôn ngữ nguyên sinh, QWEN3.5-397B-A17B của dòng Qwen3.5 xuất sắc trong các đánh giá chuẩn toàn diện như suy luận, lập trình, khả năng tác tử và hiểu đa phương thức, giúp nhà phát triển và doanh nghiệp cải thiện đáng kể năng suất. Mô hình sử dụng kiến trúc lai mang tính sáng tạo, kết hợp cơ chế chú ý tuyến tính (Gated Delta Networks) với các chuyên gia hỗn hợp thưa (MoE) để đạt hiệu quả suy luận vượt trội: 397 tỷ tham số tổng cộng và chỉ 17 tỷ tham số được kích hoạt cho mỗi lần lan truyền thuận, tối ưu hóa tốc độ và chi phí đồng thời vẫn duy trì năng lực. Chúng tôi cũng đã mở rộng hỗ trợ ngôn ngữ và phương ngữ từ 119 lên 201, mang lại khả năng tiếp cận rộng hơn và hỗ trợ tốt hơn cho người dùng trên toàn thế giới.
Mới
Sử dụng thương mại
Playground
Tổng quan
Tính năng
Giá cả
API
Phiên bản

Thông số kỹ thuật (bảng tham chiếu nhanh)

MụcQwen3.5-122B-A10BQwen3.5-27BQwen3.5-35B-A3BQwen3.5-Flash (hosted)
Quy mô tham số~122B (cỡ trung-lớn)~27B (dense)~35B (MoE / lai A3B)Tương ứng với trọng số 35B-A3B (hosted)
Ghi chú kiến trúcLai (gated delta + cơ chế chú ý MoE trong họ)Transformer dạng denseBiến thể thưa / Mixture-of-Experts (A3B)Cùng kiến trúc như 35B-A3B, có tính năng phục vụ sản xuất
Phương thức vào/raVăn bản, thị giác-ngôn ngữ (token đa phương thức hợp nhất sớm); I/O kiểu trò chuyệnVăn bản, hỗ trợ V+LVăn bản + hình ảnh (hỗ trợ gọi công cụ dạng tác tử)Văn bản + hình ảnh; tích hợp công cụ chính thức & đầu ra API
Ngữ cảnh tối đa mặc định (cục bộ/tiêu chuẩn)Có thể cấu hình (lớn) — họ mô hình hỗ trợ ngữ cảnh rất dàiCó thể cấu hình262,144 token (ví dụ cấu hình cục bộ tiêu chuẩn)1,000,000 token (mặc định cho Flash hosted).
Triển khai / APITương thích với chat completions kiểu OpenAI; khuyến nghị dùng vLLM / SGLang / TransformersTương tựTương tự (ví dụ lệnh CLI / vLLM trong thẻ mô hình)API hosted (Alibaba Cloud Model Studio / Qwen Chat); bổ sung khả năng quan sát trong sản xuất & mở rộng quy mô.
Trường hợp sử dụng điển hìnhTác tử, suy luận, hỗ trợ lập trình, nhiệm vụ tài liệu dài, trợ lý đa phương thứcSuy luận nhẹ / một GPU, tác vụ tác tử với footprint nhỏ hơnTriển khai tác tử trong sản xuất, tác vụ đa phương thức ngữ cảnh dàiSaaS tác tử sản xuất: ngữ cảnh dài, sử dụng công cụ, suy luận được quản lý

What is Qwen-3.5 Flash

Qwen-3.5 Flash là phiên bản phục vụ sản xuất/hosted của dòng Qwen3.5, ánh xạ tới trọng số mở 35B-A3B nhưng bổ sung năng lực cho sản xuất: ngữ cảnh mặc định mở rộng (quảng bá lên tới 1M token cho sản phẩm hosted), tích hợp công cụ chính thức, và các endpoint suy luận được quản lý để đơn giản hóa quy trình tác tử và mở rộng quy mô. Nói ngắn gọn: Flash = biến thể 35B A3B được lưu trữ trên đám mây, sẵn sàng cho sản xuất, với kỹ thuật bổ sung cho ngữ cảnh dài, sử dụng công cụ và thông lượng.

The Qwen-3.5 Flash Series là một phần của Qwen 3.5 “Medium model series” rộng hơn, bao gồm nhiều mô hình như:

  • Qwen3.5-Flash
  • Qwen3.5-35B-A3B
  • Qwen3.5-122B-A10B
  • Qwen3.5-27B

Trong danh mục này, Qwen3.5-Flash là phiên bản API phục vụ sản xuất — về cơ bản là phiên bản 35B nhanh, sẵn sàng triển khai, tối ưu cho nhà phát triển và doanh nghiệp. 👉 Flash về bản chất là “lớp runtime doanh nghiệp” xây dựng trên mô hình 35B-A3B.


Tính năng chính của Qwen-3.5 Flash

  • Nền tảng thị giác-ngôn ngữ thống nhất — được huấn luyện với token đa phương thức hợp nhất sớm để văn bản và hình ảnh được xử lý trong một luồng nhất quán (cải thiện suy luận và tác vụ tác tử thị giác).
  • Kiến trúc lai/hiệu quả — mạng gated delta + các mẫu Mixture-of-Experts (MoE) thưa ở một số kích cỡ (A3B biểu thị một biến thể thưa), cân bằng giữa năng lực và chi phí tính toán.
  • Hỗ trợ ngữ cảnh dài — họ mô hình hỗ trợ ngữ cảnh cục bộ rất dài (cấu hình ví dụ cho thấy tới 262,144 token), và sản phẩm Flash hosted mặc định 1,000,000 token cho quy trình sản xuất. Tối ưu cho chuỗi tác tử, QA tài liệu và tổng hợp đa tài liệu.
  • Sử dụng công cụ dạng tác tử — hỗ trợ gốc và bộ phân tích cho gọi công cụ, pipeline suy luận, và “thinking” hoặc lấy mẫu suy đoán, cho phép mô hình lập kế hoạch và gọi API/công cụ bên ngoài một cách có cấu trúc.

Benchmark performance of Qwen-3.5 Flash

Benchmark / Hạng mụcQwen3.5-122B-A10BQwen3.5-27BQwen3.5-35B-A3B(Flash tương ứng với 35B-A3B)
MMLU-Pro (knowledge)86.786.185.3 (35B)Flash ≈ hồ sơ đã công bố của 35B-A3B.
C-Eval (Chinese exam)91.990.590.2
IFEval (instruction following)93.495.091.9
AA-LCR (long context reasoning)66.966.158.5(cấu hình cục bộ cho thấy thiết lập ngữ cảnh dài tới 262k token; Flash quảng bá mặc định 1M).

Tóm tắt: các biến thể trung bình và nhỏ của Qwen3.5 (ví dụ, 27B, 122B A10B) thu hẹp khoảng cách với các mô hình tiên tiến ở nhiều benchmark về kiến thức và tuân thủ hướng dẫn, trong khi 35B-A3B (và Flash) nhắm đến cân bằng cho sản xuất (thông lượng + ngữ cảnh dài) với điểm MMLU/C-Eval cạnh tranh so với các mô hình lớn hơn.

🆚 Qwen-3.5 Flash phù hợp thế nào trong họ Qwen 3.5

Mô hìnhVai trò
Qwen3.5-Flash⚡ API sản xuất nhanh
Qwen3.5-35B-A3B🧠 Mô hình cân bằng cốt lõi
Qwen3.5-122B-A10B🏆 Khả năng suy luận cao hơn
Qwen3.5-27B💻 Mô hình cục bộ nhỏ, hiệu quả

👉 Flash = cùng bậc trí tuệ như 35B, nhưng tối ưu cho triển khai.

Khi nào nên dùng Qwen-3.5 Flash

Use it if you need:

  • AI thời gian thực (chatbot, trợ lý)
  • Tác tử AI với công cụ (tìm kiếm, API, tự động hóa)
  • Phân tích tài liệu lớn hoặc mã nguồn
  • API sản xuất quy mô lớn

Cách truy cập API Qwen-3.5 Flash

Bước 1: Đăng ký lấy API Key

Đăng nhập vào cometapi.com. Nếu bạn chưa phải người dùng của chúng tôi, vui lòng đăng ký trước. Đăng nhập vào CometAPI console. Lấy API key thông tin truy cập của giao diện. Nhấp “Add Token” tại mục token API trong trung tâm cá nhân, lấy khóa token: sk-xxxxx và gửi.

cometapi-key

Bước 2: Gửi yêu cầu tới API Qwen-3.5 Flash

Chọn endpoint “qwen3.5-flash” để gửi yêu cầu API và thiết lập request body. Phương thức yêu cầu và nội dung yêu cầu được lấy từ tài liệu API trên website của chúng tôi. Website cũng cung cấp bài kiểm thử Apifox để bạn tiện sử dụng. Thay thế <YOUR_API_KEY> bằng khóa CometAPI thực tế từ tài khoản của bạn. base url là Chat Completions

Chèn câu hỏi hoặc yêu cầu của bạn vào trường content — đây là nội dung mà mô hình sẽ phản hồi. Xử lý phản hồi API để lấy câu trả lời được tạo ra.

Bước 3: Truy xuất và xác minh kết quả

Xử lý phản hồi API để lấy câu trả lời được tạo ra. Sau khi xử lý, API phản hồi trạng thái tác vụ và dữ liệu đầu ra.

Câu hỏi thường gặp

API Qwen3.5-Flash có thể xử lý đầu vào hàng triệu token không?

Có, Qwen3.5-Flash hỗ trợ cửa sổ ngữ cảnh lên đến 1.000.000 token, cho phép suy luận trên toàn bộ tài liệu và các phiên làm việc dài mà không cần chia nhỏ.

Qwen3.5-Flash so với GPT-4o hoặc các mô hình thuộc lớp GPT-5 như thế nào?

Qwen3.5-Flash tiết kiệm chi phí hơn và nhanh hơn cho khối lượng công việc sản xuất, trong khi GPT-4o hoặc các mô hình thuộc lớp GPT-5 thường cung cấp độ chính xác suy luận đỉnh cao cao hơn.

API Qwen3.5-Flash có hỗ trợ function calling và công cụ không?

Có, nó bao gồm function calling gốc và hỗ trợ công cụ tích hợp sẵn, cho phép tương tác với API và thực thi các quy trình tác tử nhiều bước.

Qwen3.5-Flash có phù hợp cho các ứng dụng thời gian thực không?

Có, nó được tối ưu hóa đặc biệt cho độ trễ thấp và thông lượng cao, khiến nó trở nên lý tưởng cho chatbot, copilots và các tác tử AI trực tiếp.

Qwen3.5-Flash hỗ trợ những phương thức nào?

Nó chấp nhận đầu vào văn bản, hình ảnh và video nhưng chỉ tạo đầu ra văn bản.

Điều gì khiến Qwen3.5-Flash hiệu quả so với các mô hình khác?

Kiến trúc Mixture-of-Experts của nó chỉ kích hoạt khoảng 3B tham số trên mỗi token, mang lại hiệu năng mạnh mẽ với chi phí tính toán thấp hơn.

Khi nào tôi nên dùng Qwen3.5-Flash thay vì Qwen3.5-35B-A3B?

Hãy dùng Qwen3.5-Flash cho các API sản xuất đòi hỏi tốc độ và khả năng mở rộng, trong khi Qwen3.5-35B-A3B phù hợp hơn cho các tình huống cần độ chính xác cao hơn hoặc tự lưu trữ.

Tính năng cho Qwen 3.5 Flash

Khám phá các tính năng chính của Qwen 3.5 Flash, được thiết kế để nâng cao hiệu suất và khả năng sử dụng. Tìm hiểu cách các khả năng này có thể mang lại lợi ích cho dự án của bạn và cải thiện trải nghiệm người dùng.

Giá cả cho Qwen 3.5 Flash

Khám phá mức giá cạnh tranh cho Qwen 3.5 Flash, được thiết kế để phù hợp với nhiều ngân sách và nhu cầu sử dụng khác nhau. Các gói linh hoạt của chúng tôi đảm bảo bạn chỉ trả tiền cho những gì bạn sử dụng, giúp dễ dàng mở rộng quy mô khi yêu cầu của bạn tăng lên. Khám phá cách Qwen 3.5 Flash có thể nâng cao các dự án của bạn trong khi vẫn kiểm soát được chi phí.

qwen3.5

variant / aliasPrice
qwen3.5-397b-a17b$0.48 / $2.88
qwen3.5-plus-2026-02-15$0.32 / $1.92
qwen3.5-122b-a10b$0.40 / $2.40
qwen3.5-plus-thinking$0.32 / $1.92
qwen3.5-plus$0.32 / $1.92
qwen3.5-27b$0.24 / $1.44
qwen3.5-35b-a3b$0.24 / $1.44
qwen3.5-flash$0.16 / $0.96

Mã mẫu và API cho Qwen 3.5 Flash

Truy cập mã mẫu toàn diện và tài nguyên API cho Qwen 3.5 Flash để tối ưu hóa quy trình tích hợp của bạn. Tài liệu chi tiết của chúng tôi cung cấp hướng dẫn từng bước, giúp bạn khai thác toàn bộ tiềm năng của Qwen 3.5 Flash trong các dự án của mình.

Các phiên bản của Qwen 3.5 Flash

Lý do Qwen 3.5 Flash có nhiều snapshot có thể bao gồm các yếu tố tiềm năng như: sự thay đổi đầu ra sau các bản cập nhật cần các snapshot cũ để đảm bảo tính nhất quán, cung cấp cho nhà phát triển thời gian chuyển tiếp để thích ứng và di chuyển, cũng như các snapshot khác nhau tương ứng với các endpoint toàn cầu hoặc khu vực nhằm tối ưu hóa trải nghiệm người dùng. Để biết chi tiết về sự khác biệt giữa các phiên bản, vui lòng tham khảo tài liệu chính thức.
version
qwen3.5-flash

Thêm mô hình