Alibaba AI ra mắt Qwen3-Max: mô hình Qwen nghìn tỷ tham số, hỗ trợ CometAPI

Nhóm Qwen của Alibaba đã phát hành Qwen3-Max-Preview (Hướng dẫn) — mô hình lớn nhất của công ty cho đến nay, với hơn 1 nghìn tỷ tham số — và đã được cung cấp ngay lập tức thông qua Qwen Chat, Alibaba Cloud Model Studio (API) và các nền tảng của bên thứ ba như CometAPI. Bản xem trước nhắm đến các quy trình làm việc lý luận, mã hóa và tài liệu dài bằng cách kết hợp quy mô cực lớn với cửa sổ ngữ cảnh rất lớn và bộ nhớ đệm ngữ cảnh để giữ độ trễ ở mức thấp cho các phiên dài.

Những điểm nổi bật về kỹ thuật chính

Số lượng tham số lớn (nghìn tỷ trở lên): Việc chuyển sang mô hình hơn một nghìn tỷ tham số được thiết kế để tăng khả năng học mẫu phức tạp (lập luận nhiều bước, tổng hợp mã, hiểu sâu tài liệu). Các điểm chuẩn ban đầu do Qwen công bố cho thấy kết quả cải thiện về lập luận, mã hóa và bộ điểm chuẩn so với các mô hình hàng đầu trước đây của Qwen.
Ngữ cảnh siêu dài và bộ nhớ đệm: Mã thông báo 262k Cửa sổ cho phép các nhóm nhập toàn bộ báo cáo dài, cơ sở dữ liệu mã nhiều tệp hoặc lịch sử trò chuyện dài chỉ trong một lần. Hỗ trợ bộ nhớ đệm ngữ cảnh giúp giảm thiểu việc tính toán lặp lại cho ngữ cảnh định kỳ và có thể cắt giảm độ trễ cũng như chi phí cho các phiên làm việc kéo dài.
Đa ngôn ngữ + khả năng lập trình: Dòng Qwen3 nhấn mạnh vào hỗ trợ song ngữ (tiếng Trung/tiếng Anh) và đa ngôn ngữ, cùng với khả năng mã hóa mạnh mẽ hơn và xử lý đầu ra có cấu trúc — hữu ích cho trợ lý mã, tạo báo cáo tự động và phân tích văn bản quy mô lớn.
Được thiết kế để có tốc độ và chất lượng. Người dùng bản xem trước mô tả tốc độ phản hồi "nhanh như chớp" và khả năng làm theo hướng dẫn cũng như lập luận được cải thiện so với các phiên bản Qwen3 trước đó. Alibaba định vị mô hình này là một sản phẩm chủ lực có hiệu suất cao cho các kịch bản cấp độ sản xuất, đại lý và nhà phát triển.

Tính khả dụng và quyền truy cập

Phí Alibaba Cloud phân tầng, dựa trên mã thông báo Giá cho Qwen3-Max-Preview (tỷ lệ đầu vào và đầu ra riêng biệt). Thanh toán được tính theo triệu token và áp dụng cho số token thực tế được sử dụng sau khi trừ đi hạn ngạch miễn phí.

Giá xem trước được Alibaba công bố (USD) được phân loại theo yêu cầu đầu vào khối lượng mã thông báo (cùng một cấp độ xác định mức giá đơn vị nào được áp dụng):

0–32K mã thông báo đầu vào: 0.861 đô la/1 triệu token đầu vào và 3.441 đô la/1 triệu token đầu ra.
32K–128K mã thông báo đầu vào: 1.434 đô la/1 triệu token đầu vào và 5.735 đô la/1 triệu token đầu ra.
128K–252K mã thông báo đầu vào: 2.151 đô la/1 triệu token đầu vào và 8.602 đô la/1 triệu token đầu ra.

CometAPI cung cấp mức giảm giá chính thức 20% để giúp người dùng gọi API, chi tiết tham khảo tại Qwen3-Max-Xem trước:


Mã thông báo đầu vào	$0.24
Mã thông báo đầu ra	$2.42

Qwen3-Max mở rộng dòng sản phẩm Qwen3 (đã sử dụng các thiết kế lai như biến thể Hỗn hợp Chuyên gia và nhiều tầng tham số hoạt động trong các bản dựng trước). Các phiên bản Qwen3 trước đây của Alibaba tập trung vào cả chế độ "suy nghĩ" (lập luận từng bước) và "hướng dẫn"; Qwen3-Max được định vị là biến thể hướng dẫn cao cấp mới trong dòng sản phẩm đó, chứng tỏ rằng nó vượt trội hơn sản phẩm hiệu suất cao nhất trước đây của công ty là Qwen3-235B-A22B-2507, cho thấy mô hình tham số 1T dẫn đầu trong một loạt các bài kiểm tra.

Trên SuperGPQA, AIME25, LiveCodeBench v6, Arena-Hard v2 và LiveBench (20241125), Qwen3-Max-Preview luôn xếp hạng cao hơn Claude Opus 4, Kimi K2 và Deepseek-V3.1.

Alibaba AI ra mắt Qwen3-Max: mô hình Qwen nghìn tỷ tham số, hỗ trợ CometAPI

Cách truy cập và sử dụng Qwen3-Max (hướng dẫn thực tế)

1) Hãy thử trên trình duyệt (Qwen Chat)

Khám phá thêm tại Trò chuyện Qwen (giao diện web/trò chuyện chính thức của Qwen) và chọn Qwen3-Max-Xem trước Mô hình (hướng dẫn) nếu được hiển thị trong trình chọn mô hình. Đây là cách nhanh nhất để đánh giá các nhiệm vụ hội thoại và hướng dẫn một cách trực quan.

2) Truy cập qua Alibaba Cloud (Model Studio / API đám mây)

Đăng nhập vào Alibaba Cloud → Studio mô hình / Phục vụ mô hình. Tạo một phiên bản suy luận hoặc chọn điểm cuối mô hình được lưu trữ cho qwen3-max-xem trước (hoặc phiên bản xem trước có nhãn).
Xác thực bằng Khóa truy cập Alibaba Cloud/vai trò RAM của bạn và gọi điểm cuối suy luận bằng yêu cầu POST chứa lời nhắc của bạn và bất kỳ tham số tạo nào (nhiệt độ, mã thông báo tối đa, v.v.).

3) Sử dụng thông qua máy chủ / tổng hợp của bên thứ ba

Theo thông tin được đưa ra, bản xem trước có thể truy cập thông qua CometAPI và các trình tổng hợp API khác, cho phép các nhà phát triển gọi nhiều mô hình được lưu trữ bằng một khóa API duy nhất. Điều này có thể đơn giản hóa việc thử nghiệm trên nhiều nhà cung cấp nhưng vẫn xác minh được độ trễ, tính khả dụng theo khu vực và chính sách xử lý dữ liệu cho từng máy chủ.

Bắt đầu

CometAPI là một nền tảng API hợp nhất tổng hợp hơn 500 mô hình AI từ các nhà cung cấp hàng đầu—chẳng hạn như dòng GPT của OpenAI, Gemini của Google, Claude của Anthropic, Midjourney, Suno, v.v.—thành một giao diện duy nhất thân thiện với nhà phát triển. Bằng cách cung cấp xác thực nhất quán, định dạng yêu cầu và xử lý phản hồi, CometAPI đơn giản hóa đáng kể việc tích hợp các khả năng AI vào ứng dụng của bạn. Cho dù bạn đang xây dựng chatbot, trình tạo hình ảnh, nhà soạn nhạc hay đường ống phân tích dựa trên dữ liệu, CometAPI cho phép bạn lặp lại nhanh hơn, kiểm soát chi phí và không phụ thuộc vào nhà cung cấp—tất cả trong khi khai thác những đột phá mới nhất trên toàn bộ hệ sinh thái AI.

Kết luận

Qwen3-Max-Preview đưa Alibaba vào danh sách các tổ chức cung cấp mô hình quy mô nghìn tỷ cho khách hàng. Sự kết hợp giữa độ dài ngữ cảnh cực lớn và API tương thích với OpenAI giúp giảm thiểu rào cản tích hợp cho các doanh nghiệp cần suy luận tài liệu dài, tự động hóa mã hoặc điều phối tác nhân. Chi phí và tính ổn định của bản xem trước là những cân nhắc chính khi áp dụng: các tổ chức sẽ muốn thử nghiệm với bộ nhớ đệm, phát trực tuyến và các lệnh gọi theo đợt để quản lý cả độ trễ và giá cả.