Cách sử dụng API Qwen 3.5

Vào đêm Giao thừa Tết Nguyên Đán (16–17 tháng 2, 2026), Alibaba Group đã phát hành thế hệ mô hình tiếp theo, Qwen 3.5 — một mô hình đa phương thức, có khả năng tác nhân, được định vị cho điều mà công ty gọi là kỷ nguyên “agentic AI”. Tin tức trong ngành nhấn mạnh các tuyên bố về mức tăng mạnh về hiệu suất và chi phí, cùng sự hỗ trợ nhanh chóng từ các nhà cung cấp phần cứng và đám mây. CometAPI là lựa chọn cho các nhà phát triển muốn truy cập API được lưu trữ hoặc tích hợp tương thích OpenAI, trong khi AMD công bố hỗ trợ GPU Day-0 cho mô hình trên dòng Instinct của họ. ByteDance là một trong các đối thủ nội địa chính đã phát hành nâng cấp trong cùng khung thời gian kỳ nghỉ. OpenAI vẫn là điểm tham chiếu để so sánh trong các bài đo chuẩn và phong cách tích hợp.

Qwen 3.5 là gì?

Qwen 3.5 của Alibaba là thế hệ mới nhất của mô hình ngôn ngữ lớn (LLM) đa phương thức, được định vị cho kỷ nguyên “agentic AI” — các mô hình không chỉ trả lời câu hỏi mà còn có thể điều phối các quy trình nhiều bước, gọi công cụ, làm việc với hình ảnh/video và hành động vượt qua ranh giới ứng dụng. Mô hình được công bố rộng rãi trong dịp Tết Nguyên Đán (khung phát hành được báo cáo quanh ngày 16 February 2026), một thời điểm chiến lược để quảng bá sản phẩm tại Trung Quốc và thu hút người dùng trong giai đoạn cao điểm kỳ nghỉ. Qwen 3.5 mang lại cải thiện đáng kể về chi phí và thông lượng so với các thế hệ trước, đồng thời tập trung vào ngữ cảnh dài và tự động hóa theo phong cách tác nhân.

Nhìn tổng quan, các tuyên bố kỹ thuật và kinh doanh nổi bật về Qwen 3.5 gồm:

Kiến trúc đa phương thức nguyên bản hỗ trợ đầu vào/đầu ra văn bản, hình ảnh và video (quy trình dạng tác nhân). Các khả năng mới trong mô hình để gọi công cụ, thao tác trên nội dung trình duyệt và xâu chuỗi các bước (hành vi tác nhân). Những tính năng này mở khóa tự động hóa—điền biểu mẫu, quy trình end-to-end—nhưng đòi hỏi kiểm soát an toàn chặt chẽ hơn.
Kiến trúc lai Mixture-of-Experts (MoE) với tổng số tham số rất lớn nhưng chỉ kích hoạt một tập nhỏ mỗi lượt suy luận — các ghi chú kỹ thuật công khai nêu các kiến trúc như “397B tổng / 17B hoạt động” cho một biến thể Qwen3.5 dùng phục vụ hiệu quả. Thiết kế này mang lại năng lực cao với hiệu suất suy luận cải thiện.
Các điểm chuẩn cạnh tranh so với những mô hình nguồn đóng hàng đầu toàn cầu, Alibaba tuyên bố lợi thế chi phí và kết quả ngang bằng hoặc tốt hơn trên nhiều tác vụ thực tế.

Các phiên bản bạn sẽ gặp

qwen3.5-397b-a17b(Phát hành trọng số mở): các checkpoint có thể tải xuống và các fork từ cộng đồng (cho triển khai cục bộ và tùy chỉnh). Xem các kho dự án chính thức và bản mirror.
qwen3.5-plus (Biến thể “Plus” được lưu trữ): được quản lý hoàn toàn trên Alibaba Cloud Model Studio với cửa sổ ngữ cảnh lớn nhất và các công cụ tích hợp (gọi công cụ, trợ lý mã, trích xuất web). Đây là phiên bản mà khách hàng doanh nghiệp có khả năng gọi qua API để đảm bảo độ tin cậy và khả năng mở rộng.

Những tính năng nổi bật của Qwen-3.5 là gì?

Kiến trúc & điểm nổi bật huấn luyện

Dưới đây là bảng tính năng súc tích kèm theo phát hành:

Tính năng	Qwen-3.5 (chi tiết công khai)	Tác động thực tiễn
Kiến trúc	Lai: chú ý tuyến tính + MoE thưa + xương sống Transformer đậm đặc.	Thông lượng giải mã và hiệu suất mở rộng tốt hơn so với mô hình thuần đậm đặc.
Đa phương thức	Khả năng thị giác–ngôn ngữ dạng tác nhân nguyên bản (thực hiện hành động trên nhiều UI).	Cho phép điều khiển ứng dụng/tác nhân nhiều bước, không chỉ hỏi–đáp văn bản và hình ảnh.
Dòng mô hình & trọng số mở	Phát hành công khai ít nhất một biến thể “trọng số mở” (ví dụ, Qwen3.5-397B-A17B).	Cho phép triển khai on-prem và tinh chỉnh bên thứ ba; thúc đẩy đánh giá cộng đồng.
Ngôn ngữ	>200 ngôn ngữ & phương ngữ (theo tuyên bố phát hành).	Phủ rộng quốc tế cho bản địa hóa và tác nhân đa ngữ.
RL / tác nhân	Quy mô hóa môi trường RL lớn và các pipeline huấn luyện tác nhân.	Cải thiện lập kế hoạch tầm xa và chuỗi hành động trong các nhiệm vụ thực tế.

Đa phương thức & hành động dạng tác nhân

Qwen-3.5 được thiết kế rõ ràng cho các quy trình dạng tác nhân — nghĩa là mô hình không chỉ trả lời, mà còn lập kế hoạch, xâu chuỗi hành động (API, tương tác UI, thao tác tệp), và tích hợp đầu vào thị giác (ảnh chụp màn hình, DOM UI, hình ảnh) vào vòng quyết định. Alibaba nhấn mạnh sự hòa trộn thị giác–ngôn ngữ nguyên bản và các móc kiểm soát chặt chẽ hơn để thực thi nhiệm vụ trên ranh giới ứng dụng di động và máy tính.

Kiến trúc lai (tập trung hiệu suất)

Tài liệu của Alibaba và các tổng hợp trong ngành cho biết Qwen-3.5 dùng kết hợp cơ chế chú ý tuyến tính với định tuyến MoE thưa, sao cho số tham số “kích hoạt hiệu dụng” cho các lời nhắc phổ biến thấp hơn nhiều so với con số tiêu đề. Lợi ích thực tế: năng lực cao hơn trên mỗi đơn vị tính toán và chi phí suy luận thấp hơn — công ty tuyên bố ~60% giảm chi phí triển khai so với các bản phát hành trước.

Cửa sổ ngữ cảnh & hỗ trợ đa ngôn ngữ

Ghi chú công khai nêu cửa sổ ngữ cảnh mở rộng (256k token được đề cập với một số biến thể trọng số mở trong họ Qwen) và phủ ngôn ngữ rộng hơn (Alibaba liên tục mở rộng hỗ trợ ngôn ngữ/phương ngữ qua các thế hệ Qwen). Kết quả: xử lý văn bản dài và tác vụ tác nhân xuyên ngôn ngữ tốt hơn.

Làm thế nào truy cập Qwen 3.5 qua CometAPI?

CometAPI cung cấp một cổng thống nhất tương thích OpenAI tới hơn 500 mô hình (bao gồm Qwen được lưu trữ hoặc các endpoint bên thứ ba). Lớp trừu tượng đó cho phép mã của bạn chuyển đổi nhà cung cấp với ma sát tối thiểu, trong khi CometAPI chuẩn hóa phản hồi và cung cấp phân tích sử dụng cùng thanh toán theo mức dùng.

Từng bước: luồng cơ bản gọi Qwen 3.5 qua CometAPI

Đăng ký & lấy khóa API từ bảng điều khiển CometAPI.
Chọn biến thể Qwen 3.5 trong danh sách mô hình của CometAPI (ví dụ, qwen3.5-plus hoặc qwen3.5-397b-a17b). CometAPI thường hiển thị tên mô hình theo nhà cung cấp dưới dạng chuỗi bạn truyền trong trường model.
Tạo yêu cầu Chat Completion bằng endpoint tương thích OpenAI của họ (ví dụ base URL: https://api.cometapi.com/v1). Bạn có thể dùng SDK OpenAI hoặc HTTP thô. Tài liệu CometAPI hiển thị cả hai cách và khuyến nghị liên kết base URL của thư viện của bạn tới endpoint CometAPI để mã OpenAI hiện có hoạt động với rất ít hoặc không cần thay đổi.

Ví dụ tối giản

cURL (cuộc gọi chat đơn giản)

export COMETAPI_KEY="sk-xxxx"
curl -s -X POST "https://api.cometapi.com/v1/chat/completions" \
  -H "Authorization: Bearer $COMETAPI_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3.5-plus",
    "messages":[
      {"role":"system","content":"You are a concise engineering assistant."},
      {"role":"user","content":"Summarize the tradeoffs between retrieval-augmented generation and fine-tuning."}
    ],
    "max_tokens": 512
  }'

Python (OpenAI client with base_url override)

# Using the OpenAI-compatible client pattern many API hubs support:
from openai import OpenAI

client = OpenAI(api_key="YOUR_COMETAPI_KEY", base_url="https://api.cometapi.com/v1")

resp = client.chat.completions.create(
  model="qwen3.5-plus",
  messages=[
    {"role":"system","content":"You are a concise engineering assistant."},
    {"role":"user","content":"Explain how to implement streaming responses in production (short)."}
  ],
  max_tokens=400
)
print(resp.choices[0].message.content)

Lưu ý: CometAPI chuẩn hóa nhiều khác biệt giữa nhà cung cấp; hãy tham chiếu danh sách mô hình CometAPI để chọn chính xác chuỗi tên cho mỗi biến thể Qwen.

Gọi khả năng hình ảnh / đa phương thức qua gateway

Nếu bạn muốn dùng tính năng thị giác (hình ảnh + văn bản), CometAPI thường hiển thị các khả năng theo nhà cung cấp qua một API duy nhất nhưng có thể yêu cầu đính kèm dữ liệu/binary hình ảnh hoặc URL đã ký. Mẫu chung là bao gồm một input_image (hoặc tham số theo nhà cung cấp) và đặt model tới biến thể Qwen-3.5 phù hợp cho đa phương thức.

Qwen 3.5 tốn bao nhiêu?

Giá API và token của Aliyun

Model	Input tokens per request	Input price (per 1M tokens)	Output price (per 1M tokens)	Free quota (Note)
Non-thinking mode	Thinking mode (CoT + response)
qwen3.5-plus	0<Token≤256K	$0.4	$2.4	$2.4	1 million tokens eachValidity: 90 days after activating Model Studio
256K<Token≤1M	$1.2	$7.2	$7.2
qwen3.5-plus-2026-02-15	0<Token≤256K	$0.4	$2.4	$2.4
256K<Token≤1M	$1.2	$7.2	$7.2

Giá cho qwen3.5-plus trên CometAPI

CometAPI cung cấp thanh toán theo mức dùng và giúp tập trung hóa hóa đơn giữa các nhà cung cấp; mức phí theo token cụ thể phụ thuộc vào nhà cung cấp gốc và bất kỳ biên lợi/chiết khấu CometAPI áp dụng. Trên thực tế, dùng một gateway như CometAPI đơn giản hóa việc chuyển đổi nhà cung cấp và phân tích sử dụng với một chi phí nhỏ bổ sung — hữu ích cho đội ngũ muốn dự phòng đa nhà cung cấp hoặc muốn so sánh hiệu năng so với giá mà không phải tái kỹ thuật.

Khám phá mức giá cạnh tranh cho qwen3.5-plus, được thiết kế phù hợp với nhiều ngân sách và nhu cầu sử dụng. Kế hoạch linh hoạt của chúng tôi đảm bảo bạn chỉ trả cho phần bạn dùng, giúp mở rộng dễ dàng khi yêu cầu tăng. Tìm hiểu cách qwen3.5-plus có thể nâng cao dự án của bạn trong khi vẫn giữ chi phí có thể quản lý.

Giá Comet (USD / M Tokens)	Giá chính thức (USD / M Tokens)	Giảm giá
Input:$0.32/M; Output:$1.92/M	Input:$0.4/M; Output:$2.4/M	-20%

Tôi có thể chạy Qwen 3.5 on-prem hoặc trên hạ tầng tùy chỉnh không?

Có thể, nhưng kèm lưu ý:

Các biến thể lớn (hàng trăm tỷ tham số) yêu cầu phần cứng chuyên dụng (nhiều A100/H100 hoặc cụm AMD Instinct). Hỗ trợ Day-0 cho Qwen 3.5 trên GPU AMD Instinct; các dự án cộng đồng (vLLM, HF) cung cấp công thức triển khai ngăn xếp suy luận tối ưu. Kỳ vọng nỗ lực kỹ thuật đáng kể và chi phí phần cứng cao cho quy mô sản xuất.
Các biến thể họ Qwen nhẹ hơn (tập tham số nhỏ hơn, trọng số kiểu Qwen-Turbo) dễ lưu trữ hơn và hữu ích cho nhiều tác vụ sản xuất với cân bằng chất lượng/chi phí chấp nhận được.

Nếu tuân thủ hoặc yêu cầu cư trú dữ liệu bắt buộc triển khai on-prem, hãy cân nhắc cách tiếp cận lai: chạy embedding và truy hồi cục bộ, và gọi Qwen được lưu trữ cho các tác vụ đa phương thức hoặc dạng tác nhân phức tạp.

Những lựa chọn đám mây hoặc lưu trữ sẵn có?

Alibaba Cloud Model Studio: cung cấp endpoint Qwen được lưu trữ, giao diện tương thích OpenAI và bộ công cụ tích hợp (RAG, toolkits). Phù hợp cho các đội ngũ đã dùng Alibaba Cloud.
API bên thứ ba (CometAPI, v.v.): lựa chọn nhanh để thử nghiệm đa mô hình, chuyển đổi nhà cung cấp trung lập và so sánh chi phí.
Trọng số mở / tự lưu trữ: nếu bạn cần toàn quyền địa phương hóa dữ liệu, tải trọng số mở và phục vụ chúng trên cụm của bạn (ngăn xếp NCCL/ROCm hoặc CUDA).

Phần cứng: GPU và ngăn xếp nào?

Hỗ trợ AMD Day-0: AMD công bố công cụ ROCm và container Day-0 cho Qwen 3.5 trên GPU Instinct — hữu ích nếu bạn triển khai trên phần cứng AMD. Với các môi trường NVIDIA, container tối ưu và hỗ trợ Triton có khả năng xuất hiện nhanh chóng.
Tối ưu suy luận: lượng tử hóa (INT8/4), chia tensor, và tinh chỉnh định tuyến MoE giúp giảm nhu cầu bộ nhớ và tính toán; hãy chọn kích thước mô hình phù hợp. Với tác nhân thời gian thực, ưu tiên mô hình ít tham số hơn cùng batching tích cực và beam width nhỏ.

Thực hành tốt nhất khi tích hợp Qwen 3.5

Dưới đây là các quy tắc và mẫu kỹ thuật thực tiễn — chắt lọc từ tài liệu nhà cung cấp, đánh giá sớm và thực hành kỹ thuật LLM chuẩn — để xây dựng hệ thống vững chắc, có thể mở rộng và tối ưu chi phí.

Lời nhắc & vệ sinh thông điệp hệ thống

Dùng thông điệp system rõ ràng để đặt persona, ngân sách token và định dạng đầu ra.
Ưu tiên lời nhắc ngắn, có cấu trúc cho JSON hoặc kết quả hàm dự đoán được; chỉ dùng chuỗi suy nghĩ dài khi cần thiết (chúng tốn kém hơn và có thể tăng độ trễ). “Thinking” vs “Non-Thinking” — chọn “Non-Thinking” cho phản hồi đơn giản quyết định và chuyển sang “Thinking” cho suy luận nặng.

Quản lý token và ngữ cảnh (quan trọng với cửa sổ 1M)

Chia nhỏ tài liệu dài và dùng truy hồi bổ sung để giữ ngữ cảnh hoạt động nhỏ; dù Qwen Plus hỗ trợ 1M token, truyền ngữ cảnh rất lớn cho mỗi lượt gọi sẽ tốn kém. Thay vào đó: lập chỉ mục tài liệu, lấy các phần liên quan và chỉ đưa vào các trích đoạn cần thiết.
Dùng embedding + vector DB để truy hồi trước; sau đó gọi mô hình với ngữ cảnh truy hồi được cùng hướng dẫn ngắn gọn. Mẫu RAG này giảm chi phí token và độ trễ.

Chiến lược tối ưu chi phí

Kiểm soát kích thước đầu ra bằng max_tokens và chỉ dẫn rõ “trả lời trong N từ”.
Dùng chế độ không suy luận cho mẫu và câu trả lời ngắn; chỉ dùng chuỗi suy nghĩ khi lợi ích chất lượng xứng đáng chi phí. Tài liệu Alibaba liên kết rõ các chế độ suy nghĩ lai với đánh đổi chi phí/hiệu năng.
Ghép lô yêu cầu khi có thể (nhiều lời nhắc trong một yêu cầu) để giảm chi phí cố định cho khối lượng công việc hướng thông lượng.
Theo dõi token mỗi yêu cầu và độ trễ bằng phân tích của nhà cung cấp (CometAPI có bảng điều khiển sử dụng). Giám sát top-N lời nhắc theo chi phí để tìm mục tiêu tối ưu.

Độ tin cậy và hạn mức tốc độ

Triển khai exponential backoff + jitter cho lỗi 429/503.
Dùng gateway (CometAPI) hoặc bảng điều khiển nhà cung cấp để theo dõi hạn mức và đặt cảnh báo. CometAPI cung cấp phân tích sử dụng giúp phát hiện nhanh các đột biến chi phí.

Gọi hàm / công cụ / thiết kế tác nhân

Xem lời gọi công cụ như một giai đoạn riêng: mô hình đề xuất công cụ + đối số, bạn xác thực/ủy quyền rồi thực thi công cụ phía máy chủ. Không bao giờ thực thi mù quáng các chỉ dẫn công cụ không tin cậy. Qwen 3.5 quảng bá mẫu công cụ tích hợp; áp dụng kiểm tra đầu vào nghiêm ngặt và kiểm soát truy cập.

Góc nhìn kết: điều gì đáng theo dõi tiếp theo

Phát hành Qwen 3.5 dịp Tết Nguyên Đán là chiến lược: gói các tính năng tác nhân nâng cao, xử lý ngữ cảnh lớn và chi phí vận hành thấp vào cả trọng số mở và dịch vụ lưu trữ. Câu chuyện nhà phát triển ngay lập tức khá mạnh: nhiều cách để thử mô hình (API lưu trữ như CometAPI, lưu trữ đám mây qua Alibaba Cloud hoặc trọng số tự lưu trữ) và hỗ trợ phần cứng nhanh (AMD).

Nhà phát triển có thể truy cập API Qwen 3.5 qua CometAPI ngay bây giờ. Để bắt đầu, khám phá các khả năng của mô hình trong Playground và tham khảo Hướng dẫn API để biết hướng dẫn chi tiết. Trước khi truy cập, vui lòng đảm bảo bạn đã đăng nhập CometAPI và lấy khóa API. CometAPI cung cấp mức giá thấp hơn nhiều so với giá chính thức để hỗ trợ tích hợp của bạn.

Sẵn sàng bắt đầu?→ Đăng ký Qwen-3.5 ngay hôm nay !

Nếu bạn muốn biết thêm mẹo, hướng dẫn và tin tức về AI, hãy theo dõi chúng tôi trên VK, X và Discord!