Khi trí tuệ nhân tạo tiếp tục phát triển, Qwen 2.5 của Alibaba nổi lên như một đối thủ đáng gờm trong lĩnh vực mô hình ngôn ngữ lớn (LLM). Được phát hành vào đầu năm 2025, Qwen 2.5 tự hào có những cải tiến đáng kể so với các phiên bản trước, cung cấp một bộ tính năng phục vụ cho nhiều ứng dụng khác nhau—từ phát triển phần mềm và giải quyết vấn đề toán học đến tạo nội dung đa ngôn ngữ và hơn thế nữa.
Bài viết này đi sâu vào những điều phức tạp của Qwen 2.5, cung cấp tổng quan chi tiết về kiến trúc, khả năng và ứng dụng thực tế của nó. Cho dù bạn là nhà phát triển, nhà nghiên cứu hay chuyên gia kinh doanh, việc hiểu cách tận dụng Qwen 2.5 có thể mở ra những khả năng mới trong công việc của bạn.
Qwen 2.5 là gì?
Qwen 2.5 là họ mô hình ngôn ngữ lớn thế hệ 2025 của Alibaba Cloud, bao gồm 1.5 B đến 72 tham số B (và một anh chị em được tối ưu hóa lý luận 32 B) và hiện hỗ trợ các sản phẩm thương mại, nghiên cứu và tiêu dùng như Qwen Chat, DashScope và cổng API tương thích với OpenAI. So với Qwen 2, dòng 2.5 giới thiệu (i) lõi Hỗn hợp chuyên gia (MoE) để tăng hiệu quả, (ii) đào tạo trên ~20 T token, (iii) hướng dẫn theo dõi, mã hóa và lý luận đa ngôn ngữ mạnh hơn, (iv) các biến thể ngôn ngữ tầm nhìn (VL) và "Omni" đa phương thức hoàn toàn và (v) các tùy chọn triển khai từ Alibaba Cloud đến tự lưu trữ thông qua GitHub, Hugging Face, ModelScope và Docker/OLLAMA.
Tất cả các kích cỡ đều có chung một điểm công thức luyện tập trước nhưng lại khác nhau trong hướng dẫn-tinh chỉnh các lớp: Qwen‑Chat (cho đối thoại mở) và Qwen‑Base (cho tinh chỉnh hạ lưu). Các điểm kiểm tra lớn hơn cũng bao gồm Qwen 2.5‑Tối đa, phiên bản Hỗn hợp chuyên gia (MoE) thưa thớt kích hoạt 2.7 B tham số cho mỗi mã thông báo để giảm đáng kể chi phí suy luận trên GPU.
Điểm nổi bật về kiến trúc của Qwen 2.5
Sự thay đổi về kiến trúc
Qwen 2.5 đại diện cho một bước tiến đáng kể trong phát triển mô hình AI, chủ yếu là do quá trình đào tạo mở rộng và kiến trúc tinh tế của nó. Mô hình được đào tạo trước trên một tập dữ liệu khổng lồ bao gồm 18 nghìn tỷ token, tăng đáng kể so với 7 nghìn tỷ token được sử dụng trong phiên bản tiền nhiệm của nó, Qwen 2. Tập dữ liệu đào tạo mở rộng này nâng cao khả năng hiểu ngôn ngữ, lý luận và kiến thức chuyên ngành của mô hình.
Qwen 2.5 áp dụng xương sống Hỗn hợp chuyên gia (MoE) thưa thớt: chỉ một tập hợp chuyên gia nhỏ được kích hoạt trên mỗi mã thông báo, cho phép tăng năng lực hiệu quả mà không tăng chi phí tuyến tính Qwen. Đào tạo sử dụng ~20 T mã thông báo và chương trình giảng dạy dữ liệu được tinh chỉnh với tinh chỉnh có giám sát (SFT) cộng với RLHF. Các điểm chuẩn do nhóm công bố cho thấy những tiến bộ lớn về MMLU, toán học GSM8K và hiểu biết đa ngôn ngữ liên ngôn ngữ so với Qwen 2 và các đường cơ sở ngang hàng 7 B/70 B.
Gia đình mẫu Qwen 2.5
| Edition | Kích thước máy | Phương thức | Mục đích & tính năng tiêu đề |
|---|---|---|---|
| Qwen 2.5‑1.5B‑Hướng dẫn | 1.5 tỷ | bản văn | Thiết bị biên / chatbot nơi bộ nhớ khan hiếm |
| Qwen 2.5‑7B‑Hướng dẫn | 7 tỷ | bản văn | LLM nguồn mở hàng đầu với 32 k ngữ cảnh, phạm vi bao phủ 29 ngôn ngữ |
| Qwen 2.5‑Omni‑7B | 7 tỷ | Đa phương thức (văn bản + hình ảnh + âm thanh + video) | Sự kết hợp phương thức đầu cuối |
| Qwen 2.5‑VL‑3B/7B/72B‑Hướng dẫn | 3–72B | Ngôn ngữ thị giác | Chú thích dày đặc, QA tài liệu, OCR, phân tích biểu đồ |
| QwQ-32B | 32 tỷ | Văn bản (lý luận) | MoE chuyên về toán/lập trình; ngang bằng với DeepSeek R1 671 B với chi phí 5% |
| Qwen 2.5‑Tối đa | không tiết lộ (nhiều chuyên gia) | bản văn | Người dẫn đầu chuẩn mực nội bộ, có sẵn thông qua API và Qwen Chat |
Khả năng chính và chuẩn mực
Hướng dẫn sau đây & phạm vi tiếp cận đa ngôn ngữ
Các bài báo nội bộ cho thấy Qwen 2.5‑7B vượt qua Llama‑3 8B trên AlpacaEval (92 so với 89) và đạt tỷ lệ thắng 79% so với GPT‑3.5‑Turbo trên Chinese MT‑Bench. Các ngôn ngữ được hỗ trợ bao gồm tiếng Thổ Nhĩ Kỳ, tiếng Indonesia, tiếng Đức, tiếng Ả Rập và tiếng Swahili. Cửa sổ ngữ cảnh 32 k với mã hóa vị trí trượt dây cung cấp bản tóm tắt PDF dài 200 trang mà không bị phân mảnh.
Mã hóa và lý luận
QwQ‑32B đạt 50.4% trên GSM8K (5‑shot) và 74% trên HumanEval‑Plus, ngang bằng với DeepSeek R1 ở mức một phần hai mươi số lượng tham số. Các thử nghiệm cộng đồng ban đầu cho thấy mô hình 7 B có thể biên dịch và gỡ lỗi các đoạn mã C++ bằng g++‑13 bên trong hộp cát Docker với ảo giác tối thiểu.
Điểm mạnh đa phương thức
Qwen 2.5‑VL‑72B đạt 62.7% trên MMMU và 73.4% trên TextVQA, vượt qua Gemini 1.5‑Pro trong các tác vụ OCR bảng (theo blog tháng 7 của Qwen). Omni‑4B mở rộng điều này sang phiên âm phổ âm thanh và lấy mẫu khung MPXNUMX thông qua một bộ mã hóa được chia sẻ.
Cấp phép, an toàn và quản trị
Alibaba vẫn giữ nguyên mã/giấy phép Apache 2.0 với một “Qian-Wen có trách nhiệm AI” người lái:
- Cấm: nội dung khủng bố, thông tin sai lệch, trích xuất dữ liệu cá nhân.
- Cần thiết: các nhà phát triển phải triển khai bộ lọc nội dung và chèn hình mờ trong các ứng dụng tiếp theo.
Giấy phép cho phép sử dụng thương mại nhưng bắt buộc tiết lộ thẻ mẫu nếu trọng số được sửa đổi và triển khai lại. Trên Alibaba Cloud, việc kiểm duyệt được thực thi ở phía máy chủ; người tự lưu trữ phải tích hợp bộ lọc gradient chính sách nguồn mở (được liên kết trong kho lưu trữ).
Lộ trình hướng tới Qwen 3
Bloomberg và PYMNTS đưa tin Alibaba sẽ tiết lộ Qwen 3 “sớm nhất là vào cuối tháng 2025 năm 100”, có khả năng nhảy vọt lên >4 B tham số dày đặc và khả năng sử dụng công cụ gốc. Những người trong cuộc cho rằng các cụm GPU 2048×800 trên Hanguang 3+ ASIC và hạt nhân Triton‑Flash‑Attention v2.5 đang được thử nghiệm. Qwen 3 sẽ vẫn là nhánh mã nguồn mở, trong khi Qwen 3 có thể ra mắt theo giấy phép hạn chế hơn tương tự như Llama XNUMX‑Commercial của Meta.
Mẹo thực tế cho các nhà phát triển
- Đếm mã thông báo: Qwen sử dụng Mã thông báo Qwen; mã thông báo đặc biệt của nó bằng
<|im_end|>trong lời nhắc theo phong cách OpenAI. - Tin nhắn hệ thống: Quấn bằng
<|im_start|>system … <|im_end|>để duy trì thứ bậc và tránh những thủ phạm gây ra trọng số delta. - Tinh chỉnh: Chỉ áp dụng LoRA rank-64 trên các lớp 20-24; LoRA lớp đầu mang lại lợi ích không đáng kể do MoE thưa thớt.
- Trực tiếp: Với DashScope, hãy kích hoạt
X-DashScope-Stream: true; kích thước khối là 20 mã thông báo. - Đầu vào Qwen‑VL: Mã hóa byte hình ảnh dưới dạng base64; truyền qua
inputs=.
Kết luận
Qwen 2.5 củng cố vị thế của Alibaba Cloud trong cuộc đua LLM nguồn mở toàn cầu bằng cách kết hợp hiệu quả của MoE với giấy phép cho phép và một loạt các tuyến truy cập—từ Qwen Chat chỉ cần một cú nhấp chuột đến Ollama trên máy tính xách tay và các điểm cuối DashScope cấp doanh nghiệp. Đối với các nhà nghiên cứu, kho dữ liệu đào tạo minh bạch và tính tương đương mạnh mẽ giữa tiếng Trung và tiếng Anh của nó lấp đầy khoảng trống mà loạt bài Llama của Meta để lại. Đối với các nhà xây dựng, API tương thích với OpenAI cắt giảm ma sát di chuyển, trong khi các nhánh VL/Omni đa phương thức dự đoán một tương lai gần, nơi văn bản, hình ảnh, âm thanh và video hội tụ dưới một không gian mã thông báo thống nhất. Khi Qwen 3 xuất hiện vào cuối tháng này, Qwen 2.5 vừa đóng vai trò là một nền tảng thử nghiệm vừa là một mô hình sản xuất mạnh mẽ—một mô hình đang định hình lại phép tính cạnh tranh của AI quy mô lớn vào năm 2025.
Dành cho nhà phát triển: Truy cập API
Sao chổiAPI cung cấp mức giá thấp hơn nhiều so với giá chính thức để giúp bạn tích hợp Qwen API và bạn sẽ nhận được 1 đô la trong tài khoản của mình sau khi đăng ký và đăng nhập! Chào mừng bạn đến đăng ký và trải nghiệm CometAPI.
CometAPI hoạt động như một trung tâm tập trung cho các API của một số mô hình AI hàng đầu, loại bỏ nhu cầu phải hợp tác riêng với nhiều nhà cung cấp API.
Vui lòng tham khảo trước Qwen 2.5 API tối đa để biết chi tiết về tích hợp. CometAPI đã cập nhật phiên bản mới nhất API QwQ-32B.Để biết thêm thông tin về Model trong Comet API, vui lòng xem Tài liệu API.


