Thông số kỹ thuật của GLM-5.1
| Thông số | Chi tiết |
|---|---|
| Nhà phát triển | Z.ai (Zhipu AI) |
| Phiên bản mô hình | GLM-5.1 (tinh chỉnh hậu huấn luyện của GLM-5) |
| Kiến trúc | Mixture-of-Experts (MoE); ~744–754 tỷ tham số tổng, ~40 tỷ tham số hoạt động trên mỗi token; tích hợp Multi-head Latent Attention và DeepSeek Sparse Attention để hiệu quả với ngữ cảnh dài |
| Độ dài ngữ cảnh | 200K–203K token (lên đến 202,752–204.8K trong một số cấu hình) |
| Số token đầu ra tối đa | 128K token |
| Chế độ dữ liệu | Chỉ văn bản (input/output); không hỗ trợ gốc cho thị giác hoặc âm thanh |
| Khả năng chính | Chế độ tư duy, xuất kết quả dạng streaming, gọi hàm/sử dụng công cụ (tích hợp MCP), lưu đệm ngữ cảnh, xuất JSON có cấu trúc |
| Giấy phép | MIT (trọng số mã nguồn mở hoàn toàn) |
| Tùy chọn triển khai | API chính thức, suy luận cục bộ (vLLM, SGLang), Hugging Face / ModelScope |
| Phần cứng huấn luyện | Chip Huawei Ascend (không phụ thuộc Nvidia) |
GLM-5.1 là gì
GLM-5.1 là mô hình ngôn ngữ đẳng cấp tiên phong của Z.ai, được tối ưu cho nhiệm vụ tự động dài hạn. Khác với các LLM truyền thống vốn mạnh ở tương tác ngắn, đơn lượt, nó được thiết kế cho các vòng lặp thực thi bền bỉ—lập kế hoạch, viết mã, kiểm thử, benchmark, gỡ lỗi và tối ưu hóa lặp—trong thời gian dài mà không cần can thiệp của con người.
Tính năng chính của GLM-5.1
1. Công việc tự động dài hạn
Thực thi liên tục 8 giờ: GLM-5.1 là mẫu flagship mới nhất của Z.AI cho các nhiệm vụ dài hạn, và tài liệu chính thức cho biết nó có thể làm việc liên tục, tự động trên một tác vụ đơn lẻ trong tối đa 8 giờ. Nó được định vị để xử lý trọn vòng từ lập kế hoạch và thực thi đến tối ưu hóa lặp và bàn giao cuối cùng.
Tối ưu hóa vòng kín: Một tính năng cốt lõi của GLM-5.1 là khả năng liên tục lặp qua chu trình “thử nghiệm → phân tích → tối ưu”, thay vì dừng ở kết quả một lần. Z.AI xem đây là bước tiến lớn hướng tới kỹ thuật tự động và tác nhân lập trình dài hạn.
2. Khả năng lập trình và suy luận mạnh
Cân bằng năng lực rộng: GLM-5.1 nhìn chung tương đồng với Claude Opus 4.6 về năng lực tổng thể và hiệu năng lập trình, đồng thời thể hiện hồ sơ cân bằng trên các benchmark về suy luận, lập trình, tác nhân, sử dụng công cụ và duyệt web.
Quy trình kỹ thuật nâng cao: GLM-5.1 được thiết kế cho quy trình phát triển thực tế, bao gồm tối ưu hóa kỹ thuật phức tạp, gỡ lỗi và bàn giao đạt chuẩn sản xuất. Z.AI định vị nó như nền tảng cho các tác nhân tự động và tác nhân lập trình dài hạn.
3. Hỗ trợ tốt hơn cho tác vụ phức tạp
Ngữ cảnh và đầu ra lớn hơn: Hướng dẫn chuyển đổi liệt kê độ dài ngữ cảnh tối đa của GLM-5.1 là 200K và đầu ra tối đa là 128K, giúp nó phù hợp hơn cho các nhiệm vụ lớn và phiên làm việc kéo dài.
Suy nghĩ sâu và streaming công cụ: GLM-5.1 hỗ trợ chế độ suy nghĩ sâu, và Z.AI cũng thêm xuất kết quả dạng streaming trong lúc gọi công cụ với tool_stream=true, giúp hiển thị tham số gọi công cụ theo thời gian thực.
4. Xây dựng cho Agentic Engineering
Từ tạo mã đến bàn giao tự động: Định vị của Z.AI cho GLM-5.1 không chỉ là “tạo mã” mà là “bàn giao công việc kỹ thuật”. Tài liệu mô tả nó như mẫu flagship thế hệ mới cho “Agentic Engineering”, nhấn mạnh lập kế hoạch, thực thi, tối ưu và bàn giao trong một quy trình.
Ổn định hơn trên các tác vụ dài: Ghi chú phát hành cho biết GLM-5.1 cải thiện độ ổn định, tính nhất quán và khả năng dùng công cụ trong các tác vụ kéo dài, được hỗ trợ bởi SFT đa lượt, RL và đánh giá chất lượng quy trình.
GLM-5.1 so với các mô hình khác
GLM-5.1 nổi bật như một trong những lựa chọn mã nguồn mở mạnh nhất và là đối thủ trực tiếp của các mô hình frontier đóng trong các kịch bản lập trình và tác nhân:
- vs. Claude Opus 4.6: ~94–100% hiệu năng lập trình trên SWE-Bench Pro (58.4 vs. 57.3); khả năng tự động dài hạn vượt trội và chi phí thấp hơn thông qua trọng số mở/bộ tổng hợp.
- vs. GPT-5.4: Vượt trội trên SWE-Bench Pro (58.4 vs. 57.7); cạnh tranh hoặc hơi kém ở một số tác vụ suy luận thuần túy.
- vs. GLM-5 (tiền nhiệm): tăng 28% về hiệu năng lập trình và khả năng thực thi bền bỉ tốt hơn rõ rệt.
- vs. Llama 3.1 / Qwen / DeepSeek: Kết quả tác nhân và dài hạn mạnh hơn; giấy phép MIT mở mang lại tự do tùy biến lớn hơn so với nhiều lựa chọn khác.
Ưu thế chính của nó là khả năng tiếp cận mã nguồn mở, hiệu quả chi phí ở quy mô lớn và tối ưu hóa chuyên biệt cho các tác nhân kỹ thuật trong thực tế.
Trường hợp sử dụng
GLM-5.1 vượt trội ở những trường hợp cần khả năng xử lý lặp lại, chạy dài:
- Kỹ thuật phần mềm tự động: Phát triển tính năng full-stack, di chuyển mã, tái cấu trúc quy mô lớn và kiểm thử end-to-end với giám sát tối thiểu.
- Tối ưu hiệu năng: Cải tiến cấp kernel, tinh chỉnh cơ sở dữ liệu và benchmark nhiều vòng (ví dụ: tăng tốc truy vấn vector 6.9×).
- Quy trình tác nhân: Tích hợp vào các tác nhân lập trình (Claude Code, OpenClaw) cho các tác vụ quy mô repository hoặc xây dựng hệ thống phức tạp.
- Năng suất doanh nghiệp: Phân tích tài liệu dài, tạo báo cáo và tài liệu văn phòng có cấu trúc.
- Nghiên cứu & tạo mẫu: Lặp nhanh trên các vấn đề mơ hồ cần hàng trăm bước tự hiệu chỉnh.
Cách truy cập GLM-5.1 qua CometAPI
CometAPI, một bộ tổng hợp mô hình AI hợp nhất, cung cấp quyền truy cập tức thì, tương thích với OpenAI tới GLM-5.1 (và GLM-5) cùng hơn 500 mô hình khác. Nhà phát triển chỉ cần đăng ký tại cometapi.com, lấy khóa API và định tuyến yêu cầu tới endpoint(glm-5.1) bằng các SDK chuẩn của OpenAI hoặc Chat Completions. Không cần thiết lập hạ tầng—CometAPI xử lý định tuyến suy luận, cân bằng tải và chuyển đổi dự phòng.
Giá CometAPI hiện tại (xấp xỉ, vào giữa tháng 4 năm 2026):
- Đầu vào: $0.8 mỗi triệu token
- Đầu ra: $3.2 mỗi triệu token
Mức này thấp hơn đáng kể so với giá trực tiếp của Z.ai (~$1.4 / $4.4) và chỉ bằng một phần so với các mô hình frontier tương đương ở phương Tây.