GLM-5 so với GLM-4.7: điều gì đã thay đổi, điều gì quan trọng, và bạn có nên nâng cấp?

GLM-5, phát hành ngày February 11, 2026 bởi Zhipu AI (Z.ai), đại diện cho một bước nhảy vọt về kiến trúc so với GLM-4.7: quy mô MoE lớn hơn (≈744B so với ~355B tổng tham số), dung lượng tham số hoạt động cao hơn, ảo giác đo được thấp hơn, và cải thiện rõ rệt trên các điểm chuẩn về tác tử và lập trình — với cái giá là độ phức tạp suy luận và (đôi khi) độ trễ.

GLM-5 là gì và vì sao lần phát hành này quan trọng?

GLM-5 là mô hình kiểu gì?

GLM-5 là mô hình ngôn ngữ lớn mở trọng số mới nhất từ Zhipu AI (Z.ai), phát hành vào ngày February 11, 2026. Đây là một transformer Mixture-of-Experts (MoE) mở rộng dòng GLM lên tới ~744 tỷ tổng tham số, trong khi kích hoạt khoảng 40 tỷ tham số mỗi lần suy luận (tức là định tuyến MoE của mô hình giữ lượng tính toán hoạt động nhỏ hơn nhiều so với tổng tham số). Mô hình được cung cấp theo giấy phép MIT và được tối ưu cho khối lượng công việc mang tính tác tử — các tác vụ dài hạn, nhiều bước như điều phối công cụ, viết và tinh chỉnh mã, xử lý tài liệu, và công việc tri thức phức tạp.

Những cải tiến nổi bật so với các biến thể GLM trước đây là gì?

Danh sách ngắn các thay đổi hệ trọng:

Mở rộng tham số: GLM-5 ≈ 744B tổng (40B hoạt động) so với GLM-4.7 ~355B tổng / 32B hoạt động — gần như tăng gấp 2 lần quy mô mô hình.
Điểm chuẩn & tính xác thực: Tăng mạnh trên các điểm chuẩn độc lập (Artificial Analysis Intelligence Index: GLM-5 = 50 so với GLM-4.7 = 42), và giảm lớn tình trạng ảo giác trên chỉ số AA Omniscience (báo cáo giảm 56 điểm phần trăm so với GLM-4.7).
Năng lực tác tử: Cải thiện độ tin cậy cho gọi công cụ, phân rã kế hoạch, và thực thi tầm xa (Z.ai định vị GLM-5 cho “kỹ thuật tác tử”).
Triển khai & chip: Xây dựng và đo điểm chuẩn để chạy trên phần cứng suy luận nội địa Trung Quốc (Huawei Ascend và các nền tảng khác), phản ánh bước đi của Z.ai hướng tới các ngăn xếp chip đa dạng.

Vì sao quan trọng: GLM-5 thu hẹp khoảng cách giữa mô hình mở trọng số và các mô hình tiên phong độc quyền về các tác vụ tác tử và tri thức — khiến các mô hình mã nguồn mở năng lực cao trở thành lựa chọn thực tế cho doanh nghiệp cần triển khai kiểm soát được và giấy phép linh hoạt.

Có gì mới trong GLM-5 (chi tiết)

Định vị: “Kỹ thuật tác tử” ở quy mô

GLM-5 được Z.ai định vị rõ ràng là mô hình dành cho “kỹ thuật tác tử”: nhóm trường hợp sử dụng mà mô hình lập kế hoạch, phát lệnh gọi công cụ, kiểm tra kết quả, và lặp lại một cách tự động qua nhiều bước (ví dụ: xây dựng pipeline CI, phân loại và sửa bài kiểm lỗi thất bại, hoặc ghép các microservice). Đây là chuyển dịch chiến lược từ sinh mã đơn lượt thuần túy sang các mô hình được thiết kế để chạy và suy luận qua dấu vết thực thi và đầu ra công cụ.

Chế độ suy nghĩ, suy luận được lưu giữ/xen kẽ

GLM-5 giới thiệu các “chế độ suy nghĩ” tinh chỉnh (đôi khi gọi trong tài liệu là interleaved thinking, preserved thinking), nghĩa là mô hình có thể phát ra — và sau đó tái sử dụng — các dấu vết suy luận nội bộ ở các lượt và lần gọi công cụ tiếp theo. Về thực tế, điều này giảm chi phí tái suy diễn trong các quy trình dài và cải thiện tính nhất quán khi tác tử phải duy trì trạng thái kế hoạch qua các kết quả công cụ. GLM-4.7 đã giới thiệu các biến thể suy nghĩ sớm hơn và hành vi nhận biết công cụ; GLM-5 tinh chỉnh cơ chế và công thức huấn luyện để khiến các dấu vết này đáng tin cậy và tái sử dụng tốt hơn.

Kỹ thuật ngữ cảnh dài và ổn định hệ thống

Huấn luyện và tinh chỉnh GLM-5 kiểm thử sinh với ngữ cảnh rất dài (202.752 token trong các lượt SFT/đánh giá). Đây là tăng trưởng thực tiễn quan trọng khi bạn cần mô hình quan sát nhiều kho mã, nhật ký kiểm thử, và đầu ra điều phối trong một prompt. Bố trí đánh giá đẩy độ dài sinh lên 131.072 token cho một số tác vụ suy luận. Đây là nỗ lực kỹ thuật đáng chú ý để giảm bất ổn thường thấy khi điều kiện hóa trên ngữ cảnh khổng lồ.

Kiến trúc và mở rộng (MoE)

Các báo cáo công khai cho biết GLM-5 sử dụng kiến trúc MoE (hỗn hợp chuyên gia) lớn với vài trăm tỷ tham số tổng (thống kê công khai liệt kê ~744–745B). GLM-4.7 có các biến thể MoE và Flash được tinh chỉnh cho các đánh đổi triển khai khác nhau (ví dụ, biến thể “Flash” với số tham số hoạt động nhỏ hơn cho suy luận cục bộ hoặc chi phí thấp). Thiết kế MoE giúp GLM-5 đẩy đỉnh năng lực đồng thời cho phép lựa chọn cấu hình (giảm tham số hoạt động để suy luận rẻ hơn). Kỳ vọng hồ sơ suy luận khác nhau (độ trễ, VRAM) tùy biến thể bạn triển khai.

Z.ai đã mở rộng và huấn luyện GLM-5 như thế nào so với GLM-4.7?

Khác biệt kiến trúc cốt lõi

Tính năng	GLM-5	GLM-4.7
Ngày phát hành	Feb 2026 (flagship)	Dec 2025
Họ mô hình	Thế hệ mới nhất	Thế hệ trước
Tổng tham số	~744B	~355B
Tham số hoạt động (MoE)	~40B (mỗi lượt truyền tiến)	~32B (mỗi lượt truyền)
Kiến trúc	Mixture-of-Experts kèm chú ý thưa	MoE với chế độ suy nghĩ
Cửa sổ ngữ cảnh	~200K token (cỡ nền tảng như nhau)	~200K token

Kết luận chính: GLM-5 gần như tăng gấp đôi tổng dung lượng so với GLM-4.7 và tăng tham số hoạt động, góp phần vào khả năng suy luận và tổng hợp tốt hơn, đặc biệt cho nội dung kỹ thuật dài, chuỗi suy luận mở rộng, và các tác vụ kỹ nghệ mã phức tạp.

Kiến trúc: thay đổi gì?

GLM-4.7 là thiết kế MoE ở các biến thể lớn (được ghi nhận ~355B tổng tham số với tập hoạt động nhỏ hơn mỗi token). GLM-5 giữ các ý tưởng thưa kiểu MoE nhưng bổ sung cơ chế chú ý thưa mới — báo cáo gọi là DeepSeek Sparse Attention (DSA) — phân bổ tài nguyên chú ý động cho các token được coi là quan trọng. Tuyên bố là DSA giảm chi phí huấn luyện/suy luận đồng thời duy trì (hoặc cải thiện) suy luận ngữ cảnh dài, cho phép mô hình xử lý ngữ cảnh dài hơn nhiều so với các checkpoint cũ trong khi giữ tính toán ở mức có thể quản lý.

Quy mô: tham số và dữ liệu

GLM-4.7: được ghi nhận khoảng 355 tỷ tổng tham số cho phiên bản MoE chính (với tập tham số hoạt động nhỏ hơn nhiều mỗi lượt truyền để hiệu quả).
GLM-5: báo cáo ~744 tỷ tham số và được huấn luyện với ~28,5 nghìn tỷ token trong ngân sách tiền huấn luyện, nhấn mạnh huấn luyện về mã và chuỗi tác tử. Kết hợp này nhằm cải thiện tổng hợp mã và hoạch định tác tử bền vững.

Bước nhảy tham số, cùng với mở rộng ngân sách token và cập nhật kiến trúc, là lý do phía đầu vào chủ đạo khiến GLM-5 có kết quả số tốt hơn trên các bảng xếp hạng về mã và tác tử.

Chiến lược huấn luyện và hậu huấn luyện (RL)

Nơi GLM-4.7 giới thiệu các chế độ “suy nghĩ xen kẽ” hoặc “giữ suy nghĩ” để cải thiện suy luận nhiều bước và sử dụng công cụ, GLM-5 chính thức hóa pipeline đó bằng cách:

Mở rộng độ dài ngữ cảnh qua lịch trình giữa kỳ (nhóm báo cáo mở rộng tiến dần tới 200K token).
Triển khai pipeline hậu huấn luyện RL tuần tự (Reasoning RL → Agentic RL → General RL) cùng chưng cất xuyên giai đoạn theo chính sách để tránh quên thảm họa.
Thêm RL bất đồng bộ và động cơ rollout tách rời để mở rộng quỹ đạo tác tử trong RL mà không vướng nút thắt đồng bộ.

Các phương pháp này nhắm trực tiếp vào việc cải thiện hành vi tác tử tầm xa — ví dụ, giữ trạng thái nội bộ ổn định qua các phiên dài nơi mô hình thực hiện nhiều lần gọi công cụ và chỉnh sửa mã phụ thuộc lẫn nhau.

GLM-5 và GLM-4.7 so sánh thế nào về hiệu năng và năng lực?

Điểm chuẩn & thước đo trí tuệ

Khu vực đánh giá	GLM-5	GLM-4.7
Lập trình (SWE-bench)	~77,8% (SOTA mô hình mở)	~73,8% trên SWE-bench Verified
Tác vụ Tool & CLI	~56% trên Terminal Bench 2.0	~41% trên Terminal Bench 2.0
Suy luận (HLE & mở rộng)	Điểm ~30,5 → ~~50 với công cụ (điểm chuẩn nội bộ)	~24,8 → ~42,8 trên HLE với công cụ
Tác vụ tác tử & nhiều bước	Mạnh hơn đáng kể (chuỗi dài hơn)	Mạnh (chế độ suy nghĩ) nhưng kém sâu hơn GLM-5

Diễn giải:

GLM-5 vượt GLM-4.7 rộng khắp trên các điểm chuẩn cốt lõi về mã hóa và suy luận với biên đáng kể. Đặc biệt rõ trong tự động hóa nhiều bước, phân rã vấn đề, và tác vụ logic sâu.
Các cải thiện không hề nhỏ: ví dụ, năng lực Terminal Bench tăng từ ~41% lên 56%, một mức tăng tương đối lớn về độ tin cậy tự động hóa tác tử.
Trên các bài kiểm suy luận (như chỉ số HLE nội bộ), GLM-5 cho đầu ra suy luận mạnh hơn cả ở dạng thô lẫn khi có công cụ hỗ trợ.
Ghi nhận tăng trưởng đo được trên các bài kiểm tác tử thực tế: ở chỉ số CC-Bench-V2 frontend HTML ISR, GLM-5 đạt 38,9% so với 35,4% của GLM-4.7 trên một tập con tác vụ frontend. (Đây là một trong các chỉ số đánh giá tự động để thể hiện năng lực phát triển front-end thực tiễn.)

Kích thước ngữ cảnh & tác vụ dài

Cả hai mô hình đều hỗ trợ ngữ cảnh lớn (~200k token) — nghĩa là có thể tiếp nhận và suy luận trên tài liệu, codebase, hoặc đối thoại dài hơn.
Báo cáo giai thoại thực tế cho thấy triển khai GLM-5 đôi khi có vấn đề nhận thức về quản lý ngữ cảnh trên một số nền tảng — nhưng điều này có thể phản ánh giới hạn của máy chủ lưu trữ hơn là thiết kế mô hình.

Gọi công cụ và hàm

Cả hai đều hỗ trợ lời gọi hàm/công cụ có cấu trúc; GLM-5 đơn giản là thực thi logic script phức tạp với độ chính xác cao hơn, đặc biệt trên các nhánh thao tác kéo dài.

Ví dụ: Sự khác biệt về chất lượng đầu ra giữa các tác vụ

Ví dụ mã hóa (khái niệm)

GLM-4.7: Tạo các script đơn tệp tốt, cú pháp đúng và logic dễ đọc.
GLM-5: Xuất sắc trong sinh mã đa tệp, gợi ý gỡ lỗi sâu, và vòng phản hồi dài với tối thiểu cắt ngữ cảnh.

Suy luận & Lập kế hoạch

GLM-4.7: Suy luận nhiều bước tốt nhưng đôi khi chững lại ở chuỗi rất sâu.
GLM-5: Giỏi chia khối suy luận, hồi tưởng các bước trước, và điều hướng chuỗi dài — hữu ích cho tổng hợp dữ liệu và chiến lược đa miền.

Độ trễ và chi phí thay đổi thế nào nếu chuyển từ GLM-4.7 sang GLM-5?

Đánh đổi độ trễ và nơi GLM-4.7 vẫn thắng

Tin nhắn ngắn & UI nhanh nhạy: Điểm chuẩn từ thực tế cho thấy GLM-5 có thể thêm một độ trễ cố định nhỏ ở phản hồi ngắn (chi phí định tuyến và chọn chuyên gia), biểu hiện thành độ trễ cao hơn đôi chút cho payload rất nhỏ. Với UI siêu thấp độ trễ cho thông điệp ngắn, GLM-4.7 hoặc các biến thể Flash vẫn hấp dẫn.

So sánh GLM-5 với GLM-4.7:

GLM-4.7: đầu vào $0.60/1M token, đầu ra $2.20/1M token.
GLM-5: đầu vào $1.00/1M token, đầu ra $3.20/1M token.

Chi phí so với đánh đổi thời gian chỉnh sửa của con người

Giá mô hình cao hơn có thể hợp lý khi GLM-5 giảm đáng kể thời gian của con người phía sau (ví dụ, chỉnh sửa MR, phân loại sửa lỗi tự động, hoặc tránh gọi mô hình lặp lại). Một quy tắc quyết định đơn giản:

Nếu GLM-5 giảm thời gian chỉnh sửa thủ công > X% (X phụ thuộc vào chi phí lao động và số token mỗi quy trình), thì vẫn hiệu quả chi phí dù chi phí mỗi token cao hơn. Một số phân tích blog đã mô hình các điều kiện hòa vốn như vậy và thấy GLM-5 thường “đáng tiền” cho các quy trình tác tử nặng, lặp lại (ví dụ, sửa mã tự động ở quy mô lớn).

Độ trễ & phần cứng

VRAM suy luận & độ trễ phụ thuộc vào biến thể (Flash, FlashX, MoE đầy đủ). Hướng dẫn cộng đồng cho thấy GLM-4.7 FlashX và Flash 30B có thể triển khai trên GPU 24GB; biến thể MoE đầy đủ cần cụm đa GPU lớn. Cấu hình đầy đủ của GLM-5 sẽ yêu cầu tài nguyên cao hơn đáng kể cho cùng thông lượng, dù độ thưa MoE giúp giảm tính toán hoạt động mỗi token. Kỳ vọng cần đầu tư kỹ thuật để tinh chỉnh lượng tử hóa, ánh xạ bộ nhớ, và streaming cho môi trường sản xuất.

Khi nào bạn nên nâng cấp từ GLM-4.7 lên GLM-5?

Nâng cấp nếu:

Bạn cần suy luận mã đa tệp tốt hơn, điều phối tác tử ngữ cảnh dài, hoặc tỷ lệ thành công đầu-cuối của tác tử cao hơn.
Tác vụ của bạn có giá trị cao và biện minh được cho sự phức tạp hạ tầng và chi phí mỗi yêu cầu cao hơn.

Tiếp tục dùng GLM-4.7 nếu:

Khối lượng công việc của bạn là khối lượng lớn, prompt ngắn, nơi chi phí & độ trễ dễ dự đoán quan trọng hơn so với cải thiện chất lượng biên.
Các trường hợp ưa dùng GLM-4.7
Thông lượng cao, payload ngắn: Chatbot, gợi ý tự động, tác vụ diễn đạt lại nhỏ — GLM-4.7 (đặc biệt biến thể Flash) thường rẻ hơn và độ trễ thấp hơn.
Ngân sách hạn chế và tác vụ số lượng lớn: Với tagging, phân loại, hoặc micro-task ở quy mô, hiệu quả và giá mỗi token thấp của GLM-4.7 rất thuyết phục.
Bạn thiếu hạ tầng hoặc ngân sách để xử lý sharding MoE / tự mở rộng phức tạp.

Chọn mô hình trong lời gọi API như thế nào? (ví dụ)

cURL — chuyển ID mô hình (ví dụ tương thích CometAPI / OpenAI):

# GLM-4.7
curl -X POST "https://api.cometapi.com/v1/chat/completions" \
 -H "Authorization: Bearer $KEY" -H "Content-Type: application/json" \
 -d '{"model":"glm-4.7","messages":[{"role":"user","content":"Tóm tắt kho này..."}],"max_tokens":800}'
# GLM-5
curl -X POST "https://api.cometapi.com/v1/chat/completions" \
 -H "Authorization: Bearer $KEY" -H "Content-Type: application/json" \
 -d '{"model":"glm-5","messages":[{"role":"user","content":"Tóm tắt kho này..."}],"max_tokens":1200}'

Python (requests): thay đổi trường model để định tuyến tới GLM-4.7 hoặc GLM-5 — phần còn lại của mã client có thể giữ nguyên.

Đánh giá cuối cùng:

GLM-5 mang tính tiến hóa với các điểm bẻ cong quan trọng:

Tiến hóa vì kế thừa thiết kế MoE và ưu tiên suy luận của dòng GLM và tiếp tục quỹ đạo cải tiến lặp (4.5 → 4.6 → 4.7 → 5).
Điểm bẻ cong vì tăng quy mô đáng kể, giới thiệu DSA, và cam kết một giáo trình RL được thiết kế riêng cho tác vụ tác tử tầm xa — tất cả mang lại cải thiện rõ rệt, đo được trên nhiều điểm chuẩn thực tiễn.

Nếu đánh giá theo vị trí bảng xếp hạng, GLM-5 tuyên bố dẫn đầu mở trọng số trên một số chỉ số và thu hẹp khoảng cách với các hệ thống độc quyền hàng đầu ở tác vụ tác tử và lập trình. Nếu đánh giá theo trải nghiệm nhà phát triển và sử dụng nhạy cảm độ trễ, các ưu/nhược điểm thực tế vẫn cần được chứng minh qua triển khai lớn hơn và theo thời gian. Điều đó có nghĩa GLM-5 rất hấp dẫn khi trường hợp sử dụng đòi hỏi năng lực tác tử bền bỉ; GLM-4.7 vẫn là lựa chọn trưởng thành, nhanh hơn, và tiết kiệm chi phí cho nhiều nhu cầu sản xuất hiện tại.

Các nhà phát triển có thể truy cập GLM-5 và GLM-4.7 qua CometAPI ngay bây giờ. Để bắt đầu, hãy khám phá năng lực của mô hình trong Playground và tham khảo API guide để biết hướng dẫn chi tiết. Trước khi truy cập, vui lòng đảm bảo bạn đã đăng nhập CometAPI và lấy khóa API. CometAPI cung cấp mức giá thấp hơn nhiều so với giá chính thức để giúp bạn tích hợp.

Sẵn sàng bắt đầu?→ Sign up fo GLM-5 today!

Nếu bạn muốn biết thêm mẹo, hướng dẫn và tin tức về AI, hãy theo dõi chúng tôi trên VK, X và Discord!