Mô hìnhHỗ trợDoanh nghiệpBlog
500+ API Mô hình AI, Tất cả trong Một API. Chỉ cần CometAPI
API Mô hình
Nhà phát triển
Bắt đầu nhanhTài liệuBảng Điều Khiển API
Tài nguyên
Mô hình AIBlogDoanh nghiệpNhật ký thay đổiGiới thiệu
2025 CometAPI. Bảo lưu mọi quyền.Chính sách Bảo mậtĐiều khoản Dịch vụ
Home/Models/Zhipu AI/GLM 4.6
Z

GLM 4.6

Đầu vào:$0.96/M
Đầu ra:$3.84/M
Bối cảnh:200,000
Đầu ra tối đa:128,000
Mẫu flagship mới nhất GLM-4.6 của Zhipu đã ra mắt: tổng số tham số 355B, tham số kích hoạt 32B. Năng lực cốt lõi tổng thể vượt qua GLM-4.5. Lập trình: Ngang hàng với Claude Sonnet 4, tốt nhất tại Trung Quốc. Ngữ cảnh: Mở rộng lên 200K (ban đầu 128K). Suy luận: Được cải thiện, hỗ trợ gọi công cụ. Tìm kiếm: Tối ưu hóa khung công cụ và tác tử. Viết: Phù hợp hơn với sở thích của con người, phong cách viết và nhập vai. Đa ngôn ngữ: Nâng cao hiệu quả dịch thuật.
Mới
Sử dụng thương mại
Playground
Tổng quan
Tính năng
Giá cả
API

GLM-4.6 là bản phát hành lớn mới nhất trong dòng GLM của Z.ai (trước đây là Zhipu AI): một mô hình ngôn ngữ lớn thế hệ thứ 4 kiểu MoE (Mixture-of-Experts), được tinh chỉnh cho quy trình tác tử, suy luận ngữ cảnh dài và lập trình thực tế. Bản phát hành nhấn mạnh tích hợp tác tử/công cụ mang tính thực tiễn, cửa sổ ngữ cảnh rất lớn, và trọng số mở cho triển khai cục bộ.

Tính năng chính

  • Ngữ cảnh dài — cửa sổ ngữ cảnh gốc 200K token (mở rộng từ 128K). (docs.z.ai)
  • Khả năng lập trình & tác tử — cải thiện được quảng bá trên các tác vụ lập trình thực tế và khả năng gọi công cụ tốt hơn cho tác tử.
  • Hiệu quả — báo cáo tiêu thụ token thấp hơn ~30% so với GLM-4.5 trong các bài kiểm tra của Z.ai.
  • Triển khai & lượng tử hóa — lần đầu công bố tích hợp FP8 và Int4 cho chip Cambricon; hỗ trợ FP8 bản địa trên Moore Threads qua vLLM.
  • Kích thước mô hình & loại tensor — hiện vật công bố cho thấy mô hình ~357B tham số (tensor BF16 / F32) trên Hugging Face.

Chi tiết kỹ thuật

Phương thức & định dạng. GLM-4.6 là LLM chỉ văn bản (phương thức đầu vào và đầu ra: văn bản). Độ dài ngữ cảnh = 200K token; đầu ra tối đa = 128K token.

Lượng tử hóa & hỗ trợ phần cứng. Nhóm báo cáo lượng tử hóa FP8/Int4 trên chip Cambricon và FP8 bản địa trên GPU Moore Threads bằng vLLM cho suy luận — quan trọng để giảm chi phí suy luận và cho phép triển khai on-prem và đám mây nội địa.

Công cụ & tích hợp. GLM-4.6 được phân phối qua API của Z.ai, mạng lưới nhà cung cấp bên thứ ba (ví dụ, CometAPI), và tích hợp vào các tác tử lập trình (Claude Code, Cline, Roo Code, Kilo Code).

Chi tiết kỹ thuật

Phương thức & định dạng. GLM-4.6 là LLM chỉ văn bản (phương thức đầu vào và đầu ra: văn bản). Độ dài ngữ cảnh = 200K token; đầu ra tối đa = 128K token.

Lượng tử hóa & hỗ trợ phần cứng. Nhóm báo cáo lượng tử hóa FP8/Int4 trên chip Cambricon và FP8 bản địa trên GPU Moore Threads bằng vLLM cho suy luận — quan trọng để giảm chi phí suy luận và cho phép triển khai on-prem và đám mây nội địa.

Công cụ & tích hợp. GLM-4.6 được phân phối qua API của Z.ai, mạng lưới nhà cung cấp bên thứ ba (ví dụ, CometAPI), và tích hợp vào các tác tử lập trình (Claude Code, Cline, Roo Code, Kilo Code).

Hiệu năng benchmark

  • Đánh giá đã công bố: GLM-4.6 được thử nghiệm trên tám benchmark công khai bao phủ tác tử, suy luận và lập trình và cho thấy cải thiện rõ rệt so với GLM-4.5. Trong các bài kiểm tra lập trình thực tế được con người đánh giá (CC-Bench mở rộng), GLM-4.6 dùng ít hơn ~15% token so với GLM-4.5 và đạt tỷ lệ thắng ~48,6% so với Claude Sonnet 4 của Anthropic (gần như ngang bằng trên nhiều bảng xếp hạng).
  • Định vị: kết quả cho rằng GLM-4.6 cạnh tranh với các mô hình hàng đầu trong nước và quốc tế (ví dụ trích dẫn gồm DeepSeek-V3.1 và Claude Sonnet 4).

hình

Hạn chế & rủi ro

  • Ảo giác & sai sót: như tất cả LLM hiện nay, GLM-4.6 có thể mắc lỗi thực tế — tài liệu của Z.ai nêu rõ đầu ra có thể chứa sai sót. Người dùng nên áp dụng xác minh & retrieval/RAG cho nội dung quan trọng.
  • Độ phức tạp mô hình & chi phí phục vụ: ngữ cảnh 200K và đầu ra rất lớn làm tăng mạnh yêu cầu bộ nhớ & độ trễ và có thể nâng chi phí suy luận; cần lượng tử hóa/kỹ thuật suy luận để chạy ở quy mô.
  • Khoảng cách theo lĩnh vực: dù GLM-4.6 báo cáo hiệu năng tác tử/lập trình mạnh, một số báo cáo công khai lưu ý mô hình vẫn tụt hậu so với một số phiên bản của mô hình cạnh tranh ở các microbenchmark cụ thể (ví dụ, một số chỉ số lập trình so với Sonnet 4.5). Nên đánh giá theo từng tác vụ trước khi thay thế mô hình sản xuất.
  • An toàn & chính sách: trọng số mở tăng khả năng tiếp cận nhưng cũng đặt ra câu hỏi về quản trị (giảm thiểu, hàng rào bảo vệ và red-teaming là trách nhiệm của người dùng).

Trường hợp sử dụng

  • Hệ thống tác tử & phối hợp công cụ: vết tác tử dài, lập kế hoạch đa công cụ, gọi công cụ động; tinh chỉnh agentic của mô hình là điểm bán hàng chính.
  • Trợ lý lập trình thực tế: tạo mã nhiều lượt, đánh giá mã và trợ lý IDE tương tác (tích hợp trong Claude Code, Cline, Roo Code — theo Z.ai). Cải thiện hiệu quả token khiến mô hình hấp dẫn cho các gói nhà phát triển sử dụng nặng.
  • Quy trình tài liệu dài: tóm tắt, tổng hợp đa tài liệu, đánh giá pháp lý/kỹ thuật dài nhờ cửa sổ 200K.
  • Sáng tạo nội dung & nhân vật ảo: đối thoại kéo dài, duy trì nhân vật nhất quán trong các kịch bản nhiều lượt.

GLM-4.6 so sánh với các mô hình khác

  • GLM-4.5 → GLM-4.6: thay đổi bước về kích thước ngữ cảnh (128K → 200K) và hiệu quả token (~15% ít token hơn trên CC-Bench); cải thiện sử dụng tác tử/công cụ.
  • GLM-4.6 vs Claude Sonnet 4 / Sonnet 4.5: Z.ai báo cáo gần ngang bằng trên nhiều bảng xếp hạng và tỷ lệ thắng ~48,6% trên các tác vụ lập trình thực tế CC-Bench (cạnh tranh sát sao, với một số microbenchmark Sonnet vẫn dẫn đầu). Với nhiều nhóm kỹ thuật, GLM-4.6 được định vị là lựa chọn hiệu quả chi phí.
  • GLM-4.6 vs các mô hình ngữ cảnh dài khác (DeepSeek, biến thể Gemini, họ GPT-4): GLM-4.6 nhấn mạnh ngữ cảnh lớn & quy trình lập trình agentic; điểm mạnh tương đối phụ thuộc vào chỉ số (hiệu quả token/tích hợp tác tử so với độ chính xác tổng hợp mã thô hoặc quy trình an toàn). Lựa chọn thực nghiệm nên được dẫn dắt bởi tác vụ.

Zhipu AI phát hành mẫu flagship mới nhất GLM-4.6: tổng 355B tham số, 32B hoạt động. Vượt GLM-4.5 ở mọi năng lực cốt lõi.

  • Lập trình: Tiệm cận Claude Sonnet 4, tốt nhất ở Trung Quốc.
  • Ngữ cảnh: Mở rộng lên 200K (từ 128K).
  • Suy luận: Cải thiện, hỗ trợ gọi công cụ trong quá trình suy luận.
  • Tìm kiếm: Tăng cường gọi công cụ và hiệu năng tác tử.
  • Viết: Phù hợp hơn với sở thích của con người về phong cách, khả năng đọc và nhập vai.
  • Đa ngôn ngữ: Tăng cường dịch xuyên ngôn ngữ.

Câu hỏi thường gặp

What are the context window and output limits for GLM-4-6?

GLM-4-6 supports a 200,000 token context window (extended from 128K in GLM-4.5) with up to 128,000 output tokens, enabling extensive document analysis and long-form generation.

How does GLM-4-6 compare to Claude Sonnet 4 in coding?

According to Zhipu, GLM-4-6's coding capabilities align with Claude Sonnet 4, making it the best coding model among Chinese domestic models.

Does GLM-4-6 support tool calling and agent workflows?

Yes, GLM-4-6 features improved inference capabilities with enhanced Tool calls support and an optimized agent framework for complex multi-step task automation.

What is the architecture of GLM-4-6?

GLM-4-6 is a Mixture-of-Experts model with 355B total parameters and 32B active parameters, balancing capability with efficiency.

What makes GLM-4-6 different from GLM-4.5?

GLM-4-6 offers extended context (200K vs 128K), improved reasoning and tool calling, enhanced writing aligned with human preferences, better multilingual translation, and optimized role-playing.

Is GLM-4-6 suitable for enterprise Chinese language applications?

Yes, GLM-4-6 is particularly strong for Chinese language tasks including translation, content writing, and conversational AI, with enhanced multilingual capabilities.

When should I choose GLM-4-6 over GPT-5.2 or Claude?

Choose GLM-4-6 for Chinese-first applications, cost-effective 200K context needs, or when you need a strong domestic AI alternative with coding capabilities comparable to frontier models.

Tính năng cho GLM 4.6

Khám phá các tính năng chính của GLM 4.6, được thiết kế để nâng cao hiệu suất và khả năng sử dụng. Tìm hiểu cách các khả năng này có thể mang lại lợi ích cho dự án của bạn và cải thiện trải nghiệm người dùng.

Giá cả cho GLM 4.6

Khám phá mức giá cạnh tranh cho GLM 4.6, được thiết kế để phù hợp với nhiều ngân sách và nhu cầu sử dụng khác nhau. Các gói linh hoạt của chúng tôi đảm bảo bạn chỉ trả tiền cho những gì bạn sử dụng, giúp dễ dàng mở rộng quy mô khi yêu cầu của bạn tăng lên. Khám phá cách GLM 4.6 có thể nâng cao các dự án của bạn trong khi vẫn kiểm soát được chi phí.
Giá Comet (USD / M Tokens)Giá Chính Thức (USD / M Tokens)Giảm giá
Đầu vào:$0.96/M
Đầu ra:$3.84/M
Đầu vào:$1.2/M
Đầu ra:$4.8/M
-20%

Mã mẫu và API cho GLM 4.6

GLM-4.6 là bản phát hành lớn mới nhất trong dòng GLM của Z.ai (trước đây là Zhipu AI): một mô hình MoE (Mixture-of-Experts) ngôn ngữ lớn thế hệ thứ 4, được tinh chỉnh cho các quy trình tác tử, suy luận ngữ cảnh dài và lập trình thực tế. Bản phát hành này nhấn mạnh vào tích hợp tác tử/công cụ mang tính thực tiễn, một cửa sổ ngữ cảnh rất lớn và trọng số mở sẵn sàng cho triển khai cục bộ.
POST
/v1/chat/completions
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="glm-4.6",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello!"},
    ],
)

print(completion.choices[0].message.content)

Python Code Example

from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="glm-4.6",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello!"},
    ],
)

print(completion.choices[0].message.content)

JavaScript Code Example

import OpenAI from "openai";

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY;
const base_url = "https://api.cometapi.com/v1";

const openai = new OpenAI({
  apiKey: api_key,
  baseURL: base_url,
});

const completion = await openai.chat.completions.create({
  model: "glm-4.6",
  messages: [
    { role: "system", content: "You are a helpful assistant." },
    { role: "user", content: "Hello!" },
  ],
});

console.log(completion.choices[0].message.content);

Curl Code Example

curl https://api.cometapi.com/v1/chat/completions \
     --header "Authorization: Bearer $COMETAPI_KEY" \
     --header "content-type: application/json" \
     --data \
'{
    "model": "glm-4.6",
    "messages": [
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello!"}
    ]
}'

Thêm mô hình

A

Claude Opus 4.6

Đầu vào:$4/M
Đầu ra:$20/M
Claude Opus 4.6 là mô hình ngôn ngữ lớn thuộc lớp “Opus” của Anthropic, phát hành vào tháng 2 năm 2026. Mô hình này được định vị như một công cụ chủ lực cho công việc tri thức và các quy trình nghiên cứu — cải thiện khả năng suy luận với ngữ cảnh dài, lập kế hoạch nhiều bước, khả năng sử dụng công cụ (bao gồm các quy trình phần mềm agentic), và các tác vụ sử dụng máy tính như tự động tạo slide và bảng tính.
A

Claude Sonnet 4.6

Đầu vào:$2.4/M
Đầu ra:$12/M
Claude Sonnet 4.6 là mô hình Sonnet mạnh mẽ nhất của chúng tôi từ trước đến nay. Đây là một bản nâng cấp toàn diện về các kỹ năng của mô hình, bao gồm lập trình, sử dụng máy tính, suy luận trong ngữ cảnh dài, lập kế hoạch tác nhân, công việc tri thức và thiết kế. Sonnet 4.6 cũng có cửa sổ ngữ cảnh 1M token ở giai đoạn beta.
O

GPT-5.4 nano

Đầu vào:$0.16/M
Đầu ra:$1/M
GPT-5.4 nano được thiết kế cho các tác vụ trong đó tốc độ và chi phí là ưu tiên hàng đầu, như phân loại, trích xuất dữ liệu, xếp hạng và các tác tử phụ.
O

GPT-5.4 mini

Đầu vào:$0.6/M
Đầu ra:$3.6/M
GPT-5.4 mini đưa những điểm mạnh của GPT-5.4 vào một mô hình nhanh hơn, hiệu quả hơn, được thiết kế cho khối lượng công việc lớn.
A

Claude Mythos Preview

A

Claude Mythos Preview

Sắp ra mắt
Đầu vào:$60/M
Đầu ra:$240/M
Claude Mythos Preview là mô hình tiên phong mạnh mẽ nhất của chúng tôi cho đến nay, và cho thấy một bước nhảy vọt ấn tượng về điểm số trên nhiều thước đo đánh giá so với mô hình tiên phong trước đó của chúng tôi, Claude Opus 4.6.
X

mimo-v2-pro

Đầu vào:$0.8/M
Đầu ra:$2.4/M
MiMo-V2-Pro là mô hình nền tảng chủ lực của Xiaomi, sở hữu hơn 1T tham số tổng và độ dài ngữ cảnh 1M, được tối ưu sâu cho các kịch bản tác tử. Nó thích ứng cao với các khung tác tử tổng quát như OpenClaw. Trên các benchmark chuẩn PinchBench và ClawBench, mô hình này nằm trong nhóm hàng đầu toàn cầu, với hiệu năng cảm nhận tiệm cận Opus 4.6. MiMo-V2-Pro được thiết kế để đóng vai trò bộ não của các hệ thống tác tử, điều phối các quy trình công việc phức tạp, thực thi các tác vụ kỹ thuật trong môi trường sản xuất và cung cấp kết quả một cách đáng tin cậy.

Blog liên quan

GLM-4.7 ra mắt: Điều này có ý nghĩa gì đối với trí tuệ nhân tạo?
Dec 23, 2025
glm-4-7

GLM-4.7 ra mắt: Điều này có ý nghĩa gì đối với trí tuệ nhân tạo?

Ngày 22 tháng 12 năm 2025, Zhipu AI (Z.ai) chính thức phát hành GLM-4.7, phiên bản mới nhất trong dòng General Language Model (GLM) của mình — thu hút sự chú ý toàn cầu trong giới mô hình AI mã nguồn mở. Mô hình này không chỉ nâng cao năng lực ở các tác vụ viết mã và suy luận, mà còn thách thức vị thế thống trị của các mô hình độc quyền như GPT-5.2 và Claude Sonnet 4.5 trên các bộ đánh giá chuẩn chủ chốt.