ModelsSupportEnterpriseBlog
500+ AI Model API, All In One API.Just In CometAPI
Models API
Developer
Quick StartDocumentationAPI Dashboard
Resources
AI ModelsBlogEnterpriseChangelogAbout
2025 CometAPI. All right reserved.Privacy PolicyTerms of Service
Home/Models/Zhipu AI/GLM 4.6
Z

GLM 4.6

Input:$0.96/M
Output:$3.84/M
Context:200,000
Max Output:128,000
Zhipu 的最新旗艦模型 GLM-4.6 發佈:總參數量 355B,活躍參數 32B。整體核心能力超越 GLM-4.5。程式設計:與 Claude Sonnet 4 對齊,中國最佳。上下文:擴充至 200K(原為 128K)。推理:有所提升,支援 Tool 呼叫。搜尋:優化 Tool 與 agent 框架。寫作:更貼合人類偏好、文風與角色扮演。多語言:翻譯效果提升。
New
Commercial Use
Playground
Overview
Features
Pricing
API

GLM-4.6 是 Z.ai(原 Zhipu AI)GLM 家族的最新重大版本:第四代、大型語言 MoE(混合專家)模型,為 代理式工作流程、長上下文推理與真實世界程式開發 進行調校。此版本著重於實用的代理/工具整合、非常大的 上下文視窗,以及可開放權重以供本地部署。

Key features

  • Long context — 原生 200K token 上下文視窗(由 128K 擴展)。(docs.z.ai)
  • Coding & agentic capability — 在真實世界程式開發任務上宣稱有所提升,並為代理帶來更好的工具呼叫能力。
  • Efficiency — 在 Z.ai 的測試中,較 GLM-4.5 ~30% 降低 token 消耗。
  • Deployment & quantization — 首次宣佈在 Cambricon 晶片上整合 FP8 與 Int4;透過 vLLM 在 Moore Threads 上原生支援 FP8。
  • Model size & tensor type — 已公開的工件顯示在 Hugging Face 上是一個 ~357B 參數的模型(BF16 / F32 張量)。

Technical details

Modalities & formats. GLM-4.6 是 純文字 LLM(輸入與輸出模態:文字)。Context length = 200K tokens;max output = 128K tokens。

Quantization & hardware support. 團隊報告在 Cambricon 晶片上提供 FP8/Int4 量化,並透過 vLLM 在 Moore Threads GPU 上 原生 FP8 推論——有助於降低推論成本,並支持自建(on-prem)與國內雲端部署。

Tooling & integrations. GLM-4.6 透過 Z.ai 的 API、第三方供應網路(例如 CometAPI)發行,並整合進多種程式代理(Claude Code、Cline、Roo Code、Kilo Code)。

Technical details

Modalities & formats. GLM-4.6 是 純文字 LLM(輸入與輸出模態:文字)。Context length = 200K tokens;max output = 128K tokens。

Quantization & hardware support. 團隊報告在 Cambricon 晶片上提供 FP8/Int4 量化,並透過 vLLM 在 Moore Threads GPU 上 原生 FP8 推論——有助於降低推論成本,並支持自建(on-prem)與國內雲端部署。

Tooling & integrations. GLM-4.6 透過 Z.ai 的 API、第三方供應網路(例如 CometAPI)發行,並整合進多種程式代理(Claude Code、Cline、Roo Code、Kilo Code)。

Benchmark performance

  • Published evaluations: GLM-4.6 在涵蓋代理、推理與程式開發的八項公共基準上測試,顯示相較 GLM-4.5 有明顯提升。在人為評估的真實世界程式測試(擴展版 CC-Bench)中,GLM-4.6 相較 GLM-4.5 ~15% 減少 token 使用,並相對 Anthropic 的 Claude Sonnet 4 取得 ~48.6% 勝率(在許多排行榜上接近同等水準)。
  • Positioning: 結果宣稱 GLM-4.6 與國內外領先模型具備競爭力(示例包括 DeepSeek-V3.1 與 Claude Sonnet 4)。

圖片

Limitations & risks

  • Hallucinations & mistakes: 與當前所有 LLM 一樣,GLM-4.6 可能產生事實錯誤——Z.ai 的文件明確提醒輸出可能包含錯誤。用戶在關鍵內容上應進行驗證與檢索/RAG。
  • Model complexity & serving cost: 200K 上下文與非常大的輸出大幅提升記憶體與延遲需求,可能增加推論成本;要在規模化運行需進行量化/推論工程。
  • Domain gaps: 雖然 GLM-4.6 報告在代理/程式方面表現強勁,但一些公開報告指出其在特定微型基準上仍落後某些版本的競品(例如部分程式指標相較 Sonnet 4.5)。在替換生產模型前,應按任務逐一評估。
  • Safety & policy: 開放權重提高可及性,同時也帶來治理問題(緩解、護欄與紅隊測試仍由用戶負責)。

Use cases

  • Agentic systems & tool orchestration: 長代理追蹤、多工具規劃、動態工具呼叫;模型的代理式調校是核心賣點。
  • Real-world coding assistants: 多輪程式碼生成、程式碼審查與互動式 IDE 助手(依 Z.ai,已整合至 Claude Code、Cline、Roo Code)。Token 效率提升使其對高頻使用的開發者方案更具吸引力。
  • Long-document workflows: 由於 200K 視窗,可支援摘要、多文檔綜合、長篇法律/技術審閱。
  • Content creation & virtual characters: 延伸對話,在多輪場景中保持一致的人設。

How GLM-4.6 compares to other models

  • GLM-4.5 → GLM-4.6: 在 上下文大小(128K → 200K) 與 token 效率(在 CC-Bench 上少用 ~15% token) 上有躍升;代理/工具使用能力改進。
  • GLM-4.6 vs Claude Sonnet 4 / Sonnet 4.5: Z.ai 報告稱在多個排行榜上接近同等表現,並在 CC-Bench 的真實世界程式任務上取得約 48.6% 勝率(即相當接近,部分微基準仍由 Sonnet 領先)。對許多工程團隊而言,GLM-4.6 被定位為具成本效率的替代方案。
  • GLM-4.6 vs other long-context models (DeepSeek, Gemini variants, GPT-4 family): GLM-4.6 強調大上下文與代理式程式工作流程;相對優勢取決於指標(token 效率/代理整合 vs 原始程式生成準確度或安全管線)。實證選型應以任務為導向。

Zhipu AI 的最新旗艦模型 GLM-4.6 發布:355B 總參數,32B 活躍參數。核心能力全面超越 GLM-4.5。

  • Coding: 與 Claude Sonnet 4 持平,為中國最佳。
  • Context: 由 128K 擴展至 200K。
  • Reasoning: 推理能力提升,推論期間支援工具呼叫。
  • Search: 強化工具呼叫與代理效能。
  • Writing: 在風格、可讀性與角色扮演上更貼近人類偏好。
  • Multilingual: 提升跨語言翻譯能力。

FAQ

What are the context window and output limits for GLM-4-6?

GLM-4-6 supports a 200,000 token context window (extended from 128K in GLM-4.5) with up to 128,000 output tokens, enabling extensive document analysis and long-form generation.

How does GLM-4-6 compare to Claude Sonnet 4 in coding?

According to Zhipu, GLM-4-6's coding capabilities align with Claude Sonnet 4, making it the best coding model among Chinese domestic models.

Does GLM-4-6 support tool calling and agent workflows?

Yes, GLM-4-6 features improved inference capabilities with enhanced Tool calls support and an optimized agent framework for complex multi-step task automation.

What is the architecture of GLM-4-6?

GLM-4-6 is a Mixture-of-Experts model with 355B total parameters and 32B active parameters, balancing capability with efficiency.

What makes GLM-4-6 different from GLM-4.5?

GLM-4-6 offers extended context (200K vs 128K), improved reasoning and tool calling, enhanced writing aligned with human preferences, better multilingual translation, and optimized role-playing.

Is GLM-4-6 suitable for enterprise Chinese language applications?

Yes, GLM-4-6 is particularly strong for Chinese language tasks including translation, content writing, and conversational AI, with enhanced multilingual capabilities.

When should I choose GLM-4-6 over GPT-5.2 or Claude?

Choose GLM-4-6 for Chinese-first applications, cost-effective 200K context needs, or when you need a strong domestic AI alternative with coding capabilities comparable to frontier models.

Features for GLM 4.6

Explore the key features of GLM 4.6, designed to enhance performance and usability. Discover how these capabilities can benefit your projects and improve user experience.

Pricing for GLM 4.6

Explore competitive pricing for GLM 4.6, designed to fit various budgets and usage needs. Our flexible plans ensure you only pay for what you use, making it easy to scale as your requirements grow. Discover how GLM 4.6 can enhance your projects while keeping costs manageable.
Comet Price (USD / M Tokens)Official Price (USD / M Tokens)Discount
Input:$0.96/M
Output:$3.84/M
Input:$1.2/M
Output:$4.8/M
-20%

Sample code and API for GLM 4.6

GLM-4.6 是 Z.ai(前身為智譜 AI)GLM 系列的最新重大版本:一款第四代的大型語言 MoE(專家混合)模型,針對代理式工作流程、長上下文推理與實務程式撰寫進行調校。此次發佈強調實用的代理/工具整合、超大上下文視窗,以及可供本地部署的開放權重。
POST
/v1/chat/completions
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="glm-4.6",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello!"},
    ],
)

print(completion.choices[0].message.content)

Python Code Example

from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="glm-4.6",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello!"},
    ],
)

print(completion.choices[0].message.content)

JavaScript Code Example

import OpenAI from "openai";

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY;
const base_url = "https://api.cometapi.com/v1";

const openai = new OpenAI({
  apiKey: api_key,
  baseURL: base_url,
});

const completion = await openai.chat.completions.create({
  model: "glm-4.6",
  messages: [
    { role: "system", content: "You are a helpful assistant." },
    { role: "user", content: "Hello!" },
  ],
});

console.log(completion.choices[0].message.content);

Curl Code Example

curl https://api.cometapi.com/v1/chat/completions \
     --header "Authorization: Bearer $COMETAPI_KEY" \
     --header "content-type: application/json" \
     --data \
'{
    "model": "glm-4.6",
    "messages": [
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello!"}
    ]
}'

More Models

A

Claude Opus 4.6

Input:$4/M
Output:$20/M
Claude Opus 4.6 是 Anthropic 的「Opus」級大型語言模型,於 2026 年 2 月發布。它被定位為知識工作與研究工作流程的主力,著重提升長上下文推理、多步規劃、工具使用(包括代理型軟體工作流程),以及電腦操作任務,例如自動化製作投影片與試算表。
A

Claude Sonnet 4.6

Input:$2.4/M
Output:$12/M
Claude Sonnet 4.6 是我們迄今為止最強大的 Sonnet 模型。它對模型在程式設計、電腦操作、長上下文推理、代理規劃、知識工作與設計等方面的能力進行了全面升級。Sonnet 4.6 亦提供 1M 詞元的上下文視窗,目前處於 Beta 階段。
O

GPT-5.4 nano

Input:$0.16/M
Output:$1/M
GPT-5.4 nano 專為速度與成本最為關鍵的任務而設計,例如分類、資料擷取、排序與子智能體。
O

GPT-5.4 mini

Input:$0.6/M
Output:$3.6/M
GPT-5.4 mini 將 GPT-5.4 的優勢帶入一個更快速、更高效、專為大量工作負載設計的模型。
A

Claude Mythos Preview

A

Claude Mythos Preview

Coming soon
Input:$60/M
Output:$240/M
Claude Mythos Preview 是我們迄今最強大的前沿模型,與我們先前的前沿模型 Claude Opus 4.6 相比,在多項評測基準上的分數呈現出 顯著躍升。
X

mimo-v2-pro

Input:$0.8/M
Output:$2.4/M
MiMo-V2-Pro 是 Xiaomi 的旗艦級基礎模型,具備超過 1T 的總參數與 1M 的上下文長度,並針對 Agent 化場景進行了深度優化。它可高度適配 OpenClaw 等通用 Agent 框架。在標準的 PinchBench 與 ClawBench 基準測試中名列全球頂尖,其感知表現接近 Opus 4.6。MiMo-V2-Pro 旨在作為 Agent 系統的大腦,編排複雜工作流程、推動生產級工程任務,並可靠地交付結果。

Related Blog

GLM-4.7 Released: What Does This Mean for AI  Intelligence?
Dec 23, 2025
glm-4-7

GLM-4.7 Released: What Does This Mean for AI Intelligence?

On December 22, 2025, Zhipu AI (Z.ai) officially released GLM-4.7, the newest iteration in its General Language Model (GLM) family — drawing global attention in the world of open-source AI models. This model not only advances capabilities in coding and reasoning tasks, but also challenges the dominance of proprietary models like GPT-5.2 and Claude Sonnet 4.5 in key benchmarks.