GLM-5: 特性、性能基准测试和访问

由中国的 Zhipu AI（在许多开发者渠道对外品牌为 Z.AI / zai-org）于本周发布的 GLM-5，标志着大模型发布节奏进一步加速的又一步。新模型被定位为 Zhipu 的旗舰：规模更大，针对长时程的代理式任务进行调优，并通过工程选择在保留长上下文的同时降低推理成本。早期行业报道与开发者上手笔记显示，相较此前的 GLM 迭代，在编码、多步推理与代理编排方面有显著提升——在部分测试中甚至对标 Claude 4.5。

GLM-5 是什么，由谁构建？

GLM-5 是 GLM 系列的最新重大版本：由 Z.ai（GLM 系列背后的团队）开发与发布的大型开源基础模型。于 2026 年 2 月上旬宣布推出，GLM-5 被呈现为专门为“agentic”任务调优的下一代模型——即多步、长时程工作流，模型需要规划、调用工具、执行，并在长对话或自动化代理中保持上下文。此次发布不仅在模型设计上引人注目，也体现在训练方式与地点：Z.ai 使用了国内硬件与工具链的组合，以推动自给自足。

报告的架构与训练数据包括：

**参数扩展：**GLM-5 规模扩展至约 744B 参数（部分技术说明中提到更小的“活跃”专家数量，如 40B active），而此前 GLM-4 家族规模约为 355B/32B active。
**预训练数据：**训练语料规模据称从 GLM-4 代的 ~23 万亿 tokens 增加至 GLM-5 的 ~28.5 万亿 tokens。
**稀疏注意力 / DeepSeek 稀疏注意力（DSA）：**一种在推理时降低计算成本、同时保留长上下文的稀疏注意力方案。
**设计重点：**工程选择聚焦于代理编排、长上下文推理与具备成本效益的推理。

起源与定位

GLM-5 延续了包括 GLM-4.5（于 2025 年中发布）以及若干迭代更新如 4.7 在内的产品线。Z.ai 将 GLM-5 的定位从“vibe coding”（快速单步代码输出）跃迁至“agentic engineering”：在长窗口中进行持续推理、多工具编排与系统综合。公开材料强调，GLM-5 被设计用于处理复杂系统工程任务——构建、协调并维护多步代理行为，而不仅仅是回答孤立问题。

GLM-5 有哪些新特性？

主要架构变化

**大规模稀疏扩展（MoE）：**GLM-5 采用更大规模的稀疏专家混合架构。来自开发者页面与独立综述的公开数据表明，该模型约 744B 总参数、每个 token ~40B 活跃参数——相较 GLM-4.5 的 ~355B / 32B active 是一次显著提升。稀疏扩展让模型在呈现极大的总容量的同时，保持可控的每 token 计算量。
**DeepSeek 稀疏注意力（DSA）：**为在不线性提升推理成本的前提下保留长上下文能力，GLM-5 集成了稀疏注意力机制（品牌为 DeepSeek），在超长上下文中保留关键的长程依赖，并削减注意力的计算开销。

将代理式工程作为基础设计目标

GLM-5 的一项核心特性是其明确面向代理式工程——意味着该模型不仅用于单轮聊天或摘要任务，而是作为多步代理的“大脑”，能够规划、发起工具调用、管理状态，并在长上下文中进行推理。Z.ai 将 GLM-5 定位为编排环路中的核心：拆解复杂问题、调用外部工具/API，并在多轮任务中进行长期跟踪。

为什么代理式设计重要

代理式工作流是现实世界自动化的核心：自动化研究助理、自主软件工程师、运营编排与仿真控制。为这些场景而构建的模型需要强规划能力、稳定的工具调用行为，以及在成千上万 tokens 的上下文中具备稳健性。

改进的编码、推理与“长时程”行为

GLM-5 强调改进代码生成与推理。Z.ai 声称模型在编写、重构与调试代码方面有针对性提升，并在长交互中的多步推理更为一致。独立的早期访问报告与合作伙伴评估发现，该模型在面向开发者的任务上明显强于先前 GLM 世代。

面向开发者的实用特性

更大的上下文窗口，用于容纳文档、代码库与会话状态。
面向安全的工具调用基元与结果处理。
更好的少样例与链式思维表现，用于拆解并执行复杂任务。
**代理式特性与工具调用：**GLM-5 强调对代理的原生支持：函数/工具调用、有状态会话，以及对长对话与工具使用序列的更好管理。这使得更容易构建整合网页搜索、数据库或任务自动化的代理。

GLM-5 在基准测试中的表现如何？

GLM-5: 特性、性能基准测试和访问

具体基准亮点

**编码基准：**在特定编码任务上，GLM-5 接近（某些情况下匹配）如 Anthropic 的 Claude Opus 4.5 等高度优化的专有模型的编码表现。这些结果因任务类型而异（单元测试、算法编码、API 使用），但与 GLM-4.5 相比，提升十分明显。
**推理与代理测试：**在多步推理与代理评估套件（例如多轮规划、任务分解基准）上，GLM-5 在开源模型中取得同类最佳，并在部分针对性任务的指标上超越竞争的闭源模型。

我如何获取并试用 GLM-5？

GLM-5 是 Zhipu AI（Z.ai）的第五代大语言模型，采用 Mixture-of-Experts 架构（~745 B 总参数，~44 B 活跃），面向强推理、编码与代理式工作流。其于 约 2026 年 2 月 12 日正式发布。

目前主要有两种方式可以访问：

A) 官方 API 访问（Z.ai 或聚合平台）

Zhipu AI 本身提供其模型的 API，你可以通过这些 API 调用 GLM-5。

典型步骤：

注册 Z.ai/Open BigModel API 账户。
在控制台获取 API key。
使用 OpenAPI 风格或 REST API 端点，并设置模型名（例如 glm-5）。
（类似你调用 OpenAI 的 GPT 模型）
设置提示词并发送 HTTP 请求。

👉 Z.ai 的定价页显示官方 GLM-5 token 价格如下：

~$1.0 / 百万输入 tokens
~$3.2 / 百万输出 tokens

B) 第三方 API 封装 ——CometAPI

CometAPI 或 WaveSpeed 等 API 会以统一接口封装多个 AI 模型（OpenAI、Claude、Z.ai 等）。

使用类似 CometAPI 的服务，你可以通过切换模型 ID 来调用 GLM 系列。
（CometAPI 目前支持 GLM-5/GLM-4.7。）
CometAPI 的 glm-5 定价为官方价格的 20%。

使用类型	价格
输入 tokens	~$0.8 / 每 1M tokens
输出 tokens	~$2.56 / 每 1M tokens

**这意味着：**你可以保留现有的 OpenAI 兼容客户端代码，只需更改 base URL/模型 ID。

C) 通过 Hugging Face / 权重自托管

在 Hugging Face 的模型列表中可见 非官方 的 GLM-5 权重仓库（例如名为 glm-5/glm-5-fp8 的版本）。

使用这些你可以：

下载模型权重。
使用 vLLM、SGLang、xLLM 或 Transformers 在本地或你的云 GPU 集群部署服务。

**优点：**最大化控制，无持续 API 成本。
**缺点：**计算需求巨大——很可能需要多块高端 GPU 和内存（数百 GB），对小型系统不切实际。

那么——GLM-5 值得吗，你是否应保留 GLM-4.7？

简短答案（管理摘要）

**如果你的工作需要稳健的多步代理行为、生产级代码生成或系统级自动化：**应立即评估 GLM-5。其架构、规模与调优正是为这些目标而设。
**如果你需要成本高效、高吞吐的微服务（短对话、分类、轻量提示）：**GLM-4.7 可能仍是最经济的选择。GLM-4.7 在许多服务商的每 token 成本显著更低，同时能力集仍然强劲，并已在生产环境中充分验证。

较长答案（实用建议）

采用 分层模型策略：将 GLM-4.7 用于日常高频交互，保留 GLM-5 用于高价值工程问题与代理编排。在一个能覆盖长上下文、工具集成与代码正确性的产品切片上试点 GLM-5；同时衡量节省的工程时间与模型的增量成本。随着时间推移，你将判断 GLM-5 的能力提升是否值得更广泛迁移。

使用 CometAPI，你可以随时在 GLM-4.7 与 GLM-5 之间切换。

GLM-5 表现突出的真实场景

1. 复杂代理编排

GLM-5 在多步规划与工具调用上的设计重点，使其非常适合需要协调搜索、API 调用与程序执行的系统（例如：自动化研究助理、迭代式代码生成器，或需要查询数据库与外部 API 的多步客服代理）。

2. 长篇工程与代码库推理

当你需要模型在许多文件或大型代码库上进行分析、重构或综合时，GLM-5 的扩展上下文与稀疏注意力是直接优势——更少因上下文被截断导致的失败模式，并且在长跨度上更一致。

3. 知识密集型合成

生成复杂报告的分析师与产品团队——多章节研究简报、法律摘要或合规文件——可受益于模型在稳态多步推理上的提升，以及在厂商报告测试中降低幻觉率。

4. 面向工作流的代理式自动化

构建需要编排多套系统（例如规划 + 工单 + 部署流水线）的自动化的团队，可以将 GLM-5 作为中心的规划者与执行者，并配套工具调用框架与安全封装。

结论

GLM-5 是快速演进的前沿模型格局中的一次重要发布。其对代理式工程、改进编码与推理、以及开放权重可用性的强调，使其对构建长时程、工具增强型 AI 系统的团队颇具吸引力。在若干选定任务的真实收益与令人鼓舞的成本/性能权衡下——但在投入生产前，使用方应针对自己的具体任务开展受控基准评估。

开发者现在即可通过 GLM-5 与 CometAPI 进行访问。开始之前，请在 Playground 体验模型能力，并查阅 API 指南获取详细说明。在访问前，请确保已登录 CometAPI 并获取 API key。CometAPI 提供远低于官方价格的方案，帮助你集成。

准备好了吗？→ 立即注册 glm-5 ！

如果你想获得更多关于 AI 的技巧、指南与新闻，请关注我们的 VK、X 和 Discord！