GLM-4.7 发布:这对人工智能意味着什么?

CometAPI
AnnaDec 23, 2025
GLM-4.7 发布:这对人工智能意味着什么?

2025 年 12 月 22 日,Zhipu AI (Z.ai) 正式发布 GLM-4.7,这是其 General Language Model (GLM) 家族的最新迭代——在开源 AI 模型领域引发全球关注。该模型不仅在编码与推理任务上实现能力提升,还在关键基准上对 GPT-5.2 和 Claude Sonnet 4.5 等专有模型的主导地位发起挑战。

GLM-4.7 进入一个高性能 AI 对真实世界开发、研究与企业工作流至关重要的竞争格局。其发布对**开源大型语言模型(LLMs)**而言在技术与战略层面都是重要里程碑。

什么是 GLM 4.7?

GLM 是 General Language Model 的缩写——由 Zhipu AI 开发的一系列大型语言模型,以在强性能与开源可获取性之间取得平衡而闻名。GLM 系列持续迭代,以支持推理、多模态任务、编码与工具驱动的工作流,早期版本如 GLM-4.5 与 GLM-4.6 已被认可为高能力模型。

GLM-4.7 是 GLM-4 系列中的最新版本。不同于简单的小幅修补,它引入了有意义的架构细化与训练改进,在编程、推理、工具使用与多模态生成等核心 AI 任务上带来可衡量的增益。重要的是,它以开源形式发布,使开发者、研究者与企业用户在无专有锁定的情况下广泛获取。

其关键特性包括:

  • 一种**“think before act”机制**,模型在生成输出前预先规划推理与工具步骤——提升准确性与可靠性。
  • 更广泛的多模态能力,将文本推理扩展至视觉与结构化数据。
  • 端到端工作流的更强支持,包括工具调用与代理式行为。

GLM 4.7 有哪些新变化?与 GLM 4.6 相比如何?

先进的编码能力

GLM-4.7 的一项亮点改进是编码性能的显著提升——尤其是在多语言与多步骤编程场景中的处理能力。

BenchmarkGLM-4.7GLM-4.6
SWE-bench Verified73.8%68.8%
SWE-bench Multilingual66.7%53.8%
Terminal Bench 2.041%23.5%

据基准数据,GLM-4.7 达到:

  • SWE-bench Verified 达到 73.8%,较 GLM-4.6 有显著提升。
  • SWE-bench Multilingual 达到 66.7%(+12.9%),显示跨语言能力提升。
  • Terminal Bench 2.0 达到 41%(+16.5%),表明在命令行与代理场景中的表现更好。

这些数据表明在代码质量与稳定性方面取得了实质性进展——这对在真实编码环境中使用 AI 工具的开发者至关重要。早期的真实世界试验也显示,GLM-4.7 在完成从前端到后端的复杂任务方面比其前代更可靠。

增强的推理与工具使用

GLM-4.7 将其推理管线结构化为多种模式:

  • 交错推理,模型在每次响应或工具调用前进行推理,在每次输出前进行规划。
  • 保留推理,在多轮对话中保留推理上下文,提升长时任务表现,保留上下文并减少重复计算。
  • 回合级控制,根据每次请求动态调整推理深度。

这带来了在推理基准上的更强表现。例如,在 HLE(“Humanity’s Last Exam”)基准上,GLM-4.7 取得 42.8%,相较 GLM-4.6 提升 41%——且据部分说法在相似指标上优于 GPT-5.1。

除了原始分数,这些改进转化为对分析性查询、数学推理与结构化指令遵从更连贯且更准确的输出。

输出美感与多模态能力的改进

在保持对编码与推理的强关注的同时,GLM-4.7 在更广泛的沟通任务上也有所改进:

  • 聊天质量更自然、更具上下文感知。
  • 创意写作在文体多样性与吸引力方面更佳。
  • 角色扮演与沉浸式对话更具人性化。
  • Web 与 UI 代码生成:产出更干净、更现代的用户界面,具备更好的布局与审美质量。
  • 视觉输出:在幻灯片、海报与 HTML 设计的生成上更佳,格式与结构更优化。
  • 多模态支持:增强对文本及其他输入类型的处理,覆盖更广的应用领域。

这些质性升级让 GLM-4.7 更接近通用型 AI 的实用性——而非仅是面向开发者的专项模型。

为什么 GLM-4.7 很重要?

GLM-4.7 的发布在技术、商业与更广泛的 AI 研究层面具有重要影响:

高级 AI 的民主化

通过在宽松许可下将高性能模型完全开源且可获取,GLM-4.7 为初创公司、学术团体与独立开发者降低了创新门槛,无需承担高昂成本。

与封闭专有模型的竞争

在涵盖 17 个类别(推理、编码、代理任务)的对比基准中:

  • GLM-4.7 仍可与 GPT-5.1-High 与 Claude Sonnet 4.5 竞争。
  • 它在开放环境中优于数个其他高端模型。

这不仅体现了渐进式改进——更是性能上的实质跃升

GLM-4.7 的表现——尤其在编码与推理方面——对专有框架(如 OpenAI 的 GPT 系列与 Anthropic 的 Claude)的主导地位构成挑战,并在若干基准上提供可比或更优的结果。

这加剧了 AI 领域的竞争,有望推动更快的创新、更优的定价模型与更丰富的 AI 供给

对 AI 竞争的战略意义

GLM-4.7 的表现挑战了 AI 能力的传统层级:

  • 推动开源模型的基准性能前沿
  • 在真实世界任务中与全球专有领先者竞争。
  • 提高了专业化 AI 工作流的门槛,尤其在软件开发与重推理领域

在此背景下,GLM-4.7 不仅是技术上的前进一步——更是 AI 生态演进中的战略性里程碑

GLM-4.7 的真实世界用例有哪些?

编码助手与 Copilot

主要采用场景包括集成开发环境(IDE)助手、合并请求摘要器、自动重构工具与智能代码审查助手。模型改进的代码合成与终端交互使其适用于“助理即开发者”的模式,在该模式下模型会对代码库工件执行或建议多步骤更改。

代理式自动化与编排

GLM-4.7 的代理式改进适用于编排任务:自动化部署脚本、CI 流水线助手、提出修复步骤的系统监控代理,以及能够跨日志、代码与配置工件进行推理以提出修复建议的流水线分诊机器人。在这些场景中,“think before act”能力可减少嘈杂或不安全的工具调用。

长上下文的知识型工作

法律与合规审阅、技术尽职调查、研究综合与多文档摘要均受益于长上下文能力。GLM-4.7 能维持扩展会话状态并在更大语料上综合,从而支持跨文档问答与系统层面的分析等工作流。

多语言工程与文档

在英语与中文(以及其他支持语言)间运作的团队可将 GLM-4.7 用于文档翻译、本地化代码注释与国际化开发者入职。其多语言基准表现表明在跨语言的准确性与上下文处理方面有所提升,这对国际化产品团队十分有用。

原型制作与研究

对于在代理架构、工具链或新评测方法上做实验的研究团队,GLM-4.7 的开放分发降低了快速实验与可复现地与其他开源模型或专有基线进行对比的门槛。

结论:

GLM-4.7 是 AI 领域的一次里程碑式发布

  • 它将开源模型推进到曾由封闭系统主导的性能领域
  • 它在编码、推理与代理式工作流方面带来切实的、面向真实世界的改进
  • 其可获取性与适应性为开发者、研究者与企业提供了一个极具吸引力的平台。

本质上,GLM-4.7 不仅仅是又一次模型升级——它是开源 AI 的一枚战略进度标记,在挑战既有格局的同时,拓展了开发者与组织可构建之物的边界。

开始使用,请在 GLM 4.7GLM 4.6Playground 中探索其能力,并参阅 API 指南 获取详细说明。访问前,请确保已登录 CometAPI 并获取 API key。CometAPI 提供远低于官方价格的定价,帮助你完成集成。

准备好了吗?→ GLM 4.7 免费试用

以低成本 存取頂級模型

閱讀更多