GLM-4.7 發布：這對人工智慧意味著什麼？

2025 年 12 月 22 日，Zhipu AI (Z.ai) 正式發佈 GLM-4.7，其通用語言模型（GLM）家族的最新迭代——在開源 AI 模型領域引發全球關注。這一模型不僅在程式設計與推理任務上更進一層，也在關鍵基準測試中對 GPT-5.2 與 Claude Sonnet 4.5 等專有模型的主導地位發起挑戰。

GLM-4.7 進入一個高效能 AI 對真實世界的開發、研究與企業工作流程至關重要的競爭版圖。其發佈為**開源大型語言模型（LLMs）**在技術與策略層面都樹立了重要里程碑。

What Is GLM 4.7?

GLM 是 General Language Model 的縮寫——由 Zhipu AI 開發的一系列大型語言模型，以兼顧強大性能與開源可獲取性著稱。GLM 系列持續打磨，支持推理、多模態任務、程式設計與工具驅動的工作流程；早期版本如 GLM-4.5 與 GLM-4.6 已被認可具備高水準能力。

GLM-4.7 是 GLM-4 系列中的最新版本。不同於簡單的小幅修補，它帶來了有實質意義的架構優化與訓練改進，在核心 AI 任務（程式設計、推理、工具使用與多模態生成）上帶來可量化的提升。更重要的是，它以開源形式釋出，讓開發者、研究人員與企業用戶在不受專有鎖定的情況下廣泛取用。

其幾項關鍵特性包括：

「先思考後行動」機制，模型在產生輸出前規劃推理與工具步驟——提升準確性與可靠性。
更廣泛的多模態能力，將文字推理擴展至視覺與結構化資料。
對端到端工作流程的更強支援，包括工具調用與 Agent 式行為。

What Is New in GLM 4.7? How it Compare to GLM 4.6?

進階程式設計能力

GLM-4.7 的一大亮點是程式設計效能的明顯躍升——尤其在多語言與多步驟的編程情境中。

基準測試	GLM-4.7	GLM-4.6
SWE-bench Verified	73.8%	68.8%
SWE-bench Multilingual	66.7%	53.8%
Terminal Bench 2.0	41%	23.5%

根據基準測試數據，GLM-4.7 取得：

SWE-bench Verified 達 73.8%，較 GLM-4.6 有顯著提升。
SWE-bench Multilingual 達 66.7%（+12.9%），展現更強的跨語言能力。
Terminal Bench 2.0 達 41%（+16.5%），顯示在命令列與 Agent 情境中表現更佳。

這些數據顯示在程式碼品質與穩定性上均有大幅進步——對在真實開發環境中使用 AI 工具的開發者尤為關鍵。早期實際試用亦顯示，GLM-4.7 在從前端到後端的複雜任務上較前代更為可靠。

加強的推理與工具使用

GLM-4.7 將其推理流程結構化為多種模式：

交錯推理：模型在每次回覆或調用工具前先行推理，為每次輸出進行規劃。
保留式推理：跨輪次保留推理脈絡，提升長時任務表現，保留上下文並減少重複計算。
輪次級控制：可依請求動態調整推理深度。

這帶來更強的推理基準測試表現。例如在 HLE（“Humanity’s Last Exam”）基準測試上，GLM-4.7 取得 42.8%，較 GLM-4.6 提升 41%——並據部分報告在類似指標上優於 GPT-5.1。

除數據之外，這些改進也轉化為對分析性查詢、數學推理與結構化指令遵循產生更連貫且更精確的輸出。

輸出美感與多模態能力的提升

在專注程式設計與推理之餘，GLM-4.7 亦在更廣泛的交流任務上有所提升：

對話品質更自然、語境感知更強。
創意寫作在風格多樣性與吸引力上更佳。
角色扮演與沉浸式對話更貼近人類。
Web & UI Code Generation：產生更乾淨、現代的使用者介面，佈局與美感更優。
Visual Output：在簡報、海報與 HTML 設計的生成上，版式與結構更佳。
Multimodal Support：加強對文字與其他輸入型態的處理，覆蓋更廣的應用領域。

這些質化升級使 GLM-4.7 更接近通用型 AI 的實用性——而不僅是面向開發者的專項模型。

Why Does GLM-4.7 Matter?

GLM-4.7 的發佈在技術、商業與更廣泛的 AI 研究層面具有深遠影響：

先進 AI 的民主化

透過以寬鬆授權全面開源並可存取的高效能模型，GLM-4.7 為新創、學術團隊與獨立開發者降低門檻，免於高昂成本。

與封閉專有模型的競爭

在涵蓋 17 個類別（推理、程式設計、Agent 任務）的對比基準中：

GLM-4.7 依然可與 GPT-5.1-High 與 Claude Sonnet 4.5 分庭抗禮。
在開放場景中超越多個同級高階模型。

這不僅是小幅改進，而是實質躍升。

GLM-4.7 的表現——尤其在程式設計與推理方面——對專有體系（如 OpenAI 的 GPT 系列與 Anthropic 的 Claude）的主導地位構成挑戰，在多項基準上提供可比擬甚至更優的結果。

這將加劇 AI 版圖的競爭，可能推動更快的創新、更友善的定價模式與更豐富的 AI 供給生態。

對 AI 競爭的戰略意涵

GLM-4.7 的表現對傳統 AI 能力階序提出挑戰：

推動開源模型在基準表現上的前沿。
在真實任務中與全球專有領先者競爭。
提升專項 AI 工作流程的門檻，特別是軟體開發與重推理領域。

在此脈絡下，GLM-4.7 不僅是技術上的前進，更是 AI 生態演進中的戰略里程碑。

GLM-4.7 的真實場景用例有哪些？

程式助理與 Copilot

主要採用情境包括整合式開發環境（IDE）助理、Pull Request 摘要、自動重構工具與智慧程式碼審查輔助。模型在程式碼合成與終端互動上的改進，使其適用於「助理即開發者」模式，能對程式碼儲存庫工件執行或建議多步驟變更。

Agent 自動化與協同編排

GLM-4.7 的 Agent 能力提升適用於協同編排任務：自動化部署腳本、CI 流水線助理、可提出修復步驟的系統監測代理，以及能跨日誌、程式碼與組態工件推理並提出修復方案的流程分流機器人。其「先思考後行動」能力可在此類情境中減少嘈雜或不安全的工具調用。

長上下文的知識工作

法規審閱、技術盡職調查、研究綜述與多文件摘要可受益於長上下文能力。GLM-4.7 可維持延展會話狀態並跨更大語料綜合，支援跨文件問答與系統級分析等流程。

多語工程與文件

在英語與中文（及其他支援語言）間運作的團隊可用 GLM-4.7 進行文件翻譯、本地化程式碼註解與國際化開發者入職。其多語基準表現顯示對跨語言語境的更佳處理，對國際化產品團隊尤為有用。

原型開發與研究

對於探索 Agent 架構、工具鏈或新評估方法的研究團隊，GLM-4.7 的開放釋出降低了快速實驗的門檻，並可與其他開源模型或專有基線進行可重現比較。

結論：

將開源模型推進到曾由封閉系統主導的性能領域。
在程式設計、推理與 Agent 工作流程上帶來可感知、可落地的改進。
憑藉可獲取性與可適配性，為開發者、研究者與企業提供一個極具吸引力的平台。

總而言之，GLM-4.7 不僅僅是又一次模型升級——它是開放式 AI 進步的戰略標記，在挑戰現狀的同時拓展了開發者與組織可構建之邊界。

要開始體驗，請在 Playground 上探索 GLM 4.7 與 GLM 4.6 的能力，並參閱 API 指南取得詳細說明。使用前請先登入 CometAPI 並取得 API 金鑰。CometAPI 提供遠低於官方價格的方案，以協助你整合。

準備就緒？→ GLM 4.7 免費試用！

準備好將 AI 開發成本降低 20% 了嗎？

閱讀更多