GLM-4.7 發布:這對人工智慧意味著什麼?

CometAPI
AnnaDec 23, 2025
GLM-4.7 發布:這對人工智慧意味著什麼?

2025 年 12 月 22 日,Zhipu AI (Z.ai) 正式發佈 GLM-4.7,其通用語言模型(GLM)家族的最新迭代——在開源 AI 模型領域引發全球關注。這一模型不僅在程式設計與推理任務上更進一層,也在關鍵基準測試中對 GPT-5.2 與 Claude Sonnet 4.5 等專有模型的主導地位發起挑戰。

GLM-4.7 進入一個高效能 AI 對真實世界的開發、研究與企業工作流程至關重要的競爭版圖。其發佈為**開源大型語言模型(LLMs)**在技術與策略層面都樹立了重要里程碑。

What Is GLM 4.7?

GLM 是 General Language Model 的縮寫——由 Zhipu AI 開發的一系列大型語言模型,以兼顧強大性能與開源可獲取性著稱。GLM 系列持續打磨,支持推理、多模態任務、程式設計與工具驅動的工作流程;早期版本如 GLM-4.5 與 GLM-4.6 已被認可具備高水準能力。

GLM-4.7 是 GLM-4 系列中的最新版本。不同於簡單的小幅修補,它帶來了有實質意義的架構優化與訓練改進,在核心 AI 任務(程式設計、推理、工具使用與多模態生成)上帶來可量化的提升。更重要的是,它以開源形式釋出,讓開發者、研究人員與企業用戶在不受專有鎖定的情況下廣泛取用。

其幾項關鍵特性包括:

  • 「先思考後行動」機制,模型在產生輸出前規劃推理與工具步驟——提升準確性與可靠性。
  • 更廣泛的多模態能力,將文字推理擴展至視覺與結構化資料。
  • 端到端工作流程的更強支援,包括工具調用與 Agent 式行為。

What Is New in GLM 4.7? How it Compare to GLM 4.6?

進階程式設計能力

GLM-4.7 的一大亮點是程式設計效能的明顯躍升——尤其在多語言與多步驟的編程情境中。

基準測試GLM-4.7GLM-4.6
SWE-bench Verified73.8%68.8%
SWE-bench Multilingual66.7%53.8%
Terminal Bench 2.041%23.5%

根據基準測試數據,GLM-4.7 取得:

  • SWE-bench Verified 達 73.8%,較 GLM-4.6 有顯著提升。
  • SWE-bench Multilingual 達 66.7%(+12.9%),展現更強的跨語言能力。
  • Terminal Bench 2.0 達 41%(+16.5%),顯示在命令列與 Agent 情境中表現更佳。

這些數據顯示在程式碼品質與穩定性上均有大幅進步——對在真實開發環境中使用 AI 工具的開發者尤為關鍵。早期實際試用亦顯示,GLM-4.7 在從前端到後端的複雜任務上較前代更為可靠。

加強的推理與工具使用

GLM-4.7 將其推理流程結構化為多種模式:

  • 交錯推理:模型在每次回覆或調用工具前先行推理,為每次輸出進行規劃。
  • 保留式推理:跨輪次保留推理脈絡,提升長時任務表現,保留上下文並減少重複計算。
  • 輪次級控制:可依請求動態調整推理深度。

這帶來更強的推理基準測試表現。例如在 HLE(“Humanity’s Last Exam”)基準測試上,GLM-4.7 取得 42.8%,較 GLM-4.6 提升 41%——並據部分報告在類似指標上優於 GPT-5.1。

除數據之外,這些改進也轉化為對分析性查詢、數學推理與結構化指令遵循產生更連貫且更精確的輸出。

輸出美感與多模態能力的提升

在專注程式設計與推理之餘,GLM-4.7 亦在更廣泛的交流任務上有所提升:

  • 對話品質更自然、語境感知更強。
  • 創意寫作在風格多樣性與吸引力上更佳。
  • 角色扮演與沉浸式對話更貼近人類。
  • Web & UI Code Generation:產生更乾淨、現代的使用者介面,佈局與美感更優。
  • Visual Output:在簡報、海報與 HTML 設計的生成上,版式與結構更佳。
  • Multimodal Support:加強對文字與其他輸入型態的處理,覆蓋更廣的應用領域。

這些質化升級使 GLM-4.7 更接近通用型 AI 的實用性——而不僅是面向開發者的專項模型。

Why Does GLM-4.7 Matter?

GLM-4.7 的發佈在技術、商業與更廣泛的 AI 研究層面具有深遠影響

先進 AI 的民主化

透過以寬鬆授權全面開源並可存取的高效能模型,GLM-4.7 為新創、學術團隊與獨立開發者降低門檻,免於高昂成本。

與封閉專有模型的競爭

在涵蓋 17 個類別(推理、程式設計、Agent 任務)的對比基準中:

  • GLM-4.7 依然可與 GPT-5.1-High 與 Claude Sonnet 4.5 分庭抗禮。
  • 在開放場景中超越多個同級高階模型。

這不僅是小幅改進,而是實質躍升

GLM-4.7 的表現——尤其在程式設計與推理方面——對專有體系(如 OpenAI 的 GPT 系列與 Anthropic 的 Claude)的主導地位構成挑戰,在多項基準上提供可比擬甚至更優的結果。

這將加劇 AI 版圖的競爭,可能推動更快的創新、更友善的定價模式與更豐富的 AI 供給生態

對 AI 競爭的戰略意涵

GLM-4.7 的表現對傳統 AI 能力階序提出挑戰:

  • 推動開源模型在基準表現上的前沿。
  • 在真實任務中與全球專有領先者競爭。
  • 提升專項 AI 工作流程的門檻,特別是軟體開發與重推理領域

在此脈絡下,GLM-4.7 不僅是技術上的前進,更是 AI 生態演進中的戰略里程碑

GLM-4.7 的真實場景用例有哪些?

程式助理與 Copilot

主要採用情境包括整合式開發環境(IDE)助理、Pull Request 摘要、自動重構工具與智慧程式碼審查輔助。模型在程式碼合成與終端互動上的改進,使其適用於「助理即開發者」模式,能對程式碼儲存庫工件執行或建議多步驟變更。

Agent 自動化與協同編排

GLM-4.7 的 Agent 能力提升適用於協同編排任務:自動化部署腳本、CI 流水線助理、可提出修復步驟的系統監測代理,以及能跨日誌、程式碼與組態工件推理並提出修復方案的流程分流機器人。其「先思考後行動」能力可在此類情境中減少嘈雜或不安全的工具調用。

長上下文的知識工作

法規審閱、技術盡職調查、研究綜述與多文件摘要可受益於長上下文能力。GLM-4.7 可維持延展會話狀態並跨更大語料綜合,支援跨文件問答與系統級分析等流程。

多語工程與文件

在英語與中文(及其他支援語言)間運作的團隊可用 GLM-4.7 進行文件翻譯、本地化程式碼註解與國際化開發者入職。其多語基準表現顯示對跨語言語境的更佳處理,對國際化產品團隊尤為有用。

原型開發與研究

對於探索 Agent 架構、工具鏈或新評估方法的研究團隊,GLM-4.7 的開放釋出降低了快速實驗的門檻,並可與其他開源模型或專有基線進行可重現比較。

結論:

  • 開源模型推進到曾由封閉系統主導的性能領域
  • 在程式設計、推理與 Agent 工作流程上帶來可感知、可落地的改進
  • 憑藉可獲取性與可適配性,為開發者、研究者與企業提供一個極具吸引力的平台。

總而言之,GLM-4.7 不僅僅是又一次模型升級——它是開放式 AI 進步的戰略標記,在挑戰現狀的同時拓展了開發者與組織可構建之邊界。

要開始體驗,請在 Playground 上探索 GLM 4.7GLM 4.6 的能力,並參閱 API 指南 取得詳細說明。使用前請先登入 CometAPI 並取得 API 金鑰。CometAPI 提供遠低於官方價格的方案,以協助你整合。

準備就緒?→ GLM 4.7 免費試用

準備好將 AI 開發成本降低 20% 了嗎?

幾分鐘內免費開始。包含免費試用點數。無需信用卡。

閱讀更多