2025 年 12 月 22 日,Zhipu AI (Z.ai) 正式發佈 GLM-4.7,其通用語言模型(GLM)家族的最新迭代——在開源 AI 模型領域引發全球關注。這一模型不僅在程式設計與推理任務上更進一層,也在關鍵基準測試中對 GPT-5.2 與 Claude Sonnet 4.5 等專有模型的主導地位發起挑戰。
GLM-4.7 進入一個高效能 AI 對真實世界的開發、研究與企業工作流程至關重要的競爭版圖。其發佈為**開源大型語言模型(LLMs)**在技術與策略層面都樹立了重要里程碑。
What Is GLM 4.7?
GLM 是 General Language Model 的縮寫——由 Zhipu AI 開發的一系列大型語言模型,以兼顧強大性能與開源可獲取性著稱。GLM 系列持續打磨,支持推理、多模態任務、程式設計與工具驅動的工作流程;早期版本如 GLM-4.5 與 GLM-4.6 已被認可具備高水準能力。
GLM-4.7 是 GLM-4 系列中的最新版本。不同於簡單的小幅修補,它帶來了有實質意義的架構優化與訓練改進,在核心 AI 任務(程式設計、推理、工具使用與多模態生成)上帶來可量化的提升。更重要的是,它以開源形式釋出,讓開發者、研究人員與企業用戶在不受專有鎖定的情況下廣泛取用。
其幾項關鍵特性包括:
- 「先思考後行動」機制,模型在產生輸出前規劃推理與工具步驟——提升準確性與可靠性。
- 更廣泛的多模態能力,將文字推理擴展至視覺與結構化資料。
- 對端到端工作流程的更強支援,包括工具調用與 Agent 式行為。
What Is New in GLM 4.7? How it Compare to GLM 4.6?
進階程式設計能力
GLM-4.7 的一大亮點是程式設計效能的明顯躍升——尤其在多語言與多步驟的編程情境中。
| 基準測試 | GLM-4.7 | GLM-4.6 |
|---|---|---|
| SWE-bench Verified | 73.8% | 68.8% |
| SWE-bench Multilingual | 66.7% | 53.8% |
| Terminal Bench 2.0 | 41% | 23.5% |
根據基準測試數據,GLM-4.7 取得:
- SWE-bench Verified 達 73.8%,較 GLM-4.6 有顯著提升。
- SWE-bench Multilingual 達 66.7%(+12.9%),展現更強的跨語言能力。
- Terminal Bench 2.0 達 41%(+16.5%),顯示在命令列與 Agent 情境中表現更佳。
這些數據顯示在程式碼品質與穩定性上均有大幅進步——對在真實開發環境中使用 AI 工具的開發者尤為關鍵。早期實際試用亦顯示,GLM-4.7 在從前端到後端的複雜任務上較前代更為可靠。
加強的推理與工具使用
GLM-4.7 將其推理流程結構化為多種模式:
- 交錯推理:模型在每次回覆或調用工具前先行推理,為每次輸出進行規劃。
- 保留式推理:跨輪次保留推理脈絡,提升長時任務表現,保留上下文並減少重複計算。
- 輪次級控制:可依請求動態調整推理深度。
這帶來更強的推理基準測試表現。例如在 HLE(“Humanity’s Last Exam”)基準測試上,GLM-4.7 取得 42.8%,較 GLM-4.6 提升 41%——並據部分報告在類似指標上優於 GPT-5.1。
除數據之外,這些改進也轉化為對分析性查詢、數學推理與結構化指令遵循產生更連貫且更精確的輸出。
輸出美感與多模態能力的提升
在專注程式設計與推理之餘,GLM-4.7 亦在更廣泛的交流任務上有所提升:
- 對話品質更自然、語境感知更強。
- 創意寫作在風格多樣性與吸引力上更佳。
- 角色扮演與沉浸式對話更貼近人類。
- Web & UI Code Generation:產生更乾淨、現代的使用者介面,佈局與美感更優。
- Visual Output:在簡報、海報與 HTML 設計的生成上,版式與結構更佳。
- Multimodal Support:加強對文字與其他輸入型態的處理,覆蓋更廣的應用領域。
這些質化升級使 GLM-4.7 更接近通用型 AI 的實用性——而不僅是面向開發者的專項模型。
Why Does GLM-4.7 Matter?
GLM-4.7 的發佈在技術、商業與更廣泛的 AI 研究層面具有深遠影響:
先進 AI 的民主化
透過以寬鬆授權全面開源並可存取的高效能模型,GLM-4.7 為新創、學術團隊與獨立開發者降低門檻,免於高昂成本。
與封閉專有模型的競爭
在涵蓋 17 個類別(推理、程式設計、Agent 任務)的對比基準中:
- GLM-4.7 依然可與 GPT-5.1-High 與 Claude Sonnet 4.5 分庭抗禮。
- 在開放場景中超越多個同級高階模型。
這不僅是小幅改進,而是實質躍升。
GLM-4.7 的表現——尤其在程式設計與推理方面——對專有體系(如 OpenAI 的 GPT 系列與 Anthropic 的 Claude)的主導地位構成挑戰,在多項基準上提供可比擬甚至更優的結果。
這將加劇 AI 版圖的競爭,可能推動更快的創新、更友善的定價模式與更豐富的 AI 供給生態。
對 AI 競爭的戰略意涵
GLM-4.7 的表現對傳統 AI 能力階序提出挑戰:
- 推動開源模型在基準表現上的前沿。
- 在真實任務中與全球專有領先者競爭。
- 提升專項 AI 工作流程的門檻,特別是軟體開發與重推理領域。
在此脈絡下,GLM-4.7 不僅是技術上的前進,更是 AI 生態演進中的戰略里程碑。
GLM-4.7 的真實場景用例有哪些?
程式助理與 Copilot
主要採用情境包括整合式開發環境(IDE)助理、Pull Request 摘要、自動重構工具與智慧程式碼審查輔助。模型在程式碼合成與終端互動上的改進,使其適用於「助理即開發者」模式,能對程式碼儲存庫工件執行或建議多步驟變更。
Agent 自動化與協同編排
GLM-4.7 的 Agent 能力提升適用於協同編排任務:自動化部署腳本、CI 流水線助理、可提出修復步驟的系統監測代理,以及能跨日誌、程式碼與組態工件推理並提出修復方案的流程分流機器人。其「先思考後行動」能力可在此類情境中減少嘈雜或不安全的工具調用。
長上下文的知識工作
法規審閱、技術盡職調查、研究綜述與多文件摘要可受益於長上下文能力。GLM-4.7 可維持延展會話狀態並跨更大語料綜合,支援跨文件問答與系統級分析等流程。
多語工程與文件
在英語與中文(及其他支援語言)間運作的團隊可用 GLM-4.7 進行文件翻譯、本地化程式碼註解與國際化開發者入職。其多語基準表現顯示對跨語言語境的更佳處理,對國際化產品團隊尤為有用。
原型開發與研究
對於探索 Agent 架構、工具鏈或新評估方法的研究團隊,GLM-4.7 的開放釋出降低了快速實驗的門檻,並可與其他開源模型或專有基線進行可重現比較。
結論:
- 將開源模型推進到曾由封閉系統主導的性能領域。
- 在程式設計、推理與 Agent 工作流程上帶來可感知、可落地的改進。
- 憑藉可獲取性與可適配性,為開發者、研究者與企業提供一個極具吸引力的平台。
總而言之,GLM-4.7 不僅僅是又一次模型升級——它是開放式 AI 進步的戰略標記,在挑戰現狀的同時拓展了開發者與組織可構建之邊界。
要開始體驗,請在 Playground 上探索 GLM 4.7 與 GLM 4.6 的能力,並參閱 API 指南 取得詳細說明。使用前請先登入 CometAPI 並取得 API 金鑰。CometAPI 提供遠低於官方價格的方案,以協助你整合。
準備就緒?→ GLM 4.7 免費試用 !
