2025 年 12 月 22 日,Zhipu AI (Z.ai) 正式發佈 GLM-4.7,其 General Language Model(GLM)家族的最新迭代——在開源 AI 模型領域引發全球關注。該模型不僅在程式設計與推理任務上更進一步,還在關鍵基準測試中對 GPT-5.2 與 Claude Sonnet 4.5 等專有模型的主導地位發起挑戰。
GLM-4.7 進入了一個對高效能 AI 要求嚴苛的競爭場域,這對於真實世界的開發、研究與企業流程至關重要。其發佈標誌著**開源大型語言模型(LLMs)**在技術與策略層面的一個重要里程碑。
什麼是 GLM 4.7?
GLM 是General Language Model(通用語言模型)的縮寫——由 Zhipu AI 開發的一系列大型語言模型,以在開源可得性與強勁表現間取得平衡而知名。GLM 系列持續演進,以支援推理、多模態任務、程式設計與工具驅動的工作流程;早期版本如 GLM-4.5 與 GLM-4.6 已以高能力著稱。
GLM-4.7 是 GLM-4 系列中的最新版本。不同於小幅補丁,它帶來了有意義的架構優化與訓練改進,在核心 AI 任務(程式設計、推理、工具使用與多模態生成)上實現可量化的提升。更重要的是,它以開源形式釋出,使開發者、研究人員與企業用戶能在無專有鎖定的情況下廣泛使用。
其核心特性包括:
- 「先思考後行動」機制:模型在輸出前規劃推理與工具步驟——提升準確性與可靠性。
- 更廣泛的多模態能力:將文字推理延伸至視覺與結構化數據。
- 對端到端工作流程的更強支援:涵蓋工具調用與 Agent 化行為。
GLM 4.7 有哪些新特性?與 GLM 4.6 有何比較?
進階程式設計能力
GLM-4.7 的一大亮點是程式設計表現明顯進步——尤其在多語言與多步驟的程式場景中。
| 基準測試 | GLM-4.7 | GLM-4.6 |
|---|---|---|
| SWE-bench Verified | 73.8% | 68.8% |
| SWE-bench Multilingual | 66.7% | 53.8% |
| Terminal Bench 2.0 | 41% | 23.5% |
根據基準數據,GLM-4.7 達成:
- SWE-bench Verified 73.8%,相較 GLM-4.6 有顯著躍升。
- SWE-bench Multilingual 66.7%(+12.9%),展現更好的跨語言能力。
- Terminal Bench 2.0 41%(+16.5%),顯示在命令列與 Agent 情境下有更佳表現。
這些數據證明不僅在程式碼品質上有所提升,穩定性也更強——這對在真實開發環境中使用 AI 工具的開發者至關重要。早期的實際試驗亦顯示,GLM-4.7 在從前端到後端的複雜任務上,比前代更能可靠完成。
強化的推理與工具使用
GLM-4.7 將其推理流程結構化為多種模式:
- 交錯式推理:模型在每次回應或調用工具前先進行推理,為每次輸出預先規劃。
- 保留式推理:在多輪對話中保留推理上下文,提升長時任務表現並減少重複計算。
- 輪次級控制:可依每次請求動態調整推理深度。
這帶來了更強的推理基準表現。例如,在 **HLE(“Humanity’s Last Exam”)**基準上,GLM-4.7 取得 42.8%,相較 GLM-4.6 提升 41%——且據部分觀測,在相似指標上超越 GPT-5.1。
不僅如此,這些改進亦轉化為針對分析性查詢、數學推理與結構化指令遵循的更連貫且更準確的輸出。
輸出美感與多模態能力的提升
在延續程式設計與推理強項的同時,GLM-4.7 在更廣泛的溝通任務上也有所提升:
- 對話品質更自然且具情境感知。
- 創意寫作在風格多樣性與表達吸引力上更佳。
- 角色扮演與沉浸式對話更加貼近人類表現。
- Web 與 UI 程式碼生成:產出更乾淨、現代的介面,版面與美感更優。
- 視覺輸出:更好地生成投影片、海報與 HTML 設計,格式與結構更完善。
- 多模態支援:加強對文字與其他輸入型態的處理,擴大應用領域。
這些質化提升使 GLM-4.7 更接近通用型 AI 的實用價值——而非僅是開發者的專用模型。
為何 GLM-4.7 重要?
GLM-4.7 的推出對技術、商業與更廣泛的 AI 研究具有重要意涵:
先進 AI 的普及化
透過以寬鬆授權開放高效能模型,GLM-4.7 降低了新創、學術團隊與獨立開發者的使用門檻,讓其能在無高昂成本的情況下創新。
與封閉專有模型的競爭
在涵蓋 17 個類別(推理、程式設計、Agent 任務)的比較基準中:
- GLM-4.7 與 GPT-5.1-High 與 Claude Sonnet 4.5 具備競爭力。
- 在開放場景下超越多個同級高階模型。
這凸顯的不是小幅度的提升,而是具有意義的性能飛躍。
GLM-4.7 的表現——尤其在程式設計與推理方面——對專有框架(如 OpenAI 的 GPT 系列與 Anthropic 的 Claude)的主導地位形成挑戰,並在多項基準中提供可比擬甚至優於對手的結果。
這將加劇 AI 版圖的競爭,可能推動更快速的創新、更優的定價模式與更豐富多元的 AI 方案。
對 AI 競爭的策略意涵
GLM-4.7 的表現正在改寫傳統的 AI 能力階序:
- 推進開源模型的基準表現前沿。
- 在真實世界任務中與全球專有領先者同台競逐。
- 提升專業化工作流程的標準,尤其在軟體開發與高強度推理領域。
在此脈絡下,GLM-4.7 不僅是技術上的前進,更是 AI 生態演進中的策略性里程碑。
GLM-4.7 的實際使用場景是什麼?
程式助理與 Copilot
主要採用場景包括整合式開發環境(IDE)助理、PR 摘要工具、自動重構工具以及智慧程式碼審查助手。模型改進的程式合成與終端互動能力,適用於「助理即開發者」的模式,讓模型能對版本庫進行多步驟變更或提出建議。
Agent 化自動化與編排
GLM-4.7 的 Agent 能力適合用於流程編排:自動化部署腳本、CI 流水線助理、提出修復步驟的系統監控代理、以及可跨日誌、程式碼與設定檔進行推理以提出修復方案的管線分流機器人。在此情境下,「先思考後行動」能力可減少嘈雜或不安全的工具呼叫。
長內容的知識型工作
法規與合規審查、技術盡職調查、研究綜整與多文件摘要等都受益於長上下文能力。GLM-4.7 能維持延展的會話狀態並跨更大語料整合資訊,支持跨文件問答與系統層級分析等工作流程。
多語工程與文件
面向英語與中文(以及其他支援語言)運作的團隊,可使用 GLM-4.7 進行文件翻譯、本地化註解與國際化開發者入門。其多語基準表現顯示更佳的準確度與上下文處理,對於國際化產品團隊尤為實用。
原型開發與研究
對於探索 Agent 架構、工具鏈或新評測方法的研究團隊而言,GLM-4.7 的開放發佈可降低快速試驗的門檻,並便於與其他開源或專有基準進行可重現的比較。
結論:
GLM-4.7 是 AI 領域的一次里程碑式發佈:
- 它將開源模型推向原先由封閉系統主導的性能區間。
- 它在程式設計、推理與 Agent 流程上帶來切實可感的實用提升。
- 其可用性與可適配性,為開發者、研究人員與企業提供了具吸引力的平台。
本質上,GLM-4.7 不僅僅是一次版本升級——它是開源 AI 向前推進的策略性標誌,在挑戰現狀的同時,擴展了開發者與組織可構建之事物的邊界。
開始體驗:GLM 4.7 與 GLM 4.6 的能力,於 Playground 測試,並參考 API 指南 取得詳細說明。使用前請先登入 CometAPI 並取得 API key。CometAPI 提供遠低於官方定價的價格,協助你更輕鬆整合。
準備好了嗎?→ GLM 4.7 免費試用!
