模型支援企業部落格
500+ AI 模型 API,全部整合在一個 API 中。就在 CometAPI
模型 API
開發者
快速入門說明文件API 儀表板
資源
AI模型部落格企業更新日誌關於
2025 CometAPI. 保留所有權利。隱私政策服務條款
Home/Models/Zhipu AI/GLM-4.7
Z

GLM-4.7

輸入:$0.96/M
輸出:$3.84/M
上下文:200K
最大輸出:128K
GLM-4.7 是 Z.AI 最新的旗艦模型,在兩個關鍵領域帶來升級:更強的程式設計能力與更穩定的多步推理與執行。它在執行複雜的 Agent 任務方面顯著提升,同時提供更自然的對話體驗與更出色的前端美學。
新
商業用途
Playground
概覽
功能
定價
API

GLM-4.7 是什麼

GLM-4.7 是 Z.ai / Zhipu AI 最新的旗艦級開源基礎大語言模型(模型名稱 glm-4.7)。它被定位為面向開發者的「思考型」模型,特別強化了 程式設計/代理式任務執行、多步推理、工具調用,以及長上下文工作流程。此次發布重點突出了大型上下文處理能力(最高 200K 上下文)、高最大輸出(最高 128K tokens),以及面向代理式流程的專用「思考」模式。

主要特性

  • 代理式/工具使用能力提升: 內建思考模式(「Interleaved Thinking」、「Preserved Thinking」、回合級控制),讓模型能在行動前先思考、在多輪對話中保留推理,並在調用工具或執行多步任務時更穩定。這是為了支援更穩健的代理工作流程(終端機、工具鏈、網頁瀏覽)。
  • 程式設計與終端機能力: 在程式設計基準測試與終端機自動化任務上有顯著提升——廠商基準測試顯示,相較於 GLM-4.6,在 SWE-bench 與 Terminal Bench 指標上有明顯進步。這代表在代理環境中,多輪程式碼生成、命令排序與錯誤恢復能力更強。
  • 「Vibe coding」/前端輸出品質: 生成的 HTML、投影片與簡報在預設 UI/版面品質方面有所改進(版面更整潔、尺寸更合理、視覺預設更佳)。
  • 長上下文工作流程: 具備 200K token 上下文視窗與上下文快取工具;適合多檔程式碼庫、長篇文件,以及多輪代理工作階段。

基準表現

GLM-4.7 的發布方/維護者與社群基準表顯示,相較於 GLM-4.6 有顯著提升,且在程式設計、代理式與工具使用任務上,對比其他同時代模型也具有競爭力。以下為部分數據(來源:官方 Hugging Face / Z.AI 公布表格):

  • LiveCodeBench-v6(程式設計代理基準): 84.9(標示為開源 SOTA)。
  • SWE-bench Verified(程式設計): 73.8%(較 GLM-4.6 的 68.0% 提升)。
  • SWE-bench Multilingual: 66.7%(較 GLM-4.6 提升 +12.9%)。
  • Terminal Bench 2.0(代理式終端機操作): 41.0%(相較 4.6 有顯著 +16.5% 提升)。
  • HLE(結合工具的複雜推理): 搭配工具使用時為 42.8%(相較先前版本據報有大幅提升)。
  • τ²-Bench(互動式工具調用): 87.4(據報為開源 SOTA)。

典型使用案例與示例場景

  • 代理式程式設計助手: 自主或半自主的程式碼生成、多輪程式碼修復、終端機自動化與 CI/CD 腳本撰寫。
  • 工具驅動代理: 網頁瀏覽、API 編排、多步工作流程(支援 preserved thinking 與 function calling)。
  • 前端與 UI 生成: 自動建立網站骨架、投影片、海報,且具備更佳的美觀度與版面配置。
  • 研究與長上下文任務: 長文件上的文件摘要、文獻整合,以及檢索增強生成(200k token 視窗在此很有幫助)。
  • 互動式教育代理/程式設計導師: 具備保留推理能力的多輪教學,在整個對話期間記住先前的推理區塊。

如何存取並使用 GLM 4.7 API

步驟 1:註冊以取得 API Key

登入 cometapi.com。如果您尚未成為我們的使用者,請先註冊。登入您的 CometAPI 控制台。取得介面存取憑證 API key。於個人中心的 API token 處點擊「Add Token」,取得 token key:sk-xxxxx 並提交。

步驟 2:向 MiniMax M2.1 API 發送請求

選擇「glm-4.7」端點來發送 API 請求,並設定請求主體。請求方法與請求主體可從我們網站的 API 文件取得。我們的網站也提供 Apifox 測試供您使用。將 <YOUR_API_KEY> 替換為您帳戶中的實際 CometAPI key。呼叫位置: Chat 風格的 API。

將您的問題或請求插入 content 欄位——這就是模型會回應的內容。處理 API 回應以取得生成的答案。

步驟 3:取得並驗證結果

處理 API 回應以取得生成的答案。處理完成後,API 會回傳任務狀態和

GLM-4.7 的功能

探索 GLM-4.7 的核心功能,專為提升效能和可用性而設計。了解這些功能如何為您的專案帶來效益並改善使用者體驗。

GLM-4.7 的定價

探索 GLM-4.7 的競爭性定價,專為滿足各種預算和使用需求而設計。我們靈活的方案確保您只需為實際使用量付費,讓您能夠隨著需求增長輕鬆擴展。了解 GLM-4.7 如何在保持成本可控的同時提升您的專案效果。
彗星價格 (USD / M Tokens)官方價格 (USD / M Tokens)折扣
輸入:$0.96/M
輸出:$3.84/M
輸入:$1.2/M
輸出:$4.8/M
-20%

GLM-4.7 的範例程式碼和 API

存取完整的範例程式碼和 API 資源,以簡化您的 GLM-4.7 整合流程。我們詳盡的文件提供逐步指引,協助您在專案中充分發揮 GLM-4.7 的潛力。
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

# glm-4.7: Zhipu GLM-4.7 model via chat/completions
completion = client.chat.completions.create(
    model="glm-4.7",
    messages=[
        {"role": "user", "content": "Hello! Tell me a short joke."}
    ]
)

print(completion.choices[0].message.content)

Python Code Example

from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

# glm-4.7: Zhipu GLM-4.7 model via chat/completions
completion = client.chat.completions.create(
    model="glm-4.7",
    messages=[
        {"role": "user", "content": "Hello! Tell me a short joke."}
    ]
)

print(completion.choices[0].message.content)

JavaScript Code Example

import OpenAI from "openai";

// Get your CometAPI key from https://api.cometapi.com/console/token
const COMETAPI_KEY = process.env.COMETAPI_KEY || "<YOUR_COMETAPI_KEY>";
const BASE_URL = "https://api.cometapi.com/v1";

const client = new OpenAI({
  apiKey: COMETAPI_KEY,
  baseURL: BASE_URL,
});

// glm-4.7: Zhipu GLM-4.7 model via chat/completions
async function main() {
  const completion = await client.chat.completions.create({
    model: "glm-4.7",
    messages: [{ role: "user", content: "Hello! Tell me a short joke." }],
  });

  console.log(completion.choices[0].message.content);
}

main().catch(console.error);

Curl Code Example

#!/bin/bash

# Get your CometAPI key from https://api.cometapi.com/console/token
COMETAPI_KEY="${COMETAPI_KEY:-<YOUR_COMETAPI_KEY>}"

# glm-4.7: Zhipu GLM-4.7 model via chat/completions
curl -s https://api.cometapi.com/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $COMETAPI_KEY" \
  -d '{
    "model": "glm-4.7",
    "messages": [
      {
        "role": "user",
        "content": "Hello! Tell me a short joke."
      }
    ]
  }'

更多模型

A

Claude Opus 4.6

輸入:$4/M
輸出:$20/M
Claude Opus 4.6 是 Anthropic 的「Opus」級大型語言模型,於 2026 年 2 月發布。它被定位為知識工作與研究工作流程的主力,著重提升長上下文推理、多步規劃、工具使用(包括代理型軟體工作流程),以及電腦操作任務,例如自動化製作投影片與試算表。
A

Claude Sonnet 4.6

輸入:$2.4/M
輸出:$12/M
Claude Sonnet 4.6 是我們迄今為止最強大的 Sonnet 模型。它對模型在程式設計、電腦操作、長上下文推理、代理規劃、知識工作與設計等方面的能力進行了全面升級。Sonnet 4.6 亦提供 1M 詞元的上下文視窗,目前處於 Beta 階段。
O

GPT-5.4 nano

輸入:$0.16/M
輸出:$1/M
GPT-5.4 nano 專為速度與成本最為關鍵的任務而設計,例如分類、資料擷取、排序與子智能體。
O

GPT-5.4 mini

輸入:$0.6/M
輸出:$3.6/M
GPT-5.4 mini 將 GPT-5.4 的優勢帶入一個更快速、更高效、專為大量工作負載設計的模型。
A

Claude Mythos Preview

A

Claude Mythos Preview

即將推出
輸入:$60/M
輸出:$240/M
Claude Mythos Preview 是我們迄今最強大的前沿模型,與我們先前的前沿模型 Claude Opus 4.6 相比,在多項評測基準上的分數呈現出 顯著躍升。
X

mimo-v2-pro

輸入:$0.8/M
輸出:$2.4/M
MiMo-V2-Pro 是 Xiaomi 的旗艦級基礎模型,具備超過 1T 的總參數與 1M 的上下文長度,並針對 Agent 化場景進行了深度優化。它可高度適配 OpenClaw 等通用 Agent 框架。在標準的 PinchBench 與 ClawBench 基準測試中名列全球頂尖,其感知表現接近 Opus 4.6。MiMo-V2-Pro 旨在作為 Agent 系統的大腦,編排複雜工作流程、推動生產級工程任務,並可靠地交付結果。

相關部落格

GLM-5 與 GLM-4.7:有哪些改變、重點是什麼,以及是否應該升級?
Feb 26, 2026
glm-5
glm-4-7

GLM-5 與 GLM-4.7:有哪些改變、重點是什麼,以及是否應該升級?

GLM-5,由 Zhipu AI (Z.ai) 於 2026 年 2 月 11 日發佈,相較於 GLM-4.7 在架構上有重大躍進:更大的 MoE 規模(≈744B vs ~355B 總參數量)、更高的活躍參數容量、更低的實測幻覺率,並在 agentic 與編碼基準測試上取得明顯提升—但以推理複雜度和(有時)延遲為代價。
以下以「GLM-4-7B-Flash」(常見記法為 GLM-4-7B-Flash,您寫的 GLM-4.7-Flash 多半指此型號)為例,說明本機離線使用的常見方式。請先在 Hugging Face 或 ModelScope 找到對應的模型倉庫並接受授權,後續將 <model-id> 替換為實際倉庫名;GLM 系列通常需要 trust_remote_code。

一、環境與依賴
- 建議:Python 3.10+,CUDA 11.8+/12.x(若用 NVIDIA GPU),PyTorch 對應版本
- 可選加速:flash-attn(需符合 GPU 架構與 CUDA 版本)
- 安裝基本依賴
  pip install --upgrade torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
  pip install --upgrade transformers accelerate sentencepiece safetensors
  pip install --upgrade bitsandbytes  # 如需4-bit量化推理
  pip install flash-attn --no-build-isolation  # 可選(GPU 支援時)

二、使用 Transformers 直接推理
- 半精度/自動分配到 GPU
  from transformers import AutoTokenizer, AutoModelForCausalLM
  import torch

  model_id = "<model-id>"  # 例如:THUDM/glm-4-7b-flash(請以實際倉庫名為準)
  tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True)
  model = AutoModelForCausalLM.from_pretrained(
      model_id,
      torch_dtype=torch.bfloat16,   # 或 torch.float16(依 GPU 支援)
      device_map="auto",
      trust_remote_code=True
  ).eval()

  # 若模型提供 chat 介面(GLM 常見)
  response, history = model.chat(tokenizer, "你好,給我一段 GLM 本機使用的示例。", history=[])
  print(response)

  # 或使用 chat template(通用方式)
  messages = [
      {"role": "system", "content": "You are a helpful assistant."},
      {"role": "user", "content": "介紹一下 GLM-4-7B-Flash 的本機部署方法。"}
  ]
  input_ids = tokenizer.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt").to(model.device)
  with torch.no_grad():
      outputs = model.generate(
          input_ids,
          max_new_tokens=512,
          temperature=0.7,
          top_p=0.9
      )
  print(tokenizer.decode(outputs[0], skip_special_tokens=True))

- 4-bit 量化(降低顯存佔用)
  from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig

  quant_cfg = BitsAndBytesConfig(
      load_in_4bit=True,
      bnb_4bit_use_double_quant=True,
      bnb_4bit_quant_type="nf4",
      bnb_4bit_compute_dtype="bfloat16"
  )
  tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True)
  model = AutoModelForCausalLM.from_pretrained(
      model_id,
      quantization_config=quant_cfg,
      device_map="auto",
      trust_remote_code=True
  ).eval()

- Apple Silicon(MPS)簡述
  import torch
  device = torch.device("mps") if torch.backends.mps.is_available() else torch.device("cpu")
  # 直接 .to(device) 或 device_map="auto" 由 PyTorch 分配(性能不及 CUDA,僅作輕量測試)

三、用 vLLM 跑本地 OpenAI 相容服務
- 安裝與啟動
  pip install "vllm>=0.5.0"
  python -m vllm.entrypoints.openai.api_server --model <model-id> --trust-remote-code --max-model-len 4096 --dtype auto

- 調用(curl)
  curl http://127.0.0.1:8000/v1/chat/completions \
    -H "Content-Type: application/json" \
    -d '{
      "model": "<model-id>",
      "messages": [{"role":"user","content":"用要點說明如何本機使用 GLM-4-7B-Flash"}],
      "temperature": 0.7
    }'

- 調用(Python,openai 相容)
  pip install openai
  from openai import OpenAI
  client = OpenAI(base_url="http://127.0.0.1:8000/v1", api_key="EMPTY")
  resp = client.chat.completions.create(
      model="<model-id>",
      messages=[{"role":"user","content":"請示範本機推理指令"}],
      temperature=0.7
  )
  print(resp.choices[0].message.content)

四、常見注意事項
- 模型倉庫與授權:到 Hugging Face 或 ModelScope 搜尋「GLM-4-7B-Flash」或相近名稱,閱讀說明並接受授權。不同倉庫可能提供原始、量化(如 GPTQ/AWQ/INT4)或「Flash/Long」等變體。
- trust_remote_code:GLM 系列常需設為 True 以載入自定義模型邏輯與 chat 介面。
- 顯存需求(粗略參考):7B FP16/BF16 約需 12–16GB;4-bit 量化約 6–8GB。實際取決於序列長度與張量並行策略。
- 加速:若安裝並啟用 flash-attn,需確保 CUDA/驅動/GPU 架構相容;否則請移除或改用預設注意力實作。
- 長文本與上下文:若為「Flash」或「Long」變體,請依倉庫說明設置 max_position_embeddings 或相應啟動參數(如 vLLM 的 --max-model-len)。
- Windows 使用者:建議 CUDA + WSL2 或原生 CUDA 環境;bitsandbytes 在某些 Windows/CUDA 組合上需額外配置。

五、快速故障排查
- ImportError/ModuleNotFoundError:升級 transformers、accelerate、safetensors;確認 trust_remote_code=True。
- CUDA OOM:嘗試 4-bit 量化、減小 batch/序列長度、關閉梯度計算(eval、no_grad)、或使用 vLLM+paged attention。
- 推理很慢:確認是否在 CPU 上;如可用,安裝 flash-attn;調整 max_new_tokens、temperature/top_p;或改用量化權重。

如您提供具體的模型倉庫名稱(<model-id>)與硬體環境(GPU/顯存/作業系統),可進一步給出精確的安裝與啟動指令。
Jan 21, 2026
glm-4-7
glm-4-7

以下以「GLM-4-7B-Flash」(常見記法為 GLM-4-7B-Flash,您寫的 GLM-4.7-Flash 多半指此型號)為例,說明本機離線使用的常見方式。請先在 Hugging Face 或 ModelScope 找到對應的模型倉庫並接受授權,後續將 <model-id> 替換為實際倉庫名;GLM 系列通常需要 trust_remote_code。 一、環境與依賴 - 建議:Python 3.10+,CUDA 11.8+/12.x(若用 NVIDIA GPU),PyTorch 對應版本 - 可選加速:flash-attn(需符合 GPU 架構與 CUDA 版本) - 安裝基本依賴 pip install --upgrade torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 pip install --upgrade transformers accelerate sentencepiece safetensors pip install --upgrade bitsandbytes # 如需4-bit量化推理 pip install flash-attn --no-build-isolation # 可選(GPU 支援時) 二、使用 Transformers 直接推理 - 半精度/自動分配到 GPU from transformers import AutoTokenizer, AutoModelForCausalLM import torch model_id = "<model-id>" # 例如:THUDM/glm-4-7b-flash(請以實際倉庫名為準) tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True) model = AutoModelForCausalLM.from_pretrained( model_id, torch_dtype=torch.bfloat16, # 或 torch.float16(依 GPU 支援) device_map="auto", trust_remote_code=True ).eval() # 若模型提供 chat 介面(GLM 常見) response, history = model.chat(tokenizer, "你好,給我一段 GLM 本機使用的示例。", history=[]) print(response) # 或使用 chat template(通用方式) messages = [ {"role": "system", "content": "You are a helpful assistant."}, {"role": "user", "content": "介紹一下 GLM-4-7B-Flash 的本機部署方法。"} ] input_ids = tokenizer.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt").to(model.device) with torch.no_grad(): outputs = model.generate( input_ids, max_new_tokens=512, temperature=0.7, top_p=0.9 ) print(tokenizer.decode(outputs[0], skip_special_tokens=True)) - 4-bit 量化(降低顯存佔用) from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig quant_cfg = BitsAndBytesConfig( load_in_4bit=True, bnb_4bit_use_double_quant=True, bnb_4bit_quant_type="nf4", bnb_4bit_compute_dtype="bfloat16" ) tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True) model = AutoModelForCausalLM.from_pretrained( model_id, quantization_config=quant_cfg, device_map="auto", trust_remote_code=True ).eval() - Apple Silicon(MPS)簡述 import torch device = torch.device("mps") if torch.backends.mps.is_available() else torch.device("cpu") # 直接 .to(device) 或 device_map="auto" 由 PyTorch 分配(性能不及 CUDA,僅作輕量測試) 三、用 vLLM 跑本地 OpenAI 相容服務 - 安裝與啟動 pip install "vllm>=0.5.0" python -m vllm.entrypoints.openai.api_server --model <model-id> --trust-remote-code --max-model-len 4096 --dtype auto - 調用(curl) curl http://127.0.0.1:8000/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": "<model-id>", "messages": [{"role":"user","content":"用要點說明如何本機使用 GLM-4-7B-Flash"}], "temperature": 0.7 }' - 調用(Python,openai 相容) pip install openai from openai import OpenAI client = OpenAI(base_url="http://127.0.0.1:8000/v1", api_key="EMPTY") resp = client.chat.completions.create( model="<model-id>", messages=[{"role":"user","content":"請示範本機推理指令"}], temperature=0.7 ) print(resp.choices[0].message.content) 四、常見注意事項 - 模型倉庫與授權:到 Hugging Face 或 ModelScope 搜尋「GLM-4-7B-Flash」或相近名稱,閱讀說明並接受授權。不同倉庫可能提供原始、量化(如 GPTQ/AWQ/INT4)或「Flash/Long」等變體。 - trust_remote_code:GLM 系列常需設為 True 以載入自定義模型邏輯與 chat 介面。 - 顯存需求(粗略參考):7B FP16/BF16 約需 12–16GB;4-bit 量化約 6–8GB。實際取決於序列長度與張量並行策略。 - 加速:若安裝並啟用 flash-attn,需確保 CUDA/驅動/GPU 架構相容;否則請移除或改用預設注意力實作。 - 長文本與上下文:若為「Flash」或「Long」變體,請依倉庫說明設置 max_position_embeddings 或相應啟動參數(如 vLLM 的 --max-model-len)。 - Windows 使用者:建議 CUDA + WSL2 或原生 CUDA 環境;bitsandbytes 在某些 Windows/CUDA 組合上需額外配置。 五、快速故障排查 - ImportError/ModuleNotFoundError:升級 transformers、accelerate、safetensors;確認 trust_remote_code=True。 - CUDA OOM:嘗試 4-bit 量化、減小 batch/序列長度、關閉梯度計算(eval、no_grad)、或使用 vLLM+paged attention。 - 推理很慢:確認是否在 CPU 上;如可用,安裝 flash-attn;調整 max_new_tokens、temperature/top_p;或改用量化權重。 如您提供具體的模型倉庫名稱(<model-id>)與硬體環境(GPU/顯存/作業系統),可進一步給出精確的安裝與啟動指令。

GLM-4.7-Flash 是 GLM-4.7 系列中輕量且高效能的 30B A3B MoE 成員,旨在實現面向程式設計、Agentic 工作流程與通用推理的本地與低成本部署。你可以在本地以三種實用方式運行它:(1) 經由 Ollama(簡單、受管理的本地執行時環境),(2) 經由 Hugging Face / Transformers / vLLM / SGLang(以 GPU 優先的伺服器部署),或 (3) 經由 GGUF + llama.cpp / llama-cpp-python(適合 CPU/邊緣環境)。
GLM-4.7 發布:這對人工智慧意味著什麼?
Dec 23, 2025
glm-4-7

GLM-4.7 發布:這對人工智慧意味著什麼?

2025 年 12 月 22 日,Zhipu AI(Z.ai)正式發佈 GLM-4.7,作為其通用語言模型(GLM)家族的最新迭代版本,並在開源 AI 模型領域引發全球關注。該模型不僅在程式設計與推理任務方面取得進一步提升,還在關鍵基準測試中對 GPT-5.2 與 Claude Sonnet 4.5 等專有模型的主導地位構成挑戰。