以下是今天即可使用 GLM-5 API 的典型做法(以通用、OpenAI 相容樣式為例;實際以提供方文件為準): - 選擇接入方式 - 官方原生 API(例如智譜 AI 的 GLM 系列)或其 OpenAI 相容接口 - 聚合平台(如提供 GLM-5 的第三方路由),便於統一調用與切換模型 - 準備資訊 - 取得 API 金鑰(API Key) - 確認 Base URL(例:類似 https://.../v1) - 模型 ID(替換為供應方標註的 GLM-5 具體型號) - 驗證方式與請求頭(Authorization: Bearer <API_KEY>) - 最小可用範例(cURL) - 將 BASE_URL、API_KEY、MODEL_ID 替換為實際值 curl -s -X POST "$BASE_URL/chat/completions" \ -H "Authorization: Bearer $API_KEY" \ -H "Content-Type: application/json" \ -d '{ "model": "MODEL_ID", "messages": [ {"role": "system", "content": "You are a helpful assistant."}, {"role": "user", "content": "用一句話解釋量子糾纏。"} ] }' - Python(OpenAI 相容用法) - 將 BASE_URL、API_KEY、MODEL_ID 替換為實際值 import os from openai import OpenAI BASE_URL = os.environ.get("BASE_URL") # 例如 https://.../v1 API_KEY = os.environ.get("API_KEY") MODEL_ID = os.environ.get("MODEL_ID") # 供應方提供的 GLM-5 型號 client = OpenAI(api_key=API_KEY, base_url=BASE_URL) resp = client.chat.completions.create( model=MODEL_ID, messages=[ {"role": "system", "content": "You are a helpful assistant."}, {"role": "user", "content": "用一句話解釋量子糾纏。"} ] ) print(resp.choices[0].message.content) - 流式輸出(如支援) - 在請求中加入 "stream": true,並使用 SSE/逐段讀取 - Python 簡例: stream = client.chat.completions.create( model=MODEL_ID, messages=[{"role":"user","content":"請逐步思考,解釋費馬大定理。"}], stream=True ) for chunk in stream: delta = getattr(chunk.choices[0], "delta", None) if delta and getattr(delta, "content", None): print(delta.content, end="", flush=True) - 工具/函數調用、JSON 輸出、多模態(如該型號支援) - 工具調用:傳入 tools/parallel_tool_calls 等參數,由模型返回函數名與參數,再由後端執行 - JSON 輸出:可嘗試 response_format(如 {"type":"json_object"})或在提示中嚴格約束結構 - 圖片/音訊:使用 messages 中的多模態結構(例如 type: "input_image"/"input_audio"),依供應方格式為準 - 最佳實踐 - 不在前端暴露 API Key;將請求經由安全後端轉發 - 設定合理的超時與重試;處理 401(憑證錯誤)、404(模型名不正確)、429(限速)、5xx(服務端)等錯誤 - 依供應方儀表板管理配額、費率與日誌;在生產環境使用可觀測與熔斷機制 - 快速驗證 - 使用 Postman/Insomnia 以相同請求體測試 - 若供應方提供線上 Playground,可先驗證提示與參數再落地到程式碼 提示:GLM-5 的實際模型 ID、功能範圍(如長上下文、多模態、工具調用)、速率與收費以供應方文件與控制台為準;將以上示例中的 BASE_URL、MODEL_ID、API_KEY 換成你當前賬戶與環境的正確值即可開始調用。

CometAPI
AnnaFeb 25, 2026
以下是今天即可使用 GLM-5 API 的典型做法(以通用、OpenAI 相容樣式為例;實際以提供方文件為準):

- 選擇接入方式
  - 官方原生 API(例如智譜 AI 的 GLM 系列)或其 OpenAI 相容接口
  - 聚合平台(如提供 GLM-5 的第三方路由),便於統一調用與切換模型

- 準備資訊
  - 取得 API 金鑰(API Key)
  - 確認 Base URL(例:類似 https://.../v1)
  - 模型 ID(替換為供應方標註的 GLM-5 具體型號)
  - 驗證方式與請求頭(Authorization: Bearer <API_KEY>)

- 最小可用範例(cURL)
  - 將 BASE_URL、API_KEY、MODEL_ID 替換為實際值
  curl -s -X POST "$BASE_URL/chat/completions" \
    -H "Authorization: Bearer $API_KEY" \
    -H "Content-Type: application/json" \
    -d '{
      "model": "MODEL_ID",
      "messages": [
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "用一句話解釋量子糾纏。"}
      ]
    }'

- Python(OpenAI 相容用法)
  - 將 BASE_URL、API_KEY、MODEL_ID 替換為實際值
  import os
  from openai import OpenAI

  BASE_URL = os.environ.get("BASE_URL")  # 例如 https://.../v1
  API_KEY = os.environ.get("API_KEY")
  MODEL_ID = os.environ.get("MODEL_ID")  # 供應方提供的 GLM-5 型號

  client = OpenAI(api_key=API_KEY, base_url=BASE_URL)

  resp = client.chat.completions.create(
      model=MODEL_ID,
      messages=[
          {"role": "system", "content": "You are a helpful assistant."},
          {"role": "user", "content": "用一句話解釋量子糾纏。"}
      ]
  )
  print(resp.choices[0].message.content)

- 流式輸出(如支援)
  - 在請求中加入 "stream": true,並使用 SSE/逐段讀取
  - Python 簡例:
  stream = client.chat.completions.create(
      model=MODEL_ID,
      messages=[{"role":"user","content":"請逐步思考,解釋費馬大定理。"}],
      stream=True
  )
  for chunk in stream:
      delta = getattr(chunk.choices[0], "delta", None)
      if delta and getattr(delta, "content", None):
          print(delta.content, end="", flush=True)

- 工具/函數調用、JSON 輸出、多模態(如該型號支援)
  - 工具調用:傳入 tools/parallel_tool_calls 等參數,由模型返回函數名與參數,再由後端執行
  - JSON 輸出:可嘗試 response_format(如 {"type":"json_object"})或在提示中嚴格約束結構
  - 圖片/音訊:使用 messages 中的多模態結構(例如 type: "input_image"/"input_audio"),依供應方格式為準

- 最佳實踐
  - 不在前端暴露 API Key;將請求經由安全後端轉發
  - 設定合理的超時與重試;處理 401(憑證錯誤)、404(模型名不正確)、429(限速)、5xx(服務端)等錯誤
  - 依供應方儀表板管理配額、費率與日誌;在生產環境使用可觀測與熔斷機制

- 快速驗證
  - 使用 Postman/Insomnia 以相同請求體測試
  - 若供應方提供線上 Playground,可先驗證提示與參數再落地到程式碼

提示:GLM-5 的實際模型 ID、功能範圍(如長上下文、多模態、工具調用)、速率與收費以供應方文件與控制台為準;將以上示例中的 BASE_URL、MODEL_ID、API_KEY 換成你當前賬戶與環境的正確值即可開始調用。

GLM-5 是 Zhipu AI 面向長程編碼與多步驟代理打造的全新開放權重、以代理為中心的基礎模型。它可透過多個託管 API(包含 CometAPI 與供應商端點)以及附帶程式碼與權重的研究版取得;你可以使用相容 OpenAI 的標準 REST 呼叫、串流與 SDK 進行整合。

什麼是 Z.ai 的 GLM-5?

GLM-5 是 Z.ai 的第五代旗艦基礎模型,專為「代理式工程(agentic engineering)」而設計:長程規劃、多步工具使用,以及大規模程式碼/系統設計。於 2026 年 2 月公開發佈,GLM-5 採用混合專家(MoE)架構,總參數約 744B,每次前向傳播的有效參數約在 40B 範圍;其架構與訓練選擇優先考量長上下文一致性、工具呼叫與具成本效益的推論,以滿足生產工作負載。這些設計使 GLM-5 能在非常長的輸入下維持上下文,並執行延伸的代理工作流程(例如:瀏覽 → 規劃 → 編寫/測試程式碼 → 迭代)。

關鍵技術亮點:

  • MoE 架構,總參數約 ~744B / 有效參數約 ~40B;擴展預訓練(據報 ~28.5T tokens),縮小與前沿閉源模型的差距。
  • 長上下文支援與優化(深度稀疏注意力,DSA),相較於天真密集擴展可降低部署成本。
  • 內建代理功能:工具/函式呼叫、有狀態會話支援與整合輸出(能在供應商 UI 的代理流程中產出 .docx.xlsx.pdf 成品)。
  • 開放權重可用(權重發佈於模型平台)與託管存取選項(供應商 API、推論微服務)。

GLM-5 的主要優勢是什麼?

代理規劃與長程記憶

GLM-5 的架構與調校優先確保跨工作流程的一致多步推理與記憶,對以下情境有利:

  • 自主代理(CI 流水線、任務編排器),
  • 大型多檔案程式碼生成或重構,以及
  • 需保留大量歷史的文件智能。

大型上下文視窗

GLM-5 支援非常大的上下文大小(已公開的模型規格約 ~200k tokens),讓你在單次請求中保留更多會話內容,並在許多用例中減少對激進分塊或外部記憶的需求。(見下方比較圖。)

以下是今天即可使用 GLM-5 API 的典型做法(以通用、OpenAI 相容樣式為例;實際以提供方文件為準):

- 選擇接入方式
  - 官方原生 API(例如智譜 AI 的 GLM 系列)或其 OpenAI 相容接口
  - 聚合平台(如提供 GLM-5 的第三方路由),便於統一調用與切換模型

- 準備資訊
  - 取得 API 金鑰(API Key)
  - 確認 Base URL(例:類似 https://.../v1)
  - 模型 ID(替換為供應方標註的 GLM-5 具體型號)
  - 驗證方式與請求頭(Authorization: Bearer <API_KEY>)

- 最小可用範例(cURL)
  - 將 BASE_URL、API_KEY、MODEL_ID 替換為實際值
  curl -s -X POST "$BASE_URL/chat/completions" \
    -H "Authorization: Bearer $API_KEY" \
    -H "Content-Type: application/json" \
    -d '{
      "model": "MODEL_ID",
      "messages": [
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "用一句話解釋量子糾纏。"}
      ]
    }'

- Python(OpenAI 相容用法)
  - 將 BASE_URL、API_KEY、MODEL_ID 替換為實際值
  import os
  from openai import OpenAI

  BASE_URL = os.environ.get("BASE_URL")  # 例如 https://.../v1
  API_KEY = os.environ.get("API_KEY")
  MODEL_ID = os.environ.get("MODEL_ID")  # 供應方提供的 GLM-5 型號

  client = OpenAI(api_key=API_KEY, base_url=BASE_URL)

  resp = client.chat.completions.create(
      model=MODEL_ID,
      messages=[
          {"role": "system", "content": "You are a helpful assistant."},
          {"role": "user", "content": "用一句話解釋量子糾纏。"}
      ]
  )
  print(resp.choices[0].message.content)

- 流式輸出(如支援)
  - 在請求中加入 "stream": true,並使用 SSE/逐段讀取
  - Python 簡例:
  stream = client.chat.completions.create(
      model=MODEL_ID,
      messages=[{"role":"user","content":"請逐步思考,解釋費馬大定理。"}],
      stream=True
  )
  for chunk in stream:
      delta = getattr(chunk.choices[0], "delta", None)
      if delta and getattr(delta, "content", None):
          print(delta.content, end="", flush=True)

- 工具/函數調用、JSON 輸出、多模態(如該型號支援)
  - 工具調用:傳入 tools/parallel_tool_calls 等參數,由模型返回函數名與參數,再由後端執行
  - JSON 輸出:可嘗試 response_format(如 {"type":"json_object"})或在提示中嚴格約束結構
  - 圖片/音訊:使用 messages 中的多模態結構(例如 type: "input_image"/"input_audio"),依供應方格式為準

- 最佳實踐
  - 不在前端暴露 API Key;將請求經由安全後端轉發
  - 設定合理的超時與重試;處理 401(憑證錯誤)、404(模型名不正確)、429(限速)、5xx(服務端)等錯誤
  - 依供應方儀表板管理配額、費率與日誌;在生產環境使用可觀測與熔斷機制

- 快速驗證
  - 使用 Postman/Insomnia 以相同請求體測試
  - 若供應方提供線上 Playground,可先驗證提示與參數再落地到程式碼

提示:GLM-5 的實際模型 ID、功能範圍(如長上下文、多模態、工具調用)、速率與收費以供應方文件與控制台為準;將以上示例中的 BASE_URL、MODEL_ID、API_KEY 換成你當前賬戶與環境的正確值即可開始調用。

系統層任務的強勁編碼表現

GLM-5 在軟體工程基準(SWE-bench 與應用程式碼 + 代理測試套件)上報告頂尖開源表現。在 SWE-bench-Verified 報告約 ~77.8%;在程式/終端機型代理測試(Terminal-Bench 2.0)成績落在 50 分中段——顯示其實用編碼能力正逼近前沿商業模型。這些指標意味著 GLM-5 適合用於程式碼生成、自動重構、多檔案推理與 CI/CD 助手情境。

成本/效率權衡

由於 GLM-5 採用 MoE 與「稀疏」注意力創新,相較於粗暴的密集擴展,它旨在以較低的推論成本取得相同級別的能力。CometAPI 提供具競爭力的價格點,使 GLM-5 對高吞吐的代理型工作負載更具吸引力。

如何透過 CometAPI 使用 GLM-5 API?

簡短回答:把 CometAPI 視為相容 OpenAI 的閘道——設定基底 URL 與 API 金鑰,選擇 glm-5 作為模型,然後呼叫 chat/completions 端點。CometAPI 提供 OpenAI 風格的 REST 介面(如 /v1/chat/completions)以及 SDK 與範例專案,遷移非常簡單。

以下是實務、生產取向的「食譜」:認證、基本聊天呼叫、串流、函式/工具呼叫,以及成本/回應處理。

透過 CometAPI 存取 GLM-5 的基本步驟:

  1. 在 CometAPI 註冊並取得 API 金鑰。
  2. 在 CometAPI 的型錄中找到 GLM-5 的確切模型 ID(視清單而定,可能為 "glm-5")。
  3. 對 CometAPI 的 chat/completions 端點(OpenAI 風格)送出帶驗證的 POST 請求。

Base 細節(CometAPI 慣用方式):平台支援 OpenAI 風格的路徑,如 https://api.cometapi.com/v1/chat/completions、Bearer 驗證、model 參數、system/user 訊息、串流,以及文件中的 curl/python 範例。

範例:使用 Python(requests)快速進行 GLM-5 聊天補全

# Python requests 範例(阻塞)import osimport requestsimport jsonCOMET_KEY = os.getenv("COMETAPI_KEY")  # 請妥善保管你的金鑰URL = "https://api.cometapi.com/v1/chat/completions"payload = {    "model": "zhipuai/glm-5",            # GLM-5 在 CometAPI 的模型識別子    "messages": [        {"role": "system", "content": "你是一名樂於助人的 DevOps 助手。"},        {"role": "user", "content": "建立一個每日備份 /etc 並保留 30 天的 bash 腳本。"}    ],    "max_tokens": 800,    "temperature": 0.0}headers = {    "Authorization": f"Bearer {COMET_KEY}",    "Content-Type": "application/json"}resp = requests.post(URL, headers=headers, json=payload, timeout=60)resp.raise_for_status()data = resp.json()print(data["choices"][0]["message"]["content"])

範例:curl

curl -X POST "https://api.cometapi.com/v1/chat/completions" \  -H "Authorization: Bearer $COMETAPI_KEY" \  -H "Content-Type: application/json" \  -d '{    "model": "zhipuai/glm-5",    "messages": [{"role":"user","content":"請摘要以下架構文件..."}],    "max_tokens": 600  }'

串流回應(實務範式)

CometAPI 支援 OpenAI 風格的串流(SSE / 分塊)。在 Python 中最簡單的做法是設定 "stream": true,並在資料抵達時逐步迭代處理。當你需要低延遲的部分輸出(打造即時開發助理、串流 UI)時相當重要。

# 串流(requests)import requests, osurl = "https://api.cometapi.com/v1/chat/completions"headers = {"Authorization": f"Bearer {os.environ['COMETAPI_KEY']}"}payload = {  "model": "zhipuai/glm-5",  "messages": [{"role":"user","content":"為以下函式撰寫測試腳手架..."}],  "stream": True,  "temperature": 0.1}with requests.post(url, headers=headers, json=payload, stream=True) as r:    r.raise_for_status()    for chunk in r.iter_lines(decode_unicode=True):        if chunk:            # 每一行都是一個 JSON 分塊(相容 OpenAI)。請小心解析。            print(chunk)

參考:OpenAI 風格串流與 CometAPI 相容性文件。


函式 / 工具呼叫(如何呼叫外部工具)

GLM-5 支援與 OpenAI / 聚合商慣例相容的函式或工具呼叫模式(閘道會在模型回應中傳回結構化的函式呼叫)。使用案例:請求 GLM-5 呼叫本地的「run_tests」工具;模型會回傳可解析並執行的結構化指令。

# 請求片段範例(偽 JSON){  "model": "zhipuai/glm-5",  "messages": [    {"role":"system","content":"你可以呼叫 'run_tests' 工具來執行單元測試。"},    {"role":"user","content":"為資料庫 X 執行測試並總結失敗情況。"}  ],  "functions": [    {"name":"run_tests","description":"在 repo 根目錄執行 pytest","parameters": {"type":"object", "properties":{"path":{"type":"string"}}}}  ],  "function_call": "auto"}

當模型回傳 function_call 載荷時,請在伺服端執行該工具,然後將工具結果以 "tool" 角色的訊息回饋並繼續對話。此模式可實現安全的工具呼叫與有狀態的代理流程。請參考 CometAPI 的文件與範例以取得具體 SDK 幫手。


實務參數與調校

function_call:用於啟用結構化工具呼叫與更安全的執行流程。

temperature:對系統層輸出(程式碼、基礎設施)建議 0–0.3,更高適用於發想。

max_tokens:依預期輸出長度設定;GLM-5 在託管環境支援非常長的輸出(供應商上限各異)。

top_p / 核心取樣:用於限制不太可能的尾部分佈。

stream:互動式 UI 請設為 true。

GLM-5 與 Anthropic 的 Claude Opus 及其他前沿模型比較

簡短回答:GLM-5 在代理與編碼基準上縮小與前沿閉源模型的差距,同時提供開放權重部署,且在聚合商託管時常有更佳的每 token 成本。細節而言:在部分絕對編碼基準(SWE-bench、Terminal-Bench 變體)上,Anthropic 的 Claude Opus(4.5/4.6)在許多公開榜單仍領先數個百分點——但 GLM-5 競爭力十足,並超越許多其他開源模型。

以下是今天即可使用 GLM-5 API 的典型做法(以通用、OpenAI 相容樣式為例;實際以提供方文件為準):

- 選擇接入方式
  - 官方原生 API(例如智譜 AI 的 GLM 系列)或其 OpenAI 相容接口
  - 聚合平台(如提供 GLM-5 的第三方路由),便於統一調用與切換模型

- 準備資訊
  - 取得 API 金鑰(API Key)
  - 確認 Base URL(例:類似 https://.../v1)
  - 模型 ID(替換為供應方標註的 GLM-5 具體型號)
  - 驗證方式與請求頭(Authorization: Bearer <API_KEY>)

- 最小可用範例(cURL)
  - 將 BASE_URL、API_KEY、MODEL_ID 替換為實際值
  curl -s -X POST "$BASE_URL/chat/completions" \
    -H "Authorization: Bearer $API_KEY" \
    -H "Content-Type: application/json" \
    -d '{
      "model": "MODEL_ID",
      "messages": [
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "用一句話解釋量子糾纏。"}
      ]
    }'

- Python(OpenAI 相容用法)
  - 將 BASE_URL、API_KEY、MODEL_ID 替換為實際值
  import os
  from openai import OpenAI

  BASE_URL = os.environ.get("BASE_URL")  # 例如 https://.../v1
  API_KEY = os.environ.get("API_KEY")
  MODEL_ID = os.environ.get("MODEL_ID")  # 供應方提供的 GLM-5 型號

  client = OpenAI(api_key=API_KEY, base_url=BASE_URL)

  resp = client.chat.completions.create(
      model=MODEL_ID,
      messages=[
          {"role": "system", "content": "You are a helpful assistant."},
          {"role": "user", "content": "用一句話解釋量子糾纏。"}
      ]
  )
  print(resp.choices[0].message.content)

- 流式輸出(如支援)
  - 在請求中加入 "stream": true,並使用 SSE/逐段讀取
  - Python 簡例:
  stream = client.chat.completions.create(
      model=MODEL_ID,
      messages=[{"role":"user","content":"請逐步思考,解釋費馬大定理。"}],
      stream=True
  )
  for chunk in stream:
      delta = getattr(chunk.choices[0], "delta", None)
      if delta and getattr(delta, "content", None):
          print(delta.content, end="", flush=True)

- 工具/函數調用、JSON 輸出、多模態(如該型號支援)
  - 工具調用:傳入 tools/parallel_tool_calls 等參數,由模型返回函數名與參數,再由後端執行
  - JSON 輸出:可嘗試 response_format(如 {"type":"json_object"})或在提示中嚴格約束結構
  - 圖片/音訊:使用 messages 中的多模態結構(例如 type: "input_image"/"input_audio"),依供應方格式為準

- 最佳實踐
  - 不在前端暴露 API Key;將請求經由安全後端轉發
  - 設定合理的超時與重試;處理 401(憑證錯誤)、404(模型名不正確)、429(限速)、5xx(服務端)等錯誤
  - 依供應方儀表板管理配額、費率與日誌;在生產環境使用可觀測與熔斷機制

- 快速驗證
  - 使用 Postman/Insomnia 以相同請求體測試
  - 若供應方提供線上 Playground,可先驗證提示與參數再落地到程式碼

提示:GLM-5 的實際模型 ID、功能範圍(如長上下文、多模態、工具調用)、速率與收費以供應方文件與控制台為準;將以上示例中的 BASE_URL、MODEL_ID、API_KEY 換成你當前賬戶與環境的正確值即可開始調用。

以下是今天即可使用 GLM-5 API 的典型做法(以通用、OpenAI 相容樣式為例;實際以提供方文件為準):

- 選擇接入方式
  - 官方原生 API(例如智譜 AI 的 GLM 系列)或其 OpenAI 相容接口
  - 聚合平台(如提供 GLM-5 的第三方路由),便於統一調用與切換模型

- 準備資訊
  - 取得 API 金鑰(API Key)
  - 確認 Base URL(例:類似 https://.../v1)
  - 模型 ID(替換為供應方標註的 GLM-5 具體型號)
  - 驗證方式與請求頭(Authorization: Bearer <API_KEY>)

- 最小可用範例(cURL)
  - 將 BASE_URL、API_KEY、MODEL_ID 替換為實際值
  curl -s -X POST "$BASE_URL/chat/completions" \
    -H "Authorization: Bearer $API_KEY" \
    -H "Content-Type: application/json" \
    -d '{
      "model": "MODEL_ID",
      "messages": [
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "用一句話解釋量子糾纏。"}
      ]
    }'

- Python(OpenAI 相容用法)
  - 將 BASE_URL、API_KEY、MODEL_ID 替換為實際值
  import os
  from openai import OpenAI

  BASE_URL = os.environ.get("BASE_URL")  # 例如 https://.../v1
  API_KEY = os.environ.get("API_KEY")
  MODEL_ID = os.environ.get("MODEL_ID")  # 供應方提供的 GLM-5 型號

  client = OpenAI(api_key=API_KEY, base_url=BASE_URL)

  resp = client.chat.completions.create(
      model=MODEL_ID,
      messages=[
          {"role": "system", "content": "You are a helpful assistant."},
          {"role": "user", "content": "用一句話解釋量子糾纏。"}
      ]
  )
  print(resp.choices[0].message.content)

- 流式輸出(如支援)
  - 在請求中加入 "stream": true,並使用 SSE/逐段讀取
  - Python 簡例:
  stream = client.chat.completions.create(
      model=MODEL_ID,
      messages=[{"role":"user","content":"請逐步思考,解釋費馬大定理。"}],
      stream=True
  )
  for chunk in stream:
      delta = getattr(chunk.choices[0], "delta", None)
      if delta and getattr(delta, "content", None):
          print(delta.content, end="", flush=True)

- 工具/函數調用、JSON 輸出、多模態(如該型號支援)
  - 工具調用:傳入 tools/parallel_tool_calls 等參數,由模型返回函數名與參數,再由後端執行
  - JSON 輸出:可嘗試 response_format(如 {"type":"json_object"})或在提示中嚴格約束結構
  - 圖片/音訊:使用 messages 中的多模態結構(例如 type: "input_image"/"input_audio"),依供應方格式為準

- 最佳實踐
  - 不在前端暴露 API Key;將請求經由安全後端轉發
  - 設定合理的超時與重試;處理 401(憑證錯誤)、404(模型名不正確)、429(限速)、5xx(服務端)等錯誤
  - 依供應方儀表板管理配額、費率與日誌;在生產環境使用可觀測與熔斷機制

- 快速驗證
  - 使用 Postman/Insomnia 以相同請求體測試
  - 若供應方提供線上 Playground,可先驗證提示與參數再落地到程式碼

提示:GLM-5 的實際模型 ID、功能範圍(如長上下文、多模態、工具調用)、速率與收費以供應方文件與控制台為準;將以上示例中的 BASE_URL、MODEL_ID、API_KEY 換成你當前賬戶與環境的正確值即可開始調用。

這些數字在實務中的意涵

  • SWE-bench(~程式正確性/工程):Claude Opus 在公開榜單上略有領先(≈79% vs GLM-5 ≈77.8%);對許多實際任務而言,這差距可能轉化為更少的手動修改,但對於原型或規模化代理流程,未必需要改變架構選擇。
  • Terminal-Bench(命令列代理任務):Opus 4.6 領先(≈65.4% vs GLM-5 ≈56.2%)——若你需要最穩健的終端自動化與在分佈外 shell 操作的最高可靠性,Opus 往往在邊際上更好。
  • 代理與長程:GLM-5 在長程商務模擬上表現出色(Vending-Bench 2 報告結餘 $4,432),並展現出對多步工作流程的強大規劃一致性。若你的產品是長時間運行的代理(財務、營運),GLM-5 很有優勢。

我該如何設計提示與系統,讓 GLM-5 輸出更可靠?

系統訊息與明確約束

給 GLM-5 一個嚴格的角色與約束,特別是在程式碼或工具呼叫任務中。例如:

{"role":"system","content":"你是 GLM-5,一名資深工程師。請回傳精煉、已測試且遵循 PEP8 的 Python 程式碼,並包含單元測試。"}

要求提供測試,並對每個非平凡變更給出簡短理由。

分解複雜任務

不要直接要求「寫完整產品」,而是請求:

  1. 設計綱要,
  2. 介面簽名,
  3. 實作與測試,
  4. 最終整合腳本。

這種分步分解可降低幻覺,並提供可驗證的確定性檢查點。

以低溫度取得確定性程式碼

當要求程式碼時,將 temperature 設定為 0–0.2,並將 max_tokens 設為安全上限。對於創意寫作或設計腦力激盪,則可提高溫度。

整合 GLM-5 的最佳實踐(透過 CometAPI 或直接託管)

提示工程與系統提示

  • 使用明確的「system」指示,定義代理角色、工具存取策略與安全約束。例如:「你是系統架構師:僅在單元測試於本地通過時提出變更;列出需執行的精確 CLI 指令。」
  • 對於編碼任務,提供版本庫脈絡(檔案清單、關鍵程式碼片段),並附上單元測試輸出(若有)。GLM-5 的長上下文處理有幫助——但務必將關鍵脈絡(角色、任務)置於前,再附上支援性材料。

會話與狀態管理

  • 對長時代理對話使用會話 ID,並保留先前步驟的精簡「記憶」(摘要)以避免上下文膨脹。
  • CometAPI 與類似閘道提供會話/狀態輔助——但對於長時間運行的代理,應用層的狀態壓縮仍至關重要。

工具與函式呼叫(安全 + 可靠性)

  • 僅暴露狹小且可稽核的工具集合。未經人工監督,不要允許任意 shell 執行。使用結構化函式定義,並在伺服端驗證其引數。
  • 一律記錄工具呼叫與模型回應,以利追蹤與事後除錯。

成本控制與批次化

  • 對高容量代理,當可接受品質權衡時,將背景處理導向較便宜的模型變體(CometAPI 可透過名稱切換模型)。將相似請求批次化,並在可能時降低 max_tokens。監控輸入與輸出 token 比例——輸出 token 往往更昂貴。

延遲與吞吐工程

  • 互動式會話使用串流。對背景代理工作,偏好非同步執行環境、工作佇列與速率限制器。若自託管(開放權重),請依 MoE 架構調校加速器拓樸——FPGA / Ascend / 專用晶片等選項可能帶來成本優勢。

結語

GLM-5 是邁向代理式工程的實用、開放權重一步:大型上下文視窗、規劃能力與強勁的程式碼表現,使其對開發者工具、代理編排與系統層自動化相當具吸引力。可透過 CometAPI 快速整合,或使用雲端模型園區進行託管;務必在你的工作負載上驗證,並對成本與幻覺進行充分的監測。

開發者現在即可透過 CometAPI 存取 GLM-5。開始之前,請在 Playground 探索模型能力,並參考 API guide 以取得詳細說明。存取前,請確保已登入 CometAPI 並取得 API 金鑰。CometAPI 提供遠低於官方價格的方案,協助你完成整合。

準備好了嗎?→ Sign up fo M2.5 today

若想獲取更多 AI 技巧、指南與新聞,請追蹤我們於 VKXDiscord 的更新!

閱讀更多

一個 API 中超過 500 個模型

最高 20% 折扣