Mô hìnhHỗ trợDoanh nghiệpBlog
500+ API Mô hình AI, Tất cả trong Một API. Chỉ cần CometAPI
API Mô hình
Nhà phát triển
Bắt đầu nhanhTài liệuBảng Điều Khiển API
Tài nguyên
Mô hình AIBlogDoanh nghiệpNhật ký thay đổiGiới thiệu
2025 CometAPI. Bảo lưu mọi quyền.Chính sách Bảo mậtĐiều khoản Dịch vụ
Home/Models/Zhipu AI/GLM-4.7
Z

GLM-4.7

Đầu vào:$0.96/M
Đầu ra:$3.84/M
Bối cảnh:200K
Đầu ra tối đa:128K
GLM-4.7 là mô hình flagship mới nhất của Z.AI, với nâng cấp ở hai lĩnh vực then chốt: tăng cường khả năng lập trình và khả năng suy luận/thực thi nhiều bước ổn định hơn. Mô hình này cho thấy cải thiện đáng kể trong việc thực hiện các tác vụ tác nhân phức tạp, đồng thời mang đến trải nghiệm hội thoại tự nhiên hơn và tính thẩm mỹ front-end vượt trội.
Mới
Sử dụng thương mại
Playground
Tổng quan
Tính năng
Giá cả
API

GLM-4.7 là gì

GLM-4.7 là mô hình ngôn ngữ lớn nền tảng mở chủ lực mới nhất của Z.ai / Zhipu AI (tên mô hình glm-4.7). Mô hình được định vị hướng tới nhà phát triển như một mô hình “tư duy”, với các cải tiến đặc biệt về thực thi tác vụ mã hóa/agentic, suy luận nhiều bước, gọi công cụ và quy trình công việc bối cảnh dài. Bản phát hành nhấn mạnh khả năng xử lý ngữ cảnh lớn (tới 200K context), ngõ ra tối đa cao (tới 128K token), và các chế độ “tư duy” chuyên biệt cho các pipeline agentic.

Tính năng chính

  • Cải tiến agentic / sử dụng công cụ: Các chế độ tư duy tích hợp (“Interleaved Thinking”, “Preserved Thinking”, kiểm soát theo lượt) giúp mô hình “suy nghĩ trước khi hành động”, giữ lại lập luận qua nhiều lượt và ổn định hơn khi gọi công cụ hoặc thực thi tác vụ nhiều bước. Điều này hướng tới các quy trình agentic vững chắc (terminal, chuỗi công cụ, duyệt web).
  • Năng lực mã hóa & terminal: Cải thiện đáng kể trên các điểm chuẩn mã hóa và tác vụ tự động hóa terminal — thử nghiệm của nhà cung cấp cho thấy mức tăng rõ rệt so với GLM-4.6 trên các thước đo SWE-bench và Terminal Bench. Điều này chuyển hóa thành khả năng tạo mã nhiều lượt, sắp xếp lệnh và phục hồi tốt hơn trong môi trường agentic.
  • “Vibe coding” / chất lượng đầu ra frontend: Cải thiện chất lượng UI/bố cục mặc định cho HTML, slide và bài thuyết trình được tạo (bố cục gọn gàng hơn, kích thước hợp lý hơn, mặc định thị giác tốt hơn).
  • Quy trình bối cảnh dài: Cửa sổ ngữ cảnh 200K token và công cụ lưu đệm ngữ cảnh; hữu ích cho codebase nhiều tệp, tài liệu dài và phiên agentic nhiều vòng.

Hiệu năng điểm chuẩn

Các bảng điểm chuẩn do nhà phát hành/duy trì GLM-4.7 và cộng đồng công bố cho thấy mức tăng đáng kể so với GLM-4.6 và kết quả cạnh tranh với các mô hình đương thời khác trên các tác vụ mã hóa, agentic và sử dụng công cụ. Một số số liệu (nguồn: bảng do Hugging Face / Z.AI công bố chính thức):

  • LiveCodeBench-v6 (điểm chuẩn tác tử mã hóa): 84.9 (được ghi nhận là SOTA mã nguồn mở).
  • SWE-bench Verified (mã hóa): 73.8% (tăng từ 68.0% ở GLM-4.6).
  • SWE-bench Multilingual: 66.7% (+12.9% so với GLM-4.6).
  • Terminal Bench 2.0 (hành động terminal agentic): 41.0% (cải thiện +16.5% đáng chú ý so với 4.6).
  • HLE (suy luận phức tạp với công cụ): 42.8% khi dùng với công cụ (cải thiện lớn được báo cáo so với các phiên bản trước).
  • τ²-Bench (gọi công cụ tương tác): 87.4 (được báo cáo là SOTA mã nguồn mở).

Trường hợp sử dụng điển hình & kịch bản ví dụ

  • Trợ lý mã hóa agentic: Tạo mã tự động hoặc bán tự động, sửa lỗi mã nhiều lượt, tự động hóa terminal và viết script CI/CD.
  • Tác tử dựa trên công cụ: Duyệt web, điều phối API, quy trình nhiều bước (được hỗ trợ bởi Preserved Thinking & function calling).
  • Sinh front-end và UI: Dựng khung website tự động, bộ slide, poster với thẩm mỹ và bố cục được cải thiện.
  • Nghiên cứu & tác vụ bối cảnh dài: Tóm tắt tài liệu, tổng hợp tài liệu và sinh có hỗ trợ truy xuất trên các tài liệu dài (cửa sổ 200k token hữu ích ở đây).
  • Tác tử giáo dục tương tác / gia sư mã hóa: Dạy kèm nhiều lượt với lập luận được bảo toàn, ghi nhớ các khối suy luận trước đó trong suốt phiên.

Cách truy cập và sử dụng GLM 4.7 API

Bước 1: Đăng ký để lấy API Key

Đăng nhập vào cometapi.com. Nếu bạn chưa là người dùng của chúng tôi, vui lòng đăng ký trước. Đăng nhập vào CometAPI console. Lấy API key thông tin xác thực của giao diện. Nhấp “Add Token” tại mục API token trong trung tâm cá nhân, lấy khóa token: sk-xxxxx và gửi.

Bước 2: Gửi yêu cầu đến MiniMax M2.1 API

Chọn endpoint “glm-4.7” để gửi yêu cầu API và thiết lập request body. Phương thức request và request body được lấy từ API doc trên website của chúng tôi. Website của chúng tôi cũng cung cấp Apifox test để bạn thuận tiện thử nghiệm. Thay <YOUR_API_KEY> bằng CometAPI key thực tế từ tài khoản của bạn. Nơi gọi: Chat-style APIs.

Chèn câu hỏi hoặc yêu cầu của bạn vào trường content — đó là phần mà mô hình sẽ phản hồi. Xử lý phản hồi API để lấy câu trả lời được tạo.

Bước 3: Truy xuất và xác minh kết quả

Xử lý phản hồi API để lấy câu trả lời được tạo. Sau khi xử lý, API phản hồi với trạng thái tác vụ và

Tính năng cho GLM-4.7

Khám phá các tính năng chính của GLM-4.7, được thiết kế để nâng cao hiệu suất và khả năng sử dụng. Tìm hiểu cách các khả năng này có thể mang lại lợi ích cho dự án của bạn và cải thiện trải nghiệm người dùng.

Giá cả cho GLM-4.7

Khám phá mức giá cạnh tranh cho GLM-4.7, được thiết kế để phù hợp với nhiều ngân sách và nhu cầu sử dụng khác nhau. Các gói linh hoạt của chúng tôi đảm bảo bạn chỉ trả tiền cho những gì bạn sử dụng, giúp dễ dàng mở rộng quy mô khi yêu cầu của bạn tăng lên. Khám phá cách GLM-4.7 có thể nâng cao các dự án của bạn trong khi vẫn kiểm soát được chi phí.
Giá Comet (USD / M Tokens)Giá Chính Thức (USD / M Tokens)Giảm giá
Đầu vào:$0.96/M
Đầu ra:$3.84/M
Đầu vào:$1.2/M
Đầu ra:$4.8/M
-20%

Mã mẫu và API cho GLM-4.7

Truy cập mã mẫu toàn diện và tài nguyên API cho GLM-4.7 để tối ưu hóa quy trình tích hợp của bạn. Tài liệu chi tiết của chúng tôi cung cấp hướng dẫn từng bước, giúp bạn khai thác toàn bộ tiềm năng của GLM-4.7 trong các dự án của mình.
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

# glm-4.7: Zhipu GLM-4.7 model via chat/completions
completion = client.chat.completions.create(
    model="glm-4.7",
    messages=[
        {"role": "user", "content": "Hello! Tell me a short joke."}
    ]
)

print(completion.choices[0].message.content)

Python Code Example

from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

# glm-4.7: Zhipu GLM-4.7 model via chat/completions
completion = client.chat.completions.create(
    model="glm-4.7",
    messages=[
        {"role": "user", "content": "Hello! Tell me a short joke."}
    ]
)

print(completion.choices[0].message.content)

JavaScript Code Example

import OpenAI from "openai";

// Get your CometAPI key from https://api.cometapi.com/console/token
const COMETAPI_KEY = process.env.COMETAPI_KEY || "<YOUR_COMETAPI_KEY>";
const BASE_URL = "https://api.cometapi.com/v1";

const client = new OpenAI({
  apiKey: COMETAPI_KEY,
  baseURL: BASE_URL,
});

// glm-4.7: Zhipu GLM-4.7 model via chat/completions
async function main() {
  const completion = await client.chat.completions.create({
    model: "glm-4.7",
    messages: [{ role: "user", content: "Hello! Tell me a short joke." }],
  });

  console.log(completion.choices[0].message.content);
}

main().catch(console.error);

Curl Code Example

#!/bin/bash

# Get your CometAPI key from https://api.cometapi.com/console/token
COMETAPI_KEY="${COMETAPI_KEY:-<YOUR_COMETAPI_KEY>}"

# glm-4.7: Zhipu GLM-4.7 model via chat/completions
curl -s https://api.cometapi.com/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $COMETAPI_KEY" \
  -d '{
    "model": "glm-4.7",
    "messages": [
      {
        "role": "user",
        "content": "Hello! Tell me a short joke."
      }
    ]
  }'

Thêm mô hình

A

Claude Opus 4.6

Đầu vào:$4/M
Đầu ra:$20/M
Claude Opus 4.6 là mô hình ngôn ngữ lớn thuộc lớp “Opus” của Anthropic, phát hành vào tháng 2 năm 2026. Mô hình này được định vị như một công cụ chủ lực cho công việc tri thức và các quy trình nghiên cứu — cải thiện khả năng suy luận với ngữ cảnh dài, lập kế hoạch nhiều bước, khả năng sử dụng công cụ (bao gồm các quy trình phần mềm agentic), và các tác vụ sử dụng máy tính như tự động tạo slide và bảng tính.
A

Claude Sonnet 4.6

Đầu vào:$2.4/M
Đầu ra:$12/M
Claude Sonnet 4.6 là mô hình Sonnet mạnh mẽ nhất của chúng tôi từ trước đến nay. Đây là một bản nâng cấp toàn diện về các kỹ năng của mô hình, bao gồm lập trình, sử dụng máy tính, suy luận trong ngữ cảnh dài, lập kế hoạch tác nhân, công việc tri thức và thiết kế. Sonnet 4.6 cũng có cửa sổ ngữ cảnh 1M token ở giai đoạn beta.
O

GPT-5.4 nano

Đầu vào:$0.16/M
Đầu ra:$1/M
GPT-5.4 nano được thiết kế cho các tác vụ trong đó tốc độ và chi phí là ưu tiên hàng đầu, như phân loại, trích xuất dữ liệu, xếp hạng và các tác tử phụ.
O

GPT-5.4 mini

Đầu vào:$0.6/M
Đầu ra:$3.6/M
GPT-5.4 mini đưa những điểm mạnh của GPT-5.4 vào một mô hình nhanh hơn, hiệu quả hơn, được thiết kế cho khối lượng công việc lớn.
A

Claude Mythos Preview

A

Claude Mythos Preview

Sắp ra mắt
Đầu vào:$60/M
Đầu ra:$240/M
Claude Mythos Preview là mô hình tiên phong mạnh mẽ nhất của chúng tôi cho đến nay, và cho thấy một bước nhảy vọt ấn tượng về điểm số trên nhiều thước đo đánh giá so với mô hình tiên phong trước đó của chúng tôi, Claude Opus 4.6.
X

mimo-v2-pro

Đầu vào:$0.8/M
Đầu ra:$2.4/M
MiMo-V2-Pro là mô hình nền tảng chủ lực của Xiaomi, sở hữu hơn 1T tham số tổng và độ dài ngữ cảnh 1M, được tối ưu sâu cho các kịch bản tác tử. Nó thích ứng cao với các khung tác tử tổng quát như OpenClaw. Trên các benchmark chuẩn PinchBench và ClawBench, mô hình này nằm trong nhóm hàng đầu toàn cầu, với hiệu năng cảm nhận tiệm cận Opus 4.6. MiMo-V2-Pro được thiết kế để đóng vai trò bộ não của các hệ thống tác tử, điều phối các quy trình công việc phức tạp, thực thi các tác vụ kỹ thuật trong môi trường sản xuất và cung cấp kết quả một cách đáng tin cậy.

Blog liên quan

GLM-5 so với GLM-4.7: điều gì đã thay đổi, điều gì quan trọng, và bạn có nên nâng cấp?
Feb 26, 2026
glm-5
glm-4-7

GLM-5 so với GLM-4.7: điều gì đã thay đổi, điều gì quan trọng, và bạn có nên nâng cấp?

GLM-5, được Zhipu AI (Z.ai) phát hành vào ngày 11 tháng 2 năm 2026, đánh dấu một bước nhảy vọt về kiến trúc so với GLM-4.7: quy mô MoE lớn hơn (≈744B so với ~355B tổng tham số), dung lượng tham số kích hoạt cao hơn, mức độ ảo giác đo được thấp hơn, và cải thiện rõ rệt trên các benchmark về tác tử và lập trình — đổi lại là độ phức tạp suy luận tăng và (đôi khi) độ trễ cao hơn.
Short answer: there isn’t an officially released, downloadable checkpoint for GLM-4.7-Flash yet. If you need to run something locally/offline, use the closest open models from the GLM family (e.g., THUDM/glm-4-9b-chat) and serve them with an inference engine for a “flash”-like experience.

Two practical ways to run GLM locally:

Option A — vLLM (fast, OpenAI-compatible API)
1) Requirements
- NVIDIA GPU (≥12 GB VRAM recommended; 4-bit quant works with ~8–12 GB)
- Python 3.10+, CUDA toolchain that matches your PyTorch/vLLM build

2) Install
pip install vllm transformers accelerate torch torchvision torchaudio bitsandbytes

3) Start an OpenAI-compatible server
python -m vllm.entrypoints.openai.api_server \
  --model THUDM/glm-4-9b-chat \
  --trust-remote-code \
  --gpu-memory-utilization 0.9

This exposes http://127.0.0.1:8000/v1

4) Call it like OpenAI (Python)
from openai import OpenAI
client = OpenAI(base_url="http://127.0.0.1:8000/v1", api_key="EMPTY")
resp = client.chat.completions.create(
    model="THUDM/glm-4-9b-chat",
    messages=[{"role":"user","content":"Hello!"}],
    temperature=0.7,
)
print(resp.choices[0].message.content)

Option B — Transformers (single-process script)
1) Install
pip install transformers accelerate torch bitsandbytes

2) FP16/BF16 (fast GPU)
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

name = "THUDM/glm-4-9b-chat"
tok = AutoTokenizer.from_pretrained(name, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
    name,
    torch_dtype=torch.bfloat16,
    device_map="auto",
    trust_remote_code=True
)

prompt = "Hello!"
inputs = tok(prompt, return_tensors="pt").to(model.device)
out = model.generate(**inputs, max_new_tokens=256, do_sample=True, temperature=0.7)
print(tok.decode(out[0], skip_special_tokens=True))

3) 4-bit quant (smaller GPUs)
from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig
import torch

bnb = BitsAndBytesConfig(load_in_4bit=True, bnb_4bit_compute_dtype=torch.bfloat16)
name = "THUDM/glm-4-9b-chat"
tok = AutoTokenizer.from_pretrained(name, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
    name,
    quantization_config=bnb,
    device_map="auto",
    trust_remote_code=True
)

Note
- If/when Zhipu releases GLM-4.7-Flash weights, you can swap the model name and keep the same steps.
- For even higher throughput, consider LMDeploy or TensorRT-LLM; and enable FlashAttention if your environment supports it.
- If “local” can use cloud API from local code, you can call Zhipu’s API with the GLM-4.7-Flash model name via their SDK or any OpenAI-compatible client.

If you share your OS, GPU VRAM, and whether you need fully offline vs. local client to cloud API, I can tailor exact commands.
Jan 21, 2026
glm-4-7
glm-4-7

Short answer: there isn’t an officially released, downloadable checkpoint for GLM-4.7-Flash yet. If you need to run something locally/offline, use the closest open models from the GLM family (e.g., THUDM/glm-4-9b-chat) and serve them with an inference engine for a “flash”-like experience. Two practical ways to run GLM locally: Option A — vLLM (fast, OpenAI-compatible API) 1) Requirements - NVIDIA GPU (≥12 GB VRAM recommended; 4-bit quant works with ~8–12 GB) - Python 3.10+, CUDA toolchain that matches your PyTorch/vLLM build 2) Install pip install vllm transformers accelerate torch torchvision torchaudio bitsandbytes 3) Start an OpenAI-compatible server python -m vllm.entrypoints.openai.api_server \ --model THUDM/glm-4-9b-chat \ --trust-remote-code \ --gpu-memory-utilization 0.9 This exposes http://127.0.0.1:8000/v1 4) Call it like OpenAI (Python) from openai import OpenAI client = OpenAI(base_url="http://127.0.0.1:8000/v1", api_key="EMPTY") resp = client.chat.completions.create( model="THUDM/glm-4-9b-chat", messages=[{"role":"user","content":"Hello!"}], temperature=0.7, ) print(resp.choices[0].message.content) Option B — Transformers (single-process script) 1) Install pip install transformers accelerate torch bitsandbytes 2) FP16/BF16 (fast GPU) from transformers import AutoTokenizer, AutoModelForCausalLM import torch name = "THUDM/glm-4-9b-chat" tok = AutoTokenizer.from_pretrained(name, trust_remote_code=True) model = AutoModelForCausalLM.from_pretrained( name, torch_dtype=torch.bfloat16, device_map="auto", trust_remote_code=True ) prompt = "Hello!" inputs = tok(prompt, return_tensors="pt").to(model.device) out = model.generate(**inputs, max_new_tokens=256, do_sample=True, temperature=0.7) print(tok.decode(out[0], skip_special_tokens=True)) 3) 4-bit quant (smaller GPUs) from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig import torch bnb = BitsAndBytesConfig(load_in_4bit=True, bnb_4bit_compute_dtype=torch.bfloat16) name = "THUDM/glm-4-9b-chat" tok = AutoTokenizer.from_pretrained(name, trust_remote_code=True) model = AutoModelForCausalLM.from_pretrained( name, quantization_config=bnb, device_map="auto", trust_remote_code=True ) Note - If/when Zhipu releases GLM-4.7-Flash weights, you can swap the model name and keep the same steps. - For even higher throughput, consider LMDeploy or TensorRT-LLM; and enable FlashAttention if your environment supports it. - If “local” can use cloud API from local code, you can call Zhipu’s API with the GLM-4.7-Flash model name via their SDK or any OpenAI-compatible client. If you share your OS, GPU VRAM, and whether you need fully offline vs. local client to cloud API, I can tailor exact commands.

GLM-4.7-Flash là một thành viên MoE A3B 30B nhẹ, hiệu năng cao trong họ GLM-4.7, được thiết kế để cho phép triển khai cục bộ với chi phí thấp cho lập trình, các quy trình tác tử và suy luận tổng quát. Bạn có thể chạy nó cục bộ theo ba cách thực tế: (1) qua Ollama (dễ dùng, runtime cục bộ được quản lý), (2) qua Hugging Face / Transformers / vLLM / SGLang (triển khai máy chủ ưu tiên GPU), hoặc (3) qua GGUF + llama.cpp / llama-cpp-python (thân thiện với CPU/thiết bị biên).
GLM-4.7 ra mắt: Điều này có ý nghĩa gì đối với trí tuệ nhân tạo?
Dec 23, 2025
glm-4-7

GLM-4.7 ra mắt: Điều này có ý nghĩa gì đối với trí tuệ nhân tạo?

Ngày 22 tháng 12 năm 2025, Zhipu AI (Z.ai) chính thức phát hành GLM-4.7, phiên bản mới nhất trong dòng General Language Model (GLM) của mình — thu hút sự chú ý toàn cầu trong giới mô hình AI mã nguồn mở. Mô hình này không chỉ nâng cao năng lực ở các tác vụ viết mã và suy luận, mà còn thách thức vị thế thống trị của các mô hình độc quyền như GPT-5.2 và Claude Sonnet 4.5 trên các bộ đánh giá chuẩn chủ chốt.