API GLM-4.6

CometAPI
AnnaOct 16, 2025
API GLM-4.6

GLM-4.6 là bản phát hành chính thức mới nhất trong gia đình GLM của Z.ai (trước đây là Zhipu AI): thế hệ thứ 4, ngôn ngữ lớn Mô hình MoE (Hỗn hợp chuyên gia) được điều chỉnh cho quy trình làm việc của tác nhân, suy luận ngữ cảnh dài và mã hóa thế giới thực. Bản phát hành nhấn mạnh vào việc tích hợp tác nhân/công cụ thực tế, một cửa sổ ngữ cảnhvà khả năng mở rộng để triển khai cục bộ.

Đặc tính nổi bật

  • Bối cảnh dài - tự nhiên Mã thông báo 200K cửa sổ ngữ cảnh (mở rộng từ 128K). ()
  • Khả năng mã hóa và tác nhân — tiếp thị những cải tiến về nhiệm vụ mã hóa trong thế giới thực và sử dụng công cụ tốt hơn cho các tác nhân.
  • Hiệu quả — đã báo cáo Tiêu thụ mã thông báo thấp hơn ~30% so với GLM-4.5 trong các thử nghiệm của Z.ai.
  • Triển khai và lượng tử hóa — lần đầu tiên công bố tích hợp FP8 và Int4 cho chip Cambricon; hỗ trợ FP8 gốc trên Moore Threads thông qua vLLM.
  • Kích thước mô hình & loại tenxơ — các hiện vật được công bố cho thấy một ~357B-tham số mô hình (tenxơ BF16 / F32) trên khuôn mặt ôm sát.

Chi tiết kỹ thuật

Phương thức và định dạng. GLM-4.6 là một chỉ có văn bản LLM (phương thức nhập và xuất: văn bản). Độ dài ngữ cảnh = 200K mã thông báo; đầu ra tối đa = 128K mã thông báo.

Lượng tử hóa và hỗ trợ phần cứng. Đội báo cáo Lượng tử hóa FP8/Int4 trên chip Cambricon và FP8 bản địa thực thi trên GPU Moore Threads bằng vLLM để suy luận — quan trọng để giảm chi phí suy luận và cho phép triển khai trên nền tảng đám mây tại chỗ và trong nước.

Công cụ và tích hợp. GLM-4.6 được phân phối thông qua API của Z.ai, mạng lưới nhà cung cấp bên thứ ba (ví dụ: CometAPI) và được tích hợp vào các tác nhân mã hóa (Claude Code, Cline, Roo Code, Kilo Code).

Chi tiết kỹ thuật

Phương thức và định dạng. GLM-4.6 là một chỉ có văn bản LLM (phương thức nhập và xuất: văn bản). Độ dài ngữ cảnh = 200K mã thông báo; đầu ra tối đa = 128K mã thông báo.

Lượng tử hóa và hỗ trợ phần cứng. Đội báo cáo Lượng tử hóa FP8/Int4 trên chip Cambricon và FP8 bản địa thực thi trên GPU Moore Threads bằng vLLM để suy luận — quan trọng để giảm chi phí suy luận và cho phép triển khai trên nền tảng đám mây tại chỗ và trong nước.

Công cụ và tích hợp. GLM-4.6 được phân phối thông qua API của Z.ai, mạng lưới nhà cung cấp bên thứ ba (ví dụ: CometAPI) và được tích hợp vào các tác nhân mã hóa (Claude Code, Cline, Roo Code, Kilo Code).

Hiệu suất điểm chuẩn

  • Đánh giá đã công bố: GLM-4.6 đã được thử nghiệm trên tám tiêu chuẩn công khai bao gồm các tác nhân, lý luận và mã hóa và cho thấy tăng rõ ràng so với GLM-4.5. Trong các bài kiểm tra mã hóa thực tế được đánh giá bởi con người (CC-Bench mở rộng), GLM-4.6 sử dụng ~15% ít mã thông báo hơn so với GLM-4.5 và đăng một Tỷ lệ thắng ~48.6% so với Anthropic Bài thơ Sonnet 4 của Claude (gần như ngang bằng trên nhiều bảng xếp hạng).
  • Định vị: kết quả cho thấy GLM-4.6 có khả năng cạnh tranh với các mô hình trong nước và quốc tế hàng đầu (ví dụ được trích dẫn bao gồm DeepSeek-V3.1 và Claude Sonnet 4).

API GLM-4.6

Hạn chế và rủi ro

  • Ảo giác và sai lầm: Giống như tất cả các LLM hiện tại, GLM-4.6 có thể và thực sự mắc lỗi thực tế — tài liệu của Z.ai đã cảnh báo rõ ràng rằng kết quả đầu ra có thể chứa lỗi. Người dùng nên áp dụng xác minh & truy xuất/RAG cho nội dung quan trọng.
  • Độ phức tạp của mô hình và chi phí phục vụ: Ngữ cảnh 200K và đầu ra rất lớn làm tăng đáng kể nhu cầu về bộ nhớ và độ trễ, đồng thời có thể làm tăng chi phí suy luận; kỹ thuật lượng tử hóa/suy luận là cần thiết để chạy ở quy mô lớn.
  • Khoảng cách miền: trong khi GLM-4.6 báo cáo hiệu suất mã hóa/đại lý mạnh mẽ, một số báo cáo công khai lưu ý rằng nó vẫn chậm trễ một số phiên bản của các mô hình cạnh tranh trong các tiêu chuẩn vi mô cụ thể (ví dụ: một số số liệu mã hóa so với Sonnet 4.5). Đánh giá từng tác vụ trước khi thay thế các mô hình sản xuất.
  • An toàn và chính sách: trọng số mở làm tăng khả năng tiếp cận nhưng cũng đặt ra các câu hỏi về quản lý (giảm thiểu, lan can và nhóm đỏ vẫn là trách nhiệm của người dùng).

Trường hợp sử dụng

  • Hệ thống tác nhân và công cụ phối hợp: dấu vết tác nhân dài, lập kế hoạch đa công cụ, gọi công cụ động; điều chỉnh tác nhân của mô hình là điểm bán hàng quan trọng.
  • Trợ lý mã hóa thực tế: tạo mã nhiều vòng, xem xét mã và trợ lý IDE tương tác (tích hợp trong Claude Code, Cline, Roo Code—theo Z.ai). Cải thiện hiệu quả mã thông báo làm cho nó hấp dẫn đối với các kế hoạch phát triển sử dụng nhiều.
  • Quy trình làm việc với tài liệu dài: tóm tắt, tổng hợp nhiều tài liệu, đánh giá pháp lý/kỹ thuật dài do cửa sổ 200K.
  • Tạo nội dung và nhân vật ảo: các cuộc đối thoại mở rộng, duy trì tính cách nhất quán trong các tình huống nhiều lượt.

So sánh GLM-4.6 với các mô hình khác

  • GLM-4.5 → GLM-4.6: bước thay đổi trong kích thước ngữ cảnh (128K → 200K)hiệu quả của mã thông báo (~15% ít mã thông báo hơn trên CC-Bench); cải thiện việc sử dụng tác nhân/công cụ.
  • GLM-4.6 so với Claude Sonnet 4 / Sonnet 4.5: Z.ai báo cáo gần ngang bằng trên một số bảng xếp hạng và tỷ lệ thắng ~48.6% trong các tác vụ mã hóa thực tế CC-Bench (tức là cạnh tranh gay gắt, với một số microbenchmark mà Sonnet vẫn dẫn đầu). Đối với nhiều nhóm kỹ thuật, GLM-4.6 được định vị là một giải pháp thay thế tiết kiệm chi phí.
  • GLM-4.6 so với các mô hình ngữ cảnh dài khác (DeepSeek, các biến thể Gemini, họ GPT-4): GLM-4.6 nhấn mạnh vào quy trình mã hóa ngữ cảnh lớn và tác nhân; điểm mạnh tương đối phụ thuộc vào số liệu (hiệu quả mã thông báo/tích hợp tác nhân so với độ chính xác tổng hợp mã thô hoặc quy trình an toàn). Việc lựa chọn theo kinh nghiệm nên dựa trên nhiệm vụ.

Phiên bản flagship mới nhất của Zhipu AI, GLM-4.6, đã ra mắt: tổng cộng 355 tỷ tham số, 32 tỷ tham số đang hoạt động. Vượt trội hơn GLM-4.5 về mọi tính năng cốt lõi.

  • Mã hóa: Phù hợp với Bài thơ Sonnet 4 của Claude, tốt nhất ở Trung Quốc.
  • Bối cảnh: Mở rộng lên 200K (từ 128K).
  • Lý luận: Đã cải thiện, hỗ trợ gọi công cụ trong quá trình suy luận.
  • Tìm kiếm: Cải thiện hiệu suất gọi công cụ và tác nhân.
  • Viết: Phù hợp hơn với sở thích của con người về phong cách, khả năng đọc và nhập vai.
  • Đa ngôn ngữ: Tăng cường khả năng dịch đa ngôn ngữ.

Cách gọi GLM–**4.**6 API từ CometAPI

GLM‑4.6 Giá API trong CometAPI,giảm giá 20% so với giá chính thức:

  • Mã thông báo đầu vào: 0.64 triệu mã thông báo
  • Mã thông báo đầu ra: 2.56 đô la/M mã thông báo

Các bước cần thiết

  • Đăng nhập vào " cometapi.com. Nếu bạn chưa phải là người dùng của chúng tôi, vui lòng đăng ký trước.
  • Đăng nhập vào Bảng điều khiển CometAPI.
  • Nhận khóa API thông tin xác thực truy cập của giao diện. Nhấp vào “Thêm mã thông báo” tại mã thông báo API trong trung tâm cá nhân, nhận khóa mã thông báo: sk-xxxxx và gửi.

API GLM-4.6

Phương pháp sử dụng

  1. Chọn hàngglm-4.6” điểm cuối để gửi yêu cầu API và thiết lập nội dung yêu cầu. Phương thức yêu cầu và nội dung yêu cầu được lấy từ tài liệu API của trang web của chúng tôi. Trang web của chúng tôi cũng cung cấp thử nghiệm Apifox để thuận tiện cho bạn.
  2. Thay thế bằng khóa CometAPI thực tế từ tài khoản của bạn.
  3. Chèn câu hỏi hoặc yêu cầu của bạn vào trường nội dung—đây là nội dung mà mô hình sẽ phản hồi.
  4. . Xử lý phản hồi API để nhận được câu trả lời đã tạo.

CometAPI cung cấp một API REST hoàn toàn tương thích—cho việc di chuyển liền mạch. Chi tiết chính để Tài liệu API:

Tích hợp API & Ví dụ

Dưới đây là một Python đoạn mã minh họa cách gọi GLM‑4.6 thông qua API của CometAPI. Thay thế <API_KEY> và <PROMPT> phù hợp:

import requests

API_URL = "https://api.cometapi.com/v1/chat/completions"
headers = {
    "Authorization": "Bearer <API_KEY>",
    "Content-Type": "application/json"
}
payload = {
    "model": "glm-4.6",
    "messages": [
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user",   "content": "<PROMPT>"}
    ],
    "max_tokens": 512,
    "temperature": 0.7
}

response = requests.post(API_URL, json=payload, headers=headers)
print(response.json())

Các thông số quan trọng:

  • kiểu mẫu: Chỉ định biến thể GLM‑4.6
  • max_tokens: Kiểm soát độ dài đầu ra
  • nhiệt độ: Điều chỉnh sự sáng tạo so với chủ nghĩa quyết định

Xem thêm Bài thơ Sonnet 4.5 của Claude

Đọc thêm

500+ Mô hình trong Một API

Giảm giá lên đến 20%