Home/Models/Zhipu AI/GLM 4.6
Z

GLM 4.6

อินพุต:$0.96/M
เอาต์พุต:$3.84/M
บริบท:200,000
เอาต์พุตสูงสุด:128,000
GLM-4.6 รุ่นเรือธงล่าสุดของ Zhipu เปิดตัวแล้ว: พารามิเตอร์ทั้งหมด 355B พารามิเตอร์ที่ใช้งาน 32B. โดยรวมแล้วความสามารถหลักเหนือกว่า GLM-4.5. การเขียนโค้ด: ทัดเทียมกับ Claude Sonnet 4 ดีที่สุดในจีน. บริบท: ขยายเป็น 200K (เดิม 128K). การอนุมาน: ปรับปรุงดีขึ้น รองรับการเรียกใช้เครื่องมือ. การค้นหา: ปรับให้เหมาะสมทั้งเครื่องมือและเฟรมเวิร์กเอเจนต์. การเขียน: สอดคล้องกับความชอบของมนุษย์ สไตล์การเขียน และการสวมบทบาทมากขึ้น. หลายภาษา: ประสิทธิภาพการแปลดีขึ้น.
ใหม่
ใช้งานเชิงพาณิชย์
Playground
ภาพรวม
คุณสมบัติ
ราคา
API

GLM-4.6 เป็นรุ่นสำคัญล่าสุดในตระกูล GLM ของ Z.ai (เดิมชื่อ Zhipu AI): โมเดลภาษาขนาดใหญ่รุ่นที่ 4 แบบ MoE (Mixture-of-Experts) ที่ปรับจูนเพื่อ เวิร์กโฟลว์เชิงเอเยนต์ การให้เหตุผลบริบทยาว และการเขียนโค้ดในโลกจริง การออกแบบรุ่นนี้เน้นการผสานใช้งานเอเยนต์/เครื่องมือจริง หน้าต่าง บริบท ที่ใหญ่มาก และน้ำหนักโมเดลแบบเปิดสำหรับการติดตั้งภายในองค์กร

คุณสมบัติสำคัญ

  • บริบทยาว — หน้าต่างบริบทแบบเนทีฟ 200K token (ขยายจาก 128K). (docs.z.ai)
  • ความสามารถด้านโค้ดและเอเยนต์ — ประสิทธิภาพที่โฆษณาว่าดีขึ้นในงานเขียนโค้ดโลกจริง และการเรียกใช้เครื่องมือของเอเยนต์ที่ดีขึ้น
  • ประสิทธิภาพ — รายงานว่า ~30% ใช้โทเค็นน้อยลง เมื่อเทียบกับ GLM-4.5 ตามการทดสอบของ Z.ai
  • การติดตั้งใช้งานและการควอนไทซ์ — ประกาศครั้งแรกการผสาน FP8 และ Int4 สำหรับชิป Cambricon; รองรับ FP8 แบบเนทีฟบน Moore Threads ผ่าน vLLM
  • ขนาดโมเดลและชนิดเทนเซอร์ — อาร์ติแฟกต์ที่เผยแพร่ระบุโมเดล ~357B-parameter (เทนเซอร์ BF16 / F32) บน Hugging Face

รายละเอียดทางเทคนิค

โมดาลิตีและรูปแบบ. GLM-4.6 เป็น LLM แบบ เฉพาะข้อความ (โมดาลิตีอินพุตและเอาต์พุต: ข้อความ). ความยาวบริบท = 200K tokens; เอาต์พุตสูงสุด = 128K tokens.

การควอนไทซ์และการรองรับฮาร์ดแวร์. ทีมรายงาน FP8/Int4 quantization บนชิป Cambricon และการรัน FP8 แบบเนทีฟ บน GPU ของ Moore Threads โดยใช้ vLLM สำหรับอินเฟอเรนซ์ — สำคัญต่อการลดต้นทุนอินเฟอเรนซ์และเปิดทางให้การติดตั้งบนระบบภายในและคลาวด์ภายในประเทศ

เครื่องมือและการผสานระบบ. GLM-4.6 เผยแพร่ผ่าน API ของ Z.ai เครือข่ายผู้ให้บริการบุคคลที่สาม (เช่น CometAPI) และถูกผสานในเอเยนต์สำหรับเขียนโค้ด (Claude Code, Cline, Roo Code, Kilo Code).

รายละเอียดทางเทคนิค

โมดาลิตีและรูปแบบ. GLM-4.6 เป็น LLM แบบ เฉพาะข้อความ (โมดาลิตีอินพุตและเอาต์พุต: ข้อความ). ความยาวบริบท = 200K tokens; เอาต์พุตสูงสุด = 128K tokens.

การควอนไทซ์และการรองรับฮาร์ดแวร์. ทีมรายงาน FP8/Int4 quantization บนชิป Cambricon และการรัน FP8 แบบเนทีฟ บน GPU ของ Moore Threads โดยใช้ vLLM สำหรับอินเฟอเรนซ์ — สำคัญต่อการลดต้นทุนอินเฟอเรนซ์และเปิดทางให้การติดตั้งบนระบบภายในและคลาวด์ภายในประเทศ

เครื่องมือและการผสานระบบ. GLM-4.6 เผยแพร่ผ่าน API ของ Z.ai เครือข่ายผู้ให้บริการบุคคลที่สาม (เช่น CometAPI) และถูกผสานในเอเยนต์สำหรับเขียนโค้ด (Claude Code, Cline, Roo Code, Kilo Code).

ผลการทดสอบเชิงเปรียบเทียบ

  • การประเมินที่เผยแพร่: GLM-4.6 ถูกทดสอบบนเบนช์มาร์กสาธารณะ 8 รายการครอบคลุมเอเยนต์ การให้เหตุผล และการเขียนโค้ด และแสดงให้เห็นว่า เหนือกว่า GLM-4.5 อย่างชัดเจน ในการทดสอบการเขียนโค้ดโลกจริงที่ประเมินโดยมนุษย์ (extended CC-Bench) GLM-4.6 ใช้โทเค็น ~15% น้อยกว่า เทียบกับ GLM-4.5 และทำ อัตราชนะ ~48.6% เทียบกับ Claude Sonnet 4 ของ Anthropic (ใกล้เคียงในหลายตารางจัดอันดับ).
  • การจัดวางตำแหน่ง: ผลการทดสอบระบุว่า GLM-4.6 แข่งขันได้กับโมเดลชั้นนำทั้งในประเทศและต่างประเทศ (ตัวอย่างที่อ้างถึงเช่น DeepSeek-V3.1 และ Claude Sonnet 4).

รูปภาพ

ข้อจำกัดและความเสี่ยง

  • ฮัลลูซิเนชันและความผิดพลาด: เช่นเดียวกับ LLM ปัจจุบันทั้งหมด GLM-4.6 อาจทำผิดข้อเท็จจริง — เอกสารของ Z.ai เตือนอย่างชัดเจนว่าผลลัพธ์อาจมีข้อผิดพลาด ผู้ใช้ควรใช้การตรวจสอบและการดึงข้อมูล/RAG สำหรับเนื้อหาที่มีความสำคัญ
  • ความซับซ้อนของโมเดลและต้นทุนการให้บริการ: บริบท 200K และเอาต์พุตขนาดใหญ่มากเพิ่มความต้องการหน่วยความจำและเวลาแฝงอย่างมาก และอาจเพิ่มต้นทุนอินเฟอเรนซ์; จำเป็นต้องมีการควอนไทซ์/วิศวกรรมอินเฟอเรนซ์เพื่อรันในสเกลใหญ่
  • ช่องว่างตามโดเมน: แม้ GLM-4.6 รายงานประสิทธิภาพเอเยนต์/โค้ดที่แข็งแรง รายงานสาธารณะบางส่วนระบุว่ายัง ตามหลังบางเวอร์ชัน ของโมเดลคู่แข่งในไมโครบันช์มาร์กบางรายการ (เช่น เมตริกโค้ดบางอย่างเทียบกับ Sonnet 4.5) ควรประเมินตามงานก่อนแทนที่โมเดลโปรดักชัน
  • ความปลอดภัยและนโยบาย: น้ำหนักแบบเปิดเพิ่มการเข้าถึงแต่ก็สร้างคำถามด้านการกำกับดูแล (การบรรเทา การป้องกัน และการทดสอบเชิงรุกยังเป็นความรับผิดชอบของผู้ใช้)

กรณีใช้งาน

  • ระบบเชิงเอเยนต์และการจัดการเครื่องมือ: เทรซเอเยนต์ยาว การวางแผนหลายเครื่องมือ การเรียกใช้เครื่องมือแบบไดนามิก; การปรับจูนเชิงเอเยนต์ของโมเดลเป็นจุดขายสำคัญ
  • ผู้ช่วยเขียนโค้ดในโลกจริง: การสร้างโค้ดหลายรอบการสนทนา การรีวิวโค้ด และผู้ช่วย IDE แบบโต้ตอบ (ผสานใน Claude Code, Cline, Roo Code—ตาม Z.ai) การปรับปรุงประสิทธิภาพโทเค็น ทำให้เหมาะกับแผนใช้งานหนักของนักพัฒนา
  • เวิร์กโฟลว์เอกสารยาว: สรุปเนื้อหา การสังเคราะห์หลายเอกสาร การรีวิวด้านกฎหมาย/เทคนิคขนาดยาว ด้วยหน้าต่าง 200K
  • การสร้างคอนเทนต์และตัวละครเสมือน: บทสนทนายาว การคงบุคลิกที่สอดคล้องในสถานการณ์หลายรอบ

การเปรียบเทียบ GLM-4.6 กับโมเดลอื่น

  • GLM-4.5 → GLM-4.6: การเปลี่ยนแปลงแบบก้าวกระโดดใน ขนาดบริบท (128K → 200K) และ ประสิทธิภาพโทเค็น (~15% ใช้โทเค็นน้อยลงบน CC-Bench); การใช้เอเยนต์/เครื่องมือที่ดีขึ้น
  • GLM-4.6 vs Claude Sonnet 4 / Sonnet 4.5: Z.ai รายงานว่า ใกล้เคียงกันบนหลายตารางจัดอันดับ และมีอัตราชนะ ~48.6% บนงานโค้ดโลกจริงของ CC-Bench (กล่าวคือ แข่งขันกันสูสี โดยที่บางไมโครบันช์มาร์ก Sonnet ยังนำอยู่) สำหรับหลายทีมวิศวกรรม GLM-4.6 ถูกวางตำแหน่งเป็นตัวเลือกที่คุ้มค่า
  • GLM-4.6 vs โมเดลบริบทยาวอื่นๆ (DeepSeek, สายพันธุ์ Gemini, ตระกูล GPT-4): GLM-4.6 เน้นบริบทขนาดใหญ่และเวิร์กโฟลว์โค้ดเชิงเอเยนต์; จุดแข็งสัมพัทธ์ขึ้นกับเมตริก (ประสิทธิภาพโทเค็น/การผสานเอเยนต์ เทียบกับความแม่นยำการสังเคราะห์โค้ดดิบหรือสายงานความปลอดภัย) การเลือกโดยอิงหลักฐานควรขับเคลื่อนด้วยงาน

Zhipu AI’s โมเดลเรือธงล่าสุด GLM-4.6 เปิดตัวแล้ว: พารามิเตอร์รวม 355B, พารามิเตอร์ที่แอคทีฟ 32B. เหนือกว่า GLM-4.5 ในความสามารถหลักทั้งหมด.

  • การเขียนโค้ด: ใกล้เคียงกับ Claude Sonnet 4, ดีที่สุดในจีน.
  • บริบท: ขยายเป็น 200K (จาก 128K).
  • การให้เหตุผล: ดีขึ้น รองรับการเรียกใช้เครื่องมือระหว่างอินเฟอเรนซ์.
  • การค้นหา: ปรับปรุงการเรียกใช้เครื่องมือและประสิทธิภาพเอเยนต์.
  • การเขียน: สอดคล้องกับความชอบของมนุษย์มากขึ้นในด้านสไตล์ ความอ่านง่าย และการสวมบทบาท.
  • หลายภาษา: ยกระดับการแปลข้ามภาษา.

คำถามที่พบบ่อย

What are the context window and output limits for GLM-4-6?

GLM-4-6 supports a 200,000 token context window (extended from 128K in GLM-4.5) with up to 128,000 output tokens, enabling extensive document analysis and long-form generation.

How does GLM-4-6 compare to Claude Sonnet 4 in coding?

According to Zhipu, GLM-4-6's coding capabilities align with Claude Sonnet 4, making it the best coding model among Chinese domestic models.

Does GLM-4-6 support tool calling and agent workflows?

Yes, GLM-4-6 features improved inference capabilities with enhanced Tool calls support and an optimized agent framework for complex multi-step task automation.

What is the architecture of GLM-4-6?

GLM-4-6 is a Mixture-of-Experts model with 355B total parameters and 32B active parameters, balancing capability with efficiency.

What makes GLM-4-6 different from GLM-4.5?

GLM-4-6 offers extended context (200K vs 128K), improved reasoning and tool calling, enhanced writing aligned with human preferences, better multilingual translation, and optimized role-playing.

Is GLM-4-6 suitable for enterprise Chinese language applications?

Yes, GLM-4-6 is particularly strong for Chinese language tasks including translation, content writing, and conversational AI, with enhanced multilingual capabilities.

When should I choose GLM-4-6 over GPT-5.2 or Claude?

Choose GLM-4-6 for Chinese-first applications, cost-effective 200K context needs, or when you need a strong domestic AI alternative with coding capabilities comparable to frontier models.

คุณสมบัติสำหรับ GLM 4.6

สำรวจคุณสมบัติหลักของ GLM 4.6 ที่ออกแบบมาเพื่อเพิ่มประสิทธิภาพและความสะดวกในการใช้งาน ค้นพบว่าความสามารถเหล่านี้สามารถเป็นประโยชน์ต่อโครงการของคุณและปรับปรุงประสบการณ์ของผู้ใช้ได้อย่างไร

ราคาสำหรับ GLM 4.6

สำรวจราคาที่แข่งขันได้สำหรับ GLM 4.6 ที่ออกแบบมาให้เหมาะสมกับงบประมาณและความต้องการการใช้งานที่หลากหลาย แผนการบริการที่ยืดหยุ่นของเรารับประกันว่าคุณจะจ่ายเฉพาะสิ่งที่คุณใช้เท่านั้น ทำให้สามารถขยายขนาดได้ง่ายเมื่อความต้องการของคุณเพิ่มขึ้น ค้นพบว่า GLM 4.6 สามารถยกระดับโปรเจกต์ของคุณได้อย่างไรในขณะที่ควบคุมต้นทุนให้อยู่ในระดับที่จัดการได้
ราคา Comet (USD / M Tokens)ราคาทางการ (USD / M Tokens)ส่วนลด
อินพุต:$0.96/M
เอาต์พุต:$3.84/M
อินพุต:$1.2/M
เอาต์พุต:$4.8/M
-20%

โค้ดตัวอย่างและ API สำหรับ GLM 4.6

GLM-4.6 เป็นรุ่นหลักล่าสุดในตระกูล GLM ของ Z.ai (เดิมคือ Zhipu AI): โมเดลภาษาขนาดใหญ่แบบ MoE (Mixture-of-Experts) รุ่นที่ 4 ที่ปรับแต่งมาสำหรับเวิร์กโฟลว์เชิงเอเจนต์ การให้เหตุผลในบริบทยาว และการเขียนโค้ดในโลกจริง. รุ่นนี้เน้นการผสานรวมเอเจนต์/เครื่องมือที่ใช้งานได้จริง หน้าต่างบริบทที่ใหญ่มาก และความพร้อมของน้ำหนักโมเดลแบบเปิดสำหรับการปรับใช้แบบโลคอล.
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="glm-4.6",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello!"},
    ],
)

print(completion.choices[0].message.content)

โมเดลเพิ่มเติม