모델지원엔터프라이즈블로그
500개 이상의 AI 모델 API, 모든 것이 하나의 API로. CometAPI에서
Models API
개발자
빠른 시작문서API 대시보드
리소스
AI 모델블로그엔터프라이즈변경 로그소개
2025 CometAPI. 모든 권리 보유.개인정보 보호정책서비스 이용약관
Home/Models/Zhipu AI/GLM 4.6
Z

GLM 4.6

입력:$0.96/M
출력:$3.84/M
맥락:200,000
최대 출력:128,000
Zhipu의 최신 플래그십 모델 GLM-4.6 출시: 총 파라미터 355B, 활성 파라미터 32B. 전반적인 핵심 역량은 GLM-4.5를 능가합니다. 코딩: Claude Sonnet 4와 동급, 중국 최고. 컨텍스트: 200K로 확장 (기존 128K). 추론: 개선, Tool 호출 지원. 검색: Tool 및 에이전트 프레임워크 최적화. 글쓰기: 인간의 선호, 문체, 롤플레잉에 더 부합. 다국어: 번역 성능 향상.
새로운
상업적 사용
Playground
개요
기능
가격
API

GLM-4.6는 Z.ai(이전 명칭 Zhipu AI)의 GLM 패밀리 최신 메이저 릴리스로, 에이전트 기반 워크플로, 장문맥 추론 및 실무 코딩에 맞게 튜닝된 4세대 대규모 언어 MoE (Mixture-of-Experts) 모델입니다. 이번 릴리스는 실용적인 에이전트/도구 통합, 매우 큰 컨텍스트 윈도, 그리고 로컬 배포를 위한 오픈 웨이트 제공을 강조합니다.

주요 기능

  • 긴 컨텍스트 — 기본 200K 토큰 컨텍스트 윈도(128K에서 확장). (docs.z.ai)
  • 코딩 & 에이전트형 기능 — 실무 코딩 작업에서의 개선과 에이전트의 도구 호출 성능 향상이 홍보됨.
  • 효율성 — Z.ai의 테스트에서 GLM-4.5 대비 약 ~30% 낮은 토큰 소비로 보고됨.
  • 배포 & 양자화 — Cambricon 칩용 FP8 및 Int4 통합 최초 발표; vLLM을 통해 Moore Threads에서 네이티브 FP8 지원.
  • 모델 크기 & 텐서 타입 — 공개 아티팩트에 따르면 Hugging Face에 약 ~357B 파라미터 모델(BF16 / F32 텐서)이 게시됨.

기술 세부 사항

모달리티 및 포맷. GLM-4.6은 텍스트 전용 LLM(입력 및 출력 모달리티: 텍스트)입니다. Context length = 200K tokens; max output = 128K tokens.

양자화 및 하드웨어 지원. 팀은 Cambricon 칩에서의 FP8/Int4 양자화와 vLLM을 사용한 Moore Threads GPU에서의 네이티브 FP8 추론 실행을 보고했으며 — 이는 추론 비용을 낮추고 온프레미스 및 국내 클라우드 배포를 가능하게 하는 데 중요합니다.

툴링 및 통합. GLM-4.6은 Z.ai의 API, 서드파티 제공자 네트워크(예: CometAPI)를 통해 배포되며, 코딩 에이전트(Claude Code, Cline, Roo Code, Kilo Code)에 통합됩니다.

기술 세부 사항

모달리티 및 포맷. GLM-4.6은 텍스트 전용 LLM(입력 및 출력 모달리티: 텍스트)입니다. Context length = 200K tokens; max output = 128K tokens.

양자화 및 하드웨어 지원. 팀은 Cambricon 칩에서의 FP8/Int4 양자화와 vLLM을 사용한 Moore Threads GPU에서의 네이티브 FP8 추론 실행을 보고했으며 — 이는 추론 비용을 낮추고 온프레미스 및 국내 클라우드 배포를 가능하게 하는 데 중요합니다.

툴링 및 통합. GLM-4.6은 Z.ai의 API, 서드파티 제공자 네트워크(예: CometAPI)를 통해 배포되며, 코딩 에이전트(Claude Code, Cline, Roo Code, Kilo Code)에 통합됩니다.

벤치마크 성능

  • 공개된 평가: GLM-4.6은 에이전트, 추론 및 코딩을 다루는 8개 공개 벤치마크에서 테스트되며 GLM-4.5 대비 명확한 향상을 보여줍니다. 사람이 평가한 실무 코딩 테스트(확장 CC-Bench)에서 GLM-4.6은 GLM-4.5 대비 약 ~15% 적은 토큰을 사용하고 Anthropic의 Claude Sonnet 4 대비 약 ~48.6% 승률을 기록합니다(다수 리더보드에서 근접한 성능).
  • 포지셔닝: 결과는 GLM-4.6이 국내외 선도 모델과 경쟁력이 있음을 주장합니다(예: DeepSeek-V3.1 및 Claude Sonnet 4).

이미지

제한 사항 및 위험

  • 환각 및 오류: 현재의 모든 LLM과 마찬가지로 GLM-4.6도 사실 오류를 발생시킬 수 있습니다 — Z.ai 문서에서는 출력에 실수가 포함될 수 있음을 명시적으로 경고합니다. 중요한 콘텐츠에는 검증 및 검색/RAG를 적용해야 합니다.
  • 모델 복잡성 및 서빙 비용: 200K 컨텍스트와 매우 큰 출력은 메모리 및 지연 요구를 크게 증가시키며 추론 비용을 높일 수 있습니다; 대규모 운영을 위해서는 양자화/추론 엔지니어링이 필요합니다.
  • 도메인 격차: GLM-4.6이 에이전트/코딩 성능을 강하게 보고하지만, 일부 공개 보고에 따르면 특정 마이크로벤치마크에서 일부 버전의 경쟁 모델보다 뒤처지는 경우가 있습니다(예: Sonnet 4.5 대비 일부 코딩 지표). 프로덕션 모델 교체 전 작업별로 평가하십시오.
  • 안전 및 정책: 오픈 웨이트는 접근성을 높이는 동시에 관리 책임에 대한 질문을 증가시킵니다(완화 조치, 가드레일, 레드팀링은 사용자 책임).

사용 사례

  • 에이전트형 시스템 및 도구 오케스트레이션: 긴 에이전트 트레이스, 다중 도구 계획, 동적 도구 호출; 모델의 에이전트형 튜닝이 핵심 강점입니다.
  • 실무 코딩 도우미: 다회전 코드 생성, 코드 리뷰 및 인터랙티브 IDE 어시스턴트( Z.ai 기준 Claude Code, Cline, Roo Code에 통합). 토큰 효율성 개선은 고사용량 개발자 플랜에 매력적입니다.
  • 장문서 워크플로: 200K 윈도를 통한 요약, 다문서 종합, 장편 법률/기술 검토.
  • 콘텐츠 제작 및 가상 캐릭터: 장시간 대화, 다회전 시나리오에서의 일관된 페르소나 유지.

GLM-4.6의 타 모델 대비

  • GLM-4.5 → GLM-4.6: **컨텍스트 크기(128K → 200K)**와 **토큰 효율성( CC-Bench에서 약 ~15% 절감)**의 단계적 변화; 에이전트/도구 활용 개선.
  • GLM-4.6 vs Claude Sonnet 4 / Sonnet 4.5: Z.ai는 여러 리더보드에서의 근접 성능과 CC-Bench 실무 코딩 과제에서의 약 ~48.6% 승률을 보고함(일부 마이크로벤치마크에서는 Sonnet이 여전히 우세). 많은 엔지니어링 팀에게 GLM-4.6은 비용 효율적 대안으로 포지셔닝됨.
  • GLM-4.6 vs 기타 장문맥 모델(DeepSeek, Gemini 변형, GPT-4 계열): GLM-4.6은 대형 컨텍스트와 에이전트형 코딩 워크플로를 강조하며, 상대적 강점은 지표에 따라 다름(토큰 효율성/에이전트 통합 vs 순수 코드 합성 정확도 또는 안전 파이프라인). 경험적 선택은 작업 중심이어야 함.

Zhipu AI의 최신 플래그십 모델 GLM-4.6 출시: 총 파라미터 355B, 활성 32B. 모든 핵심 역량에서 GLM-4.5를 능가.

  • 코딩: Claude Sonnet 4와 동급, 중국 내 최고.
  • 컨텍스트: 200K로 확장(128K에서).
  • 추론: 개선, 추론 중 도구 호출 지원.
  • 검색: 도구 호출 및 에이전트 성능 강화.
  • 작성: 스타일, 가독성, 롤플레잉 측면에서 인간 선호도에 더 잘 부합.
  • 다국어: 언어 간 번역 강화.

자주 묻는 질문

What are the context window and output limits for GLM-4-6?

GLM-4-6 supports a 200,000 token context window (extended from 128K in GLM-4.5) with up to 128,000 output tokens, enabling extensive document analysis and long-form generation.

How does GLM-4-6 compare to Claude Sonnet 4 in coding?

According to Zhipu, GLM-4-6's coding capabilities align with Claude Sonnet 4, making it the best coding model among Chinese domestic models.

Does GLM-4-6 support tool calling and agent workflows?

Yes, GLM-4-6 features improved inference capabilities with enhanced Tool calls support and an optimized agent framework for complex multi-step task automation.

What is the architecture of GLM-4-6?

GLM-4-6 is a Mixture-of-Experts model with 355B total parameters and 32B active parameters, balancing capability with efficiency.

What makes GLM-4-6 different from GLM-4.5?

GLM-4-6 offers extended context (200K vs 128K), improved reasoning and tool calling, enhanced writing aligned with human preferences, better multilingual translation, and optimized role-playing.

Is GLM-4-6 suitable for enterprise Chinese language applications?

Yes, GLM-4-6 is particularly strong for Chinese language tasks including translation, content writing, and conversational AI, with enhanced multilingual capabilities.

When should I choose GLM-4-6 over GPT-5.2 or Claude?

Choose GLM-4-6 for Chinese-first applications, cost-effective 200K context needs, or when you need a strong domestic AI alternative with coding capabilities comparable to frontier models.

GLM 4.6의 기능

[모델 이름]의 성능과 사용성을 향상시키도록 설계된 주요 기능을 살펴보세요. 이러한 기능이 프로젝트에 어떻게 도움이 되고 사용자 경험을 개선할 수 있는지 알아보세요.

GLM 4.6 가격

[모델명]의 경쟁력 있는 가격을 살펴보세요. 다양한 예산과 사용 요구에 맞게 설계되었습니다. 유연한 요금제로 사용한 만큼만 지불하므로 요구사항이 증가함에 따라 쉽게 확장할 수 있습니다. [모델명]이 비용을 관리 가능한 수준으로 유지하면서 프로젝트를 어떻게 향상시킬 수 있는지 알아보세요.
코멧 가격 (USD / M Tokens)공식 가격 (USD / M Tokens)할인
입력:$0.96/M
출력:$3.84/M
입력:$1.2/M
출력:$4.8/M
-20%

GLM 4.6의 샘플 코드 및 API

GLM-4.6은 Z.ai(이전 명칭 Zhipu AI)의 GLM 제품군에서 나온 최신 메이저 릴리스로서: 에이전트 기반 워크플로우, 긴 컨텍스트 추론 및 현실 세계 코딩에 최적화된 4세대 대규모 언어 MoE(전문가 혼합) 모델입니다. 이번 릴리스는 실용적인 에이전트/도구 통합, 매우 큰 컨텍스트 윈도우, 로컬 배포를 위한 오픈 가중치 제공을 강조합니다.
POST
/v1/chat/completions
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="glm-4.6",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello!"},
    ],
)

print(completion.choices[0].message.content)

Python Code Example

from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="glm-4.6",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello!"},
    ],
)

print(completion.choices[0].message.content)

JavaScript Code Example

import OpenAI from "openai";

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY;
const base_url = "https://api.cometapi.com/v1";

const openai = new OpenAI({
  apiKey: api_key,
  baseURL: base_url,
});

const completion = await openai.chat.completions.create({
  model: "glm-4.6",
  messages: [
    { role: "system", content: "You are a helpful assistant." },
    { role: "user", content: "Hello!" },
  ],
});

console.log(completion.choices[0].message.content);

Curl Code Example

curl https://api.cometapi.com/v1/chat/completions \
     --header "Authorization: Bearer $COMETAPI_KEY" \
     --header "content-type: application/json" \
     --data \
'{
    "model": "glm-4.6",
    "messages": [
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello!"}
    ]
}'

더 많은 모델

A

Claude Opus 4.6

입력:$4/M
출력:$20/M
Claude Opus 4.6는 Anthropic의 “Opus”급 대규모 언어 모델로, 2026년 2월에 출시되었습니다. 지식 업무와 연구 워크플로를 위한 주력 모델로 자리매김했으며 — 긴 컨텍스트 추론, 다단계 계획, 도구 사용(에이전트형 소프트웨어 워크플로 포함), 그리고 슬라이드와 스프레드시트 자동 생성과 같은 컴퓨터 활용 작업을 개선합니다.
A

Claude Sonnet 4.6

입력:$2.4/M
출력:$12/M
Claude Sonnet 4.6은 지금까지 가장 역량이 뛰어난 Sonnet 모델입니다. 코딩, 컴퓨터 사용, 장문맥 추론, 에이전트 계획, 지식 업무, 디자인 전반에 걸쳐 모델의 역량을 전면 업그레이드한 버전입니다. Sonnet 4.6은 베타 단계의 1M 토큰 컨텍스트 윈도우도 제공합니다.
O

GPT-5.4 nano

입력:$0.16/M
출력:$1/M
GPT-5.4 nano는 속도와 비용이 최우선인 분류, 데이터 추출, 순위화, 하위 에이전트 등의 작업을 위해 설계되었습니다.
O

GPT-5.4 mini

입력:$0.6/M
출력:$3.6/M
GPT-5.4 mini는 대규모 워크로드를 위해 설계된 더 빠르고 더 효율적인 모델에 GPT-5.4의 강점을 접목합니다.
A

Claude Mythos Preview

A

Claude Mythos Preview

곧 출시 예정
입력:$60/M
출력:$240/M
Claude Mythos Preview는 현재까지 우리의 가장 강력한 프런티어 모델이며, 이전 프런티어 모델인 Claude Opus 4.6과 비교해 여러 평가 벤치마크 점수에서 놀라운 도약을 보여줍니다.
X

mimo-v2-pro

입력:$0.8/M
출력:$2.4/M
MiMo-V2-Pro는 Xiaomi의 플래그십 파운데이션 모델로, 총 1T 파라미터와 1M 컨텍스트 길이를 갖추고 있으며, 에이전트 중심 시나리오에 맞춰 깊이 최적화되었습니다. OpenClaw와 같은 범용 에이전트 프레임워크와의 호환성이 뛰어납니다. 표준 PinchBench 및 ClawBench 벤치마크에서 글로벌 최상위권에 속하며, 체감 성능은 Opus 4.6에 근접합니다. MiMo-V2-Pro는 에이전트 시스템의 두뇌로 기능하도록 설계되어 복잡한 워크플로를 오케스트레이션하고, 프로덕션 엔지니어링 작업을 추진하며, 신뢰할 수 있는 결과를 제공합니다.

관련 블로그

GLM-4.7 출시: 이는 AI  인텔리전스에 어떤 의미가 있을까?
Dec 23, 2025
glm-4-7

GLM-4.7 출시: 이는 AI 인텔리전스에 어떤 의미가 있을까?

2025년 12월 22일, Zhipu AI(Z.ai)는 General Language Model(GLM) 제품군의 최신 버전인 GLM-4.7을 공식 출시했으며 — 오픈 소스 AI 모델 세계에서 전 세계의 주목을 끌고 있다. 이 모델은 코딩 및 추론 작업 능력을 향상시킬 뿐만 아니라, 핵심 벤치마크에서 GPT-5.2와 Claude Sonnet 4.5와 같은 독점 모델의 지배력에 도전한다.