Home/Models/Zhipu AI/GLM 4.6
Z

GLM 4.6

Ввод:$0.96/M
Вывод:$3.84/M
Контекст:200,000
Максимальный вывод:128,000
Последняя флагманская модель Zhipu GLM-4.6 выпущена: общее число параметров — 355B, активных параметров — 32B. В целом ключевые возможности превосходят GLM-4.5. Программирование: на уровне Claude Sonnet 4, лучший в Китае. Контекст: расширен до 200K (изначально 128K). Инференс: улучшен, поддерживает вызовы Tool. Поиск: оптимизированы Tool и агентный фреймворк. Написание: лучше соответствует человеческим предпочтениям, стилю письма и ролевой игре. Мультиязычность: улучшено качество перевода.
Новый
Коммерческое использование
Playground
Обзор
Функции
Цены
API

GLM-4.6 — последний крупный релиз семейства GLM компании Z.ai (ранее Zhipu AI): LLM 4-го поколения на основе MoE (Mixture-of-Experts), настроенная для агентных рабочих процессов, рассуждений на длинном контексте и реального программирования. Релиз делает упор на практическую интеграцию с агентами/инструментами, очень большое окно контекста и доступность открытых весов для локального развертывания.

Key features

  • Long context — родное окно контекста 200K токенов (расширено с 128K). (docs.z.ai)
  • Coding & agentic capability — заявлены улучшения на задачах реального программирования и лучший вызов инструментов для агентов.
  • Efficiency — сообщается о ~30% более низком потреблении токенов по сравнению с GLM-4.5 на тестах Z.ai.
  • Deployment & quantization — впервые объявлена интеграция FP8 и Int4 для чипов Cambricon; родная поддержка FP8 на Moore Threads через vLLM.
  • Model size & tensor type — опубликованные артефакты указывают на модель с ~357B параметров (тензоры BF16 / F32) на Hugging Face.

Technical details

Modalities & formats. GLM-4.6 — текстовая LLM (входные и выходные модальности: текст). Длина контекста = 200K токенов; макс. вывод = 128K токенов.

Quantization & hardware support. Команда сообщает о квантовании FP8/Int4 на чипах Cambricon и о родном выполнении FP8 на GPU Moore Threads с использованием vLLM для инференса — важно для снижения стоимости инференса и для on-prem и отечественных облачных развертываний.

Tooling & integrations. GLM-4.6 распространяется через API Z.ai, сети сторонних провайдеров (например, CometAPI) и интегрирована в кодовые агенты (Claude Code, Cline, Roo Code, Kilo Code).

Technical details

Modalities & formats. GLM-4.6 — текстовая LLM (входные и выходные модальности: текст). Длина контекста = 200K токенов; макс. вывод = 128K токенов.

Quantization & hardware support. Команда сообщает о квантовании FP8/Int4 на чипах Cambricon и о родном выполнении FP8 на GPU Moore Threads с использованием vLLM для инференса — важно для снижения стоимости инференса и для on-prem и отечественных облачных развертываний.

Tooling & integrations. GLM-4.6 распространяется через API Z.ai, сети сторонних провайдеров (например, CometAPI) и интегрирована в кодовые агенты (Claude Code, Cline, Roo Code, Kilo Code).

Benchmark performance

  • Published evaluations: GLM-4.6 была протестирована на восьми публичных бенчмарках, охватывающих агентов, рассуждение и программирование, и показывает очевидные приросты по сравнению с GLM-4.5. На оценённых людьми тестах реального программирования (расширенный CC-Bench) GLM-4.6 использует ~15% меньше токенов по сравнению с GLM-4.5 и демонстрирует ~48,6% долю побед против Claude Sonnet 4 от Anthropic (почти паритет на многих рейтингах).
  • Positioning: результаты утверждают, что GLM-4.6 конкурентоспособна с ведущими отечественными и международными моделями (в качестве примеров упомянуты DeepSeek-V3.1 и Claude Sonnet 4).

img

Limitations & risks

  • Hallucinations & mistakes: как и все современные LLM, GLM-4.6 может допускать фактические ошибки — документация Z.ai прямо предупреждает, что выводы могут содержать ошибки. Пользователям следует применять верификацию & retrieval/RAG для критичного контента.
  • Model complexity & serving cost: окно в 200K и очень большие ответы резко увеличивают требования к памяти & задержкам и могут повысить стоимость инференса; для работы на масштабе требуются квантование/инженерия инференса.
  • Domain gaps: при заявленной сильной производительности в агентных/кодовых задачах некоторые публичные отчёты отмечают, что модель всё ещё отстаёт от отдельных версий конкурентов в конкретных микробенчмарках (например, по некоторым метрикам программирования против Sonnet 4.5). Оценивайте по задачам, прежде чем заменять производственные модели.
  • Safety & policy: открытые веса повышают доступность, но также поднимают вопросы ответственности; смягчения, гардрейлы и редтиминг остаются обязанностью пользователя.

Use cases

  • Agentic systems & tool orchestration: длинные трассы агента, планирование с несколькими инструментами, динамический вызов инструментов; агентная настройка модели — ключевое преимущество.
  • Real-world coding assistants: многотуровая генерация кода, ревью кода и интерактивные ассистенты IDE (интегрированы в Claude Code, Cline, Roo Code — по данным Z.ai). Улучшения эффективности по токенам делают модель привлекательной для тарифов разработчиков с интенсивным использованием.
  • Long-document workflows: суммаризация, синтез по нескольким документам, длительные юридические/технические обзоры благодаря окну в 200K.
  • Content creation & virtual characters: протяжённые диалоги, поддержание согласованной персоны в многотуровых сценариях.

How GLM-4.6 compares to other models

  • GLM-4.5 → GLM-4.6: скачок в размере контекста (128K → 200K) и эффективности по токенам (~15% меньше токенов на CC-Bench); улучшено использование агентов/инструментов.
  • GLM-4.6 vs Claude Sonnet 4 / Sonnet 4.5: Z.ai сообщает почти паритет на нескольких рейтингах и ~48,6% долю побед на задачах реального программирования CC-Bench (т.е. близкая конкуренция, при этом на отдельных микробенчмарках Sonnet всё ещё лидирует). Для многих инженерных команд GLM-4.6 позиционируется как экономичный альтернативный вариант.
  • GLM-4.6 vs другие модели с длинным контекстом (DeepSeek, варианты Gemini, семейство GPT-4): GLM-4.6 делает акцент на большом контексте и агентных рабочих процессах для программирования; относительные сильные стороны зависят от метрики (эффективность по токенам/интеграция с агентами vs точность синтеза кода или пайплайны безопасности). Эмпирический выбор должен быть задачево ориентирован.

Последняя флагманская модель Zhipu AI GLM-4.6 выпущена: 355B всего параметров, 32B активных. Превосходит GLM-4.5 по всем ключевым возможностям.

  • Coding: Сопоставима с Claude Sonnet 4, лучшая в Китае.
  • Context: Расширено до 200K (с 128K).
  • Reasoning: Улучшено, поддерживает вызов инструментов во время инференса.
  • Search: Усилен вызов инструментов и производительность агентов.
  • Writing: Лучше согласуется с человеческими предпочтениями по стилю, читаемости и ролевому взаимодействию.
  • Multilingual: Усилены возможности межъязыкового перевода.

ЧАВО

What are the context window and output limits for GLM-4-6?

GLM-4-6 supports a 200,000 token context window (extended from 128K in GLM-4.5) with up to 128,000 output tokens, enabling extensive document analysis and long-form generation.

How does GLM-4-6 compare to Claude Sonnet 4 in coding?

According to Zhipu, GLM-4-6's coding capabilities align with Claude Sonnet 4, making it the best coding model among Chinese domestic models.

Does GLM-4-6 support tool calling and agent workflows?

Yes, GLM-4-6 features improved inference capabilities with enhanced Tool calls support and an optimized agent framework for complex multi-step task automation.

What is the architecture of GLM-4-6?

GLM-4-6 is a Mixture-of-Experts model with 355B total parameters and 32B active parameters, balancing capability with efficiency.

What makes GLM-4-6 different from GLM-4.5?

GLM-4-6 offers extended context (200K vs 128K), improved reasoning and tool calling, enhanced writing aligned with human preferences, better multilingual translation, and optimized role-playing.

Is GLM-4-6 suitable for enterprise Chinese language applications?

Yes, GLM-4-6 is particularly strong for Chinese language tasks including translation, content writing, and conversational AI, with enhanced multilingual capabilities.

When should I choose GLM-4-6 over GPT-5.2 or Claude?

Choose GLM-4-6 for Chinese-first applications, cost-effective 200K context needs, or when you need a strong domestic AI alternative with coding capabilities comparable to frontier models.

Функции для GLM 4.6

Изучите ключевые функции GLM 4.6, разработанные для повышения производительности и удобства использования. Узнайте, как эти возможности могут принести пользу вашим проектам и улучшить пользовательский опыт.

Цены для GLM 4.6

Изучите конкурентоспособные цены на GLM 4.6, разработанные для различных бюджетов и потребностей использования. Наши гибкие планы гарантируют, что вы платите только за то, что используете, что упрощает масштабирование по мере роста ваших требований. Узнайте, как GLM 4.6 может улучшить ваши проекты, сохраняя при этом управляемые расходы.
Цена Comet (USD / M Tokens)Официальная цена (USD / M Tokens)Скидка
Ввод:$0.96/M
Вывод:$3.84/M
Ввод:$1.2/M
Вывод:$4.8/M
-20%

Пример кода и API для GLM 4.6

GLM-4.6 — последний крупный релиз в семействе GLM компании Z.ai (ранее Zhipu AI): большая языковая модель класса MoE (смесь экспертов) четвёртого поколения, оптимизированная для агентных рабочих процессов, рассуждений на длинном контексте и практического программирования. Релиз подчёркивает практическую интеграцию агентов/инструментов, очень большое окно контекста и доступность открытых весов для локального развёртывания.
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="glm-4.6",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello!"},
    ],
)

print(completion.choices[0].message.content)

Больше моделей