GLM-5 vs GLM-4.7: что изменилось, что важно и стоит ли обновляться?

GLM-5, выпущенная 11 февраля 2026 года компанией Zhipu AI (Z.ai), представляет собой крупный архитектурный скачок относительно GLM-4.7: увеличенный масштаб MoE (≈744B против ~355B общего числа параметров), более высокая емкость активных параметров, более низкий измеренный уровень галлюцинаций и заметные улучшения на агентных и кодинговых бенчмарках — ценой усложнения инференса и (иногда) задержек.

Что такое GLM-5 и почему ее релиз важен?

Какой это тип модели — GLM-5?

GLM-5 — новейшая фронтирная LLM с открытыми весами от Zhipu AI (Z.ai), выпущенная 11 февраля 2026 года. Это трансформер Mixture-of-Experts (MoE), который масштабирует семейство GLM до ~744 миллиардов параметров в общей сложности при активации примерно 40 миллиардов параметров на инференс (т. е. маршрутизация MoE удерживает активные вычисления значительно ниже общего числа параметров). Модель распространяется по лицензии MIT и оптимизирована под агентные рабочие нагрузки — длительные, многошаговые задачи, такие как оркестрация инструментов, написание и доработка кода, инженерия документов и сложная работа с знаниями.

Какие ключевые улучшения по сравнению с ранними вариантами GLM?

Краткий список самых значимых изменений:

Масштаб параметров: GLM-5 ≈ 744B всего (40B активных) против ~355B всего / 32B активных у GLM-4.7 — примерно 2× рост масштаба модели.
Бенчмарки и фактуальность: Значительный рост на независимых бенчмарках (Artificial Analysis Intelligence Index: GLM-5 = 50 против GLM-4.7 = 42), а также существенное снижение галлюцинаций по метрике AA Omniscience (сообщается о снижении на 56 процентных пунктов относительно GLM-4.7).
Агентные способности: Повышенная надежность вызова инструментов, декомпозиции планов и выполнения на длинном горизонте (Z.ai позиционирует GLM-5 для “agentic engineering”).
Деплой и чипы: Построена и измерялась на отечественном китайском железе для инференса (Huawei Ascend и др.), отражая курс Z.ai на разнообразие стеков чипов.

Почему это важно: GLM-5 сокращает разрыв между моделями с открытыми весами и проприетарными фронтирными системами на агентных и знаниевых задачах — делая высокоспособные, открытые модели реалистичным вариантом для предприятий, которым нужны контролируемые деплойменты и гибкость лицензирования.

Что нового в GLM-5 (подробно)

Позиционирование: “Агентная инженерия” в масштабе

GLM-5 явно позиционируется Z.ai как модель для “агентной инженерии”: класс сценариев, где модель планирует, вызывает инструменты, инспектирует результаты и итеративно продолжает работу по многим шагам (например, построить CI‑конвейер, разбирать и устранять сбои тестов или сшивать микросервисы). Это стратегический сдвиг от чисто одношаговой генерации кода к моделям, спроектированным для работы и рассуждения по следам исполнения и выводу инструментов.

Режимы “мышления”, сохраняемые/перемежающиеся рассуждения

GLM-5 вводит уточненные режимы “мышления” (иногда в документации именуются как interleaved thinking, preserved thinking), означающие, что модель может выдавать — и затем переиспользовать — внутренние рассуждения в последующих ходах и вызовах инструментов. Практически это снижает затраты на повторное выведение в длинных рабочих процессах и повышает согласованность, когда агент должен поддерживать состояние плана между результатами инструментов. GLM-4.7 представляла более ранние варианты “мышления” и поведение, учитывающее инструменты; GLM-5 уточняет механику и рецепты обучения, чтобы сделать эти следы более надежными и пригодными к повторному использованию.

Инженерия длинного контекста и стабильность системы

Обучение и дообучение GLM-5 явно тестируют генерацию с очень длинными контекстами (202 752 токена во время SFT/оценочных прогонов). Это практический рост, важный, когда модели нужно видеть несколько репозиториев, журналы тестов и результаты оркестрации в одном промпте. В оценочных настройках длина генерации доводится до 131 072 токенов для некоторых задач рассуждения. Это заметное инженерное усилие по смягчению типичной нестабильности при кондиционировании на огромные контексты.

Архитектура и масштабирование (MoE)

Публичные отчеты указывают, что GLM-5 использует большую архитектуру MoE (mixture‑of‑experts) с несколькими сотнями миллиардов параметров в сумме (публичные подсчеты дают ~744–745B). У GLM-4.7 есть варианты MoE и Flash, настроенные под разные компромиссы деплоя (например, варианты “Flash” с меньшим числом активных параметров для локального или недорогого инференса). Дизайн MoE помогает GLM-5 достигать пика возможностей при сохранении возможности конфигурирования (меньше активных параметров для более дешевого инференса). Ожидайте разных профилей инференса (задержка, VRAM) в зависимости от выбранного варианта.

Как Z.ai масштабировала и обучила GLM-5 по сравнению с GLM-4.7?

Ключевые архитектурные различия

Фича	GLM-5	GLM-4.7
Дата релиза	Фев 2026 (флагман)	Дек 2025
Семейство моделей	Новейшее поколение	Предыдущее поколение
Общее число параметров	~744B	~355B
Активные параметры (MoE)	~40B (на проход)	~32B (на проход)
Архитектура	Mixture-of-Experts плюс разреженное внимание	MoE с режимами “мышления”
Контекстное окно	~200K токенов (тот же базовый размер)	~200K токенов

Вывод: GLM-5 почти вдвое увеличивает общую емкость по сравнению с GLM-4.7 и повышает число активных параметров, что способствует лучшему рассуждению и синтезу, особенно для длинных технических текстов, протяженных конвейеров рассуждений и сложных задач по инженерии кода.

Архитектура: что изменилось?

GLM-4.7 — это дизайн mixture‑of‑experts (MoE) в крупных вариантах (задокументировано ~355B общих параметров с меньшим активным набором на токен). GLM-5 сохраняет идеи разреженности MoE, но добавляет новый механизм разреженного внимания — в отчете его называют DeepSeek Sparse Attention (DSA) — который динамически распределяет ресурсы внимания на наиболее важные, по мнению модели, токены. Утверждается, что DSA снижает стоимость инференса/обучения, сохраняя (или улучшая) способность к рассуждениям на длинных контекстах, позволяя модели обрабатывать гораздо более длинные контексты, чем старые контрольные точки, при приемлемых вычислениях.

Масштаб: параметры и данные

GLM-4.7: задокументирована как примерно 355 миллиардов общих параметров для основной версии MoE (с намного меньшим активным набором параметров на проход для эффективности).
GLM-5: заявлена как ~744 миллиарда параметров и обучалась на ~28,5 триллиона токенов в претрейнинге, с упором на код и агентные последовательности. Эта комбинация призвана улучшить синтез кода и устойчивое агентное планирование.

Рост параметров вместе с увеличением токенного бюджета и архитектурными обновлениями — главный входной фактор, почему GLM-5 показывает лучшие численные результаты на лидербордах по коду и агентности.

Стратегия обучения и постобучение (RL)

Там где GLM-4.7 вводила “перемежающиеся” или сохраняемые режимы “мышления” для улучшения многошаговых рассуждений и работы с инструментами, GLM-5 формализует этот конвейер за счет:

Расширения длины контекста через срединный график обучения (команда сообщает о прогрессивном увеличении контекста до 200K токенов).
Реализации последовательного RL‑конвейера постобучения (Reasoning RL → Agentic RL → General RL) вместе с межэтапной дистилляцией в on‑policy, чтобы избежать катастрофического забывания.
Добавления асинхронного RL и развязанных rollout‑движков, чтобы масштабировать агентные траектории во время RL без синхронизационных узких мест.

Эти методы нацелены на улучшение долгосрочного агентного поведения — например, поддержание стабильного внутреннего состояния в длительных сессиях, где модель выполняет несколько зависимых вызовов инструментов и правок кода.

Как GLM-5 и GLM-4.7 сопоставимы по производительности и возможностям?

Бенчмарки и меры “интеллекта”

Область оценки	GLM-5	GLM-4.7
Кодирование (SWE-bench)	~77.8% (SOTA среди открытых моделей)	~73.8% на SWE-bench Verified
Инструменты и CLI-задачи	~56% на Terminal Bench 2.0	~41% на Terminal Bench 2.0
Рассуждения (HLE и расшир.)	Оценка ~30.5 → ~~50 с инструментами (внутр. бенчмарк)	~24.8 → ~42.8 на HLE с инструментами
Агентные и многошаговые задачи	Существенно сильнее (более длинные цепочки)	Сильна (режим “мышления”), но менее глубокая, чем GLM-5

Интерпретация:

GLM-5 обгоняет GLM-4.7 по ключевым кодовым и рассуждательным бенчмаркам на заметные величины. Особенно ясно это в многошаговой автоматизации, декомпозиции проблем и задачах глубокой логики.
Улучшения нетривиальны: например, Terminal Bench растет примерно с ~41% до 56% — крупный относительный скачок надежности агентной автоматизации.
На тестах рассуждений (например, внутренних метриках HLE) GLM-5 показывает более сильные результаты как “в лоб”, так и с инструментами.
Наблюдаются измеримые улучшения на реальных агентных тестах: в метрике CC‑Bench‑V2 frontend HTML ISR GLM-5 показала 38.9% против 35.4% у GLM-4.7 на подмножестве фронтенд‑задач. (Это одна из автоматически оцениваемых метрик, показывающих практическую компетентность во фронтенд‑разработке.)

Размер контекста и длинные задачи

Обе модели поддерживают большие контексты (~200k токенов) — то есть могут воспринимать и рассуждать над более длинными документами, кодовыми базами или диалогами.
Полевые отчеты указывают, что в некоторых деплоях GLM-5 иногда демонстрировала воспринимаемые проблемы управления контекстом — но это может отражать лимиты платформы-хоста, а не дизайн модели.

Вызов инструментов и функций

Обе поддерживают структурированный вызов функций/инструментов; GLM-5 просто исполняет более сложную сценарную логику с большей точностью, особенно на длинных ветвлениях операций.

Примеры: как отличается качество результатов

Пример кодирования (концептуально)

GLM-4.7: Создает компетентные сценарии для одного файла с корректным синтаксисом и читаемой логикой.
GLM-5: Отличается в генерации многофайловых проектов, глубоких отладочных подсказках и длинных циклах обратной связи с минимальной усеченностью контекста.

Рассуждения и планирование

GLM-4.7: Хороша в многошаговых рассуждениях, но иногда “застревает” на очень глубоких цепочках.
GLM-5: Лучше дробит рассуждения, вспоминает более ранние шаги и ведет длинные цепочки — полезно для синтеза данных и мультидоменных стратегий.

Как меняются задержки и стоимость при переходе с GLM-4.7 на GLM-5?

Компромиссы задержек и где GLM-4.7 все еще выигрывает

Короткие сообщения и отзывчивые интерфейсы: Практические бенчмарки показывают, что у GLM-5 может появляться небольшой фиксированный оверхед на коротких ответах (бухгалтерия маршрутизации и выбора экспертов), который проявляется как немного более высокая задержка для крошечных полезных нагрузок. Для ультранизкой задержки на коротких сообщениях GLM-4.7 или варианты Flash остаются привлекательными.

Сравнение GLM-5 с GLM-4.7:

GLM-4.7: ввод $0.60/1M tokens, вывод $2.20/1M tokens.
GLM-5: ввод $1.00/1M tokens, вывод $3.20/1M tokens.

Компромисс стоимости и ручного редактирования

Более высокая цена модели может окупиться, если GLM-5 заметно снижает последующее человеческое время (например, правки merge‑запросов, разбор автоматических исправлений или избегание повторных вызовов модели). Простой принцип принятия решения:

Если GLM-5 сокращает ручное редактирование более чем на X% (X зависит от ставки труда и числа токенов на рабочий процесс), она может быть экономически оправданной несмотря на более высокую стоимость за токен. Несколько блог‑анализов моделировали такие точки безубыточности и обнаружили, что GLM-5 часто окупается для тяжелых, повторяющихся агентных рабочих процессов (например, массового автоматического исправления кода).

Задержки и железо

VRAM инференса и задержка зависят от варианта (Flash, FlashX, полный MoE). Гайды сообщества показывают, что GLM-4.7 FlashX и 30B Flash можно развернуть на GPU с 24 ГБ; полные варианты MoE требуют крупных мульти‑GPU. Полные конфигурации GLM-5 будут ожидать существенно более высоких ресурсов для той же пропускной способности, хотя разреженность MoE помогает снижать активные вычисления на токен. Ожидайте инженерных усилий по настройке квантизации, memory‑mapping и стриминга для продакшена.

Когда стоит обновляться с GLM-4.7 до GLM-5?

Обновляйтесь, если:

Вам нужны лучшие многофайловые рассуждения по коду, оркестрация с длинным контекстом или более высокие end‑to‑end успехи агента.
Ваши задачи высокоценны и оправдывают более высокую сложность и стоимость инфраструктуры на запрос.

Оставайтесь на GLM-4.7, если:

Ваша нагрузка — это большой объем, короткие промпты (классификация, тэггинг), где предсказуемость стоимости и задержек важнее, чем маржинальный рост качества.
Сценарии, в которых лучше остаться на GLM-4.7:
Высокая пропускная способность, короткие полезные нагрузки: Чат‑боты, автодополнение, маленькие задачи перефразирования — GLM-4.7 (особенно варианты Flash) часто будут дешевле и быстрее.
Ограниченные бюджеты и массовые задачи: Для тэггинга, классификации или микро‑задач в масштабе эффективность GLM-4.7 и более низкая цена за токен убедительны.
У вас нет инфраструктуры или бюджета для шардинга MoE / сложного автомасштабирования.

Как выбрать модель в API‑вызовах? (примеры)

cURL — переключение ID модели (CometAPI / совместимо с OpenAI):

# GLM-4.7
curl -X POST "https://api.cometapi.com/v1/chat/completions" \
 -H "Authorization: Bearer $KEY" -H "Content-Type: application/json" \
 -d '{"model":"glm-4.7","messages":[{"role":"user","content":"Summarize this repo..."}],"max_tokens":800}'
# GLM-5
curl -X POST "https://api.cometapi.com/v1/chat/completions" \
 -H "Authorization: Bearer $KEY" -H "Content-Type: application/json" \
 -d '{"model":"glm-5","messages":[{"role":"user","content":"Summarize this repo..."}],"max_tokens":1200}'

Python (requests): измените поле model, чтобы направить запрос к GLM-4.7 или GLM-5 — остальной клиентский код может остаться прежним.

Итоговая оценка:

GLM-5 выглядит эволюционной с важными переломными моментами:

Эволюционной, потому что она продолжает MoE‑ и ориентированный на рассуждения дизайн семейства GLM и следует шаблону итеративных улучшений (4.5 → 4.6 → 4.7 → 5).
Переломной, потому что заметно увеличивает масштаб, вводит DSA и берет курс на RL‑куррикулум, специально подогнанный под долгосрочные агентные задачи — все это приводит к ощутимым, измеримым улучшениям на широком спектре практических бенчмарков.

Если оценивать по местам в рейтингах, GLM-5 заявляет лидерство среди открытых весов по нескольким метрикам и сокращает разрыв с топовыми проприетарными системами в агентных и кодовых задачах. Если оценивать по разработческому опыту и использованию, чувствительному к задержкам, практические плюсы и минусы еще предстоит продемонстрировать в более масштабных деплоях и со временем. Это означает, что GLM-5 привлекательна там, где сценарий требует устойчивой агентной компетентности; GLM-4.7 остается зрелым, более быстрым и экономичным выбором для многих текущих продакшен‑потребностей.

Разработчики уже могут получить доступ к GLM-5 и GLM-4.7 через CometAPI. Чтобы начать, изучите возможности модели в Playground и ознакомьтесь с API guide для подробных инструкций. Перед доступом убедитесь, что вы вошли в CometAPI и получили ключ API. CometAPI предлагает цену значительно ниже официальной, чтобы помочь вам интегрироваться.

Готовы начать? → Зарегистрируйтесь на GLM-5 уже сегодня !

Если хотите получать больше советов, гайдов и новостей об ИИ, подписывайтесь на нас в VK, X и Discord!