GLM-5, выпущенная 11 февраля 2026 года компанией Zhipu AI (Z.ai), представляет собой крупный архитектурный скачок относительно GLM-4.7: увеличенный масштаб MoE (≈744B против ~355B общего числа параметров), более высокая емкость активных параметров, более низкий измеренный уровень галлюцинаций и заметные улучшения на агентных и кодинговых бенчмарках — ценой усложнения инференса и (иногда) задержек.
Что такое GLM-5 и почему ее релиз важен?
Какой это тип модели — GLM-5?
GLM-5 — новейшая фронтирная LLM с открытыми весами от Zhipu AI (Z.ai), выпущенная 11 февраля 2026 года. Это трансформер Mixture-of-Experts (MoE), который масштабирует семейство GLM до ~744 миллиардов параметров в общей сложности при активации примерно 40 миллиардов параметров на инференс (т. е. маршрутизация MoE удерживает активные вычисления значительно ниже общего числа параметров). Модель распространяется по лицензии MIT и оптимизирована под агентные рабочие нагрузки — длительные, многошаговые задачи, такие как оркестрация инструментов, написание и доработка кода, инженерия документов и сложная работа с знаниями.
Какие ключевые улучшения по сравнению с ранними вариантами GLM?
Краткий список самых значимых изменений:
- Масштаб параметров: GLM-5 ≈ 744B всего (40B активных) против ~355B всего / 32B активных у GLM-4.7 — примерно 2× рост масштаба модели.
- Бенчмарки и фактуальность: Значительный рост на независимых бенчмарках (Artificial Analysis Intelligence Index: GLM-5 = 50 против GLM-4.7 = 42), а также существенное снижение галлюцинаций по метрике AA Omniscience (сообщается о снижении на 56 процентных пунктов относительно GLM-4.7).
- Агентные способности: Повышенная надежность вызова инструментов, декомпозиции планов и выполнения на длинном горизонте (Z.ai позиционирует GLM-5 для “agentic engineering”).
- Деплой и чипы: Построена и измерялась на отечественном китайском железе для инференса (Huawei Ascend и др.), отражая курс Z.ai на разнообразие стеков чипов.
Почему это важно: GLM-5 сокращает разрыв между моделями с открытыми весами и проприетарными фронтирными системами на агентных и знаниевых задачах — делая высокоспособные, открытые модели реалистичным вариантом для предприятий, которым нужны контролируемые деплойменты и гибкость лицензирования.
Что нового в GLM-5 (подробно)
Позиционирование: “Агентная инженерия” в масштабе
GLM-5 явно позиционируется Z.ai как модель для “агентной инженерии”: класс сценариев, где модель планирует, вызывает инструменты, инспектирует результаты и итеративно продолжает работу по многим шагам (например, построить CI‑конвейер, разбирать и устранять сбои тестов или сшивать микросервисы). Это стратегический сдвиг от чисто одношаговой генерации кода к моделям, спроектированным для работы и рассуждения по следам исполнения и выводу инструментов.
Режимы “мышления”, сохраняемые/перемежающиеся рассуждения
GLM-5 вводит уточненные режимы “мышления” (иногда в документации именуются как interleaved thinking, preserved thinking), означающие, что модель может выдавать — и затем переиспользовать — внутренние рассуждения в последующих ходах и вызовах инструментов. Практически это снижает затраты на повторное выведение в длинных рабочих процессах и повышает согласованность, когда агент должен поддерживать состояние плана между результатами инструментов. GLM-4.7 представляла более ранние варианты “мышления” и поведение, учитывающее инструменты; GLM-5 уточняет механику и рецепты обучения, чтобы сделать эти следы более надежными и пригодными к повторному использованию.
Инженерия длинного контекста и стабильность системы
Обучение и дообучение GLM-5 явно тестируют генерацию с очень длинными контекстами (202 752 токена во время SFT/оценочных прогонов). Это практический рост, важный, когда модели нужно видеть несколько репозиториев, журналы тестов и результаты оркестрации в одном промпте. В оценочных настройках длина генерации доводится до 131 072 токенов для некоторых задач рассуждения. Это заметное инженерное усилие по смягчению типичной нестабильности при кондиционировании на огромные контексты.
Архитектура и масштабирование (MoE)
Публичные отчеты указывают, что GLM-5 использует большую архитектуру MoE (mixture‑of‑experts) с несколькими сотнями миллиардов параметров в сумме (публичные подсчеты дают ~744–745B). У GLM-4.7 есть варианты MoE и Flash, настроенные под разные компромиссы деплоя (например, варианты “Flash” с меньшим числом активных параметров для локального или недорогого инференса). Дизайн MoE помогает GLM-5 достигать пика возможностей при сохранении возможности конфигурирования (меньше активных параметров для более дешевого инференса). Ожидайте разных профилей инференса (задержка, VRAM) в зависимости от выбранного варианта.
Как Z.ai масштабировала и обучила GLM-5 по сравнению с GLM-4.7?
Ключевые архитектурные различия
| Фича | GLM-5 | GLM-4.7 |
|---|---|---|
| Дата релиза | Фев 2026 (флагман) | Дек 2025 |
| Семейство моделей | Новейшее поколение | Предыдущее поколение |
| Общее число параметров | ~744B | ~355B |
| Активные параметры (MoE) | ~40B (на проход) | ~32B (на проход) |
| Архитектура | Mixture-of-Experts плюс разреженное внимание | MoE с режимами “мышления” |
| Контекстное окно | ~200K токенов (тот же базовый размер) | ~200K токенов |
Вывод: GLM-5 почти вдвое увеличивает общую емкость по сравнению с GLM-4.7 и повышает число активных параметров, что способствует лучшему рассуждению и синтезу, особенно для длинных технических текстов, протяженных конвейеров рассуждений и сложных задач по инженерии кода.
Архитектура: что изменилось?
GLM-4.7 — это дизайн mixture‑of‑experts (MoE) в крупных вариантах (задокументировано ~355B общих параметров с меньшим активным набором на токен). GLM-5 сохраняет идеи разреженности MoE, но добавляет новый механизм разреженного внимания — в отчете его называют DeepSeek Sparse Attention (DSA) — который динамически распределяет ресурсы внимания на наиболее важные, по мнению модели, токены. Утверждается, что DSA снижает стоимость инференса/обучения, сохраняя (или улучшая) способность к рассуждениям на длинных контекстах, позволяя модели обрабатывать гораздо более длинные контексты, чем старые контрольные точки, при приемлемых вычислениях.
Масштаб: параметры и данные
- GLM-4.7: задокументирована как примерно 355 миллиардов общих параметров для основной версии MoE (с намного меньшим активным набором параметров на проход для эффективности).
- GLM-5: заявлена как ~744 миллиарда параметров и обучалась на ~28,5 триллиона токенов в претрейнинге, с упором на код и агентные последовательности. Эта комбинация призвана улучшить синтез кода и устойчивое агентное планирование.
Рост параметров вместе с увеличением токенного бюджета и архитектурными обновлениями — главный входной фактор, почему GLM-5 показывает лучшие численные результаты на лидербордах по коду и агентности.
Стратегия обучения и постобучение (RL)
Там где GLM-4.7 вводила “перемежающиеся” или сохраняемые режимы “мышления” для улучшения многошаговых рассуждений и работы с инструментами, GLM-5 формализует этот конвейер за счет:
- Расширения длины контекста через срединный график обучения (команда сообщает о прогрессивном увеличении контекста до 200K токенов).
- Реализации последовательного RL‑конвейера постобучения (Reasoning RL → Agentic RL → General RL) вместе с межэтапной дистилляцией в on‑policy, чтобы избежать катастрофического забывания.
- Добавления асинхронного RL и развязанных rollout‑движков, чтобы масштабировать агентные траектории во время RL без синхронизационных узких мест.
Эти методы нацелены на улучшение долгосрочного агентного поведения — например, поддержание стабильного внутреннего состояния в длительных сессиях, где модель выполняет несколько зависимых вызовов инструментов и правок кода.
Как GLM-5 и GLM-4.7 сопоставимы по производительности и возможностям?
Бенчмарки и меры “интеллекта”
| Область оценки | GLM-5 | GLM-4.7 |
|---|---|---|
| Кодирование (SWE-bench) | ~77.8% (SOTA среди открытых моделей) | ~73.8% на SWE-bench Verified |
| Инструменты и CLI-задачи | ~56% на Terminal Bench 2.0 | ~41% на Terminal Bench 2.0 |
| Рассуждения (HLE и расшир.) | Оценка ~30.5 → ~~50 с инструментами (внутр. бенчмарк) | ~24.8 → ~42.8 на HLE с инструментами |
| Агентные и многошаговые задачи | Существенно сильнее (более длинные цепочки) | Сильна (режим “мышления”), но менее глубокая, чем GLM-5 |
Интерпретация:
- GLM-5 обгоняет GLM-4.7 по ключевым кодовым и рассуждательным бенчмаркам на заметные величины. Особенно ясно это в многошаговой автоматизации, декомпозиции проблем и задачах глубокой логики.
- Улучшения нетривиальны: например, Terminal Bench растет примерно с ~41% до 56% — крупный относительный скачок надежности агентной автоматизации.
- На тестах рассуждений (например, внутренних метриках HLE) GLM-5 показывает более сильные результаты как “в лоб”, так и с инструментами.
- Наблюдаются измеримые улучшения на реальных агентных тестах: в метрике CC‑Bench‑V2 frontend HTML ISR GLM-5 показала 38.9% против 35.4% у GLM-4.7 на подмножестве фронтенд‑задач. (Это одна из автоматически оцениваемых метрик, показывающих практическую компетентность во фронтенд‑разработке.)
Размер контекста и длинные задачи
- Обе модели поддерживают большие контексты (~200k токенов) — то есть могут воспринимать и рассуждать над более длинными документами, кодовыми базами или диалогами.
- Полевые отчеты указывают, что в некоторых деплоях GLM-5 иногда демонстрировала воспринимаемые проблемы управления контекстом — но это может отражать лимиты платформы-хоста, а не дизайн модели.
Вызов инструментов и функций
Обе поддерживают структурированный вызов функций/инструментов; GLM-5 просто исполняет более сложную сценарную логику с большей точностью, особенно на длинных ветвлениях операций.
Примеры: как отличается качество результатов
Пример кодирования (концептуально)
- GLM-4.7: Создает компетентные сценарии для одного файла с корректным синтаксисом и читаемой логикой.
- GLM-5: Отличается в генерации многофайловых проектов, глубоких отладочных подсказках и длинных циклах обратной связи с минимальной усеченностью контекста.
Рассуждения и планирование
- GLM-4.7: Хороша в многошаговых рассуждениях, но иногда “застревает” на очень глубоких цепочках.
- GLM-5: Лучше дробит рассуждения, вспоминает более ранние шаги и ведет длинные цепочки — полезно для синтеза данных и мультидоменных стратегий.
Как меняются задержки и стоимость при переходе с GLM-4.7 на GLM-5?
Компромиссы задержек и где GLM-4.7 все еще выигрывает
Короткие сообщения и отзывчивые интерфейсы: Практические бенчмарки показывают, что у GLM-5 может появляться небольшой фиксированный оверхед на коротких ответах (бухгалтерия маршрутизации и выбора экспертов), который проявляется как немного более высокая задержка для крошечных полезных нагрузок. Для ультранизкой задержки на коротких сообщениях GLM-4.7 или варианты Flash остаются привлекательными.
Сравнение GLM-5 с GLM-4.7:
- GLM-4.7: ввод $0.60/1M tokens, вывод $2.20/1M tokens.
- GLM-5: ввод $1.00/1M tokens, вывод $3.20/1M tokens.
Компромисс стоимости и ручного редактирования
Более высокая цена модели может окупиться, если GLM-5 заметно снижает последующее человеческое время (например, правки merge‑запросов, разбор автоматических исправлений или избегание повторных вызовов модели). Простой принцип принятия решения:
Если GLM-5 сокращает ручное редактирование более чем на X% (X зависит от ставки труда и числа токенов на рабочий процесс), она может быть экономически оправданной несмотря на более высокую стоимость за токен. Несколько блог‑анализов моделировали такие точки безубыточности и обнаружили, что GLM-5 часто окупается для тяжелых, повторяющихся агентных рабочих процессов (например, массового автоматического исправления кода).
Задержки и железо
VRAM инференса и задержка зависят от варианта (Flash, FlashX, полный MoE). Гайды сообщества показывают, что GLM-4.7 FlashX и 30B Flash можно развернуть на GPU с 24 ГБ; полные варианты MoE требуют крупных мульти‑GPU. Полные конфигурации GLM-5 будут ожидать существенно более высоких ресурсов для той же пропускной способности, хотя разреженность MoE помогает снижать активные вычисления на токен. Ожидайте инженерных усилий по настройке квантизации, memory‑mapping и стриминга для продакшена.
Когда стоит обновляться с GLM-4.7 до GLM-5?
Обновляйтесь, если:
- Вам нужны лучшие многофайловые рассуждения по коду, оркестрация с длинным контекстом или более высокие end‑to‑end успехи агента.
- Ваши задачи высокоценны и оправдывают более высокую сложность и стоимость инфраструктуры на запрос.
Оставайтесь на GLM-4.7, если:
- Ваша нагрузка — это большой объем, короткие промпты (классификация, тэггинг), где предсказуемость стоимости и задержек важнее, чем маржинальный рост качества.
- Сценарии, в которых лучше остаться на GLM-4.7:
- Высокая пропускная способность, короткие полезные нагрузки: Чат‑боты, автодополнение, маленькие задачи перефразирования — GLM-4.7 (особенно варианты Flash) часто будут дешевле и быстрее.
- Ограниченные бюджеты и массовые задачи: Для тэггинга, классификации или микро‑задач в масштабе эффективность GLM-4.7 и более низкая цена за токен убедительны.
- У вас нет инфраструктуры или бюджета для шардинга MoE / сложного автомасштабирования.
Как выбрать модель в API‑вызовах? (примеры)
cURL — переключение ID модели (CometAPI / совместимо с OpenAI):
# GLM-4.7
curl -X POST "https://api.cometapi.com/v1/chat/completions" \
-H "Authorization: Bearer $KEY" -H "Content-Type: application/json" \
-d '{"model":"glm-4.7","messages":[{"role":"user","content":"Summarize this repo..."}],"max_tokens":800}'
# GLM-5
curl -X POST "https://api.cometapi.com/v1/chat/completions" \
-H "Authorization: Bearer $KEY" -H "Content-Type: application/json" \
-d '{"model":"glm-5","messages":[{"role":"user","content":"Summarize this repo..."}],"max_tokens":1200}'
Python (requests): измените поле model, чтобы направить запрос к GLM-4.7 или GLM-5 — остальной клиентский код может остаться прежним.
Итоговая оценка:
GLM-5 выглядит эволюционной с важными переломными моментами:
- Эволюционной, потому что она продолжает MoE‑ и ориентированный на рассуждения дизайн семейства GLM и следует шаблону итеративных улучшений (4.5 → 4.6 → 4.7 → 5).
- Переломной, потому что заметно увеличивает масштаб, вводит DSA и берет курс на RL‑куррикулум, специально подогнанный под долгосрочные агентные задачи — все это приводит к ощутимым, измеримым улучшениям на широком спектре практических бенчмарков.
Если оценивать по местам в рейтингах, GLM-5 заявляет лидерство среди открытых весов по нескольким метрикам и сокращает разрыв с топовыми проприетарными системами в агентных и кодовых задачах. Если оценивать по разработческому опыту и использованию, чувствительному к задержкам, практические плюсы и минусы еще предстоит продемонстрировать в более масштабных деплоях и со временем. Это означает, что GLM-5 привлекательна там, где сценарий требует устойчивой агентной компетентности; GLM-4.7 остается зрелым, более быстрым и экономичным выбором для многих текущих продакшен‑потребностей.
Разработчики уже могут получить доступ к GLM-5 и GLM-4.7 через CometAPI. Чтобы начать, изучите возможности модели в Playground и ознакомьтесь с API guide для подробных инструкций. Перед доступом убедитесь, что вы вошли в CometAPI и получили ключ API. CometAPI предлагает цену значительно ниже официальной, чтобы помочь вам интегрироваться.
Готовы начать? → Зарегистрируйтесь на GLM-5 уже сегодня !
Если хотите получать больше советов, гайдов и новостей об ИИ, подписывайтесь на нас в VK, X и Discord!
