GLM-5: возможности, бенчмарки производительности и доступ

Выпуск GLM-5, представленного на этой неделе компанией Zhipu AI из Китая (публичный бренд Z.AI / zai-org во многих девелоперских каналах), знаменует ещё один шаг в ускоряющемся темпе релизов крупных моделей. Новая модель позиционируется как флагман Zhipu: более крупная по масштабу, настроенная на агентные задачи с длинным горизонтом и созданная с инженерными решениями, призванными снизить стоимость инференса при сохранении длинного контекста. Ранние отраслевые репорты и заметки разработчиков указывают на значимые улучшения в кодинге, многошаговом рассуждении и оркестрации агентов по сравнению с предыдущими итерациями GLM — и в некоторых тестах она даже бросает вызов Claude 4.5.

Что такое GLM-5 и кто его создал?

GLM-5 — это последний крупный релиз в семействе GLM: большая открытая базовая модель, разработанная и опубликованная Z.ai (команда, стоящая за серией GLM). Анонсированная в начале февраля 2026 года, GLM-5 представлена как модель следующего поколения, специально настроенная для «агентных» задач — то есть многошаговых, длинных рабочих процессов, где модель должна планировать, вызывать инструменты, исполнять и поддерживать контекст для длинных разговоров или автоматизированных агентов. Релиз примечателен не только дизайном модели, но и тем, как и где она обучалась: Z.ai использовала сочетание отечественного китайского оборудования и инструментальных цепочек в рамках курса на технологическую самодостаточность.

Согласно заявленным данным об архитектуре и обучении:

Масштаб параметров: GLM-5 масштабируется примерно до 744B параметров (с меньшим числом «активных» экспертов по некоторым техзаметкам, напр., 40B активных), тогда как размеры семейства GLM-4 ранее составляли около 355B/32B активных.
Данные предобучения: Объём обучающего корпуса, по сообщениям, увеличен с ~23 трлн токенов (поколение GLM-4) до ~28,5 трлн токенов для GLM-5.
Разрежённое внимание / DeepSeek Sparse Attention (DSA): Схема разрежённого внимания для сохранения длинного контекста при снижении вычислительных затрат на инференсе.
Акценты проектирования: инженерные решения, ориентированные на оркестрацию агентов, рассуждение на длинных контекстах и экономичный инференс.

Происхождение и позиционирование

GLM-5 развивает линию, включавшую GLM-4.5 (релиз в середине 2025 года) и несколько итеративных обновлений, таких как 4.7. Z.ai позиционирует GLM-5 как скачок от «vibe coding» (быстрые одношаговые выводы кода) к «агентной инженерии»: устойчивое рассуждение, оркестрация нескольких инструментов и системный синтез на больших окнах контекста. Публичные материалы подчёркивают, что GLM-5 спроектирована для решения сложных задач системной инженерии — построения, координации и поддержки многошагового поведения агентов, а не только для ответа на изолированные запросы.

Какие новые возможности в GLM-5?

Ключевые архитектурные изменения

Массивное разрежённое масштабирование (MoE): GLM-5 переходит к гораздо более крупной разрежённой архитектуре Mixture-of-Experts. Публичные данные на страницах для разработчиков и независимых обзорах указывают на конфигурацию примерно 744B общих параметров с ~40B активных на токен — заметный шаг вперёд по сравнению с конфигурацией GLM-4.5 ~355B / 32B активных. Такое разрежённое масштабирование обеспечивает очень большую суммарную ёмкость при сохраняемой вычислительной доступности на токен.
DeepSeek Sparse Attention (DSA): Для сохранения способности работать с длинным контекстом без линейного роста стоимости инференса GLM-5 интегрирует механизм разрежённого внимания (брендирован как DeepSeek), который удерживает важные дальнодействующие зависимости, одновременно снижая стоимость внимания на сверхдлинных контекстах.

Агентная инженерия как базовая цель дизайна

Одна из ключевых особенностей GLM-5 — явная нацеленность на агентную инженерию: модель предназначена не только для одноходового чата или суммаризации, но и как «мозг» многошаговых агентов, способных планировать, вызывать инструменты, управлять состоянием и рассуждать на длинных контекстах. Z.ai позиционирует GLM-5 в роли ядра оркестрационных циклов: разбиение сложных задач, вызов внешних инструментов/API и отслеживание длительных задач на многих шагах.

Почему агентный дизайн важен

Агентные рабочие процессы — основа реальной автоматизации: автоматизированные исследовательские ассистенты, автономные программисты, оркестрация операций и управление симуляциями. Модель, созданная для такого мира, должна обладать сильным планированием, стабильным поведением при вызове инструментов и устойчивостью на тысячах токенов контекста.

Улучшенные возможности в программировании, рассуждении и поведении на длинных горизонтах

GLM-5 делает акцент на улучшении генерации кода и рассуждения. Z.ai заявляет целевые улучшения в способности модели писать, рефакторить и отлаживать код, а также более последовательное многошаговое рассуждение в ходе длинных взаимодействий. Независимые отчёты раннего доступа и оценки партнёров отмечают заметный рост возможностей в задачах для разработчиков по сравнению с предыдущими поколениями GLM.

Практические возможности для разработчиков

Более длинные окна контекста для удержания документации, кодовых баз и состояния диалога.
Примитивы для безопасного вызова инструментов и обработки результатов.
Лучшая работа в few-shot и chain-of-thought для декомпозиции и выполнения сложных задач.
Агентные функции и вызов инструментов: GLM-5 делает упор на нативную поддержку агентов: вызов функций/инструментов, состояние сеансов и улучшенное управление длинными диалогами и последовательностями использования инструментов. Это упрощает создание агентов, интегрирующих веб-поиск, базы данных или автоматизацию задач.

Как GLM-5 показывает себя на бенчмарках?

GLM-5: возможности, бенчмарки производительности и доступ

Ключевые моменты по бенчмаркам

Кодинг-бенчмарки: GLM-5 приближается (а в некоторых случаях и сопоставима) к результатам по кодированию высокооптимизированных проприетарных моделей, таких как Claude Opus 4.5 от Anthropic, в отдельных задачах. Эти результаты зависят от задач (юнит-тесты, алгоритмическое программирование, работа с API), но они демонстрируют явный прогресс по сравнению с GLM-4.5.
Тесты на рассуждение и агентность: На наборах для оценки многошагового рассуждения и агентного поведения (например, мультитуровое планирование, бенчмарки декомпозиции задач) GLM-5 достигла лучших результатов среди открытых моделей и по некоторым метрикам превзошла конкурирующие закрытые модели на целевых задачах.

Как получить доступ к GLM-5 и попробовать его?

GLM-5 — это языковая модель пятого поколения от Zhipu AI (Z.ai), построенная на архитектуре Mixture-of-Experts (~745 B всего, ~44 B активных) и ориентированная на сильное рассуждение, кодинг и агентные рабочие процессы. Она официально запущена около 12 февраля 2026 года.

На данный момент есть два основных способа доступа:

A) Официальный доступ по API (Z.ai или агрегаторы)

Сама Zhipu AI предоставляет API для своих моделей, и вы можете вызывать GLM-5 через эти API.

Типичные шаги:

Зарегистрируйте аккаунт Z.ai/Open BigModel API.
Получите ключ API в кабинете.
Используйте OpenAPI-стиль или REST-эндпоинт с именем модели (например, glm-5).
(Аналогично вызовам моделей GPT у OpenAI).
Задайте промпты и отправляйте HTTP-запросы.

👉 Страница цен Z.ai показывает официальные цены на токены GLM-5:

~$1.0 за миллион входных токенов
~$3.2 за миллион выходных токенов

B) Обёртки сторонних API —— CometAPI

Такие API, как CometAPI или WaveSpeed, объединяют несколько моделей ИИ (OpenAI, Claude, Z.ai и др.) за единым интерфейсом.

С сервисами вроде CometAPI вы можете вызывать модели GLM, просто переключая ID модели.
(CometAPI сейчас поддерживает GLM-5/GLM-4.7.)
Цены на glm-5 от CometAPI составляют 20% от официальной цены.

Тип использования	Цена
Входные токены	~$0.8 за 1M токенов
Выходные токены	~$2.56 за 1M токенов

Почему это важно: Вы сохраняете свой существующий OpenAI-совместимый клиентский код и просто меняете базовый URL/ID модели.

C) Самостоятельный хостинг через Hugging Face / весовые файлы

Существуют неофициальные репозитории весов GLM-5 (например, версии с именами glm-5/glm-5-fp8) в списках моделей Hugging Face.

С ними вы можете:

Скачать веса модели.
Использовать инструменты вроде vLLM, SGLang, xLLM или Transformers для локального обслуживания или развёртывания в вашем облачном GPU-кластере.

Плюсы: максимальный контроль, отсутствие постоянных затрат на API.
Минусы: огромные вычислительные требования — вероятно, несколько топовых GPU и большой объём памяти (сотни гигабайт), что делает это непрактичным на небольших системах.

Так стоит ли переходить на GLM-5 и нужно ли оставаться с GLM-4.7?

Короткий ответ (краткое резюме)

Если вам нужны надёжное многошаговое агентное поведение, продакшн-уровень генерации кода или системная автоматизация: GLM-5 стоит оценить немедленно. Её архитектура, масштаб и настройка ориентированы именно на эти результаты.
Если вам важны экономичность и высокая пропускная способность микросервисов (короткие чаты, классификация, лёгкие промпты): GLM-4.7, вероятно, остаётся самым экономичным выбором. GLM-4.7 сохраняет сильные возможности при значительно меньшей стоимости за токен у многих провайдеров и уже обкатана в продакшене.

Более развёрнутый ответ (практическая рекомендация)

Примените многоуровневую стратегию по моделям: используйте GLM-4.7 для повседневных, массовых взаимодействий, а GLM-5 — для высокоценностных инженерных задач и оркестрации агентов. Запустите пилот GLM-5 на небольшой части продукта, где задействованы длинный контекст, интеграция инструментов и корректность кода; измеряйте как экономию инженерного времени, так и прирост стоимости модели. Со временем вы поймёте, оправдывает ли прирост возможностей GLM-5 более широкий переход.

С CometAPI вы можете переключаться между GLM-4.7 и GLM-5 в любое время.

Практические сценарии, где GLM-5 особенно силён

1. Сложная оркестрация агентов

Фокус GLM-5 на многошаговом планировании и вызове инструментов делает её подходящей для систем, которым нужно координировать поиск, вызовы API и выполнение программ (например: автоматизированные исследовательские ассистенты, итеративные генераторы кода или многошаговые сервисные агенты, которым необходимо обращаться к базам данных и внешним API).

2. Длительная инженерия и рассуждение по кодовой базе

Когда нужно, чтобы модель анализировала, рефакторила или синтезировала информацию по множеству файлов или большой кодовой базе, расширенный контекст и разрежённое внимание GLM-5 дают прямые преимущества — меньше сбоев из‑за обрезанного контекста и лучшая согласованность на длинных отрезках.

3. Знаниеёмкий синтез

Аналитики и продуктовые команды, формирующие сложные отчёты — многоразделные исследовательские обзоры, юридические резюме или регуляторные документы — могут выиграть от улучшений модели в стабильном многошаговом рассуждении и снижении галлюцинаций по результатам тестов, опубликованных поставщиком.

4. Агентная автоматизация рабочих процессов

Команды, строящие автоматизацию, которая должна оркестрировать несколько систем (например, планирование + тикеты + пайплайны деплоймента), могут использовать GLM-5 как центральный планировщик и исполнитель, подкреплённый фреймворками вызова инструментов и оболочками безопасности.

Заключение

GLM-5 — важный релиз в быстро меняющемся ландшафте передовых моделей. Её акцент на агентной инженерии, улучшенном кодинге и рассуждении, а также доступность весов делают её привлекательной для команд, создающих инструментально-обогащённые ИИ‑системы с длинным горизонтом. Реальные улучшения в выбранных задачах и обнадёживающий баланс цена/производительность — но заказчикам стоит оценить GLM-5 на своих конкретных задачах и провести контролируемые бенчмарки перед внедрением в продакшен.

Разработчики уже могут получить доступ к GLM-5 через CometAPI. Чтобы начать, изучите возможности модели в Playground и обратитесь к руководству по API за подробными инструкциями. Перед доступом убедитесь, что вы вошли в CometAPI и получили ключ API. CometAPI предлагает цену значительно ниже официальной, чтобы упростить интеграцию.

Готовы начать?→ Зарегистрируйтесь для glm-5 уже сегодня!

Если вы хотите узнавать больше советов, гайдов и новостей об ИИ, подписывайтесь на нас в VK, X и Discord!