DeepSeek-V3.1-Terminus: особенности, показатели и значимость

DeepSeek-V3.1-Terminus — это новейшее усовершенствование семейства DeepSeek — гибридной, агентно-ориентированной модели большого языка (LLM), которую DeepSeek позиционирует как мост между традиционными моделями чата и более функциональными агентскими системами. Terminus представляет собой не совершенно новую базовую сеть, а целенаправленное обновление в формате пакета обновления для линейки V3.1, ориентированное на стабильность, согласованность языка и повышение производительности агентов/инструментов (в частности, агентов кода и поиска). Релиз уже доступен через API DeepSeek, дистрибутив Hugging Face, и интегрирован в экосистемы нескольких поставщиков.

Ниже я подробно объясню эту модель.

Что такое DeepSeek-V3.1-Terminus?

DeepSeek-V3.1-Terminus — это новейший релиз линейки V3 от DeepSeek, представляющий собой усовершенствование высокопроизводительных моделей Mixture-of-Experts (MoE), ориентированное на повышение стабильности и работу с агентами. Обновление DeepSeek-V3.1-Terminus направлено на решение двух практических проблем, с которыми сталкивались пользователи в предыдущих сборках V3: спорадическое смешивание языков/сбои в работе символов и несогласованное поведение агента/инструмента. DeepSeek описывает этот релиз как этап поддержки и укрепления безопасности, сохраняющий основные возможности V3, одновременно улучшая стабильность, использование агентных инструментов (в частности, Code Agent и Search Agent) и надежность в кросс-бенчмарках; модель и веса доступны на каналах DeepSeek и на Hugging Face.

Что это означает на практике:

Это поэтапное обновление DeepSeek V3.1, которое фокусируется на использовании агента/инструмента (Code Agent, Search Agent) и улучшениях многошагового рассуждения.
Команда сообщает о меньшем количестве ошибок, связанных со смешением языков, и более стабильных результатах по сравнению с предыдущей версией V3.1.
Он поддерживает как «мыслящие», так и «немыслящие» шаблоны чата (гибридные режимы рассуждения), а также структурированный вызов инструментов для рабочих процессов агентов.

Каков общий архитектурный замысел?

DeepSeek-V3.1 (и, как следствие, обновление Terminus) представляет собой гибридную модель рассуждений: семейство сочетает масштабирование в стиле «большой смеси экспертов» (MoE) с активной маршрутизацией параметров, что позволяет системе работать как в режиме «мышления» (интенсивные внутренние рассуждения, планирование инструментов), так и в режиме чата «без мышления» (меньшая задержка, прямые ответы). Этот гибридный дизайн доступен разработчикам через различные шаблоны чата и режимы выполнения, а не через отдельные модели — одна и та же базовая сеть поддерживает оба режима.

Как «агенты» интегрируются в архитектуру?

Агентные возможности DeepSeek располагаются выше вывода базовой модели: специализированные агентские модули (агент кода, агент поиска, агент просмотра, агент терминала) реализованы в виде управляемых поведений использования инструментов, которые модель может вызывать самостоятельно. DeepSeek-V3.1-Terminus повышает надёжность и координацию этих агентов за счёт оптимизации после обучения и улучшенных шаблонов подсказок. На практике эти агенты представляют собой не отдельные нейронные сети, а обученные шаблоны поведения (а иногда и облегчённые контроллеры), которые указывают базовой модели, когда и как вызывать внешние инструменты или действия.

Каковы основные улучшения в V3.1-Terminus?

Какие проблемы пользователей решает Terminus?

DeepSeek-V3.1-Terminus был выпущен в основном в ответ на две категории практических отзывов пользователей:

Стабильность языка: Пользователи сообщали о периодических смешениях языков (смешение китайских и английских кодов в выходных данных), случайных или «искажённых» символах и несоответствующих артефактах токенизации в многоязычных контекстах. В DeepSeek-V3.1-Terminus включены исправления, призванные уменьшить количество подобных случаев.
Надежность агента: Пользователи просили модель обеспечить более надёжное и воспроизводимое поведение при вызове цепочек инструментов (агент кода, агент поиска, агент терминала). DeepSeek-V3.1-Terminus содержит изменения после обучения и подсказок/шаблонов, направленные на стабилизацию использования инструментов и уменьшение количества галлюцинаций агента или неполного выполнения плана.

Решение

DeepSeek-V3.1-Terminus позиционируется как качественный и надёжный релиз. Компания перечисляет несколько конкретных исправлений и оптимизаций:

Исправления согласованности языка: Сокращение неожиданного смешения китайского и английского языков, а также удаление редких аномальных символов, которые иногда появлялись в выходных данных.
Устойчивость агента: Заметные улучшения в Code Agent и Search Agent, включая более точную обработку вызовов инструментов и меньшее количество ложных вызовов инструментов. Terminus сокращает передачу запросов Code Agent исполнителю, улучшает интерпретацию результатов поиска Search Agent и уменьшает количество ложных артефактов токенизации во время цепочек операций — всё это призвано сделать сквозные рабочие процессы агентов (например, запрос → поиск → генерация кода → выполнение) более детерминированными и менее подверженными ошибкам.
Стабильность по всем показателям: Команда сообщает о более стабильных результатах (меньшей дисперсии) по общим тестам по сравнению с более ранними сборками V3.

DeepSeek позиционирует Terminus как совместимый с существующими точками интеграции версии 3.1 — конечные точки чата и «процесса рассуждения» были обновлены на месте. С инженерной точки зрения, это делает Terminus дополнительным релизом для повышения надежности/качества, а не критическим изменением API, хотя для приложений, зависящих от точного времени, можно ожидать специфического поведения сервиса (например, небольшие различия в задержках в режиме мышления).

Как DeepSeek-V3.1-Terminus показывает себя в тестах?

Какие контрольные показатели опубликовал DeepSeek?

DeepSeek опубликовал сравнительные результаты тестов V3.1 и V3.1-Terminus по комплексу тестов на рассуждение, кодирование, агентные и многоязыковые тесты. Вот несколько примеров из общедоступной таблицы:

MMLU-Pro (рассуждение): V3.1 = 84.8 → Конечная точка = 85.0.
GPQA-Алмаз: 80.1 → 80.7.
Последний экзамен человечества: 15.9 → 21.7 (заметный рост по специализированному тесту).
LiveCodeBench / Код: 74.8 → 74.9 (небольшой выигрыш).
Codeforces (оценка): 2091 → 2046 (небольшое отклонение от общего балла за конкурс по кодированию).

Сравнительные тесты использования агентов/инструментов показывают более существенные относительные улучшения:

BrowseComp (агентская веб-навигация): 30.0 → 38.5.
Терминал-бенч (компетенция командной строки): 31.3 → 36.7.
SWE Verified (проверка инженерного программного обеспечения): 66.0 → 68.4.
SimpleQA (точность контроля качества): 93.4 → 96.8.

Эти цифры свидетельствуют о том, что хотя прирост производительности в рассуждениях невелик, возможности агентов и использования инструментов существенно улучшились — именно на те области, на которые DeepSeek нацелился для Terminus.

На практике контрольные показатели означают:

Небольшие успехи в рассуждениях предполагают, что веса основной модели не претерпели кардинальных изменений; улучшения произошли за счет более эффективного курирования обучающих данных и конвейеров вывода.
Большие агентские выгоды показывают, что модель теперь выбирает и использует инструменты более надежно, что позволяет лучше решать реальные задачи, такие как многоэтапные веб-исследования, циклы генерации кода и тестирования, а также автоматизация командной строки.

Какие расширенные возможности предоставляет DeepSeek-V3.1-Terminus?

Набор инструментов Agentic: Code Agent, Search Agent, Terminal Agent

Terminus делает ставку на агентные функции, которые позволяют разработчикам организовывать многоэтапные внешние рабочие процессы:

Код агента: Генерирует исполняемый код, управляет циклами выполнения (в песочницах поставщиков) и предоставляет помощь в итеративной отладке. Обновление направлено на уменьшение количества некорректных фрагментов и улучшение пошагового обоснования алгоритмических задач.
Агент поиска / Агент просмотра: Выполняет многоэтапные веб-запросы, интегрирует результаты поиска и синтезирует ответы на основе полученных данных. Опубликованные показатели BrowseComp свидетельствуют о повышенной стабильности работы браузера.
Терминальный агент: Разработан для взаимодействия с задачами оболочки/терминала (например, для построения многокомандных последовательностей, анализа выходных данных), используется в оценках в стиле «терминального стенда», где модель должна планировать и выполнять последовательности команд. Terminus демонстрирует улучшенную производительность в терминальном стенде.

Гибридные режимы выполнения «мышление/немышление»

Практическая деталь дизайна заключается в том, что модель поддерживает шаблон «мышления» (больше внутренних вычислений, больше планирования) и шаблон «немышления» или чата (меньше задержка). DeepSeek предоставляет оба варианта через конечные точки (deepseek-chat и deepseek-reasoner), чтобы интеграторы могли выбирать профиль качества/задержки для каждого запроса. Terminus стандартизирует и дорабатывает эти шаблоны, чтобы уменьшить странные различия в поведении, наблюдавшиеся в предыдущих версиях V3.1.

Эргономика разработчика: шаблоны, демонстрации и дерево моделей

DeepSeek опубликовал обновлённые примеры вывода, более понятное дерево модели Hugging Face и квантованные веса для проведения локальных и периферийных экспериментов. Такой акцент на артефактах развёртывания (квантованные модели, демонстрационный код вывода) упрощает задачу интеграторов, желающих опробовать модель в своих собственных средах.

Что означает Terminus для разработчиков

Если вы уже используете DeepSeek V3.1: DeepSeek-V3.1-Terminus должен стать простым обновлением с упором на надежность. Команды, использующие агентские функции (поиск, выполнение кода, терминальные рабочие процессы), с наибольшей вероятностью заметят практические улучшения. Компания обновила конечные точки на месте, поэтому изменения в интеграции должны быть минимальными.
Если вы оцениваете модели для приложений, требующих большого количества инструментов: DeepSeek-V3.1-Terminus делает акцент на агентной стабильности — стоит добавить его в свой список, если вашему приложению требуется многоступенчатая оркестровка инструментов. Однако вам всё равно следует использовать собственные процедуры бенчмаркинга и состязательные запросы, соответствующие вашей области.

Заключение — имеет ли DeepSeek-V3.1-Terminus значение?

DeepSeek-V3.1-Terminus лучше всего рассматривать как целевой релиз, ориентированный на повышение качества и надежности: он не перестраивает архитектуру и не масштабирует семейство, но решает насущные практические проблемы, влияющие на производственные развёртывания — стабильность языка, надёжность инструментов-агентов и небольшой, но существенный прирост производительности в агентских задачах. Для разработчиков, которые полагаются на интегрированные многоэтапные потоки инструментов (оркестровка поиска, генерация и выполнение кода, автоматизация терминала), Terminus представляет собой значительный шаг вперёд. Для тех, кто сосредоточен исключительно на простых однопроходных тестах рассуждений, прирост производительности будет скромным.

Первые шаги

CometAPI — это унифицированная платформа API, которая объединяет более 500 моделей ИИ от ведущих поставщиков, таких как серия GPT OpenAI, Gemini от Google, Claude от Anthropic, Midjourney, Suno и других, в единый, удобный для разработчиков интерфейс. Предлагая последовательную аутентификацию, форматирование запросов и обработку ответов, CometAPI значительно упрощает интеграцию возможностей ИИ в ваши приложения. Независимо от того, создаете ли вы чат-ботов, генераторы изображений, композиторов музыки или конвейеры аналитики на основе данных, CometAPI позволяет вам выполнять итерации быстрее, контролировать расходы и оставаться независимыми от поставщика — и все это при использовании последних достижений в экосистеме ИИ.

Разработчики могут получить доступ к DeepSeek-V3.1-Terminus через CometAPI, последняя версия модели Всегда обновляется на официальном сайте. Для начала изучите возможности модели в Детская Площадка и проконсультируйтесь с API-руководство для получения подробных инструкций. Перед доступом убедитесь, что вы вошли в CometAPI и получили ключ API. CometAPI предложить цену намного ниже официальной, чтобы помочь вам интегрироваться.

Готовы к работе?→ Зарегистрируйтесь в CometAPI сегодня !