DeepSeek-V3.1: особенности, архитектура и тесты

CometAPI
AnnaAug 20, 2025
DeepSeek-V3.1: особенности, архитектура и тесты

В августе 2025 года китайский стартап DeepSeek, занимающийся разработкой ИИ, объявил о выпуске DeepSeek-V3.1, обновление среднего поколения, которое компания называет первым шагом «к эпохе агентов». Обновление включает гибридный режим вывода (одна модель, которая может работать в режиме «мышления» или «немышления»), существенно более длинное контекстное окно и целенаправленные улучшения после обучения для вызова инструментов и многошагового поведения агентов.

Что такое DeepSeek-V3.1 и почему это важно?

DeepSeek-V3.1 — это новейшее обновление серии DeepSeek V3, готовое к производству. В целом, это гибридное семейство языковых моделей MoE (линейка V3), которое DeepSeek обучил и расширил для поддержки двух видимых пользователю режимов работы. Существуют два основных варианта: DeepSeek-V3.1-Base и полная версия DeepSeek-V3.1:

  • Не-думание (глубокий чат): стандартный режим завершения чата, оптимизированный для скорости и разговорного использования.
  • Мышление (глубокое рассуждение): режим агентного рассуждения, который отдает приоритет структурированному, многошаговому рассуждению и координации инструментов/агентов.

В релизе основное внимание уделено трем видимым улучшениям: гибридному конвейеру вывода, который обеспечивает баланс между задержкой и производительностью, более интеллектуальному вызову инструментов/организации агентов и существенно расширенному контекстному окну (рекламируется как 128 тыс. токенов).

Почему это важно: DeepSeek-V3.1 продолжает общую отраслевую тенденцию к сочетанию эффективных крупномасштабных архитектур MoE с инструментальными примитивами и очень длинными контекстными окнами. Это сочетание важно для корпоративных агентов, рабочих процессов поиска и логического вывода, реферирования длинных документов и автоматизации на основе инструментов, где требуются как производительность, так и возможность детерминированного вызова внешних инструментов.

Чем DeepSeek-V3.1 отличается от предыдущих версий DeepSeek?

Гибридный вывод: одна модель, два режима работы

Главное архитектурное изменение – это гибридный выводDeepSeek описывает версию 3.1 как поддерживающую как режим «обдумывания», так и режим «отсутствия обдумывания» внутри одного экземпляра модели, переключаемый изменением шаблона чата или переключателем пользовательского интерфейса (кнопка DeepThink в DeepSeek). На практике это означает, что модели можно приказать создавать внутренние трассировки рассуждений (полезно для рабочих процессов агентов в стиле цепочки рассуждений) или отвечать напрямую, не раскрывая промежуточные токены рассуждений — в зависимости от потребностей разработчика. DeepSeek представляет это как путь к более агентным рабочим процессам, позволяя приложениям выбирать компромисс между задержкой и многословием.

Увеличенное контекстное окно и примитивы токенов

Официальные заметки о выпуске сообщают гораздо большее контекстное окно в V3.1; тестирование в сообществе и публикации компании помещают расширенный контекст в 128 тысяч токенов Для некоторых размещённых вариантов это позволяет значительно увеличить длительность диалогов, обрабатывать многодокументные рассуждения или обрабатывать длинные кодовые базы в рамках одного сеанса. В дополнение к этому, DeepSeek, как сообщается, вводит несколько специальных управляющих токенов (например, <|search_begin|>/<|search_end|>, <think> / </think>), предназначенный для структурирования вызовов инструментов и внутреннего разграничения «мыслящих» сегментов — шаблон проектирования, который упрощает координацию с внешними инструментами.

Улучшенные возможности агентов/инструментов и уменьшение задержек

DeepSeek утверждает, что V3.1 выигрывает от оптимизация после обучения Сфокусирована на вызове инструментов и многошаговых задачах агентов: утверждается, что модель быстрее находит ответы в режиме «обдумывания», чем предыдущие сборки DeepSeek R1, и более надежна при вызове внешних API или выполнении многошаговых планов. Такое позиционирование — более быстрый и в то же время более эффективный вывод с помощью агентов — является явным преимуществом продукта для команд, разрабатывающих помощников, системы автоматизации или рабочие процессы агентов.

Какова архитектура DeepSeek-V3.1?

DeepSeek-V3.1 основан на основных исследованиях семейства DeepSeek-V3: Смесь экспертов (МО) Основа с набором архитектурных инноваций, разработанных для повышения эффективности и масштабируемости. В публичном техническом отчёте по DeepSeek-V3 (базовому семейству) описывается:

  • Большая конструкция MoE с сотнями миллиардов общих параметров и меньшая активированный количество параметров на токен (карточка модели содержит 671 млрд параметров, из которых примерно 37 млрд активируются на токен).
  • Многоканальное скрытое внимание (MLA) и специальные подходы к маршрутизации и масштабированию DeepSeekMoE, которые снижают стоимость вывода, сохраняя при этом емкость.
  • Цели обучения и стратегии балансировки нагрузки, которые устраняют необходимость во вспомогательных членах потерь балансировки нагрузки и используют цели многотокенного прогнозирования для улучшения пропускной способности и моделирования последовательностей.

Почему MoE + MLA?

Микс экспертов позволяет модели поддерживать большое количество теоретических параметров, активируя при этом только подмножество экспертов на токен, что сокращает объём вычислений на токен. MLA — это вариант управления вниманием DeepSeek, который помогает модели эффективно масштабировать операции управления вниманием между множеством экспертов и длинными контекстами. В совокупности эти решения позволяют обучать и обслуживать очень большие контрольные точки, сохраняя при этом приемлемые затраты на вывод для многих развёртываний.

Как DeepSeek-V3.1 показывает себя в тестах и ​​реальных условиях?

Сравнение версии 3.1 словами

  • Над V3 (0324): Версия 3.1 — это явное обновление по всем направлениям, особенно в области программирования и агентских задач. Пример: LiveCodeBench прыгает с 43.0 → 56.4 (недумающий) и → 74.8 (думает); Помощник-Полиглот от 55.1 → 68.4 / 76.3.
  • По сравнению с R1-0528: R1 остается сильной «настроенной на рассуждение» точкой сравнения, но V3.1-Мышление часто равно или превышает R1-0528 (AIME/HMMT, LiveCodeBench), а также предлагая не требующий размышлений путь для использования с низкой задержкой.
  • Общие знания (варианты MMLU): V3.1 располагается сразу под R1-0528, если рассматривать «мышление», но выше более старого V3.

Общие знания и академические знания

Контрольный показатель (метрический)V3.1-НедуманиеВерсия 3 (0324)V3.1-МышлениеR1-0528
MMLU-Redux (Точное совпадение)91.890.593.793.4
ММЛУ-Про (Точное совпадение)83.781.284.885.0
GPQA-Алмаз (Проход@1)74.968.480.181.0

Что это означает: V3.1 превосходит V3 по знанию/академическим задачам; «мышление» сокращает разрыв с R1 по сложным научным вопросам (GPQA-Diamond).

Кодирование (неагент)

Контрольный показатель (метрический)V3.1-НедуманиеВерсия 3 (0324)V3.1-МышлениеR1-0528
LiveCodeBench (2408–2505) (Проход@1)56.443.074.873.3
Помощник-Полиглот (Точность)68.455.176.371.6
Codeforces-Div1 (Рейтинг)--20911930

Примечание:

  • LiveCodeBench (2408–2505) обозначает агрегированное окно (август 2024 г. → май 2025 г.). Более высокий показатель Pass@1 отражает более высокую точность с первой попытки при выполнении различных задач кодирования.
  • Помощник-Полиглот имитирует редактирование кода в стиле помощника на многих языках; V3.1-Thinking лидирует в этом наборе, V3.1-NonThinking — это значительный скачок по сравнению с V3 (0324).
  • Модель показывает V3 (0324) на уровне 55.1% на Aider — соответствует данным публичной таблицы лидеров Aider для этого года выпуска. (Более высокие баллы V3.1 являются новыми на карточке модели.)

Кодирование (задачи агента)

Контрольный показатель (метрический)V3.1-НедуманиеВерсия 3 (0324)V3.1-МышлениеR1-0528
Проверено SWE (Режим агента)66.045.4-44.6
SWE-bench Многоязычный (Режим агента)54.529.3-30.5
Терминал скамейки (Каркас Терминала 1)31.313.3-5.7

Важное предостережение: Эти оценки агентов с использованием внутренних фреймворков DeepSeek (инструментарий, многошаговое выполнение), а не просто тесты декодирования следующего токена. Они охватывают возможности «LLM + оркестровка». Относитесь к ним как к система результаты (воспроизводимость может зависеть от точного стека агентов и настроек).

Математическое и конкурентное мышление

Контрольный показатель (метрический)V3.1-НедуманиеВерсия 3 (0324)V3.1-МышлениеR1-0528
АИМЭ 2024 (Проход@1)66.359.493.191.4
АИМЭ 2025 (Проход@1)49.851.388.487.5
HMMT 2025 (Проход@1)33.529.284.279.4

Еда на вынос: Режим «мышления» очень большой подъемы в математических соревнованиях — V3.1-Thinking превосходит R1-0528 на AIME/HMMT в зарегистрированных прогонах.

QA с дополненной реальностью и «агентным» поиском

Контрольный показатель (метрический)V3.1-НедуманиеВерсия 3 (0324)V3.1-МышлениеR1-0528
BrowseComp--30.08.9
BrowseComp_zh--49.235.7
Последний экзамен человечества (Python + Search)--29.824.8
SimpleQA--93.492.3
Последний экзамен человечества (только текст)--15.917.7

Примечание: DeepSeek утверждает, что результаты поискового агента используют его внутреннюю поисковую систему (коммерческий поисковый API + фильтрация страниц, контекст размером 128 КБ). Методология здесь важна; для воспроизведения требуются аналогичные инструменты.

Каковы ограничения и перспективы на будущее?

DeepSeek-V3.1 — важный этап разработки и разработки продукта: он объединяет обучение в длительном контексте, гибридные шаблоны и архитектуру MoE в широко применимую контрольную точку. Однако ограничения остаются:

  • Безопасность агентов в реальном мире, галлюцинации при обобщении длинного контекста и враждебное поведение по подсказкам по-прежнему требуют мер по снижению рисков на системном уровне.
  • Результаты тестов обнадеживают, но не являются единообразными: производительность различается в зависимости от домена, языка и набора оценок; необходима независимая проверка.
  • Геополитические факторы и факторы цепочки поставок — доступность оборудования и совместимость чипов — ранее влияли на график DeepSeek и могут повлиять на то, как клиенты будут осуществлять масштабное развертывание.

Начало работы через CometAPI

CometAPI — это унифицированная платформа API, которая объединяет более 500 моделей ИИ от ведущих поставщиков, таких как серия GPT OpenAI, Gemini от Google, Claude от Anthropic, Midjourney, Suno и других, в единый, удобный для разработчиков интерфейс. Предлагая последовательную аутентификацию, форматирование запросов и обработку ответов, CometAPI значительно упрощает интеграцию возможностей ИИ в ваши приложения. Независимо от того, создаете ли вы чат-ботов, генераторы изображений, композиторов музыки или конвейеры аналитики на основе данных, CometAPI позволяет вам выполнять итерации быстрее, контролировать расходы и оставаться независимыми от поставщика — и все это при использовании последних достижений в экосистеме ИИ.

Разработчики могут получить доступ DeepSeek R1(deepseek-r1-0528) и DeepSeek-V3.1 через CometAPIПоследние версии моделей указаны на дату публикации статьи. Для начала изучите возможности модели в Детская Площадка и проконсультируйтесь с API-руководство для получения подробных инструкций. Перед доступом убедитесь, что вы вошли в CometAPI и получили ключ API. CometAPI предложить цену намного ниже официальной, чтобы помочь вам интегрироваться.

Заключение

DeepSeek-V3.1 представляет собой прагматичное, передовое инженерное обновление: расширенное контекстное окно, гибридный логический вывод (мысль/немысль), улучшенное взаимодействие инструментов и совместимый с OpenAI API делают его привлекательным вариантом для команд, разрабатывающих агентские помощники, приложения с длинным контекстом и недорогие рабочие процессы, ориентированные на код.

Читать далее

500+ моделей в одном API

Скидка до 20%