В августе 2025 года китайский стартап DeepSeek, занимающийся разработкой ИИ, объявил о выпуске DeepSeek-V3.1, обновление среднего поколения, которое компания называет первым шагом «к эпохе агентов». Обновление включает гибридный режим вывода (одна модель, которая может работать в режиме «мышления» или «немышления»), существенно более длинное контекстное окно и целенаправленные улучшения после обучения для вызова инструментов и многошагового поведения агентов.
Что такое DeepSeek-V3.1 и почему это важно?
DeepSeek-V3.1 — это новейшее обновление серии DeepSeek V3, готовое к производству. В целом, это гибридное семейство языковых моделей MoE (линейка V3), которое DeepSeek обучил и расширил для поддержки двух видимых пользователю режимов работы. Существуют два основных варианта: DeepSeek-V3.1-Base и полная версия DeepSeek-V3.1:
- Не-думание (глубокий чат): стандартный режим завершения чата, оптимизированный для скорости и разговорного использования.
- Мышление (глубокое рассуждение): режим агентного рассуждения, который отдает приоритет структурированному, многошаговому рассуждению и координации инструментов/агентов.
В релизе основное внимание уделено трем видимым улучшениям: гибридному конвейеру вывода, который обеспечивает баланс между задержкой и производительностью, более интеллектуальному вызову инструментов/организации агентов и существенно расширенному контекстному окну (рекламируется как 128 тыс. токенов).
Почему это важно: DeepSeek-V3.1 продолжает общую отраслевую тенденцию к сочетанию эффективных крупномасштабных архитектур MoE с инструментальными примитивами и очень длинными контекстными окнами. Это сочетание важно для корпоративных агентов, рабочих процессов поиска и логического вывода, реферирования длинных документов и автоматизации на основе инструментов, где требуются как производительность, так и возможность детерминированного вызова внешних инструментов.
Чем DeepSeek-V3.1 отличается от предыдущих версий DeepSeek?
Гибридный вывод: одна модель, два режима работы
Главное архитектурное изменение – это гибридный выводDeepSeek описывает версию 3.1 как поддерживающую как режим «обдумывания», так и режим «отсутствия обдумывания» внутри одного экземпляра модели, переключаемый изменением шаблона чата или переключателем пользовательского интерфейса (кнопка DeepThink в DeepSeek). На практике это означает, что модели можно приказать создавать внутренние трассировки рассуждений (полезно для рабочих процессов агентов в стиле цепочки рассуждений) или отвечать напрямую, не раскрывая промежуточные токены рассуждений — в зависимости от потребностей разработчика. DeepSeek представляет это как путь к более агентным рабочим процессам, позволяя приложениям выбирать компромисс между задержкой и многословием.
Увеличенное контекстное окно и примитивы токенов
Официальные заметки о выпуске сообщают гораздо большее контекстное окно в V3.1; тестирование в сообществе и публикации компании помещают расширенный контекст в 128 тысяч токенов Для некоторых размещённых вариантов это позволяет значительно увеличить длительность диалогов, обрабатывать многодокументные рассуждения или обрабатывать длинные кодовые базы в рамках одного сеанса. В дополнение к этому, DeepSeek, как сообщается, вводит несколько специальных управляющих токенов (например, <|search_begin|>/<|search_end|>, <think> / </think>), предназначенный для структурирования вызовов инструментов и внутреннего разграничения «мыслящих» сегментов — шаблон проектирования, который упрощает координацию с внешними инструментами.
Улучшенные возможности агентов/инструментов и уменьшение задержек
DeepSeek утверждает, что V3.1 выигрывает от оптимизация после обучения Сфокусирована на вызове инструментов и многошаговых задачах агентов: утверждается, что модель быстрее находит ответы в режиме «обдумывания», чем предыдущие сборки DeepSeek R1, и более надежна при вызове внешних API или выполнении многошаговых планов. Такое позиционирование — более быстрый и в то же время более эффективный вывод с помощью агентов — является явным преимуществом продукта для команд, разрабатывающих помощников, системы автоматизации или рабочие процессы агентов.
Какова архитектура DeepSeek-V3.1?
DeepSeek-V3.1 основан на основных исследованиях семейства DeepSeek-V3: Смесь экспертов (МО) Основа с набором архитектурных инноваций, разработанных для повышения эффективности и масштабируемости. В публичном техническом отчёте по DeepSeek-V3 (базовому семейству) описывается:
- Большая конструкция MoE с сотнями миллиардов общих параметров и меньшая активированный количество параметров на токен (карточка модели содержит 671 млрд параметров, из которых примерно 37 млрд активируются на токен).
- Многоканальное скрытое внимание (MLA) и специальные подходы к маршрутизации и масштабированию DeepSeekMoE, которые снижают стоимость вывода, сохраняя при этом емкость.
- Цели обучения и стратегии балансировки нагрузки, которые устраняют необходимость во вспомогательных членах потерь балансировки нагрузки и используют цели многотокенного прогнозирования для улучшения пропускной способности и моделирования последовательностей.
Почему MoE + MLA?
Микс экспертов позволяет модели поддерживать большое количество теоретических параметров, активируя при этом только подмножество экспертов на токен, что сокращает объём вычислений на токен. MLA — это вариант управления вниманием DeepSeek, который помогает модели эффективно масштабировать операции управления вниманием между множеством экспертов и длинными контекстами. В совокупности эти решения позволяют обучать и обслуживать очень большие контрольные точки, сохраняя при этом приемлемые затраты на вывод для многих развёртываний.
Как DeepSeek-V3.1 показывает себя в тестах и реальных условиях?
Сравнение версии 3.1 словами
- Над V3 (0324): Версия 3.1 — это явное обновление по всем направлениям, особенно в области программирования и агентских задач. Пример: LiveCodeBench прыгает с 43.0 → 56.4 (недумающий) и → 74.8 (думает); Помощник-Полиглот от 55.1 → 68.4 / 76.3.
- По сравнению с R1-0528: R1 остается сильной «настроенной на рассуждение» точкой сравнения, но V3.1-Мышление часто равно или превышает R1-0528 (AIME/HMMT, LiveCodeBench), а также предлагая не требующий размышлений путь для использования с низкой задержкой.
- Общие знания (варианты MMLU): V3.1 располагается сразу под R1-0528, если рассматривать «мышление», но выше более старого V3.
Общие знания и академические знания
| Контрольный показатель (метрический) | V3.1-Недумание | Версия 3 (0324) | V3.1-Мышление | R1-0528 |
|---|---|---|---|---|
| MMLU-Redux (Точное совпадение) | 91.8 | 90.5 | 93.7 | 93.4 |
| ММЛУ-Про (Точное совпадение) | 83.7 | 81.2 | 84.8 | 85.0 |
| GPQA-Алмаз (Проход@1) | 74.9 | 68.4 | 80.1 | 81.0 |
Что это означает: V3.1 превосходит V3 по знанию/академическим задачам; «мышление» сокращает разрыв с R1 по сложным научным вопросам (GPQA-Diamond).
Кодирование (неагент)
| Контрольный показатель (метрический) | V3.1-Недумание | Версия 3 (0324) | V3.1-Мышление | R1-0528 |
|---|---|---|---|---|
| LiveCodeBench (2408–2505) (Проход@1) | 56.4 | 43.0 | 74.8 | 73.3 |
| Помощник-Полиглот (Точность) | 68.4 | 55.1 | 76.3 | 71.6 |
| Codeforces-Div1 (Рейтинг) | - | - | 2091 | 1930 |
Примечание:
- LiveCodeBench (2408–2505) обозначает агрегированное окно (август 2024 г. → май 2025 г.). Более высокий показатель Pass@1 отражает более высокую точность с первой попытки при выполнении различных задач кодирования.
- Помощник-Полиглот имитирует редактирование кода в стиле помощника на многих языках; V3.1-Thinking лидирует в этом наборе, V3.1-NonThinking — это значительный скачок по сравнению с V3 (0324).
- Модель показывает V3 (0324) на уровне 55.1% на Aider — соответствует данным публичной таблицы лидеров Aider для этого года выпуска. (Более высокие баллы V3.1 являются новыми на карточке модели.)
Кодирование (задачи агента)
| Контрольный показатель (метрический) | V3.1-Недумание | Версия 3 (0324) | V3.1-Мышление | R1-0528 |
|---|---|---|---|---|
| Проверено SWE (Режим агента) | 66.0 | 45.4 | - | 44.6 |
| SWE-bench Многоязычный (Режим агента) | 54.5 | 29.3 | - | 30.5 |
| Терминал скамейки (Каркас Терминала 1) | 31.3 | 13.3 | - | 5.7 |
Важное предостережение: Эти оценки агентов с использованием внутренних фреймворков DeepSeek (инструментарий, многошаговое выполнение), а не просто тесты декодирования следующего токена. Они охватывают возможности «LLM + оркестровка». Относитесь к ним как к система результаты (воспроизводимость может зависеть от точного стека агентов и настроек).
Математическое и конкурентное мышление
| Контрольный показатель (метрический) | V3.1-Недумание | Версия 3 (0324) | V3.1-Мышление | R1-0528 |
|---|---|---|---|---|
| АИМЭ 2024 (Проход@1) | 66.3 | 59.4 | 93.1 | 91.4 |
| АИМЭ 2025 (Проход@1) | 49.8 | 51.3 | 88.4 | 87.5 |
| HMMT 2025 (Проход@1) | 33.5 | 29.2 | 84.2 | 79.4 |
Еда на вынос: Режим «мышления» очень большой подъемы в математических соревнованиях — V3.1-Thinking превосходит R1-0528 на AIME/HMMT в зарегистрированных прогонах.
QA с дополненной реальностью и «агентным» поиском
| Контрольный показатель (метрический) | V3.1-Недумание | Версия 3 (0324) | V3.1-Мышление | R1-0528 |
|---|---|---|---|---|
| BrowseComp | - | - | 30.0 | 8.9 |
| BrowseComp_zh | - | - | 49.2 | 35.7 |
| Последний экзамен человечества (Python + Search) | - | - | 29.8 | 24.8 |
| SimpleQA | - | - | 93.4 | 92.3 |
| Последний экзамен человечества (только текст) | - | - | 15.9 | 17.7 |
Примечание: DeepSeek утверждает, что результаты поискового агента используют его внутреннюю поисковую систему (коммерческий поисковый API + фильтрация страниц, контекст размером 128 КБ). Методология здесь важна; для воспроизведения требуются аналогичные инструменты.
Каковы ограничения и перспективы на будущее?
DeepSeek-V3.1 — важный этап разработки и разработки продукта: он объединяет обучение в длительном контексте, гибридные шаблоны и архитектуру MoE в широко применимую контрольную точку. Однако ограничения остаются:
- Безопасность агентов в реальном мире, галлюцинации при обобщении длинного контекста и враждебное поведение по подсказкам по-прежнему требуют мер по снижению рисков на системном уровне.
- Результаты тестов обнадеживают, но не являются единообразными: производительность различается в зависимости от домена, языка и набора оценок; необходима независимая проверка.
- Геополитические факторы и факторы цепочки поставок — доступность оборудования и совместимость чипов — ранее влияли на график DeepSeek и могут повлиять на то, как клиенты будут осуществлять масштабное развертывание.
Начало работы через CometAPI
CometAPI — это унифицированная платформа API, которая объединяет более 500 моделей ИИ от ведущих поставщиков, таких как серия GPT OpenAI, Gemini от Google, Claude от Anthropic, Midjourney, Suno и других, в единый, удобный для разработчиков интерфейс. Предлагая последовательную аутентификацию, форматирование запросов и обработку ответов, CometAPI значительно упрощает интеграцию возможностей ИИ в ваши приложения. Независимо от того, создаете ли вы чат-ботов, генераторы изображений, композиторов музыки или конвейеры аналитики на основе данных, CometAPI позволяет вам выполнять итерации быстрее, контролировать расходы и оставаться независимыми от поставщика — и все это при использовании последних достижений в экосистеме ИИ.
Разработчики могут получить доступ DeepSeek R1(deepseek-r1-0528) и DeepSeek-V3.1 через CometAPIПоследние версии моделей указаны на дату публикации статьи. Для начала изучите возможности модели в Детская Площадка и проконсультируйтесь с API-руководство для получения подробных инструкций. Перед доступом убедитесь, что вы вошли в CometAPI и получили ключ API. CometAPI предложить цену намного ниже официальной, чтобы помочь вам интегрироваться.
Заключение
DeepSeek-V3.1 представляет собой прагматичное, передовое инженерное обновление: расширенное контекстное окно, гибридный логический вывод (мысль/немысль), улучшенное взаимодействие инструментов и совместимый с OpenAI API делают его привлекательным вариантом для команд, разрабатывающих агентские помощники, приложения с длинным контекстом и недорогие рабочие процессы, ориентированные на код.
