Как запустить DeepSeek-V3.1 на локальном устройстве

DeepSeek-V3.1 — это гибридная модель чата «Смесь экспертов» (MoE), выпущенная DeepSeek в августе 2025 года, которая поддерживает два режима вывода — быстрый «не-думающий» режим и осознанный «думающий» режим — из одной контрольной точки. Модель доступна на Hugging Face и может быть запущена локально несколькими способами (vLLM, Ollama/llama.cpp, GGUF в стиле Ollama или крупномасштабные конфигурации с несколькими GPU). Ниже я расскажу вам о требованиях, о том, как работает «думающий» режим, о нескольких вариантах локального запуска (с готовыми к запуску фрагментами кода) и о пошаговом рецепте развёртывания «думающего» режима с примерами вызова инструментов и шаблонами токенов.

Что такое DeepSeek-V3.1 и почему это важно?

DeepSeek-V3.1 — это обновление семейства v3 от DeepSeek, которое представляет гибридный дизайн вывода: та же модель может работать в мышление (совещательный, многоступенчатый) или не-думающий (прямой ответ, более быстрый) режимы путем изменения шаблона чата. С точки зрения архитектуры это большое семейство MoE (базовая контрольная точка около 671 млрд параметров, около 37 млрд активируемых на токен) с обучением в режиме длинного контекста, расширенным до 128 тыс. токенов, и поддержкой микромасштабирования FP8. DeepSeek позиционировал версию 3.1 как релиз, готовый к работе с агентами: улучшенный вызов инструментов, улучшенные навыки агентов и более высокая эффективность мышления по сравнению с предыдущими версиями R1. Релиз был анонсирован в августе 2025 года и интегрирован в Hugging Face, инструменты CFD/OSS и руководства по развертыванию в облаке.

Как работает гибридная модель (кратко)

Одна контрольная точка, два шаблона: Режимы мышления и немышления контролируются шаблон чата и еще один <think>/</think> В подсказке указано условное обозначение токенов. В карточке модели указаны точные префиксы.
Улучшения агента/инструмента: Посттренировочные повышения эффективности позволяют выполнять более интеллектуальные вызовы инструментов — модель ожидает строгий формат JSON-вызовов инструментов для безопасного, детерминированного выполнения инструментов.
Компромиссы производительности: Режим размышлений тратит токены на рассуждения в стиле внутренней цепочки мыслей и может быть медленнее/потреблять больше токенов; режим без размышлений быстрее и дешевле. Тесты в карточке модели показывают существенные улучшения в тестах рассуждений и кода для версии 3.1.

Как структурирована модель

магистральная сеть MoE: большое общее количество параметров с меньшим активированным подмножеством на токен (экономичный вывод).
Обучение в длительном контексте: В версии 3.1 значительно расширены фазы длинного контекста (32 КБ → большее обучение на длинных документах) для поддержки окон размером 128 КБ и более в некоторых сборках.
Собственный рабочий процесс FP8: DeepSeek широко использует форматы FP8 (w8a8 / UE8M0) для эффективности веса/активации; существуют скрипты преобразования сообщества, если вы предпочитаете BF16/FP16.

Каковы требования для локального запуска DeepSeek-V3.1? (Аппаратное обеспечение, хранилище и программное обеспечение)

Запуск полный Модель V3.1 (неквантованная) — это масштабная задача. Ниже приведены реалистичные категории конфигураций и их типичные требования.

Практичные ведра

Кластер / исследовательская лаборатория (полная модель): несколько графических процессоров с большим объемом памяти (класса H100/H800 или много графических процессоров Ada/Hopper), многоузловая система с десятками графических процессоров, большой объем хранилища NVMe (сотни ГБ) и специализированные фреймворки вывода (SGLang, vLLM, LMDeploy, TRT-LLM).
Односерверный высокопроизводительный (квантованный): возможно при использовании интенсивного квантования (INT4/AWQ/AWQ2/gguf) и фреймворков типа Ollama (предварительно упакованных) или GGUF сообщества — все еще требуется от десятков до сотен ГБ оперативной памяти графического процессора или разумная разгрузка CPU+GPU.
Ноутбук разработчика / dev-бокс: нецелесообразно для полной модели; используйте небольшие очищенные/тонко настроенные варианты или подключитесь к локальному серверу/экземпляру Ollama.

Контрольный список оборудования (практический)

Графические процессоры: Для достижения реальной пропускной способности вывода полной версии V3.1: кластеры из нескольких графических процессоров (H100 / H800 / Ada Lovelace+). Для выполнения FP8 требуются графические процессоры с вычислительной мощностью и поддержкой драйверов.
RAM и хранилище: Ожидайте сотни ГБ свободного места на диске для файлов модели (на страницах моделей указано несколько сотен ГБ в зависимости от формата/квантования), а также рабочее пространство для конвертированных форматов. В метаданных Ollama указано, что пакет DeepSeek V400 Ollama в библиотеке занимает около 3.1 ГБ.
Cеть: Для многоузлового вывода вам потребуются межсоединения с малой задержкой (NVLink / InfiniBand) и инструменты оркестровки для тензорно-параллельных установок.

Контрольный список программного обеспечения

OS: Linux рекомендуется для инструментов вывода сообщества (демонстрационная версия DeepSeek-Infer содержит Linux/Python).
Питон: 3.10+ (во многих примерах DeepSeek). Типичные версии пакетов закреплёны в репозитории. requirements.txt.
Фреймворки и инструменты (выберите один или несколько): SGLang, vLLM, LMDeploy, TRT-LLM/TensorRT-LLM, LightLLM или Ollama для более простой локальной установки. Каждый из них имеет инструкции и различную поддержку точности и квантования.

Практическое примечание: Если у вас только один потребительский графический процессор (например, 24–48 ГБ), вы, скорее всего, будете использовать квантованные GGUF или удаленный вывод; если у вас есть рабочая станция с более чем 128 ГБ ОЗУ и кластер графических процессоров класса H100/H200, вы можете использовать более точный вывод FP8/FP16 с помощью vLLM.

Как запустить DeepSeek-V3.1 локально?

Ниже приведено несколько практических путей, которые вы можете использовать: от наиболее ручного/гибкого до самого простого пути для одного разработчика. Я предоставлю пошаговые руководства и примеры кода.

Вариант A — Официальная демоверсия DeepSeek-Infer (путь разработки/кластера)

Это пример/демонстрация из репозитория для вывода FP8/BF16. Используйте его, если планируете многоузловую архитектуру или хотите поэкспериментировать с официальным кодом вывода.

Клонировать, подготовить среду

git clone https://github.com/deepseek-ai/DeepSeek-V3.git
cd DeepSeek-V3/inference
# Create a dedicated venv / conda env

python -m venv venv && source venv/bin/activate
pip install -r requirements.txt

(Репо inference/requirements.txt перечисляет закрепленные версии Torch/Triton/Transformers, рекомендованные командой.)

Скачать вес модели

Загрузите со страницы модели Hugging Face (deepseek-ai/DeepSeek-V3.1) и поместите их под /path/to/DeepSeek-V3. В карточке модели и репозитории указаны официальные ссылки на хранилище Hugging Face.

Конвертировать веса для демонстрации

# example conversion command shown in the repo

python convert.py --hf-ckpt-path /path/to/DeepSeek-V3 --save-path /path/to/DeepSeek-V3-Demo --n-experts 256 --model-parallel 16

Запустить интерактивную генерацию (распределенную)

torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR \
  generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json \
  --interactive --temperature 0.7 --max-new-tokens 200

Это канонический пример из репозитория DeepSeek для кластерных запусков.

Вариант B — vLLM (рекомендуется для серверных развертываний и API, совместимого с OpenAI)

vLLM поддерживает DeepSeek в режимах FP8/BF16 и предоставляет сервер, совместимый с OpenAI. Это популярный подход к разработке больших моделей благодаря оптимизации памяти и совместимости с API.

Запустить vLLM-сервер, который будет извлекать модель из Hugging Face. (пример шаблона):

# this will download/serve the model (replace with exact model id if needed)

vllm serve deepseek-ai/DeepSeek-V3.1 --host 0.0.0.0 --port 8000

Затем запросите автодополнение с помощью curl или клиента, совместимого с OpenAI:

curl -s -X POST "http://localhost:8000/v1/completions" \
  -H "Content-Type: application/json" \
  -d '{"model":"DeepSeek-V3.1","prompt":"Explain the QuickSort algorithm", "max_tokens":200}'

Рецепты и документация vLLM включают примеры DeepSeek и заметки о совместимости с FP8 и многопроцессорной/конвейерной параллельности. Для тяжёлых моделей вам всё равно потребуется несколько графических процессоров или квантованный вариант.

Вариант C — LMDeploy / SGLang / LightLLM и TensorRT-LLM (высокая производительность)

Репозиторий DeepSeek настоятельно рекомендует СГЛанг, LMDeploy и ТензорРТ-ЛЛМ как оптимизированные движки для DeepSeek V3. Они обеспечивают улучшенную задержку вывода, пропускную способность и ядра FP8.

Типичный вызов LMDeploy (точный CLI см. в документации LMDeploy):

# pseudo-example; refer to LMDeploy docs for exact options

lmdeploy serve --model /path/to/deepseek_v3.1 --precision fp8 --port 8080

Тесты производительности SGLang и рецепты запуска доступны в репозитории и в проекте SGLang. benchmark/deepseek_v3 Папка. Используйте эти стеки, если вы управляете кластером графических процессоров и хотите добиться производительной производительности.

Вариант D — Оллама (самый простой локальный путь разработки, часто на одной машине)

Если вам нужен наименее трудоемкий способ локального запуска DeepSeek (и вы можете сэкономить место на диске), Оллама предоставляет упакованные модели и простой CLI (ollama pull, ollama run). DeepSeek-V3.1 входит в библиотеку Ollama и может запускаться локально (для некоторых функций Ollama может потребоваться последняя/предварительная версия).

Пример (Ollama CLI):

# Pull the model (downloads the model artifacts to your disk)

ollama pull deepseek-v3.1

# Start an interactive session:

ollama run deepseek-v3.1

# Or run as a local API server (Ollama supports a local API)

# Example: POSTing to Ollama's local API (adjust host/port to your setup)
curl -X POST http://localhost:11434/api/generate \
  -H 'Content-Type: application/json' \
  -d '{"model":"deepseek-v3.1","prompt":"Summarize the following paper: ..."}'

Ollama абстрагируется от многих деталей распределения/квантования и может быть отличным способом тестирования поведения модели на одном хосте. Примечание: на странице модели указан размер пакета Ollama около 404 ГБ, поэтому планируйте объём диска и оперативной памяти соответствующим образом.

Что такое режим мышления и как его использовать

DeepSeek-V3.1 реализует токен гибридного мышления подход: один и тот же контрольно-пропускной пункт может работать в мышление режим (внутренние токены «цепочки мыслей») или не-думающий Режим, переключая шаблон чата/подсказки. Модель использует явные токены, такие как <think> (и закрытие </think> (в некоторых шаблонах) для обозначения внутренней цепочки мыслей вместо генерации прямого ответа. В карточке-образце указаны префиксы, связанные с не-мышлением и мышлением, а также показано, чем отличаются шаблоны.

Пример: построение сообщения на Python (помощник токенизатора)

Карточка модели «Обнимающее лицо» содержит удобный фрагмент кода, показывающий, как применить шаблон чата через токенизатор. Это рекомендуемый шаблон для генерации мышление or не-думающий отформатированные подсказки:

import transformers
tokenizer = transformers.AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-V3.1")

messages = [
    {"role": "system", "content": "You are a helpful assistant"},
    {"role": "user", "content": "Who are you?"},
    {"role": "assistant", "content": "<think>Hmm</think>I am DeepSeek"},
    {"role": "user", "content": "1+1=?"}
]

# Thinking mode

tokenizer.apply_chat_template(messages, tokenize=False, thinking=True, add_generation_prompt=True)

# Non-thinking mode

tokenizer.apply_chat_template(messages, tokenize=False, thinking=False, add_generation_prompt=True)

Коммутатор thinking=True для создания подсказки, которая использует <think> префикс; thinking=False Создаёт шаблон «без мышления». Модель будет вести себя по-разному (внутреннее обдумывание или немедленная реакция) в зависимости от этого флага.

Краткий справочник — устранение небольших неполадок и рекомендации

Если у вас закончилась память графического процессора: Попробуйте квантованные сборки (AWQ/q4/INT4) или GGUF сообщества; многие сообщества публикуют квантованные сборки для локального использования. Ollama / vLLM также может обслуживать квантованные сборки меньшего размера.

Если вам нужна модель для вызова внешних инструментов: Принять ToolCall Схема в шаблоне чата должна быть точной. Протестируйте формат JSON инструмента в автономном режиме и убедитесь, что ваш код оркестровки (часть, которая выполняет инструмент) возвращает очищенный типизированный JSON обратно в модель.

Если вам нужен развернутый контекст: Используйте vLLM или SGLang с плагинами для работы с длинным контекстом; DeepSeek был специально обучен/расширен для контекстов 32 КБ/128 КБ, и соответствующий инструментарий поддерживает это окно. Ожидайте компромиссов по использованию памяти.

Могу ли я запустить DeepSeek-V3.1 на ноутбуке или небольшом сервере?

Короткий ответ: Да, но с оговорками. Квантование, разработанное сообществом (AWQ/GGUF/1-битная динамическая) значительно сокращает объём занимаемой памяти и позволяет любителям запускать версии V3.1 на высокопроизводительных настольных компьютерах (заявлено, что рабочий объём составляет около 170 ГБ). Однако:

Компромисс между точностью и размером: Агрессивное квантование уменьшает объём памяти, но может повлиять на производительность рассуждений/кода. Протестируйте на своих рабочих нагрузках.
Юридические вопросы и лицензирование: Модель лицензирована MIT в соответствии с картой модели, но сторонние квантизации могут иметь свои собственные лицензии; ознакомьтесь с ними перед использованием в производстве.

Заключительные слова

DeepSeek-V3.1 — это значительный шаг к гибридным «агентным» моделям с явным мыслительным/немыслящим поведением и улучшенным использованием инструментов. Если вы хотите запустить его локально, выберите путь, соответствующий вашему оборудованию и уровню готовности к риску:

Для исследования: transformers + квантованные тензоры безопасности и ускорения.

Для производства и пропускной способности: vLLM + мульти-GPU (H100/H200).

Для локальных экспериментов: Ollama/llama.cpp + GGUF сообщества (слияние + запуск).

Первые шаги

CometAPI — это унифицированная платформа API, которая объединяет более 500 моделей ИИ от ведущих поставщиков, таких как серия GPT OpenAI, Gemini от Google, Claude от Anthropic, Midjourney, Suno и других, в единый, удобный для разработчиков интерфейс. Предлагая последовательную аутентификацию, форматирование запросов и обработку ответов, CometAPI значительно упрощает интеграцию возможностей ИИ в ваши приложения. Независимо от того, создаете ли вы чат-ботов, генераторы изображений, композиторов музыки или конвейеры аналитики на основе данных, CometAPI позволяет вам выполнять итерации быстрее, контролировать расходы и оставаться независимыми от поставщика — и все это при использовании последних достижений в экосистеме ИИ.

Разработчики могут получить доступ DeepSeek-V3.1 Последние версии моделей CometAPI указаны на дату публикации статьи. Для начала изучите возможности модели в Детская Площадка и проконсультируйтесь с API-руководство для получения подробных инструкций. Перед доступом убедитесь, что вы вошли в CometAPI и получили ключ API. CometAPI предложить цену намного ниже официальной, чтобы помочь вам интегрироваться.