Как запустить DeepSeek V4 локально

TR

Практичный способ запустить DeepSeek V4 локально — использовать официальные открытые веса с высокопроизводительным стеком сервинга вроде vLLM, а затем открыть модель через локальную конечную точку, совместимую с OpenAI. В текущих публичных материалах DeepSeek описаны две модели семейства V4: DeepSeek-V4-Pro с 1.6T общих параметров / 49B активных и DeepSeek-V4-Flash с 284B общих / 13B активных, обе с контекстом 1M токенов и тремя режимами рассуждений. Текущие примеры локального развёртывания vLLM нацелены на 8× B200/B300 для Pro и 4× B200/B300 для Flash. Если у вас нет подобного оборудования, более практичен размещённый вариант вроде CometAPI.

24 апреля 2026 года DeepSeek AI произвела сенсацию, выпустив превью DeepSeek-V4 с двумя мощными моделями класса Mixture-of-Experts (MoE): DeepSeek-V4-Pro (1.6T общих параметров, 49B активных) и DeepSeek-V4-Flash (284B общих, 13B активных). Обе поддерживают нативное окно контекста в 1 миллион токенов — прорыв для анализа длинных документов, агентных рабочих процессов, работы с огромными кодовыми базами и масштабного RAG.

Обученная на более чем 32 трлн токенов и оснащённая архитектурными инновациями, такими как гибридный Compressed Sparse Attention (CSA) + Heavily Compressed Attention (HCA), manifold-constrained hyper-connections (mHC) и эффективная работа с памятью, V4 достигает до 73% сокращения FLOPs инференса и 90% меньшего KV‑кэша для 1M контекста по сравнению с V3.2. Производительность сопоставима с топовыми закрытыми моделями при сохранении открытых весов (лицензия MIT) и исключительной экономичности через API.

Запуск этих моделей локально даёт непревзойдённую приватность, нулевые регулярные расходы на API (кроме железа), офлайн‑возможности и полную кастомизацию. Однако их масштаб создаёт вызовы: полные веса V4-Pro превышают 800 ГБ загрузки, а инференс требует значительного железа или агрессивной квантизации.

Можно ли действительно запускать DeepSeek V4 локально?

Да, но «локально» здесь означает совсем не то же самое, что запуск 7B‑модели на ноутбуке. Материалы DeepSeek и пост о поддержке vLLM указывают на крупные мульти‑GPU системы: V4-Pro — это модель с 1.6T параметров и 49B активных параметров, а V4-Flash — 284B общих / 13B активных. Официальные примеры развёртывания от vLLM написаны для 8× B200/B300 на Pro и 4× B200/B300 на Flash. Это самый ясный практический сигнал, что DeepSeek V4 — локальное развёртывание уровня предприятия, а не эксперимент на рабочем столе.

Причина в масштабе. DeepSeek заявляет, что V4 поддерживает контекст 1M токенов, а в техническом отчёте говорится, что V4-Pro использует лишь 27% FLOPs инференса на один токен и 10% KV‑кэша по сравнению с DeepSeek‑V3.2 при 1M контексте. vLLM дополнительно объясняет, что с bf16 KV‑кэшем DeepSeek V4 использует 9.62 GiB KV‑кэша на последовательность при 1M контексте, что примерно в 8.7 раза меньше, чем оценочные 83.9 GiB для сравнимого стека DeepSeek‑V3.2‑стиля. Иными словами, V4 значительно эффективнее предыдущих поколений, но один миллион токенов остаётся огромной системной задачей.

Таблица сравнения архитектуры: DeepSeek V4 vs V3 и конкуренты

Model	Total Params	Active Params	Context Length	KV Cache Efficiency (1M)	Approx. Download	Inference Focus
DeepSeek-V3.2	671B	~37B	128K	Базовый уровень	~несколько сотен GB	Сбалансированный
DeepSeek-V4-Flash	284B	13B	1M	~7-10% от V3	~160GB	Скорость и эффективность
DeepSeek-V4-Pro	1.6T	49B	1M	~10% от V3	~865GB	Максимальные возможности
Llama 4 70B (dense)	70B	70B	128K-1M+	Выше	Меньше	Ориентирован на потребителей
GPT-5.5 (est. closed)	~2T?	N/A	High	Собственная	N/A	Только в облаке

MoE‑дизайн V4 активирует лишь долю параметров на токен, удерживая вычисления ближе к плотной модели 13B–49B, одновременно пользуясь знаниями более крупной сети.

Какую модель Deepseek V4 выбрать?

Для большинства локальных развёртываний лучше начать с DeepSeek‑V4‑Flash. V4‑Flash даёт рассуждения, близкие к Pro на более простых агентных задачах, оставаясь быстрее и дешевле.

Используйте DeepSeek‑V4‑Pro, когда важнее абсолютные возможности, чем эффективность. Pro — более сильная модель для сложных рассуждений, программирования и агентных задач. Таблицы бенчмарков показывают почему: в официальном сравнении V4‑Pro‑Base достигает 90.1 на MMLU, 76.8 на HumanEval и 51.5 на LongBench‑V2, тогда как V4‑Flash‑Base набирает 88.7, 69.5 и 44.7 соответственно. Обе сильны; Pro просто поднимает планку, когда вам нужен максимально возможный результат.

Metric	DeepSeek-V3.2-Base	DeepSeek-V4-Flash-Base	DeepSeek-V4-Pro-Base
Total parameters	671B	284B	1.6T
Activated parameters	37B	13B	49B
AGIEval (EM)	80.1	82.6	83.1
MMLU-Pro (EM)	65.5	68.3	73.5
HumanEval (Pass@1)	62.8	69.5	76.8
LongBench-V2 (EM)	40.2	44.7	51.5

Этого простого чтения таблицы достаточно для планирования продукта. Flash — не урезанная «игрушечная» модель; это серьёзный ассистент для длинного контекста с меньшими затратами. Pro — модель, которую стоит тестировать первой, когда задача сложная, требовательная к состоянию или близка к производственному знанию‑процессу.

Пошагово: как запустить DeepSeek V4 локально

1. Предварительные требования

OS: предпочтительно Linux (Ubuntu 22.04/24.04) для лучшей поддержки CUDA/ROCm. Windows через WSL2 или нативно. macOS с Metal (ограничено для самых крупных моделей).
Драйверы: NVIDIA CUDA 12.4+ (или новее). AMD ROCm для карт Radeon.
Python 3.11+, Git и достаточно места на диске.
Аккаунт Hugging Face для моделей с ограниченным доступом (если применимо): huggingface-cli login.

2. Самый простой путь: Ollama или LM Studio (для начинающих)

Ollama обеспечивает самый простой опыт через CLI и WebUI. По состоянию на конец апреля 2026 года полная поддержка V4 может потребовать кастомных Modelfiles или комьюнити‑тегов, но квантизованные версии V4‑Flash быстро появляются.

Установка Ollama (Linux/macOS):

curl -fsSL https://ollama.com/install.sh | sh
ollama --version

Запуск совместимой модели (начните с меньшей или проверьте теги V4):

ollama pull deepseek-v4-flash:q4_0   # Example quantized tag; check ollama.com/library or community
ollama run deepseek-v4-flash:q4_0

Для кастома: создайте Modelfile (text):

FROM ./DeepSeek-V4-Flash-GGUF-Q4.gguf
TEMPLATE """{{ .Prompt }}"""
PARAMETER num_ctx 32768  # Start conservative; increase as hardware allows up to 1M with sufficient RAM/VRAM

Затем выполните ollama create my-v4-flash -f Modelfile.

LM Studio: GUI‑альтернатива. Скачайте с lmstudio.ai, найдите/просмотрите на HF квантизации DeepSeek‑V4 в GGUF (в стиле TheBloke или официальные), загрузите и общайтесь. Отлично подходит для экспериментов с ползунками контекста и выгрузкой на GPU.

Open WebUI: поверх Ollama для интерфейса, похожего на ChatGPT (Bash):

docker run -d -p 8080:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

Доступ по адресу http://localhost:8080.

3. Продвинутый вариант: Hugging Face + vLLM или SGLang (высокая производительность)

Для максимальной скорости и поддержки 1M контекста используйте vLLM (отличная поддержка MoE и PagedAttention):

Шаг 1: Подготовьте окружение

Начните с установки актуального стека vLLM и убедитесь, что ваши CUDA, драйверы и топология GPU соответствуют модели, которую вы хотите запускать. Рекомендуется temperature = 1.0 и top_p = 1.0 для локального развёртывания, а для Think Max рекомендуется окно контекста не менее 384K токенов. Это полезная отправная точка, будь то чат‑приложение, помощник по коду или агентный рабочий процесс.

Установка:

Bash
pip install -U "vllm>=0.9.0"  # Check latest for V4 compatibility

Загрузка модели (используйте CLI для больших файлов):

Bash
pip install -U "huggingface_hub[cli]"
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash --local-dir ./DeepSeek-V4-Flash

Сервинг через vLLM (пример для Flash на 2 GPU):

Шаг 2: Запустите сервер модели

После поднятия контейнера откройте модель как локальную конечную точку, совместимую с OpenAI. Это позволит переиспользовать ваш существующий код приложения и менять бэкэнды без изменения архитектуры приложения.

Сервинг через vLLM (пример для Flash на 2 GPU):

Python
from vllm import LLM, SamplingParams

llm = LLM(
    model="deepseek-ai/DeepSeek-V4-Flash",
    tensor_parallel_size=2,      # Adjust to your GPU count
    max_model_len=1048576,       # 1M context (hardware permitting)
    dtype="auto",                # or "fp8" / "bfloat16"
    quantization="gptq" if using quantized weights else None,
    gpu_memory_utilization=0.9
)

sampling_params = SamplingParams(temperature=0.7, top_p=0.95, max_tokens=4096)

outputs = llm.generate(["Explain the architecture of DeepSeek V4 in detail."], sampling_params)
for output in outputs:
    print(output.outputs[0].text)

Для серверного режима (API, совместимое с OpenAI):

Bash
vllm serve deepseek-ai/DeepSeek-V4-Flash \
  --tensor-parallel-size 2 \
  --max-model-len 1048576 \
  --port 8000

Затем обращайтесь через клиент OpenAI, задав base_url="http://localhost:8000/v1".

Альтернатива SGLang для потенциально лучшей производительности на длинном контексте:

Bash
pip install "sglang[all]>=0.4.0"
python -m sglang.launch_server --model-path deepseek-ai/DeepSeek-V4-Flash --port 30000

Шаг 3: Обращение к локальной конечной точке из Python

from openai import OpenAI
# Adjust the base URL if your vLLM server is bound differently.

client = OpenAI(
base_url="http://localhost:8000/v1",
api_key="EMPTY",
)

response = client.chat.completions.create(
model="deepseek-ai/DeepSeek-V4-Flash",
messages=[
{"role": "system", "content": "You are a precise, technical assistant."},
{"role": "user", "content": "Explain the difference between V4-Pro and V4-Flash."},
],
temperature=1.0,
top_p=1.0,
)

print(response.choices[0].message.content)

Ожидания по производительности и советы по оптимизации

Токенов/с: На RTX 4090 с Q4 Flash: 15–40+ т/с при контексте 8K–32K (зависит от реализации). Падает на 128K+ из‑за внимания/KV, но эффективности V4 помогают. Мульти‑GPU хорошо масштабируется за счёт tensor/pipeline parallelism.
Оптимизации:
Используйте FlashAttention‑3 или PagedAttention vLLM.
Спекулятивное декодирование даёт 1.5–2× ускорение.
Сокращение или компрессия контекста.
Мониторьте nvidia-smi; используйте gpu_memory_utilization.
Для CPU: llama.cpp с --n-gpu-layers -1 (полная выгрузка на GPU, если возможно) или чистый CPU с большим объёмом RAM.

Сравнивайте пропускную способность инструментами вроде llama-bench или простыми скриптами тайминга. Реальная производительность зависит от длины подсказки, длины генерации и железа.

Сложности и ограничения локального развёртывания V4

Ресурсоёмкость: даже Flash требует приличного железа для комфортных скоростей на длинном контексте.
Компромиссы квантизации: более низкие биты могут снижать качество рассуждений, особенно на сложных задачах — валидируйте бенчмарками вроде SWE‑Bench, MMLU или вашими отраслевыми оценками.
Зрелость софта: как новое превью (апрель 2026), полностью оптимизированная поддержка во всех бэкэндах ещё разворачивается. Проверяйте GitHub Issues vLLM, llama.cpp и HF.
Скачивание/хранилище: модели терабайтного масштаба требуют быстрого интернета и хранения.
Энергопотребление и тепло: топовые конфигурации потребляют много электричества.

Для многих пользователей лучше работают гибридные подходы: запускать мелкие задачи локально, а тяжёлые рассуждения на 1M контексте выносить в облако по мере необходимости.

Когда локального недостаточно: бесшовная интеграция с CometAPI

Для многих команд умнее не пытаться во что бы то ни стало разворачивать локально. Хотя локальный запуск превосходит по приватности и контролю, масштабирование до продакшена, обработка пиковых нагрузок или доступ к полной неквантизованной производительности без массивных инвестиций в железо часто говорят в пользу надёжного API.

CometAPI предоставляет унифицированный, совместимый с OpenAI шлюз к моделям DeepSeek — включая последнюю серию Deeppseek V4 — а также десятки других топовых LLM (Claude, GPT, Llama, Qwen, Grok и др.).

Где API выигрывает у локального развёртывания

Текущие модели Deepseek V4 доступны через конечные точки в стилях OpenAI и Anthropic с базовыми URL, которые остаются стабильными, пока меняется имя модели. В документации также говорится, что названия моделей deepseek-chat и deepseek-reasoner со временем будут выведены из обращения и сопоставлены с поведением V4‑Flash на переходный период.

Это важно, потому что локальное развёртывание несёт операционные затраты. Если для нагрузки не критична локация данных или команде важнее быстро получить результат, путь через API обычно рациональнее. V4‑Flash стоит $0.14 за 1M входных токенов при промахе кэша, $0.0028 за 1M входных токенов при попадании в кэш и $0.28 за 1M выходных токенов. На той же странице указано, что V4‑Pro в настоящее время со скидкой 75% до 31 мая 2026 года: $0.435 за 1M входных токенов при промахе кэша и $0.87 за 1M выходных токенов.

Лучшая альтернатива Deepseek: где уместен CometAPI

CometAPI полезен, когда цель — не просто один раз вызвать DeepSeek V4, а построить стек, который быстро переключает модели. CometAPI говорит, что предоставляет один API‑ключ для 500+ моделей, API, совместимый с OpenAI, аналитику использования и цены ниже, чем у официальных поставщиков. Он также позиционируется как способ избежать привязки к вендору и управлять расходами между несколькими провайдерами.

Это делает CometAPI сильной рекомендацией для команд, которые сравнивают V4‑Pro с V4‑Flash или сопоставляют DeepSeek с другими передовыми моделями в одном приложении. Вместо того чтобы каждый раз подключать новую интеграцию при смене модели, приложение может сохранить стабильный клиент в стиле OpenAI и менять только значение model и base URL. Гайд CometAPI по V4 показывает именно такой подход.

Быстрый старт с CometAPI для DeepSeek V4:

Используйте SDK OpenAI:
Зарегистрируйтесь/войдите на CometAPI.com.
Сгенерируйте API‑ключ в консоли.

Вот размещённая версия того же паттерна интеграции:

from openai import OpenAIclient = OpenAI(    base_url="https://api.cometapi.com",    api_key="YOUR_COMETAPI_KEY",)response = client.chat.completions.create(    model="deepseek-v4-pro",    messages=[        {"role": "system", "content": "You are a senior coding assistant."},        {"role": "user", "content": "Review this architecture for bottlenecks."}    ],    stream=False,    extra_body={        "thinking": {"type": "enabled"},        "reasoning_effort": "high"    })print(response.choices[0].message.content)

Ценность этого маршрута — операционная, а не риторическая. Он снимает заботы об инфраструктуре, сохраняет переносимость клиентского кода и даёт команде одно место для тестирования стоимости, задержек и качества на нескольких моделях. CometAPI также утверждает, что отслеживает траты, задержки и объёмы вызовов — полезно, когда прототип становится продакшен‑нагрузкой.

Когда выбрать локально, API или CometAPI

Deployment path	Best for	Why it makes sense	Trade-off
Local multi-GPU	Частные нагрузки, исследования, офлайн‑эксперименты	Полный контроль, открытые веса, официальный путь инференса, лицензия MIT	Тяжёлые требования к GPU и больше операционной работы
Official DeepSeek API	Самый быстрый доступ	Стабильные базовые URL, совместимость с OpenAI/Anthropic, отсутствие бремени самохостинга	Зависимость от провайдера и стоимость по токенам
CometAPI	Команды, строящие мультимодельные продукты	Один ключ, роутинг, совместимый с OpenAI, заявленная экономия, аналитика	Ещё один слой абстракции в стеке

Локальный путь оправдан, когда контроль важнее удобства. Путь через API оправдан, когда скорость и простота важнее владения стеком инференса. CometAPI — средний слой, когда команде нужны переносимость и контроль затрат без постоянной переделки интеграции.

FAQ

Может ли DeepSeek V4 работать на ноутбуке?

Не в практическом смысле, подразумеваемом локальными туториалами по инференсу. Официальные материалы указывают на мульти‑GPU и мульти‑нодовые развёртывания, а размеры моделей далеко выходят за рамки обычного потребительского бюджета памяти. Ноутбук подходит для доступа через API, но не для содержательного самохостинга V4‑Pro или даже комфортного запуска V4‑Flash.

Что лучше: V4‑Pro или V4‑Flash?

V4‑Pro — более сильная модель для рассуждений, программирования и исследований. V4‑Flash — лучший дефолт для скорости, пропускной способности и меньшей стоимости. Официальный релиз и таблица бенчмарков приводят к одному и тому же выводу.

Обязателен ли CometAPI при локальном развёртывании?

Нет. Это необязательный продакшен‑слой. Собственный API DeepSeek работает напрямую, а локальный самохостинг возможен через официальный путь инференса. CometAPI становится привлекательным, когда вы хотите один код‑путь для многих провайдеров моделей, контроль затрат и простую смену семейств моделей.

Заключение

DeepSeek V4 — это не просто очередной релиз модели. Это система для длинного контекста и агентных сценариев с открытыми весами, официальным API и явным делением на высокопроизводительную модель рассуждений и более доступную модель с высокой пропускной способностью. Последние официальные новости важны, потому что меняют дерево решений: локальное развёртывание возможно, но только для команд с серьёзной GPU‑инфраструктурой; доступ через API доступен немедленно; а CometAPI — разумная рекомендация, когда переносимость и дисциплина затрат важнее владения стеком инференса.

Если задача сложна и железо есть — начните с V4‑Pro. Если задача объёмная — начните с V4‑Flash. Если цель — быстро поставить продукт и сохранить свободу выбора моделей — используйте API‑слой и держите код переносимым. Это наиболее защищённая производственная стратегия прямо сейчас.

Практические следующие шаги:

Оцените своё железо и начните с квантизованной V4‑Flash через Ollama или LM Studio.
Поэкспериментируйте с приведёнными примерами кода и сравните с вашими нагрузками.
Изучайте кванты GGUF и оптимизации сообщества по мере их зрелости после релиза.
Для продакшена или тяжёлых задач интегрируйте CometAPI для надёжного, экономичного доступа к полноценным V4‑Pro/Flash без управления железом.

TR