TR
Практичный способ запустить DeepSeek V4 локально — использовать официальные открытые веса с высокопроизводительным стеком сервинга вроде vLLM, а затем открыть модель через локальную конечную точку, совместимую с OpenAI. В текущих публичных материалах DeepSeek описаны две модели семейства V4: DeepSeek-V4-Pro с 1.6T общих параметров / 49B активных и DeepSeek-V4-Flash с 284B общих / 13B активных, обе с контекстом 1M токенов и тремя режимами рассуждений. Текущие примеры локального развёртывания vLLM нацелены на 8× B200/B300 для Pro и 4× B200/B300 для Flash. Если у вас нет подобного оборудования, более практичен размещённый вариант вроде CometAPI.
24 апреля 2026 года DeepSeek AI произвела сенсацию, выпустив превью DeepSeek-V4 с двумя мощными моделями класса Mixture-of-Experts (MoE): DeepSeek-V4-Pro (1.6T общих параметров, 49B активных) и DeepSeek-V4-Flash (284B общих, 13B активных). Обе поддерживают нативное окно контекста в 1 миллион токенов — прорыв для анализа длинных документов, агентных рабочих процессов, работы с огромными кодовыми базами и масштабного RAG.
Обученная на более чем 32 трлн токенов и оснащённая архитектурными инновациями, такими как гибридный Compressed Sparse Attention (CSA) + Heavily Compressed Attention (HCA), manifold-constrained hyper-connections (mHC) и эффективная работа с памятью, V4 достигает до 73% сокращения FLOPs инференса и 90% меньшего KV‑кэша для 1M контекста по сравнению с V3.2. Производительность сопоставима с топовыми закрытыми моделями при сохранении открытых весов (лицензия MIT) и исключительной экономичности через API.
Запуск этих моделей локально даёт непревзойдённую приватность, нулевые регулярные расходы на API (кроме железа), офлайн‑возможности и полную кастомизацию. Однако их масштаб создаёт вызовы: полные веса V4-Pro превышают 800 ГБ загрузки, а инференс требует значительного железа или агрессивной квантизации.
Можно ли действительно запускать DeepSeek V4 локально?
Да, но «локально» здесь означает совсем не то же самое, что запуск 7B‑модели на ноутбуке. Материалы DeepSeek и пост о поддержке vLLM указывают на крупные мульти‑GPU системы: V4-Pro — это модель с 1.6T параметров и 49B активных параметров, а V4-Flash — 284B общих / 13B активных. Официальные примеры развёртывания от vLLM написаны для 8× B200/B300 на Pro и 4× B200/B300 на Flash. Это самый ясный практический сигнал, что DeepSeek V4 — локальное развёртывание уровня предприятия, а не эксперимент на рабочем столе.
Причина в масштабе. DeepSeek заявляет, что V4 поддерживает контекст 1M токенов, а в техническом отчёте говорится, что V4-Pro использует лишь 27% FLOPs инференса на один токен и 10% KV‑кэша по сравнению с DeepSeek‑V3.2 при 1M контексте. vLLM дополнительно объясняет, что с bf16 KV‑кэшем DeepSeek V4 использует 9.62 GiB KV‑кэша на последовательность при 1M контексте, что примерно в 8.7 раза меньше, чем оценочные 83.9 GiB для сравнимого стека DeepSeek‑V3.2‑стиля. Иными словами, V4 значительно эффективнее предыдущих поколений, но один миллион токенов остаётся огромной системной задачей.
Таблица сравнения архитектуры: DeepSeek V4 vs V3 и конкуренты
| Model | Total Params | Active Params | Context Length | KV Cache Efficiency (1M) | Approx. Download | Inference Focus |
|---|---|---|---|---|---|---|
| DeepSeek-V3.2 | 671B | ~37B | 128K | Базовый уровень | ~несколько сотен GB | Сбалансированный |
| DeepSeek-V4-Flash | 284B | 13B | 1M | ~7-10% от V3 | ~160GB | Скорость и эффективность |
| DeepSeek-V4-Pro | 1.6T | 49B | 1M | ~10% от V3 | ~865GB | Максимальные возможности |
| Llama 4 70B (dense) | 70B | 70B | 128K-1M+ | Выше | Меньше | Ориентирован на потребителей |
| GPT-5.5 (est. closed) | ~2T? | N/A | High | Собственная | N/A | Только в облаке |
MoE‑дизайн V4 активирует лишь долю параметров на токен, удерживая вычисления ближе к плотной модели 13B–49B, одновременно пользуясь знаниями более крупной сети.
Какую модель Deepseek V4 выбрать?
Для большинства локальных развёртываний лучше начать с DeepSeek‑V4‑Flash. V4‑Flash даёт рассуждения, близкие к Pro на более простых агентных задачах, оставаясь быстрее и дешевле.
Используйте DeepSeek‑V4‑Pro, когда важнее абсолютные возможности, чем эффективность. Pro — более сильная модель для сложных рассуждений, программирования и агентных задач. Таблицы бенчмарков показывают почему: в официальном сравнении V4‑Pro‑Base достигает 90.1 на MMLU, 76.8 на HumanEval и 51.5 на LongBench‑V2, тогда как V4‑Flash‑Base набирает 88.7, 69.5 и 44.7 соответственно. Обе сильны; Pro просто поднимает планку, когда вам нужен максимально возможный результат.
| Metric | DeepSeek-V3.2-Base | DeepSeek-V4-Flash-Base | DeepSeek-V4-Pro-Base |
|---|---|---|---|
| Total parameters | 671B | 284B | 1.6T |
| Activated parameters | 37B | 13B | 49B |
| AGIEval (EM) | 80.1 | 82.6 | 83.1 |
| MMLU-Pro (EM) | 65.5 | 68.3 | 73.5 |
| HumanEval (Pass@1) | 62.8 | 69.5 | 76.8 |
| LongBench-V2 (EM) | 40.2 | 44.7 | 51.5 |
Этого простого чтения таблицы достаточно для планирования продукта. Flash — не урезанная «игрушечная» модель; это серьёзный ассистент для длинного контекста с меньшими затратами. Pro — модель, которую стоит тестировать первой, когда задача сложная, требовательная к состоянию или близка к производственному знанию‑процессу.
Рекомендуемый локальный стек
1) vLLM для продакшен‑сервинга
Сегодня сильнейший официальный вариант — vLLM. Команда vLLM сообщает, что теперь поддерживает семейство DeepSeek V4 и предоставляет конкретные команды запуска на одном узле для обеих моделей. Их пост характеризует V4 как семейство длинного контекста, предназначенное для задач до одного миллиона токенов, и описывает работы по реализации гибридного KV‑кэша, фьюзинга ядер и разнесённого сервинга.
Для V4‑Pro пример vLLM нацелен на 8× B200 или 8× B300. Для V4‑Flash пример нацелен на 4× B200 или 4× B300. Команды также используют --kv-cache-dtype fp8, --block-size 256, --enable-expert-parallel и специфичные для DeepSeek флаги парсинга вроде --tokenizer-mode deepseek_v4, --tool-call-parser deepseek_v4 и --reasoning-parser deepseek_v4. Эта комбинация — весьма сильная подсказка того, как DeepSeek предполагает серьёзный самохостинг.
# DeepSeek-V4-Flash on a supported multi-GPU hostdocker run --gpus all \ --ipc=host -p 8000:8000 \ -v ~/.cache/huggingface:/root/.cache/huggingface \ vllm/vllm-openai:deepseekv4-cu130 deepseek-ai/DeepSeek-V4-Flash \ --trust-remote-code \ --kv-cache-dtype fp8 \ --block-size 256 \ --enable-expert-parallel \ --data-parallel-size 4 \ --compilation-config '{"cudagraph_mode":"FULL_AND_PIECEWISE", "custom_ops":["all"]}' \ --attention_config.use_fp4_indexer_cache=True \ --tokenizer-mode deepseek_v4 \ --tool-call-parser deepseek_v4 \ --enable-auto-tool-choice \ --reasoning-parser deepseek_v4
Чтобы переключиться на V4‑Pro, сохраните тот же шаблон и поменяйте модель на deepseek-ai/DeepSeek-V4-Pro, с размером data‑parallel согласно примеру для Pro в посте vLLM. Это самый простой способ начать локальное тестирование без переизобретения сервинг‑стека.
2) Вспомогательные инструменты инференса в репозитории DeepSeek
В Deepseek V4 нет чат‑шаблона в формате Jinja. Вместо этого предусмотрена выделенная папка encoding с Python‑скриптами и тестами для преобразования сообщений в стиле OpenAI в входные строки модели и парсинга вывода. На той же странице указано обращаться к папке inference для деталей локального развёртывания, включая конвертацию весов и интерактивные демо чата. Это полезно, если вы хотите собрать кастомный фронтенд или жёстко контролировать форматирование подсказок.
3) CometAPI как практичный план «Б»
Если у вас нет железа уровня B200/B300, разумный выбор — размещённый маршрут. CometAPI заявляет о едином API‑ключе для всего, доступе к 500+ AI‑моделям и ценах, на 20–40% ниже, чем у официальных вендоров. Он также публикует выделенные страницы DeepSeek V4, включая DeepSeek‑V4‑Pro и DeepSeek‑V4‑Flash, с примерами интеграции, совместимыми с OpenAI.
Пошагово: как запустить DeepSeek V4 локально
1. Предварительные требования
- OS: предпочтительно Linux (Ubuntu 22.04/24.04) для лучшей поддержки CUDA/ROCm. Windows через WSL2 или нативно. macOS с Metal (ограничено для самых крупных моделей).
- Драйверы: NVIDIA CUDA 12.4+ (или новее). AMD ROCm для карт Radeon.
- Python 3.11+, Git и достаточно места на диске.
- Аккаунт Hugging Face для моделей с ограниченным доступом (если применимо):
huggingface-cli login.
2. Самый простой путь: Ollama или LM Studio (для начинающих)
Ollama обеспечивает самый простой опыт через CLI и WebUI. По состоянию на конец апреля 2026 года полная поддержка V4 может потребовать кастомных Modelfiles или комьюнити‑тегов, но квантизованные версии V4‑Flash быстро появляются.
Установка Ollama (Linux/macOS):
curl -fsSL https://ollama.com/install.sh | sh
ollama --version
Запуск совместимой модели (начните с меньшей или проверьте теги V4):
ollama pull deepseek-v4-flash:q4_0 # Example quantized tag; check ollama.com/library or community
ollama run deepseek-v4-flash:q4_0
Для кастома: создайте Modelfile (text):
FROM ./DeepSeek-V4-Flash-GGUF-Q4.gguf
TEMPLATE """{{ .Prompt }}"""
PARAMETER num_ctx 32768 # Start conservative; increase as hardware allows up to 1M with sufficient RAM/VRAM
Затем выполните ollama create my-v4-flash -f Modelfile.
LM Studio: GUI‑альтернатива. Скачайте с lmstudio.ai, найдите/просмотрите на HF квантизации DeepSeek‑V4 в GGUF (в стиле TheBloke или официальные), загрузите и общайтесь. Отлично подходит для экспериментов с ползунками контекста и выгрузкой на GPU.
Open WebUI: поверх Ollama для интерфейса, похожего на ChatGPT (Bash):
docker run -d -p 8080:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main
Доступ по адресу http://localhost:8080.
3. Продвинутый вариант: Hugging Face + vLLM или SGLang (высокая производительность)
Для максимальной скорости и поддержки 1M контекста используйте vLLM (отличная поддержка MoE и PagedAttention):
Шаг 1: Подготовьте окружение
Начните с установки актуального стека vLLM и убедитесь, что ваши CUDA, драйверы и топология GPU соответствуют модели, которую вы хотите запускать. Рекомендуется temperature = 1.0 и top_p = 1.0 для локального развёртывания, а для Think Max рекомендуется окно контекста не менее 384K токенов. Это полезная отправная точка, будь то чат‑приложение, помощник по коду или агентный рабочий процесс.
Установка:
Bash
pip install -U "vllm>=0.9.0" # Check latest for V4 compatibility
Загрузка модели (используйте CLI для больших файлов):
Bash
pip install -U "huggingface_hub[cli]"
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash --local-dir ./DeepSeek-V4-Flash
Сервинг через vLLM (пример для Flash на 2 GPU):
Шаг 2: Запустите сервер модели
После поднятия контейнера откройте модель как локальную конечную точку, совместимую с OpenAI. Это позволит переиспользовать ваш существующий код приложения и менять бэкэнды без изменения архитектуры приложения.
Сервинг через vLLM (пример для Flash на 2 GPU):
Python
from vllm import LLM, SamplingParams
llm = LLM(
model="deepseek-ai/DeepSeek-V4-Flash",
tensor_parallel_size=2, # Adjust to your GPU count
max_model_len=1048576, # 1M context (hardware permitting)
dtype="auto", # or "fp8" / "bfloat16"
quantization="gptq" if using quantized weights else None,
gpu_memory_utilization=0.9
)
sampling_params = SamplingParams(temperature=0.7, top_p=0.95, max_tokens=4096)
outputs = llm.generate(["Explain the architecture of DeepSeek V4 in detail."], sampling_params)
for output in outputs:
print(output.outputs[0].text)
Для серверного режима (API, совместимое с OpenAI):
Bash
vllm serve deepseek-ai/DeepSeek-V4-Flash \
--tensor-parallel-size 2 \
--max-model-len 1048576 \
--port 8000
Затем обращайтесь через клиент OpenAI, задав base_url="http://localhost:8000/v1".
Альтернатива SGLang для потенциально лучшей производительности на длинном контексте:
Bash
pip install "sglang[all]>=0.4.0"
python -m sglang.launch_server --model-path deepseek-ai/DeepSeek-V4-Flash --port 30000
Шаг 3: Обращение к локальной конечной точке из Python
from openai import OpenAI
# Adjust the base URL if your vLLM server is bound differently.
client = OpenAI(
base_url="http://localhost:8000/v1",
api_key="EMPTY",
)
response = client.chat.completions.create(
model="deepseek-ai/DeepSeek-V4-Flash",
messages=[
{"role": "system", "content": "You are a precise, technical assistant."},
{"role": "user", "content": "Explain the difference between V4-Pro and V4-Flash."},
],
temperature=1.0,
top_p=1.0,
)
print(response.choices[0].message.content)
Ожидания по производительности и советы по оптимизации
- Токенов/с: На RTX 4090 с Q4 Flash: 15–40+ т/с при контексте 8K–32K (зависит от реализации). Падает на 128K+ из‑за внимания/KV, но эффективности V4 помогают. Мульти‑GPU хорошо масштабируется за счёт tensor/pipeline parallelism.
- Оптимизации:
- Используйте FlashAttention‑3 или PagedAttention vLLM.
- Спекулятивное декодирование даёт 1.5–2× ускорение.
- Сокращение или компрессия контекста.
- Мониторьте
nvidia-smi; используйтеgpu_memory_utilization. - Для CPU: llama.cpp с
--n-gpu-layers -1(полная выгрузка на GPU, если возможно) или чистый CPU с большим объёмом RAM.
Сравнивайте пропускную способность инструментами вроде llama-bench или простыми скриптами тайминга. Реальная производительность зависит от длины подсказки, длины генерации и железа.
Сложности и ограничения локального развёртывания V4
- Ресурсоёмкость: даже Flash требует приличного железа для комфортных скоростей на длинном контексте.
- Компромиссы квантизации: более низкие биты могут снижать качество рассуждений, особенно на сложных задачах — валидируйте бенчмарками вроде SWE‑Bench, MMLU или вашими отраслевыми оценками.
- Зрелость софта: как новое превью (апрель 2026), полностью оптимизированная поддержка во всех бэкэндах ещё разворачивается. Проверяйте GitHub Issues vLLM, llama.cpp и HF.
- Скачивание/хранилище: модели терабайтного масштаба требуют быстрого интернета и хранения.
- Энергопотребление и тепло: топовые конфигурации потребляют много электричества.
Для многих пользователей лучше работают гибридные подходы: запускать мелкие задачи локально, а тяжёлые рассуждения на 1M контексте выносить в облако по мере необходимости.
Когда локального недостаточно: бесшовная интеграция с CometAPI
Для многих команд умнее не пытаться во что бы то ни стало разворачивать локально. Хотя локальный запуск превосходит по приватности и контролю, масштабирование до продакшена, обработка пиковых нагрузок или доступ к полной неквантизованной производительности без массивных инвестиций в железо часто говорят в пользу надёжного API.
CometAPI предоставляет унифицированный, совместимый с OpenAI шлюз к моделям DeepSeek — включая последнюю серию Deeppseek V4 — а также десятки других топовых LLM (Claude, GPT, Llama, Qwen, Grok и др.).
Где API выигрывает у локального развёртывания
Текущие модели Deepseek V4 доступны через конечные точки в стилях OpenAI и Anthropic с базовыми URL, которые остаются стабильными, пока меняется имя модели. В документации также говорится, что названия моделей deepseek-chat и deepseek-reasoner со временем будут выведены из обращения и сопоставлены с поведением V4‑Flash на переходный период.
Это важно, потому что локальное развёртывание несёт операционные затраты. Если для нагрузки не критична локация данных или команде важнее быстро получить результат, путь через API обычно рациональнее. V4‑Flash стоит $0.14 за 1M входных токенов при промахе кэша, $0.0028 за 1M входных токенов при попадании в кэш и $0.28 за 1M выходных токенов. На той же странице указано, что V4‑Pro в настоящее время со скидкой 75% до 31 мая 2026 года: $0.435 за 1M входных токенов при промахе кэша и $0.87 за 1M выходных токенов.
Лучшая альтернатива Deepseek: где уместен CometAPI
CometAPI полезен, когда цель — не просто один раз вызвать DeepSeek V4, а построить стек, который быстро переключает модели. CometAPI говорит, что предоставляет один API‑ключ для 500+ моделей, API, совместимый с OpenAI, аналитику использования и цены ниже, чем у официальных поставщиков. Он также позиционируется как способ избежать привязки к вендору и управлять расходами между несколькими провайдерами.
Это делает CometAPI сильной рекомендацией для команд, которые сравнивают V4‑Pro с V4‑Flash или сопоставляют DeepSeek с другими передовыми моделями в одном приложении. Вместо того чтобы каждый раз подключать новую интеграцию при смене модели, приложение может сохранить стабильный клиент в стиле OpenAI и менять только значение model и base URL. Гайд CometAPI по V4 показывает именно такой подход.
Быстрый старт с CometAPI для DeepSeek V4:
- Используйте SDK OpenAI:
- Зарегистрируйтесь/войдите на CometAPI.com.
- Сгенерируйте API‑ключ в консоли.
Вот размещённая версия того же паттерна интеграции:
from openai import OpenAIclient = OpenAI( base_url="https://api.cometapi.com", api_key="YOUR_COMETAPI_KEY",)response = client.chat.completions.create( model="deepseek-v4-pro", messages=[ {"role": "system", "content": "You are a senior coding assistant."}, {"role": "user", "content": "Review this architecture for bottlenecks."} ], stream=False, extra_body={ "thinking": {"type": "enabled"}, "reasoning_effort": "high" })print(response.choices[0].message.content)
Ценность этого маршрута — операционная, а не риторическая. Он снимает заботы об инфраструктуре, сохраняет переносимость клиентского кода и даёт команде одно место для тестирования стоимости, задержек и качества на нескольких моделях. CometAPI также утверждает, что отслеживает траты, задержки и объёмы вызовов — полезно, когда прототип становится продакшен‑нагрузкой.
Когда выбрать локально, API или CometAPI
| Deployment path | Best for | Why it makes sense | Trade-off |
|---|---|---|---|
| Local multi-GPU | Частные нагрузки, исследования, офлайн‑эксперименты | Полный контроль, открытые веса, официальный путь инференса, лицензия MIT | Тяжёлые требования к GPU и больше операционной работы |
| Official DeepSeek API | Самый быстрый доступ | Стабильные базовые URL, совместимость с OpenAI/Anthropic, отсутствие бремени самохостинга | Зависимость от провайдера и стоимость по токенам |
| CometAPI | Команды, строящие мультимодельные продукты | Один ключ, роутинг, совместимый с OpenAI, заявленная экономия, аналитика | Ещё один слой абстракции в стеке |
Локальный путь оправдан, когда контроль важнее удобства. Путь через API оправдан, когда скорость и простота важнее владения стеком инференса. CometAPI — средний слой, когда команде нужны переносимость и контроль затрат без постоянной переделки интеграции.
FAQ
Может ли DeepSeek V4 работать на ноутбуке?
Не в практическом смысле, подразумеваемом локальными туториалами по инференсу. Официальные материалы указывают на мульти‑GPU и мульти‑нодовые развёртывания, а размеры моделей далеко выходят за рамки обычного потребительского бюджета памяти. Ноутбук подходит для доступа через API, но не для содержательного самохостинга V4‑Pro или даже комфортного запуска V4‑Flash.
Что лучше: V4‑Pro или V4‑Flash?
V4‑Pro — более сильная модель для рассуждений, программирования и исследований. V4‑Flash — лучший дефолт для скорости, пропускной способности и меньшей стоимости. Официальный релиз и таблица бенчмарков приводят к одному и тому же выводу.
Обязателен ли CometAPI при локальном развёртывании?
Нет. Это необязательный продакшен‑слой. Собственный API DeepSeek работает напрямую, а локальный самохостинг возможен через официальный путь инференса. CometAPI становится привлекательным, когда вы хотите один код‑путь для многих провайдеров моделей, контроль затрат и простую смену семейств моделей.
Заключение
DeepSeek V4 — это не просто очередной релиз модели. Это система для длинного контекста и агентных сценариев с открытыми весами, официальным API и явным делением на высокопроизводительную модель рассуждений и более доступную модель с высокой пропускной способностью. Последние официальные новости важны, потому что меняют дерево решений: локальное развёртывание возможно, но только для команд с серьёзной GPU‑инфраструктурой; доступ через API доступен немедленно; а CometAPI — разумная рекомендация, когда переносимость и дисциплина затрат важнее владения стеком инференса.
Если задача сложна и железо есть — начните с V4‑Pro. Если задача объёмная — начните с V4‑Flash. Если цель — быстро поставить продукт и сохранить свободу выбора моделей — используйте API‑слой и держите код переносимым. Это наиболее защищённая производственная стратегия прямо сейчас.
Практические следующие шаги:
- Оцените своё железо и начните с квантизованной V4‑Flash через Ollama или LM Studio.
- Поэкспериментируйте с приведёнными примерами кода и сравните с вашими нагрузками.
- Изучайте кванты GGUF и оптимизации сообщества по мере их зрелости после релиза.
- Для продакшена или тяжёлых задач интегрируйте CometAPI для надёжного, экономичного доступа к полноценным V4‑Pro/Flash без управления железом.
