TR
DeepSeek V4 をローカルで実行する現実的な方法は、vLLM のような高性能なサービングスタックと公式のオープンソースウェイトを組み合わせ、モデルをローカルの OpenAI 互換エンドポイントとして公開することです。DeepSeek の現在の公開資料では、V4 ファミリーの 2 つのモデルを説明しています:DeepSeek-V4-Pro(総パラメータ 1.6T / 有効 49B)と DeepSeek-V4-Flash(総パラメータ 284B / 有効 13B)。どちらも100万トークンのコンテキストと 3 つの推論モードをサポートします。vLLM の現在のローカル展開例は、Pro で 8× B200/B300、Flash で 4× B200/B300 を対象としています。そのようなハードウェアがない場合、CometAPI のようなホスト型のフォールバックがより現実的な選択肢です。
2026年4月24日、DeepSeek AI はDeepSeek-V4のプレビュー版を発表し、大きな話題を呼びました。2 つの強力な Mixture-of-Experts(MoE)モデル、DeepSeek-V4-Pro(総 1.6T、稼働 49B)と DeepSeek-V4-Flash(総 284B、稼働 13B)を搭載しています。どちらもネイティブの100万トークン・コンテキストウィンドウをサポートしており、長文ドキュメント解析、エージェント型ワークフロー、巨大なコードベースでのコーディング、スケールでの RAG(検索拡張生成)においてゲームチェンジャーです。
32兆トークン超で学習され、hybrid Compressed Sparse Attention(CSA)+ Heavily Compressed Attention(HCA)、manifold-constrained hyper-connections(mHC)、効率的なメモリ処理などのアーキテクチャ的革新を取り入れた V4 は、1M コンテキストにおいて V3.2 と比べて推論 FLOPs を最大 73% 削減し、KV キャッシュのフットプリントを 90% 低減します。性能はトップクラスのクローズドソースモデルに匹敵しつつ、オープンウェイト(MIT ライセンス)であり API 経由でも非常にコスト効率が高い点が魅力です。
これらのモデルをローカルで動かすことは、比類ないプライバシー、ハードウェア以外の継続的な API コストゼロ、オフライン能力、完全なカスタマイズ性を提供します。ただし、そのスケールには課題があります:V4-Pro のフルウェイトはダウンロードが 800GB 超であり、推論には相当なハードウェアまたは積極的な量子化が必要です。
DeepSeek V4 は本当にローカルで動作するのか?
はい。ただし、ここでの「ローカル」は 7B モデルをノート PC で動かすこととはまったく異なる意味です。DeepSeek の資料と vLLM のサポート投稿は、大規模なマルチ GPU システムを指しています:V4-Pro は 1.6T パラメータで有効 49B、V4-Flash は 総 284B / 有効 13B。vLLM の公式デプロイ例は、Pro で 8× B200/B300、Flash で 4× B200/B300 を前提として書かれています。これは、DeepSeek V4 がエンタープライズ級のローカル展開であり、気軽なデスクトップ実験ではないという最も明確な実用的サインです。
この規模には理由があります。DeepSeek は V4 が100万トークンのコンテキストウィンドウをサポートすると述べており、技術レポートでは V4-Pro が 1M コンテキストで DeepSeek-V3.2 と比べて単一トークン推論 FLOPs の 27%、KV キャッシュの 10%しか使用しないと主張しています。さらに vLLM は、bf16 の KV キャッシュで V4 が 1M コンテキストあたりシーケンスごとに 9.62 GiB の KV キャッシュを使用すると説明しています。これは、同等の DeepSeek-V3.2 スタックの推定83.9 GiBと比較して約 8.7 倍小さいことを意味します。言い換えれば、V4 は以前の世代より劇的に効率的ですが、100万トークンは依然として巨大なシステム課題です。
アーキテクチャ比較表:DeepSeek V4 と V3、および競合
| モデル | 総パラメータ数 | 有効パラメータ数 | コンテキスト長 | KV キャッシュ効率(1M) | 概算ダウンロードサイズ | 推論の特化方向 |
|---|---|---|---|---|---|---|
| DeepSeek-V3.2 | 671B | ~37B | 128K | ベースライン | ~数百 GB | バランス |
| DeepSeek-V4-Flash | 284B | 13B | 1M | ~V3 の 7–10% | ~160GB | 速度と効率 |
| DeepSeek-V4-Pro | 1.6T | 49B | 1M | ~V3 の 10% | ~865GB | 最大能力 |
| Llama 4 70B(デンス) | 70B | 70B | 128K–1M+ | 高い | より小さい | 一般消費者向け |
| GPT-5.5(推定・クローズド) | ~2T? | N/A | 高 | プロプライエタリ | N/A | クラウド専用 |
V4 の MoE 設計は、トークンごとに有効化されるパラメータを一部に限定することで、計算量を 13B–49B のデンスモデルに近い範囲に抑えつつ、より大きなネットワークの知識の恩恵を受けられるようにしています。
どの DeepSeek V4 モデルを使うべきか?
ほとんどのローカル展開においては、DeepSeek-V4-Flash がより良い出発点です。V4-Flash は、よりシンプルなエージェントタスクでは Pro に近い推論を実現しながら、より高速かつ経済的です。
効率よりも絶対的な能力を重視する場合は DeepSeek-V4-Pro を使用します。Pro は、より難しい推論、コーディング、エージェントタスクにおいて強力です。ベンチマーク表がそれを示しています。公式比較では、V4-Pro-Base が MMLU 90.1、HumanEval 76.8、LongBench-V2 51.5 に到達し、V4-Flash-Base はそれぞれ 88.7、69.5、44.7 です。どちらも強力ですが、最高の結果が必要なときは Pro がより高い性能を押し上げます。
| 指標 | DeepSeek-V3.2-Base | DeepSeek-V4-Flash-Base | DeepSeek-V4-Pro-Base |
|---|---|---|---|
| 総パラメータ数 | 671B | 284B | 1.6T |
| 有効パラメータ数 | 37B | 13B | 49B |
| AGIEval(EM) | 80.1 | 82.6 | 83.1 |
| MMLU-Pro(EM) | 65.5 | 68.3 | 73.5 |
| HumanEval(Pass@1) | 62.8 | 69.5 | 76.8 |
| LongBench-V2(EM) | 40.2 | 44.7 | 51.5 |
この表を素直に読めばプロダクト計画に十分です。Flash は切り詰められた玩具モデルではなく、低コストで使える本格的な長コンテキストアシスタントです。Pro は、課題が難しく、状態管理が必要で、実運用に近い知識ワークフローの場合に最初に試すべきモデルです。
推奨ローカルスタック
1) プロダクション向けサービングには vLLM
現時点で最も強力な公式オプションは vLLM です。vLLM チームはDeepSeek V4 ファミリーのサポートを表明し、両モデルの単一ノード起動コマンドを具体的に提供しています。投稿では、V4 を 100万トークンまでのタスク向けに設計された長コンテキストモデルファミリーとして位置づけ、ハイブリッド KV キャッシュ、カーネル融合、分離型サービングの実装に必要な作業について説明しています。
V4-Pro の例は 8× B200 または 8× B300 を対象としており、V4-Flash の例は 4× B200 または 4× B300 を対象としています。コマンドでは --kv-cache-dtype fp8、--block-size 256、--enable-expert-parallel のほか、--tokenizer-mode deepseek_v4、--tool-call-parser deepseek_v4、--reasoning-parser deepseek_v4 といった DeepSeek 固有のパーシングフラグが使われています。この組み合わせは、DeepSeek が本格的なセルフホスティングをどのように実現してほしいかを強く示唆しています。
# サポート対象のマルチGPUホストで DeepSeek-V4-Flashdocker run --gpus all \ --ipc=host -p 8000:8000 \ -v ~/.cache/huggingface:/root/.cache/huggingface \ vllm/vllm-openai:deepseekv4-cu130 deepseek-ai/DeepSeek-V4-Flash \ --trust-remote-code \ --kv-cache-dtype fp8 \ --block-size 256 \ --enable-expert-parallel \ --data-parallel-size 4 \ --compilation-config '{"cudagraph_mode":"FULL_AND_PIECEWISE", "custom_ops":["all"]}' \ --attention_config.use_fp4_indexer_cache=True \ --tokenizer-mode deepseek_v4 \ --tool-call-parser deepseek_v4 \ --enable-auto-tool-choice \ --reasoning-parser deepseek_v4
V4-Pro に切り替えるには、同じパターンを維持したままモデルを deepseek-ai/DeepSeek-V4-Pro に変更し、データ並列サイズは vLLM の投稿にある Pro の例へ合わせます。これが、サービングスタックを再発明せずにローカルでテストを始める最も簡単な方法です。
2) DeepSeek リポジトリの推論ヘルパー
DeepSeek V4 には Jinja 形式のチャットテンプレートが含まれていません。代わりに、OpenAI スタイルのメッセージをモデル入力文字列へ変換し、出力をパースするための Python スクリプトとテストケースを備えた専用の encoding フォルダが提供されています。同じページでは、ローカル展開の詳細(ウェイト変換やインタラクティブチャットデモを含む)について inference フォルダを参照するよう記載されています。これは、カスタムフロントエンドを構築したり、プロンプト整形を厳密に制御したい場合に有用です。
3) 実用的なバックアッププランとしての CometAPI
B200/B300 クラスのハードウェアがない場合は、ホスト型ルートが賢明な選択です。CometAPI は1 つの API キーですべて、500+ の AI モデルへのアクセス、そして公式ベンダー料金より 20–40% 安価な価格を提供すると述べています。さらに DeepSeek-V4-Pro や DeepSeek-V4-Flash を含む DeepSeek V4 の専用ページを公開し、OpenAI 互換の統合例も掲載しています。
ステップバイステップ:DeepSeek V4 をローカルで実行する方法
1. 前提条件
- OS:Linux(Ubuntu 22.04/24.04)が最適(CUDA/ROCm のサポート)。Windows は WSL2 またはネイティブ。macOS は Metal(最大モデルでは制限あり)。
- ドライバ:NVIDIA CUDA 12.4+(または最新)。AMD は Radeon 向け ROCm。
- Python 3.11+、Git、十分なディスク容量。
- Hugging Face アカウント(ゲート付きモデルの場合):huggingface-cli login。
2. 最も簡単な方法:Ollama または LM Studio(初心者向け)
Ollama は最もシンプルな CLI と WebUI 体験を提供します。2026年4月末時点では、完全な V4 サポートにはカスタム Modelfile やコミュニティタグが必要な場合がありますが、V4-Flash の量子化版は急速に登場しています。
Ollama のインストール(Linux/macOS):
curl -fsSL https://ollama.com/install.sh | sh
ollama --version
互換モデルの実行(小さめから開始、または V4 タグを確認):
ollama pull deepseek-v4-flash:q4_0 # 量子化タグの例。ollama.com/library またはコミュニティを確認
ollama run deepseek-v4-flash:q4_0
カスタム:Modelfile を作成(テキスト):
FROM ./DeepSeek-V4-Flash-GGUF-Q4.gguf
TEMPLATE """{{ .Prompt }}"""
PARAMETER num_ctx 32768 # まずは控えめに。ハードウェアが許す範囲で増やし、十分な RAM/VRAM があれば最大 1M まで
その後、ollama create my-v4-flash -f Modelfile を実行。
LM Studio:GUI の代替。lmstudio.ai からダウンロードし、Hugging Face で DeepSeek-V4 の GGUF 量子化(TheBloke スタイルや公式)を検索・閲覧、ロードしてチャット。コンテキストスライダーや GPU オフロードでの実験に最適。
Open WebUI:Ollama の上に重ねて ChatGPT 風のインターフェースを提供(Bash):
docker run -d -p 8080:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main
http://localhost:8080 でアクセス。
3. 上級者向け:Hugging Face + vLLM または SGLang(高性能)
最大の速度と 1M コンテキストサポートには vLLM を使用します(MoE と PagedAttention のサポートに優れています)。
ステップ 1: 環境を準備
まず最新の vLLM スタックをインストールし、CUDA、ドライバ、GPU トポロジが実行したいモデルに一致していることを確認します。ローカル展開では temperature = 1.0、top_p = 1.0 が推奨され、Think Max では少なくとも 384K トークンのコンテキストウィンドウが推奨されています。これは、チャットアプリ、コーディングアシスタント、エージェントワークフローを構築する場合の有用な出発点です。
インストール:
Bash
pip install -U "vllm>=0.9.0" # 最新の V4 互換性を確認
モデルのダウンロード(大容量ファイルは CLI を推奨):
Bash
pip install -U "huggingface_hub[cli]"
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash --local-dir ./DeepSeek-V4-Flash
vLLM での提供(2 GPU での Flash 例):
ステップ 2: モデルサーバーを起動
コンテナが起動したら、モデルを OpenAI 互換のローカルエンドポイントとして公開します。これにより既存のアプリケーションコードを簡単に再利用でき、バックエンドを変更してもアプリアーキテクチャを変える必要がありません。
vLLM での提供(2 GPU での Flash 例):
Python
from vllm import LLM, SamplingParams
llm = LLM(
model="deepseek-ai/DeepSeek-V4-Flash",
tensor_parallel_size=2, # GPU 数に合わせて調整
max_model_len=1048576, # 1M コンテキスト(ハードウェアが許せば)
dtype="auto", # または "fp8" / "bfloat16"
quantization="gptq" if using quantized weights else None,
gpu_memory_utilization=0.9
)
sampling_params = SamplingParams(temperature=0.7, top_p=0.95, max_tokens=4096)
outputs = llm.generate(["DeepSeek V4 のアーキテクチャを詳細に説明してください。"], sampling_params)
for output in outputs:
print(output.outputs[0].text)
サーバーモード(OpenAI 互換 API)の場合:
Bash
vllm serve deepseek-ai/DeepSeek-V4-Flash \
--tensor-parallel-size 2 \
--max-model-len 1048576 \
--port 8000
その後、OpenAI クライアントで base_url="http://localhost:8000/v1" を指定して問い合わせます。
SGLang:より長コンテキストでの性能が向上する可能性のある代替:
Bash
pip install "sglang[all]>=0.4.0"
python -m sglang.launch_server --model-path deepseek-ai/DeepSeek-V4-Flash --port 30000
ステップ 3: Python からローカルエンドポイントへ問い合わせ
from openai import OpenAI
# vLLM サーバーのバインドが異なる場合は base_url を調整。
client = OpenAI(
base_url="http://localhost:8000/v1",
api_key="EMPTY",
)
response = client.chat.completions.create(
model="deepseek-ai/DeepSeek-V4-Flash",
messages=[
{"role": "system", "content": "あなたは正確で技術的なアシスタントです。"},
{"role": "user", "content": "V4-Pro と V4-Flash の違いを説明してください。"},
],
temperature=1.0,
top_p=1.0,
)
print(response.choices[0].message.content)
性能期待値と最適化のヒント
- Tokens/sec:RTX 4090(Q4 Flash)で 8K–32K コンテキスト時に 15–40+ t/s(実装により変動)。128K+ では Attention/KV の影響で低下するが、V4 の効率化が助けになる。マルチ GPU はテンソル/パイプライン並列で良好にスケール。
- 最適化:
- FlashAttention-3 または vLLM の PagedAttention を使用。
- 予測デコード(Speculative decoding)で 1.5–2 倍の高速化。
- コンテキストのプルーニングや圧縮手法。
nvidia-smiで監視;gpu_memory_utilizationを活用。- CPU の場合:llama.cpp で
--n-gpu-layers -1(可能なら全レイヤーをオフロード)または高 RAM の純 CPU。
セットアップは llama-bench や簡易計測スクリプトでベンチマークしてください。実際のスループットはプロンプト長、生成長、ハードウェアに依存します。
ローカルでの V4 展開における課題と制約
- リソース集約:Flash でも、長コンテキストで快適な速度を得るには相応のハードウェアが必要。
- 量子化のトレードオフ:低ビット化は複雑なタスクで推論品質を下げることがある—SWE-Bench、MMLU、ドメイン固有の評価で検証を。
- ソフトウェアの成熟度:新しいプレビュー版(2026年4月)につき、すべてのバックエンドでの最適化サポートは展開中。vLLM、llama.cpp、HF の GitHub issue を確認。
- ダウンロード/ストレージ:テラバイト級モデルは高速なネットワークとストレージが必要。
- 消費電力と発熱:ハイエンド構成は多くの電力を消費。
多くのユーザーにはハイブリッドアプローチが最適です:小さなタスクはローカルで、100万コンテキストの重い推論は必要に応じてクラウドへオフロード。
ローカルだけでは不足する場合:CometAPI とのシームレス統合
多くのチームにとって、ローカル展開を無理に選ばないことが最善です。ローカル展開はプライバシーとコントロールに優れますが、プロダクションへのスケール、ピーク負荷の処理、巨大ハードウェア投資なしでの非量子化フル性能のアクセスは、信頼できる API のほうが有利なことが多いです。
CometAPI は、DeepSeek モデル(最新の DeepSeek V4 シリーズを含む)および他のトップ LLM(Claude、GPT、Llama、Qwen、Grok など)への統一された OpenAI 互換ゲートウェイを提供します。
API がローカル展開に勝る点
現在の DeepSeek V4 モデルは OpenAI スタイルおよび Anthropic スタイルのエンドポイントで利用可能で、モデル名が変わってもベース URL は安定しています。ドキュメントでは、deepseek-chat と deepseek-reasoner のモデル名は移行期間中に廃止予定で、V4-Flash の挙動へマッピングされると記載されています。
これは、ローカル展開に運用コストが伴うことを意味します。ワークロードがデータレジデンシに敏感でない、またはより迅速な価値創出を優先するチームにとって、API ルートは通常合理的な選択です。V4-Flash はキャッシュミス時の入力 100万トークンあたり $0.14、キャッシュヒット時の入力 100万トークンあたり $0.0028、出力 100万トークンあたり $0.28。さらに同ページによれば、V4-Pro は 2026年5月31日まで 75% 割引で、キャッシュミス時の入力 100万トークンあたり $0.435、出力 100万トークンあたり $0.87 です。
DeepSeek の最善代替:CometAPI の位置づけ
CometAPI は、DeepSeek V4 を一度呼び出すだけでなく、迅速にモデルを切り替えられるスタックを構築したいときに役立ちます。CometAPI は、1 つの API キーで 500+ モデル、OpenAI 互換 API、利用分析、および公式ベンダー料金より低価格を提供すると述べています。また、ベンダーロックインの回避や複数プロバイダにわたる費用管理の手段としても位置づけています。
これは、V4-Pro と V4-Flash の比較評価や、同一アプリケーションで DeepSeek と他の最先端モデルを比較するチームに強く推奨できます。モデルが変わるたびに新しい統合を組むのではなく、アプリケーションは OpenAI スタイルのクライアントを安定的に維持し、model の値とベース URL のみを切り替えればよいのです。CometAPI の V4 ガイドはまさにそのパターンを示しています。
DeepSeek V4 を CometAPI でクイックスタート:
- OpenAI SDK を使用:
- CometAPI.com に登録/ログイン。
- コンソールで API キーを生成。
以下は同じ統合パターンのホスト版です:
from openai import OpenAIclient = OpenAI( base_url="https://api.cometapi.com", api_key="YOUR_COMETAPI_KEY",)response = client.chat.completions.create( model="deepseek-v4-pro", messages=[ {"role": "system", "content": "あなたは上級のコーディングアシスタントです。"}, {"role": "user", "content": "このアーキテクチャのボトルネックをレビューしてください。"} ], stream=False, extra_body={ "thinking": {"type": "enabled"}, "reasoning_effort": "high" })print(response.choices[0].message.content)
このルートの価値は運用面にあります。インフラ作業を排し、クライアントコードを可搬に保ち、費用、レイテンシ、品質を複数モデルでテストするための単一の場を提供します。CometAPI は費用、レイテンシ、コール量の追跡も行うと述べており、プロトタイプがプロダクションワークロードへ移行する際に有用です。
ローカル、公式 API、CometAPI の選びどころ
| デプロイ経路 | 適合用途 | 選ぶ理由 | トレードオフ |
|---|---|---|---|
| ローカル・マルチ GPU | プライベートなワークロード、研究、オフライン実験 | 完全なコントロール、オープンウェイト、公式の推論ワークフロー、MIT ライセンス | 大量の GPU と運用負担が必要 |
| 公式 DeepSeek API | 最速の直接アクセス | 安定したベース URL、OpenAI/Anthropic 互換、セルフホスティング不要 | プロバイダ依存とトークン課金 |
| CometAPI | マルチモデルのプロダクトチーム | 1 つのキー、OpenAI 互換ルーティング、低価格の主張、利用分析 | スタックに抽象化レイヤーが 1 つ増える |
コントロールが利便性より重要な場合はローカルが正当化されます。スピードと簡便さが所有権より重要な場合は API が正当化されます。CometAPI は、毎回統合を作り直さずに可搬性と費用管理を得たいチーム向けの中間レイヤーです。
FAQ
DeepSeek V4 はノート PC で動きますか?
ローカル推論チュートリアルが示唆する実用的な意味では動作しません。公式資料はマルチ GPU/マルチノード展開を示しており、モデルサイズは一般的なコンシューマーのメモリ予算をはるかに超えています。ノート PC は API アクセスには適していますが、V4-Pro や快適な V4-Flash のセルフホスティングには適しません。
どちらが良い:V4-Pro か V4-Flash か?
V4-Pro は推論、コーディング、研究においてより強力です。V4-Flash は速度、スループット、低コストのデフォルトとして優れています。公式リリースとベンチマークは同じ結論を示しています。
ローカル展開に CometAPI は必須ですか?
いいえ。これは任意のプロダクションレイヤーです。DeepSeek の公式 API は直接利用できますし、公式の推論パスを使ってローカルセルフホスティングも可能です。CometAPI は、複数のモデルプロバイダにまたがる単一のコードパス、費用追跡、モデルファミリー間の容易な切り替えを望むときに魅力的です。
結論
DeepSeek V4 は単なるモデルリリースではありません。長コンテキスト、エージェント志向のシステムであり、オープンウェイト、公式 API アクセス、そして高能力モデルと低コストスループットモデルの明確な二分を持ちます。最新の公式情報は意思決定ツリーを変えます:ローカル展開は可能ですが、強力な GPU インフラを持つチーム向けです;API アクセスは即時利用可能です;そして可搬性や費用規律を所有権より重視する場合、CometAPI は合理的な推奨です。
ワークロードが複雑でハードウェアが揃っているなら Pro から始めてください。ボリューム重視なら Flash から始めてください。迅速な出荷とモデル選択の自由を優先するなら API レイヤーを使い、コードを可搬に保ってください。現時点で最も防御可能なプロダクション戦略です。
実行可能な次のステップ:
- ハードウェアを評価し、Ollama または LM Studio で量子化版 V4-Flash から始めましょう。
- 上記のコード例で実験し、ワークロードに対するベンチマークを行いましょう。
- リリース後に成熟していく GGUF 量子化とコミュニティ最適化を探索しましょう。
- プロダクションや重負荷用途では、CometAPI を統合して、ハードウェア管理なしに V4-Pro/Flash へ確実かつコスト効率よくアクセスしましょう。
