DeepSeek-V3.1は、DeepSeekが2025年XNUMX月にリリースしたハイブリッドMixture-of-Experts(MoE)チャットモデルであり、 2つの推論モード 高速な「非思考」モードと、意図的な「思考」モードを、同じチェックポイントから実行します。このモデルはHugging Faceで公開されており、複数のパス(vLLM、Ollama/llama.cpp、OllamaスタイルのGGUF、または大規模マルチGPU環境)を介してローカルで実行できます。以下では、要件、思考モードの仕組み、複数のローカル実行オプション(実行可能なコードスニペット付き)、そしてツール呼び出しとトークンテンプレートの例を含む「思考モードデプロイ」レシピを段階的に説明します。
DeepSeek-V3.1 とは何ですか? なぜ重要なのですか?
DeepSeek-V3.1はDeepSeekのv3ファミリーアップデートであり、 ハイブリッド推論設計:同じモデルを 思考 (熟慮的、多段階的)または 思考しない チャットテンプレートを変更することで、(直接回答、高速)モードを利用できます。アーキテクチャ的には、大規模なMoEファミリー(ベースチェックポイントの総パラメータ数は約671B、トークンあたり約37B)であり、ロングコンテキストトレーニングは128Kトークンまで拡張され、FP8マイクロスケーリングをサポートしています。DeepSeekはV3.1をエージェント対応リリースと位置付けており、以前のR1リリースと比較して、ツール呼び出しの改善、エージェントスキルの向上、思考効率の向上を実現しています。このリリースは2025年XNUMX月に発表され、Hugging Face、CFD/OSSツール、クラウド導入ガイドに統合されています。
ハイブリッドモデルの仕組み(簡潔)
- チェックポイント 1 つ、テンプレート 2 つ: 思考モードと非思考モードは、 チャットテンプレート フォルダーとその下に
<think>/</think>プロンプトのトークン規則。正確なプレフィックスはモデルカードに記載されています。 - エージェント/ツールの改善: トレーニング後のブーストにより、よりスマートなツール呼び出しが可能になります。モデルは、安全で決定論的なツール実行のために厳密なツール呼び出し JSON 形式を想定しています。
- パフォーマンスのトレードオフ: 思考モードでは、思考連鎖型の推論にトークンを消費するため、処理速度が遅くなり、トークン消費量が多くなります。一方、非思考モードでは処理速度とコストが低減します。モデルカードのベンチマークでは、V3.1において推論とコードベンチマークの両面で大幅な改善が見られます。
モデルの構造
- MoEバックボーン: トークンあたりのアクティブ化されたサブセットが小さい、合計パラメータ数が大きい (経済的な推論)。
- 長期コンテキストトレーニングV3.1 では、ロングコンテキスト フェーズが大幅に拡張され (32k → 長いドキュメントのトレーニングが増加)、一部のビルドで 128K 以上のウィンドウがサポートされます。
- FP8ネイティブワークフロー: DeepSeek は重み/アクティベーション効率のために FP8 形式 (w8a8 / UE8M0) を広範に使用します。BF16/FP16 を好む場合は、コミュニティ変換スクリプトが存在します。
DeepSeek-V3.1 をローカルで実行するための要件は何ですか? (ハードウェア、ストレージ、ソフトウェア)
ランニング 全体像を V3.1モデル(非量子化)は大規模な作業です。以下に、現実的な設定のカテゴリと、通常必要な設定を示します。
実用的なバケツ
- クラスター/研究室(フルモデル): 複数の大容量メモリ GPU (H100/H800 クラスまたは多数の Ada/Hopper GPU)、数十個の GPU を備えたマルチノード、大量の NVMe ストレージ (数百 GB)、および特殊な推論フレームワーク (SGLang、vLLM、LMDeploy、TRT-LLM)。
- シングルサーバーハイエンド(量子化): 高度な量子化 (INT4/AWQ/AWQ2/gguf) と、Ollama (パッケージ済み) やコミュニティ GGUF などのフレームワークを使用すれば可能ですが、それでも数十から数百 GB の GPU RAM または巧妙な CPU+GPU オフロードが必要です。
- 開発者用ラップトップ/開発ボックス: 完全なモデルには適していません。小さな蒸留/微調整されたバリアントを使用するか、ローカル サーバー/Ollama インスタンスに接続します。
ハードウェア チェックリスト (実用)
- GPU: V3.1のフル機能の実推論スループットを実現するには、マルチGPUクラスター(H100 / H800 / Ada Lovelace+)が必要です。FP8実行には、演算能力とドライバーサポートを備えたGPUが必要です。
- RAMとストレージモデルファイル用に数百GBの空きディスク容量が必要です(モデルページには、フォーマット/量子化に応じて数百GBと記載されています)。さらに、変換されたフォーマット用の作業領域が必要です。Ollamaメタデータには、ライブラリ内のDeepSeek V400 Ollamaパッケージのフットプリントが約3.1GBと記載されています。
- ネットワーク: マルチノード推論には、低レイテンシの相互接続 (NVLink / InfiniBand) と、テンソル並列セットアップ用のオーケストレーション ツールが必要です。
ソフトウェアチェックリスト
- OSコミュニティ推論ツールには Linux が推奨されます (DeepSeek-Infer デモには Linux/Python がリストされています)。
- Python: 3.10+ (多くのDeepSeekの例では)。一般的なパッケージバージョンはリポジトリに固定されています。
requirements.txt. - フレームワークとツール (1つ以上選択してください):SGLang、vLLM、LMDeploy、TRT-LLM/TensorRT-LLM、LightLLM、またはOllama(よりシンプルなローカルインストール用)。それぞれに異なる命令と、異なる精度/量子化のサポートがあります。
実用的な注意: コンシューマー GPU が 24 つしかない場合 (例: 48~128 GB)、量子化 GGUF またはリモート推論を使用する可能性が高くなります。100 GB を超える RAM と H200/H8 クラスの GPU クラスターを備えたワークステーションがある場合は、vLLM を使用してより忠実度の高い FP16/FPXNUMX 推論をターゲットにすることができます。
DeepSeek-V3.1 をローカルで実行するにはどうすればよいですか?
以下に、最も手動的/柔軟なものから、単一の開発者ボックス向けの最も簡単なものまで、使用できるいくつかの実用的なパスを示します。ステップバイステップのチュートリアルとコード例を提供します。
オプションA - 公式DeepSeek-Inferデモ(開発/クラスターパス)
これは、FP8/BF16推論のリポジトリのサンプル/デモです。マルチノードを計画している場合や、公式の推論コードを試してみたい場合にご利用ください。
- クローンを作成し、環境を準備する
git clone https://github.com/deepseek-ai/DeepSeek-V3.git
cd DeepSeek-V3/inference
# Create a dedicated venv / conda env
python -m venv venv && source venv/bin/activate
pip install -r requirements.txt
(レポ inference/requirements.txt チームが推奨する固定されたトーチ/トリトン/トランスフォーマーのバージョンをリストします。
- モデルの重みをダウンロード
- Hugging Faceモデルページからダウンロードしてください(
deepseek-ai/DeepSeek-V3.1)の下に置きます/path/to/DeepSeek-V3モデルカードとリポジトリの両方に、Hugging Face の公式ストレージ リンクが記載されています。
- デモ用に重量を変換する
# example conversion command shown in the repo
python convert.py --hf-ckpt-path /path/to/DeepSeek-V3 --save-path /path/to/DeepSeek-V3-Demo --n-experts 256 --model-parallel 16
- インタラクティブ生成を実行する(分散)
torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR \
generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json \
--interactive --temperature 0.7 --max-new-tokens 200
これは、クラスター スタイル実行用の DeepSeek リポジトリからの標準的な例です。
オプションB - vLLM(サーバー展開とOpenAI互換APIに推奨)
vLLMはFP8/BF16モードでDeepSeekをサポートし、OpenAI互換のサーバーを提供します。メモリ最適化とAPI互換性により、大規模モデルの開発において人気の高い手法です。
Hugging Faceからモデルを取得するvLLMサーバーを起動します。 (例パターン):
# this will download/serve the model (replace with exact model id if needed)
vllm serve deepseek-ai/DeepSeek-V3.1 --host 0.0.0.0 --port 8000
次に、curl または OpenAI 互換クライアントを使用して補完を要求します。
curl -s -X POST "http://localhost:8000/v1/completions" \
-H "Content-Type: application/json" \
-d '{"model":"DeepSeek-V3.1","prompt":"Explain the QuickSort algorithm", "max_tokens":200}'
vLLMのレシピとドキュメントには、DeepSeekのサンプルとFP8との互換性、マルチGPU/パイプライン並列処理に関する注記が含まれています。高負荷モデルの場合は、複数のGPUまたは量子化バリアントが必要になります。
オプションC — LMDeploy / SGLang / LightLLM & TensorRT-LLM(高性能)
DeepSeekリポジトリでは明示的に推奨されています SGLang, LMデプロイ, TensorRT-LLM DeepSeek V3向けに最適化されたエンジンとして、推論レイテンシ、スループット、FP8カーネルが向上します。
典型的な LMDeploy 呼び出し (正確な CLI については LMDeploy のドキュメントを参照してください):
# pseudo-example; refer to LMDeploy docs for exact options
lmdeploy serve --model /path/to/deepseek_v3.1 --precision fp8 --port 8080
SGLangのベンチマークと起動レシピはリポジトリとSGLangプロジェクトの benchmark/deepseek_v3 フォルダー。GPU クラスターを制御し、プロダクション スループットが必要な場合は、これらのスタックを使用します。
オプション D — Ollama (最も簡単なローカル開発ルート、多くの場合単一マシン)
DeepSeekをローカルで実行するための最も摩擦の少ない方法(ディスクを節約できる場合)が必要な場合は、 オラマ パッケージ化されたモデルとシンプルなCLIを提供します(ollama pull, ollama run)。DeepSeek-V3.1 は Ollama ライブラリに含まれており、ローカルで実行できます (Ollama の一部の機能には、最新版またはプレリリース版が必要になる場合があります)。
例 (Ollama CLI):
# Pull the model (downloads the model artifacts to your disk)
ollama pull deepseek-v3.1
# Start an interactive session:
ollama run deepseek-v3.1
# Or run as a local API server (Ollama supports a local API)
# Example: POSTing to Ollama's local API (adjust host/port to your setup)
curl -X POST http://localhost:11434/api/generate \
-H 'Content-Type: application/json' \
-d '{"model":"deepseek-v3.1","prompt":"Summarize the following paper: ..."}'
Ollamaは多くの分布/量子化の詳細を抽象化しており、単一ホスト上でモデルの動作をテストするのに最適な方法です。注:モデルページには、Ollamaエントリのパッケージサイズが約404GBと記載されているため、ディスクとRAMの計画に注意してください。
思考モードとは何か、そしてどのように使うのか
DeepSeek-V3.1は、 ハイブリッド思考トークン アプローチ:同じチェックポイントを 思考 モード(内部の「思考の連鎖」トークン)または 思考しない チャット/プロンプトテンプレートを切り替えることでモードを切り替えることができます。モデルは明示的なトークンを使用します。 <think> (そして締めくくり </think> 一部のテンプレートでは、思考の連鎖と直接的な回答生成を区別するために、思考を伴わない接頭辞と思考を伴わない接頭辞が使用されています。モデルカードには、思考を伴わない接頭辞と思考を伴わない接頭辞が記録されており、テンプレートの違いが示されています。
例: Python でメッセージを構築する (トークナイザー ヘルパー)
Hugging Faceモデルカードには、トークナイザーを介してチャットテンプレートを適用する方法を示す便利なスニペットが含まれています。これは、生成に推奨されるパターンです。 思考 or 思考しない フォーマットされたプロンプト:
import transformers
tokenizer = transformers.AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-V3.1")
messages = [
{"role": "system", "content": "You are a helpful assistant"},
{"role": "user", "content": "Who are you?"},
{"role": "assistant", "content": "<think>Hmm</think>I am DeepSeek"},
{"role": "user", "content": "1+1=?"}
]
# Thinking mode
tokenizer.apply_chat_template(messages, tokenize=False, thinking=True, add_generation_prompt=True)
# Non-thinking mode
tokenizer.apply_chat_template(messages, tokenize=False, thinking=False, add_generation_prompt=True)
スイッチ thinking=True プロンプトを生成するには <think> 接頭辞; thinking=False 思考しないテンプレートを生成します。このフラグに応じて、モデルの動作は異なります(内部的な検討と即時の反応)。
クイックリファレンス - ちょっとしたトラブルシューティングとベストプラクティス
GPU メモリが不足した場合: 量子化ビルド(AWQ/q4/INT4)またはコミュニティGGUFをお試しください。多くのコミュニティスペースがローカル利用向けに量子化ビルドを公開しています。Ollama / vLLMでも、より小規模な量子化ビルドを提供できます。
モデルで外部ツールを呼び出す必要がある場合: 採用する ツールコール チャットテンプレートのスキーマを正確に記述してください。ツールのJSON形式をオフラインでテストし、オーケストレーションコード(ツールを実行する部分)がサニタイズされ、型付けされたJSONをモデルに返すことを確認してください。
長いコンテキストが必要な場合: ロングコンテキストプラグインではvLLMまたはSGLangを使用してください。DeepSeekは32K/128Kコンテキスト向けに明示的にトレーニング/拡張されており、関連ツールもそのウィンドウをサポートしています。メモリのトレードオフを覚悟してください。
DeepSeek-V3.1 を実際にラップトップや小規模サーバーで実行できますか?
短い答え: はい、ただし注意点があります。 コミュニティ量子化(AWQ/GGUF/1ビットダイナミック)により、ストレージとメモリ使用量が大幅に削減され、愛好家はハイエンドデスクトップ(約3.1GBのワーキングセットを主張)でV170バリアントを実行できるようになりました。ただし、
- 忠実度とサイズのトレードオフ: 積極的な量子化はメモリ使用量を削減しますが、推論/コードパフォーマンスに影響を与える可能性があります。ワークロードでテストしてください。
- 法律およびライセンス: モデルはモデルカードごとに MIT ライセンスされていますが、サードパーティの量子化には独自のライセンスが適用される場合があります。実稼働で使用する前にそれらを確認してください。
最後の言葉
DeepSeek-V3.1は、明示的な思考/非思考行動とツール使用の改善を備えたハイブリッド「エージェント」モデルへの大きな一歩です。ローカルで実行する場合は、ハードウェアとリスク許容度に合ったパスを選択してください。
研究用: transformers + 量子化されたセーフテンソルと加速。
生産とスループットについて: vLLM + マルチGPU (H100/H200)。
ローカル実験の場合: Ollama/llama.cpp + コミュニティ GGUF (マージ + 実行)。
スタートガイド
CometAPIは、OpenAIのGPTシリーズ、GoogleのGemini、AnthropicのClaude、Midjourney、Sunoなど、主要プロバイダーの500以上のAIモデルを、開発者にとって使いやすい単一のインターフェースに統合する統合APIプラットフォームです。一貫した認証、リクエストフォーマット、レスポンス処理を提供することで、CometAPIはAI機能をアプリケーションに統合することを劇的に簡素化します。チャットボット、画像ジェネレーター、音楽作曲ツール、データドリブン分析パイプラインなど、どのようなアプリケーションを構築する場合でも、CometAPIを利用することで、反復処理を高速化し、コストを抑え、ベンダーに依存しない環境を実現できます。同時に、AIエコシステム全体の最新のブレークスルーを活用できます。
開発者はアクセスできる ディープシーク-V3.1 CometAPIを通じて、記事の公開日時点での最新モデルのバージョンが掲載されています。まずは、モデルの機能について調べてみましょう。 プレイグラウンド そして相談する APIガイド 詳細な手順についてはこちらをご覧ください。アクセスする前に、CometAPIにログインし、APIキーを取得していることを確認してください。 コメットAPI 統合を支援するために、公式価格よりもはるかに低い価格を提供します。
