DeepSeek-V3.1: 機能、アーキテクチャ、ベンチマーク

2025年XNUMX月、中国のAIスタートアップDeepSeekは、 ディープシーク-V3.1同社はこれを「エージェント時代への第一歩」と位置づける中期アップグレードとしている。このアップデートでは、ハイブリッド推論モード（「思考」モードまたは「非思考」モードで実行できる単一モデル）、大幅に長くなったコンテキストウィンドウ、そしてツール呼び出しとマルチステップエージェント動作に対するトレーニング後の重点的な改善がもたらされる。

DeepSeek-V3.1 とは何ですか? なぜ重要なのですか?

DeepSeek-V3.1は、DeepSeek V3シリーズの最新の製品版アップデートです。これは、DeepSeekが後学習と拡張を行い、ユーザーが操作可能な3つの動作モードをサポートするハイブリッドMoE言語モデルファミリー（V3.1系統）です。DeepSeekには、DeepSeek-V3.1-BaseとフルバージョンのDeepSeek-VXNUMXのXNUMXつの主要なバージョンがあります。

非思考（ディープシークチャット）： 速度と会話の使用に最適化された標準のチャット完了モード。
思考（ディープシーク推論器）: 構造化された多段階の推論とツール/エージェントのオーケストレーションを優先するエージェント推論モード。

このリリースでは、レイテンシと機能のバランスをとるハイブリッド推論パイプライン、よりスマートなツール呼び出し/エージェントオーケストレーション、大幅に拡張されたコンテキストウィンドウ (128K トークンとして宣伝) という XNUMX つの目に見える改善点に重点を置いています。

なぜ重要なのか： DeepSeek-V3.1は、効率的な大規模MoEアーキテクチャとツールプリミティブ、そして非常に長いコンテキストウィンドウを組み合わせるという、業界の幅広いトレンドを継承しています。この組み合わせは、スループットと外部ツールへの決定論的な「呼び出し」能力の両方が求められるエンタープライズエージェント、検索＋推論ワークフロー、長文文書の要約、ツール駆動型自動化において重要です。

DeepSeek-V3.1 は以前の DeepSeek リリースと何が違うのでしょうか?

ハイブリッド推論: 1つのモデル、2つの動作モード

注目すべきアーキテクチャの変更は ハイブリッド推論DeepSeekは、V3.1では「思考」モードと「非思考」モードの両方を同じモデルインスタンス内でサポートすると説明しています。これらのモードは、チャットテンプレートの変更またはUIトグル（DeepSeekの「DeepThink」ボタン）によって切り替え可能です。実際には、これはモデルに、開発者のニーズに応じて、内部推論トレースを生成するよう指示したり（思考連鎖型のエージェントワークフローに便利）、中間推論トークンを公開せずに直接応答するよう指示したりできることを意味します。DeepSeekはこれを、アプリケーションがレイテンシと冗長性のトレードオフを選択できるようにしながら、よりエージェント的なワークフローへの道筋として提示しています。

より大きなコンテキストウィンドウとトークンプリミティブ

公式リリースノートには、 はるかに大きなコンテキストウィンドウ V3.1ではコミュニティテストと企業の投稿により拡張コンテキストが 128kトークン 一部のホスト型バリアントでは、かなり長い会話、複数文書の推論、または長いコードベースを単一のセッションで処理することが可能です。これを補完するために、DeepSeekはいくつかの特別な制御トークンを導入すると報告されています（例： <｜search_begin｜>/<｜search_end｜>, <think> / </think>) は、ツールの呼び出しを構造化し、「思考」セグメントを内部的に区切ることを目的とした、外部ツールとの調整を簡素化する設計パターンです。

エージェント/ツールの能力強化とレイテンシの改善

DeepSeekは、V3.1のメリットとして、 トレーニング後の最適化 ツール呼び出しと複数ステップのエージェントタスクに重点を置いています。このモデルは、「思考」モードで以前のDeepSeek R1ビルドよりも速く回答に到達し、外部APIの呼び出しや複数ステップのプラン実行時の信頼性が向上しています。このポジショニング、つまりより高速でありながらエージェント対応力の高い推論は、アシスタント、自動化、またはエージェントワークフローを構築するチームにとって明確な製品差別化要因となります。

DeepSeek-V3.1 のアーキテクチャは何ですか?

DeepSeek-V3.1はDeepSeek-V3ファミリーのコア研究に基づいて構築されています。 専門家の混合（MoE） 効率性と拡張性を重視した一連のアーキテクチャイノベーションを備えたバックボーン。DeepSeek-V3（基盤となるファミリー）の公開技術レポートでは、以下のように説明されています。

合計数千億のパラメータを持つ大規模なMoE設計と、より小さな 活性化 トークンあたりのパラメータ数 (モデルカードには、トークンあたり約 671B がアクティブ化された合計 37B のパラメータがリストされています)。
マルチヘッド潜在的注意 (MLA) と、容量を維持しながら推論コストを削減するカスタム DeepSeekMoE ルーティングおよびスケーリングアプローチ。
補助的な負荷分散損失項の必要性を排除し、マルチトークン予測目標を採用してスループットとシーケンスモデリングを改善するトレーニング目標と負荷分散戦略。

なぜ MoE + MLA なのか?

Mixture-of-Expertsは、モデルが理論上のパラメータ数を多く維持しながら、トークンごとに一部のエキスパートのみをアクティブ化することで、トークンあたりの計算量を削減します。MLAはDeepSeekのアテンション（注目度）の変種であり、モデルが多数のエキスパートと長いコンテキストにわたってアテンション操作を効率的にスケールするのに役立ちます。これらの選択を組み合わせることで、多くのデプロイメントで使用可能な推論コストを維持しながら、非常に大規模なチェックポイントのトレーニングと提供が可能になります。

DeepSeek-V3.1 はベンチマークや実際のテストでどのように機能しますか?

V3.1との比較（言葉で）

V3以上（0324） V3.1は、特にコーディングとエージェントタスクにおいて、全面的に明らかなアップグレードです。例： ライブコードベンチ ジャンプから 43.0→56.4 （非思考）と →74.8 （考え）; エイダー・ポリグロット from 55.1 → 68.4 / 76.3.
R1-0528と比較: R1は依然として「推論調整」された強力な比較対象ですが、 V3.1-思考頻度がR1-0528と同等かそれ以上 (AIME/HMMT、LiveCodeBench)、低レイテンシでの使用のための非思考パスも提供します。
一般知識（MMLUバリアント）: V3.1 は、「思考」を考慮すると R1-0528 のすぐ下ですが、古い V3 より上になります。

一般知識と学術

ベンチマーク（メトリック）	V3.1-非思考	V3（0324）	V3.1-思考	R1-0528
MMLU-Redux （完全一致）	91.8	90.5	93.7	93.4
MMLUプロ（完全一致）	83.7	81.2	84.8	85.0
GPQA ダイヤモンド（パス@1）	74.9	68.4	80.1	81.0

これが意味するもの: V3.1 は知識/学術タスクにおいて V3 より向上し、「思考」では難しい科学の質問において R1 との差が縮まりました (GPQA-Diamond)。

コーディング（非エージェント）

ベンチマーク（メトリック）	V3.1-非思考	V3（0324）	V3.1-思考	R1-0528
ライブコードベンチ (2408–2505) （パス@1）	56.4	43.0	74.8	73.3
エイダー・ポリグロット（正確さ）	68.4	55.1	76.3	71.6
コードフォース-Div1 （評価）	-	-	2091	1930

注意：

ライブコードベンチ (2408–2505) 集計期間（2024年2025月→1年XNUMX月）を示します。Pass@XNUMXのスコアが高いほど、多様なコーディングタスクにおける初回正解率が高いことを示します。
エイダー・ポリグロット 多くの言語にわたるアシスタントスタイルのコード編集をシミュレートします。V3.1-Thinking が先頭であり、V3.1-NonThinking は V3 (0324) から大幅に進歩しています。
モデルカードには V3 (0324) 55.1% これは、Aider のそのヴィンテージの公開リーダーボードのエントリと一致しています。(V3.1 のより高いスコアは、モデルカードに新しく記載されています。)

コーディング（エージェントタスク）

ベンチマーク（メトリック）	V3.1-非思考	V3（0324）	V3.1-思考	R1-0528
SWE認証済み（エージェントモード）	66.0	45.4	-	44.6
SWEベンチ多言語（エージェントモード）	54.5	29.3	-	30.5
ターミナルベンチ（ターミナル1フレームワーク）	31.3	13.3	-	5.7

重要な注意事項： これらは DeepSeekの内部フレームワークを使用したエージェント評価 （ツール、マルチステップ実行）であり、純粋な次トークンデコードテストではありません。これらは「LLM + オーケストレーション」の機能を捉えています。結果 (再現性はエージェントのスタックと設定によって異なる場合があります)。

数学と競争推論

ベンチマーク（メトリック）	V3.1-非思考	V3（0324）	V3.1-思考	R1-0528
エム2024 （パス@1）	66.3	59.4	93.1	91.4
エム2025 （パス@1）	49.8	51.3	88.4	87.5
HMMT 2025 （パス@1）	33.5	29.2	84.2	79.4

持ち帰り： 「思考」モードの駆動 非常に大きい 数学コンテストセットのリフト - V3.1-Thinking は、報告された実行において AIME/HMMT の R1-0528 をわずかに上回りました。

検索強化型/「エージェント型」QA

ベンチマーク（メトリック）	V3.1-非思考	V3（0324）	V3.1-思考	R1-0528
ブラウズコンプ	-	-	30.0	8.9
ブラウズコンプ_zh	-	-	49.2	35.7
人類最後の試験（Python + 検索）	-	-	29.8	24.8
シンプルQA	-	-	93.4	92.3
人類最後の試験（テキストのみ）	-	-	15.9	17.7

注意： DeepSeekは、検索エージェントの検索結果は自社の内部検索フレームワーク（商用検索API + ページフィルタリング、128Kコンテキスト）を使用していると述べています。ここでは方法論が重要であり、再現には同様のツールが必要です。

制限事項と今後の展望は何でしょうか?

DeepSeek-V3.1は、エンジニアリングと製品開発における重要なステップです。ロングコンテキストトレーニング、ハイブリッドテンプレート、そしてMoEアーキテクチャを統合し、幅広い用途に対応するチェックポイントを構築します。しかしながら、以下の制限事項も残っています。

現実世界のエージェントの安全性、長いコンテキストの要約における幻覚、敵対的なプロンプト動作には、依然としてシステムレベルの緩和策が必要です。
ベンチマークは有望ですが、均一ではありません。パフォーマンスはドメイン、言語、評価スイートによって異なるため、独立した検証が必要です。
地政学的要因とサプライチェーン要因 (ハードウェアの可用性とチップの互換性) は、これまで DeepSeek のスケジュールに影響を与えており、顧客が大規模に展開する方法にも影響を与える可能性があります。

CometAPI を使って始める

CometAPIは、OpenAIのGPTシリーズ、GoogleのGemini、AnthropicのClaude、Midjourney、Sunoなど、主要プロバイダーの500以上のAIモデルを、開発者にとって使いやすい単一のインターフェースに統合する統合APIプラットフォームです。一貫した認証、リクエストフォーマット、レスポンス処理を提供することで、CometAPIはAI機能をアプリケーションに統合することを劇的に簡素化します。チャットボット、画像ジェネレーター、音楽作曲ツール、データドリブン分析パイプラインなど、どのようなアプリケーションを構築する場合でも、CometAPIを利用することで、反復処理を高速化し、コストを抑え、ベンダーに依存しない環境を実現できます。同時に、AIエコシステム全体の最新のブレークスルーを活用できます。

開発者はアクセスできるディープシークR1(deepseek-r1-0528）およびDeepSeek-V3.1を通じてコメットAPI掲載されている最新モデルのバージョンは、記事の公開日時点のものです。まずは、モデルの機能をご確認ください。プレイグラウンドそして相談する APIガイド詳細な手順についてはこちらをご覧ください。アクセスする前に、CometAPIにログインし、APIキーを取得していることを確認してください。コメットAPI 統合を支援するために、公式価格よりもはるかに低い価格を提供します。

結論

DeepSeek-V3.1は、実用的でエンジニアリング重視のアップデートです。より大きなコンテキストウィンドウ、ハイブリッド思考/非思考推論、改善されたツールインタラクション、OpenAI互換APIにより、チームビルディングにとって魅力的な選択肢となっています。 エージェントアシスタント、ロングコンテキストアプリケーション、低コストのコード指向ワークフロー.