Mistral Large 3 は、Mistral AI が 2025 年 12 月初旬にリリースした最新の「フロンティア」モデルファミリーです。粒度の細かいスパースな Mixture-of-Experts(MoE)設計を基盤とするオープンウェイトのプロダクション志向マルチモーダル基盤モデルで、推論計算をスパース化と最新の量子化によって現実的に保ちながら、「フロンティア」級の推論、長大コンテキストの理解、ビジョン+テキストの能力を提供することを目指しています。Mistral Large 3 はデフォルト構成で 675 billion の総パラメータ、推論時に ~41 billion のアクティブパラメータ、256k token のコンテキストウィンドウを備えるとされており、すべての推論で全パラメータに触れずに、能力とスケールの両方を押し広げるための組み合わせになっています。
Mistral Large 3 とは?どのように動作しますか?
Mistral Large 3 とは?
Mistral Large 3 は Mistral 3 ファミリーにおける Mistral AI のフラッグシップ「フロンティア」モデルで、Apache-2.0 ライセンスで公開された 大規模・オープンウェイト・マルチモーダル MoE モデルです。推論計算を各トークンごとにモデルのエキスパートの一部だけを起動することで スパース に保ちながら、推論、コーディング、長大コンテキスト理解、マルチモーダルなどの「フロンティア」能力を提供するよう設計されています。
Mistral Large 3 は Mixture-of-Experts(MoE) を採用しています。すべてのパラメータを各トークンで起動するのではなく、トークン処理をエキスパートサブネットワークのサブセットへルーティングします。公開されている Large 3 のパラメータ数は、1 トークンあたり典型的に参加する 約 41 billion のアクティブパラメータと、全エキスパートに跨る 675 billion の総パラメータ。巨大ながらスパースな設計により、計算効率とモデル容量の両立を狙っています。また、非常に長いコンテキストウィンドウ(256k tokens と記載)とマルチモーダル入力(テキスト+画像)に対応します。
要するに:多様な専門性を格納できる巨大な総容量を持ちながら、推論時にははるかに小さなアクティブサブセットのみを計算する MoE モデルで、同規模の総パラメータを持つ密なモデルよりも効率的に「フロンティア」性能を目指します。
コアアーキテクチャ:きめ細かな Mixture-of-Experts(MoE)
大まかには、Mistral Large 3 はトランスフォーマーのフィードフォワードサブレイヤーの一部(または多く)を MoE レイヤーに置き換えています。各 MoE レイヤーは次の要素を含みます:
- 多数のエキスパート — 独立したサブネットワーク(通常は FFN ブロック)。これらの総和がモデルの非常に大きな「総」パラメータ数(例:数百 billion)を構成します。
- ルーター/ゲーティングネットワーク — トークン表現を参照し、そのトークンを処理すべきエキスパートを決定する小さなネットワーク。最新の MoE ルーターは通常、top-k のエキスパートのみを選びます(スパースゲーティング)。しばしば k=1 または k=2 が用いられ、計算量を低く抑えます。
- スパース活性化 — 任意のトークンに対して、選択されたエキスパートのみが実行され、他はスキップされます。効率はここから来ます:保存されている総パラメータ数 >> トークンごとに計算されるアクティブパラメータ数。
Mistral は自らの設計を「きめ細かな」MoE と称し、多数の小さく専門化されたエキスパートと、多数の GPU および長コンテキストにスケールするよう最適化されたルーティング方式を強調しています。その結果、非常に大きな表現容量を維持しつつ、トークンあたりの計算量をはるかに小さい密なモデルに近づけます。Total Parameters:
- Total Parameters: 675 billion; すべてのエキスパートと他のトランスフォーマー部分に跨るパラメータの総和。この数はモデルの総容量(保持できる知識と専門性の量)を示します。
- Active Parameters: 41 billion. 通常のフォワードパスで実際に使用/計算されるパラメータのサブセット。ルーターがトークンごとに少数のエキスパートのみを起動するためです。この値は、リクエストごとの推論計算量とメモリ使用により密接に関連します。Mistral の公開資料では ~41B のアクティブパラメータが示されています。一部のモデルページでは特定の派生(例:39B)に関するわずかな差が見られますが、これは派生/Instruct 版や丸めの違いを反映する場合があります。
Training Configuration:
- 3000 NVIDIA H200 GPUs を用いてゼロから学習;
- データは複数言語・複数タスク・複数モダリティをカバー;
- 画像入力および言語横断の推論をサポート。
Feature table of Mistral Large 3
| Category | Technical Capability Description |
|---|---|
| Multimodal Understanding | 画像入力と解析に対応し、対話中の視覚コンテンツの理解を可能にします。 |
| Multilingual Support | 10 以上の主要言語をネイティブにサポート(English, French, Spanish, German, Italian, Portuguese, Dutch, Chinese, Japanese, Korean, Arabic, etc.)。 |
| System Prompt Support | システム指示やコンテキストプロンプトに高い一貫性で従い、複雑なワークフローに適します。 |
| Agent Capabilities | ネイティブな関数呼び出しと構造化 JSON 出力に対応し、ツールの直接呼び出しや外部システム統合を可能にします。 |
| Context Window | 256K tokens の超長コンテキストウィンドウをサポート。オープンソースモデルの中でも最長級。 |
| Performance Positioning | 長コンテキスト理解が強く、安定した出力を備えたプロダクショングレードの性能。 |
| Open-source License | Apache 2.0 License。商用改変を自由に行えます。 |
Overview:
- 性能は主流のクローズドソースモデルと同等の水準;
- 多言語タスクで優れた性能(特に英語・中国語以外のシナリオで顕著);
- 画像理解と指示追従能力を備える;
- ベース版(Base)と指示最適化版(Instruct)を提供、推論最適化版(Reasoning)は近日提供予定。
ベンチマークにおける Mistral Large 3 の性能は?
初期の公開ベンチマークやリーダーボードでは、Mistral Large 3 はオープンソースモデルの中で高い順位に位置しています:LMArena の OSS 非推論モデルでの #2、また標準タスク(例:GPQA、MMLU などの推論/一般知識スイート)でトップクラスの順位が言及されています。
![Mistral Large 3 is the newest “frontier” model family released by Mistral AI in early December 2025. It’s an open-weight, production-oriented, multimodal foundation model built around a granular sparse Mixture-of-Experts (MoE) design and intended to deliver “frontier” reasoning, long-context understanding, and vision + text capabilities while keeping inference practical through sparsity and modern quantization. Mistral Large 3 as having 675 billion total parameters with ~41 billion active parameters at inference and a 256k token context window in its default configuration — a combination designed to push both capability and scale without forcing every inference to touch all parameters.
What is Mistral Large 3? How it work?
What is Mistral Large 3?
Mistral Large 3 is Mistral AI’s flagship frontier model in the Mistral 3 family — a large, open-weight, multimodal Mixture-of-Experts (MoE) model released under an Apache-2.0 license. It’s designed to deliver “frontier” capability (reasoning, coding, long-context understanding, multimodal tasks) while keeping inference compute sparse by activating only a subset of the model’s experts for each token.
Mistral Large 3 adopts a Mixture-of-Experts (MoE) approach: instead of activating every parameter for each token, the model routes token processing to a subset of expert subnetworks. The published counts for Large 3 are approximately 41 billion active parameters (the parameters that typically participate for a token) and 675 billion total parameters across all experts — a sparse-but-massive design that aims to hit the sweet spot between compute efficiency and model capacity. The model also supports an extremely long context window (documented at 256k tokens) and multimodal inputs (text + image).
In short: it’s a MoE model that packs huge capacity in total (so it can store diverse specialties) but only computes on a much smaller active subset at inference time — aiming to give frontier performance more efficiently than a dense model of comparable total size.
Core architecture: Granular Mixture-of-Experts (MoE)
At a high level, Mistral Large 3 replaces some (or many) feed-forward sublayers of a transformer with MoE layers. Each MoE layer contains:
- Many experts — independent sub-networks (normally FFN blocks). In aggregate they produce the model’s very large total parameter count (e.g., hundreds of billions).
- A router / gating network — a small network that looks at the token representation and decides which expert(s) should process that token. Modern MoE routers typically pick only the top-k experts (sparse gating), often k=1 or k=2, to keep compute low.
- Sparse activation — for any given token, only the selected experts run; the rest are skipped. This is where the efficiency comes from: total stored parameters >> active parameters computed per token.
Mistral calls its design granular MoE to emphasize that the model has many small/specialized experts and a routing scheme optimized to scale across many GPUs and long contexts. The result: very large representational capacity while keeping per-token compute closer to a much smaller dense model,Total Parameters:
- Total Parameters: 675 billion; sum of all parameters stored across every expert and the rest of the transformer. This number indicates the model’s gross capacity (how much knowledge and specialization it can hold).
- Active Parameters: 41 billion. the subset of parameters that are actually used/computed for a typical forward pass, because the router only activates a few experts per token. This is the metric that more closely relates to inference compute and memory use per request. Mistral’s public materials list ~41B active parameters; some model pages show slightly different counts for specific variants (e.g., 39B) — that can reflect variant/instruct versions or rounding.
Training Configuration:
- Trained from scratch using 3000 NVIDIA H200 GPUs;
- Data covers multiple languages, multiple tasks, and multiple modalities;
- Supports image input and cross-language inference.
Feature table of Mistral Large 3
| Category | Technical Capability Description |
|---|---|
| Multimodal Understanding | Supports image input and analysis, enabling comprehension of visual content during dialogue. |
| Multilingual Support | Natively supports 10+ major languages (English, French, Spanish, German, Italian, Portuguese, Dutch, Chinese, Japanese, Korean, Arabic, etc.). |
| System Prompt Support | Highly consistent with system instructions and contextual prompts, suitable for complex workflows. |
| Agent Capabilities | Supports native function calling and structured JSON output, enabling direct tool invocation or external system integration. |
| Context Window | Supports an ultra-long context window of 256K tokens, among the longest of open-source models. |
| Performance Positioning | Production-grade performance with strong long-context understanding and stable output. |
| Open-source License | Apache 2.0 License, freely usable for commercial modification. |
Overview:
- Performance is comparable to mainstream closed-source models;
- Outstanding performance in multilingual tasks (especially in non-English and non-Chinese scenarios);
- Possesses image understanding and instruction following capabilities;
- Provides a basic version (Base) and an instruction-optimized version (Instruct), with an inference-optimized version (Reasoning) coming soon.
How does Mistral Large 3 perform on benchmarks?
Early public benchmarks and leaderboards show Mistral Large 3 placing highly among open-source models: LMArena placement of #2 in OSS non-reasoning models and mentions top-tier leaderboard positions on a variety of standard tasks(e.g., GPQA, MMLU and other reasoning/general knowledge suites).]()

これまでに示された強み
- 長文理解および検索拡張タスク(RAG): 長コンテキストとスパースな容量の組み合わせにより、Mistral Large 3 は長コンテキストのタスク(文書 QA、巨大文書横断の要約)で優位性を示します。
- 一般知識と指示追従: Instruct チューニングされた派生では、多くの「一般的なアシスタント」タスクやシステムプロンプトの遵守で強さを示します。
- エネルギー効率とスループット(最適化済みハードウェア上): NVIDIA の分析では、GB200 NVL72 上で MoE 特化の最適化を施した場合のエネルギー効率とスループットが印象的で、企業にとってトークン単価とスケーラビリティに直結する数値が示されています。
Mistral Large 3 へのアクセスと利用方法
ホスト型クラウドアクセス(迅速な導入)
Mistral Large 3 は複数のクラウド/プラットフォームパートナーから利用可能です:
- Hugging Face はモデルカードと推論アーティファクト(Instruct 派生や NVFP4 アーティファクトを含むモデルバンドル)をホストしています。Hugging Face Inference API 経由でモデルを呼び出すか、互換アーティファクトをダウンロードできます。
- Azure / Microsoft Foundry はエンタープライズワークロード向けの Mistral Large 3 提供を発表しました。
- NVIDIA は GB200/H200 ファミリー向けのアクセラレートされたランタイムや最適化ノートを公開しており、Red Hat などのパートナーが vLLM の手順を提供しています。
これらのホスト型ルートにより、MoE ランタイムのエンジニアリングに取り組むことなくすばやく開始できます。
ローカルまたは自社インフラでの実行(上級)
Mistral Large 3 をローカルまたはプライベートインフラで実行することも可能ですが、容易ではありません:
オプション:
- Hugging Face アーティファクト + accelerate/transformers — 小規模派生や、GPU クラスタおよび適切なシャーディングツールを保有している場合に利用できます。モデルカードにはプラットフォーム固有の制約や推奨フォーマット(例:NVFP4)が記載されています。
- vLLM — 大規模 LLM と長コンテキストに最適化された推論サーバー。Red Hat や他のパートナーが、Mistral Large 3 を vLLM で効率的なスループット/レイテンシで運用するためのガイドを公開しています。
- 特化スタック(NVIDIA Triton / NVL72 / カスタムカーネル) — 大規模運用で最良のレイテンシ/効率のために必要。NVIDIA は GB200/H200 および NVL72 ランタイムで Mistral 3 を加速するブログを公開しています。
- Ollama / ローカル VM マネージャ — コミュニティガイドはローカルセットアップ(Ollama、Docker)による実験方法を示しています。大きな RAM/GPU フットプリントや派生モデル、量子化チェックポイントの利用が必要になる可能性があります。
例:Hugging Face 推論(Python)
これは Hugging Face Inference API を用いる簡単な例(Instruct 派生向け)です。HF_API_KEY と MODEL をモデルカードの値に置き換えてください:
# Example: call Mistral Large 3 via Hugging Face Inference APIimport requests, json, osHF_API_KEY = os.environ.get("HF_API_KEY")MODEL = "mistralai/Mistral-Large-3-675B-Instruct-2512"headers = {"Authorization": f"Bearer {HF_API_KEY}", "Content-Type": "application/json"}payload = { "inputs": "Summarize the following document in 3 bullet points: <paste your long text here>", "parameters": {"max_new_tokens": 256, "temperature": 0.0}}r = requests.post(f"https://api-inference.huggingface.co/models/{MODEL}", headers=headers, data=json.dumps(payload))print(r.json())
注: 非常に長いコンテキスト(数万トークン)については、プロバイダのストリーミング/チャンク化の推奨事項およびモデル派生がサポートするコンテキスト長を確認してください。
例:vLLM サーバーの起動(概念的)
vLLM は企業で使われる高性能な推論サーバーです。以下は概念的な起動例です(フラグ、モデルパス、MoE サポートについては vLLM ドキュメントを確認してください):
# conceptual example — adjust to your environment and model pathvllm --model-path /models/mistral-large-3-instruct \ --num-gpus 4 \ --max-batch-size 8 \ --max-seq-len 65536 \ --log-level info
その後、vLLM の Python クライアントまたは HTTP API を用いてリクエストを送信します。MoE モデルでは、vLLM のビルドとランタイムがスパースエキスパートカーネルおよびモデルのチェックポイント形式(NVFP4/FP8/BF16)をサポートしていることを確認してください。
Mistral Large 3 導入の実践的ベストプラクティス
適切な派生と精度の選択
- アシスタント系ワークフローには Instruct チェックポイントから開始 —(モデルファミリーは Instruct 派生を提供)。独自の指示チューニングやファインチューニングを行う場合のみベースモデルを使用。
- 最適化済み低精度派生(NVFP4, FP8, BF16)をハードウェアに応じて使用 — ベンダーが生成・検証したチェックポイントであれば、品質劣化を最小化しつつ巨大な効率向上が得られます。
メモリ、シャーディング、ハードウェア
- 675 billion の総パラメータのチェックポイントを単一の一般的な GPU での実行は想定しない — トークンあたりは ~41B のアクティブパラメータのみでも、完全なチェックポイントは巨大であり、シャーディング戦略や大容量アクセラレータ(GB200/H200 クラス)または CPU+GPU の協調オフロードが必要です。
- モデル並列化+エキスパート配置の活用 — MoE モデルは、ルーティングトラフィックのバランスを取るためにエキスパートをデバイス間に配置することが有益です。ベンダーのエキスパート割り当てガイダンスに従ってください。
長コンテキストのエンジニアリング
- チャンク化と検索: 多くの長文タスクでは、256k コンテキストと検索コンポーネントを併用してレイテンシとコストを抑えるのが有効です。すなわち、関連チャンクを検索してから集中したコンテキストをモデルに渡します。
- ストリーミングとウィンドウ化: 連続ストリームではスライディングウィンドウを維持し、古いコンテキストを要約ノートに圧縮してモデルの注意予算を効果的に保ちます。
MoE モデルのためのプロンプト設計
- 明示的な指示を好む: Instruct チューニング済みチェックポイントは明確なタスクや例により良く反応します。複雑な構造化出力にはプロンプトに少数の例示を含めてください。
- Chain-of-thought とシステムメッセージ: 推論タスクでは、段階的推論を促し、中間結果を検証できるプロンプトを構成します。ただし、Chain-of-thought の誘導はトークン消費とレイテンシを増やす点に注意。
結論
Mistral Large 3 はオープンウェイトモデルのランドスケープにおける重要な節目です:675B total / ~41B active の MoE、256k コンテキスト、マルチモーダル能力、そして主要インフラパートナーと共同最適化されたデプロイ手法を備えています。MoE ランタイムとハードウェアスタックを採用できる企業にとって、コスト対性能のプロファイルは魅力的であり、同時に特化した推論タスクや運用体制について慎重な評価が依然として必要です。
開始するには、Gemini 3 Pro などの AI モデルの機能を Playground で試し、詳細な手順については API guide を参照してください。アクセスの前に、CometAPI にログインして API キーを取得していることを確認してください。CometAPI は公式価格よりもはるかに低い価格で統合を支援します。
準備はできましたか?→ Sign up for CometAPI today !


