請提供需要翻譯的原文內容（目標語言：繁體中文）。

Mistral Large 3 是 Mistral AI 於 2025 年 12 月上旬推出的最新「前沿」模型家族。它是一個開放權重、面向生產的多模態基礎模型，採用 細粒度稀疏混合專家（MoE） 設計，旨在在保持推理可行性的同時，透過稀疏性與現代量化提供「前沿」推理、長上下文理解，以及視覺 + 文本能力。Mistral Large 3 被描述為擁有 675 billion 的總參數，在推理時約有 ~41 billion 的活動參數，預設配置提供 256k token 的上下文視窗——這種組合在不讓每次推理都觸及所有參數的前提下，同時推動能力與規模。

什麼是 Mistral Large 3？它如何運作？

什麼是 Mistral Large 3？

Mistral Large 3 是 Mistral AI 在 Mistral 3 家族中的旗艦「前沿」模型——一個 大型、開放權重、多模態的混合專家（MoE） 模型，依 Apache-2.0 授權發佈。它旨在提供「前沿」能力（推理、程式設計、長上下文理解、多模態任務），同時透過僅為每個 token 啟用部分專家的方式，讓推理計算保持稀疏。Mistral 的官方材料將 Large 3 描述為具有 ~675 billion 的總參數，以及每次前向傳播大約 40–41 billion 的活動參數；它亦包含視覺編碼器，並被設計以處理非常長的上下文視窗（Mistral 與合作夥伴引用可達 256k tokens）。

簡而言之：這是一個 MoE 模型，總容量巨大（可儲存多樣專長），但在推理時計算的只是較小的活動子集——旨在比同等總規模的稠密模型更有效率地提供前沿效能。

核心架構：細粒度混合專家（MoE）

從高層來看，Mistral Large 3 用 MoE 層 取代了部分（或許多）Transformer 的前饋子層。每個 MoE 層包含：

大量專家（experts） —— 彼此獨立的子網路（通常是 FFN 區塊）。合計起來形成模型極大的「總」參數量（例如數百 billion）。
路由／門控網路（router/gating network） —— 一個小型網路，根據 token 的表徵決定該由哪些專家來處理該 token。現代 MoE 路由器通常只選擇 top-k 專家（稀疏門控），常見 k=1 或 k=2，以保持低計算量。
稀疏啟用 —— 對於任一 token，僅執行被選中的專家；其餘略過。效率正是由此而來：總儲存參數 >> 每 token 實際計算的活動參數。

Mistral 將其設計稱為「細粒度」MoE，以強調模型擁有許多小型／專門化的專家與一套優化的路由方案，可在多 GPU 與長上下文下擴展。其結果是：極大的表徵容量，同時將每 token 的計算維持在接近一個更小的稠密模型。總參數：

Total Parameters: 675 billion；所有專家與 Transformer 其它部分的參數總和。此數字表示模型的總體容量（可容納的知識與專業化程度）。
Active Parameters: 41 billion。由於路由器僅為每個 token 啟用少數專家，典型前向傳播時實際使用／計算的參數子集。這個指標更貼近每次推理的計算與記憶體使用。Mistral 公開資料列出約 ~41B 的活動參數；部分模型頁面對特定變體（例如 39B）顯示略有差異——可能反映不同變體／指令調優版本或四捨五入。

訓練配置：

使用 3000 張 NVIDIA H200 GPU 從零開始訓練；
數據涵蓋多語言、多任務與多模態；
支援影像輸入與跨語言推理。

Mistral Large 3 功能表

類別	技術能力描述
多模態理解	支援影像輸入與分析，能在對話中理解視覺內容。
多語言支援	原生支援 10+ 主流語言（English、French、Spanish、German、Italian、Portuguese、Dutch、Chinese、Japanese、Korean、Arabic 等）。
系統提示支援	對系統指令與上下文提示高度一致，適合複雜工作流程。
智能體能力	支援原生函式呼叫與結構化 JSON 輸出，可直接調用工具或整合外部系統。
上下文視窗	支援超長的 256K tokens 上下文視窗，為開源模型中最長之一。
效能定位	生產級表現，具備強大的長上下文理解與穩定輸出。
開源授權	Apache 2.0 License，可自由用於商業改造。

概覽：

效能可與主流閉源模型相媲美；
在多語言任務上表現出色（尤其在非英語與非中文場景）；
具備影像理解與指令遵循能力；
提供基礎版（Base）與指令優化版（Instruct），推理優化版（Reasoning）即將推出。

Mistral Large 3 在基準測試上的表現如何？

早期公開的基準測試與排行榜顯示，Mistral Large 3 在開源模型中名列前茅：在 LMArena 的 OSS 非推理模型中排名 #2，並在多項標準任務（例如 GPQA、MMLU 與其它推理／常識套件）上位居頂尖。

![Mistral Large 3 是 Mistral AI 於 2025 年 12 月上旬推出的最新「前沿」模型家族。它是一個開放權重、面向生產的多模態基礎模型，採用 細粒度稀疏混合專家（MoE） 設計，旨在在保持推理可行性的同時，透過稀疏性與現代量化提供「前沿」推理、長上下文理解，以及視覺 + 文本能力。Mistral Large 3 被描述為擁有 675 billion 的總參數，在推理時約有 ~41 billion 的活動參數，預設配置提供 256k token 的上下文視窗——這種組合在不讓每次推理都觸及所有參數的前提下，同時推動能力與規模。

什麼是 Mistral Large 3？它如何運作？

什麼是 Mistral Large 3？

Mistral Large 3 採用 混合專家（MoE） 方法：模型不為每個 token 啟用所有參數，而是將 token 的處理路由到部分專家子網路。Large 3 發佈的參數量約為 41 billion 的活動參數（典型每個 token 參與的參數）與 675 billion 的總參數（遍佈所有專家），一種稀疏但容量巨大的設計，旨在在計算效率與模型容量間取得平衡。該模型亦支援極長的上下文視窗（記載為 256k tokens）與多模態輸入（文本 + 影像）。

核心架構：細粒度混合專家（MoE）

從高層來看，Mistral Large 3 用 MoE 層 取代了部分（或許多）Transformer 的前饋子層。每個 MoE 層包含：

大量專家（experts） —— 彼此獨立的子網路（通常是 FFN 區塊）。合計起來形成模型極大的「總」參數量（例如數百 billion）。
路由／門控網路（router/gating network） —— 一個小型網路，根據 token 的表徵決定該由哪些專家來處理該 token。現代 MoE 路由器通常只選擇 top-k 專家（稀疏門控），常見 k=1 或 k=2，以保持低計算量。
稀疏啟用 —— 對於任一 token，僅執行被選中的專家；其餘略過。效率正是由此而來：總儲存參數 >> 每 token 實際計算的活動參數。

Total Parameters: 675 billion；所有專家與 Transformer 其它部分的參數總和。此數字表示模型的總體容量（可容納的知識與專業化程度）。
Active Parameters: 41 billion。由於路由器僅為每個 token 啟用少數專家，典型前向傳播時實際使用／計算的參數子集。這個指標更貼近每次推理的計算與記憶體使用。Mistral 公開資料列出約 ~41B 的活動參數；部分模型頁面對特定變體（例如 39B）顯示略有差異——可能反映不同變體／指令調優版本或四捨五入。

訓練配置：

使用 3000 張 NVIDIA H200 GPU 從零開始訓練；
數據涵蓋多語言、多任務與多模態；
支援影像輸入與跨語言推理。

Mistral Large 3 功能表

類別	技術能力描述
多模態理解	支援影像輸入與分析，能在對話中理解視覺內容。
多語言支援	原生支援 10+ 主流語言（English、French、Spanish、German、Italian、Portuguese、Dutch、Chinese、Japanese、Korean、Arabic 等）。
系統提示支援	對系統指令與上下文提示高度一致，適合複雜工作流程。
智能體能力	支援原生函式呼叫與結構化 JSON 輸出，可直接調用工具或整合外部系統。
上下文視窗	支援超長的 256K tokens 上下文視窗，為開源模型中最長之一。
效能定位	生產級表現，具備強大的長上下文理解與穩定輸出。
開源授權	Apache 2.0 License，可自由用於商業改造。

概覽：

效能可與主流閉源模型相媲美；
在多語言任務上表現出色（尤其在非英語與非中文場景）；
具備影像理解與指令遵循能力；
提供基礎版（Base）與指令優化版（Instruct），推理優化版（Reasoning）即將推出。

Mistral Large 3 在基準測試上的表現如何？

早期公開的基準測試與排行榜顯示，Mistral Large 3 在開源模型中名列前茅：在 LMArena 的 OSS 非推理模型中排名 #2，並在多項標準任務（例如 GPQA、MMLU 與其它推理／常識套件）上位居頂尖。](）

什麼是 Mistral Large 3？它如何運作？

什麼是 Mistral Large 3？

核心架構：細粒度混合專家（MoE）

從高層來看，Mistral Large 3 用 MoE 層 取代了部分（或許多）Transformer 的前饋子層。每個 MoE 層包含：

大量專家（experts） —— 彼此獨立的子網路（通常是 FFN 區塊）。合計起來形成模型極大的「總」參數量（例如數百 billion）。
路由／門控網路（router/gating network） —— 一個小型網路，根據 token 的表徵決定該由哪些專家來處理該 token。現代 MoE 路由器通常只選擇 top-k 專家（稀疏門控），常見 k=1 或 k=2，以保持低計算量。
稀疏啟用 —— 對於任一 token，僅執行被選中的專家；其餘略過。效率正是由此而來：總儲存參數 >> 每 token 實際計算的活動參數。

Total Parameters: 675 billion；所有專家與 Transformer 其它部分的參數總和。此數字表示模型的總體容量（可容納的知識與專業化程度）。
Active Parameters: 41 billion。由於路由器僅為每個 token 啟用少數專家，典型前向傳播時實際使用／計算的參數子集。這個指標更貼近每次推理的計算與記憶體使用。Mistral 公開資料列出約 ~41B 的活動參數；部分模型頁面對特定變體（例如 39B）顯示略有差異——可能反映不同變體／指令調優版本或四捨五入。

訓練配置：

使用 3000 張 NVIDIA H200 GPU 從零開始訓練；
數據涵蓋多語言、多任務與多模態；
支援影像輸入與跨語言推理。

Mistral Large 3 功能表

類別	技術能力描述
多模態理解	支援影像輸入與分析，能在對話中理解視覺內容。
多語言支援	原生支援 10+ 主流語言（English、French、Spanish、German、Italian、Portuguese、Dutch、Chinese、Japanese、Korean、Arabic 等）。
系統提示支援	對系統指令與上下文提示高度一致，適合複雜工作流程。
智能體能力	支援原生函式呼叫與結構化 JSON 輸出，可直接調用工具或整合外部系統。
上下文視窗	支援超長的 256K tokens 上下文視窗，為開源模型中最長之一。
效能定位	生產級表現，具備強大的長上下文理解與穩定輸出。
開源授權	Apache 2.0 License，可自由用於商業改造。

概覽：

效能可與主流閉源模型相媲美；
在多語言任務上表現出色（尤其在非英語與非中文場景）；
具備影像理解與指令遵循能力；
提供基礎版（Base）與指令優化版（Instruct），推理優化版（Reasoning）即將推出。

Mistral Large 3 在基準測試上的表現如何？

請提供需要翻譯的原文內容（目標語言：繁體中文）。

目前展現的優勢

長文件理解與檢索增強任務： 長上下文與稀疏容量的組合讓 Mistral Large 3 在長上下文任務（文件問答、跨大型文件摘要）中具優勢。
常識與指令遵循： 在指令調優變體中，Mistral Large 3 在許多「通用助手」任務與系統提示一致性方面表現強勁。
能效與吞吐（在優化硬體上）： NVIDIA 的分析顯示，當 Mistral Large 3 在 GB200 NVL72 並配合 MoE 專用優化運行時，能效與吞吐顯著提升——這些數字直接轉化為企業的每 token 成本與可擴展性。

如何取得並使用 Mistral Large 3？

雲端託管存取（快速途徑）

Mistral Large 3 可透過多個雲端與平台合作夥伴取得：

Hugging Face 託管模型卡與推理工件（包含指令變體與優化的 NVFP4 工件）。您可以透過 Hugging Face Inference API 呼叫模型，或下載相容工件。
Azure / Microsoft Foundry 宣佈 Mistral Large 3 可用於企業工作負載。
NVIDIA 發佈了針對 GB200/H200 系列的加速運行時與優化說明，合作夥伴如 Red Hat 提供了 vLLM 的操作指南。

這些託管途徑可讓您無需處理 MoE 運行時工程即可快速上手。

本地或自有基礎設施運行（進階）

在本地或私有基礎設施上運行 Mistral Large 3 可行但不甚簡單：

選項：

Hugging Face 工件 + accelerate/transformers —— 適用於較小的變體，或在您擁有 GPU 叢集與適當分片工具時。模型卡列出平台特定限制與建議格式（例如 NVFP4）。
vLLM —— 一個為大型 LLM 與長上下文優化的推理伺服器；Red Hat 與其它合作夥伴發佈了在 vLLM 上運行 Mistral Large 3 的指南，以獲得高效吞吐與延遲。
專用堆疊（NVIDIA Triton / NVL72 / 自訂核心） —— 規模化時獲得最佳延遲／效率所需；NVIDIA 發佈了使用 GB200/H200 與 NVL72 運行時加速 Mistral 3 的部落格。
Ollama / 本地 VM 管理器 —— 社群指南展示了本地設置（Ollama、Docker）以供試驗；需預期龐大的 RAM/GPU 需求，並需要使用模型變體或量化檢查點。

範例：Hugging Face 推理（python）

這是一個使用 Hugging Face Inference API 的簡單範例（適用於指令變體）。請以模型卡中的值替換 HF_API_KEY 與 MODEL：

# Example: call Mistral Large 3 via Hugging Face Inference APIimport requests, json, osHF_API_KEY = os.environ.get("HF_API_KEY")MODEL = "mistralai/Mistral-Large-3-675B-Instruct-2512"headers = {"Authorization": f"Bearer {HF_API_KEY}", "Content-Type": "application/json"}payload = {    "inputs": "Summarize the following document in 3 bullet points: <paste your long text here>",    "parameters": {"max_new_tokens": 256, "temperature": 0.0}}r = requests.post(f"https://api-inference.huggingface.co/models/{MODEL}", headers=headers, data=json.dumps(payload))print(r.json())

注意：對於非常長的上下文（數萬個 tokens），請查閱供應商的串流／分塊建議，以及該模型變體所支援的上下文長度。

範例：啟動 vLLM 伺服器（概念）

vLLM 是企業常用的高效能推理伺服器。以下為概念性啟動（請查閱 vLLM 文件以獲取旗標、模型路徑與 MoE 支援）：

# conceptual example — adjust to your environment and model pathvllm --model-path /models/mistral-large-3-instruct \     --num-gpus 4 \     --max-batch-size 8 \     --max-seq-len 65536 \     --log-level info

接著使用 vLLM 的 Python 用戶端或 HTTP API 發送請求。對於 MoE 模型，您必須確保 vLLM 的建置與運行時支援稀疏專家核心，以及模型的檢查點格式（NVFP4/FP8/BF16）。

部署 Mistral Large 3 的實用最佳做法

選擇合適的變體與精度

從指令調優檢查點開始 用於助手工作流程（此模型家族提供 Instruct 變體）。僅在您計劃自行進行微調或指令調優時使用 Base 模型。
使用優化的低精度變體（NVFP4、FP8、BF16）（若您的硬體支援且提供）以獲得巨大效率提升；若由模型供應商產製並驗證，品質劣化通常可忽略。

記憶體、分片與硬體

不要期望在單一消費級 GPU 上運行 675B 總參數的檢查點 —— 即使每 token 只有 ~41B 活動參數，完整檢查點仍極為龐大，需分片策略與高記憶體加速器（GB200/H200 等級），或協同的 CPU+GPU 轉載。
使用模型並行 + 專家佈局：MoE 模型可透過將專家分配到不同裝置來平衡路由流量。遵循供應商的專家分配指南。

長上下文工程

分塊與檢索：對於多數長文件任務，將檢索組件與 256k 上下文結合，以維持可接受的延遲與成本——例如先檢索相關分塊，再將聚焦的上下文傳遞給模型。
串流與視窗化：對於持續串流，維持滑動視窗並將較舊的上下文摘要為精煉筆記，以讓模型的注意力預算更有效。

面向 MoE 模型的提示工程

偏好明確指令：指令調優檢查點對清晰的任務與範例反應更佳。對於複雜的結構化輸出，請在提示中使用少量示例（few-shot）。
思維鏈與系統訊息：在推理任務中，將提示結構化以鼓勵逐步推理並驗證中間結果。但請注意：提示思維鏈會增加 token 消耗與延遲。

結論

Mistral Large 3 是開放權重模型版圖中的重要里程碑：一個具備 675B 總參數／~41B 活動參數的 MoE 模型，擁有 256k 上下文 視窗、多模態能力，並與主要基礎設施合作夥伴共同優化了部署範式。對能採用 MoE 運行時與硬體堆疊的企業而言，它提供了極具吸引力的效能／成本比；同時，在專門推理任務與營運就緒度方面仍需謹慎評估。

首先，探索更多 AI 模型（例如 Gemini 3 Pro）的能力於 Playground，並查閱 API 指南以獲取詳細說明。在訪問之前，請確保您已登入 CometAPI 並取得 API 金鑰。CometAPI 提供遠低於官方價格的方案，助您完成整合。

準備好了嗎？→ 立即註冊 CometAPI !

什麼是 Mistral Large 3？它如何運作？

什麼是 Mistral Large 3？

核心架構：細粒度混合專家（MoE）

訓練配置：

Mistral Large 3 功能表

Mistral Large 3 在基準測試上的表現如何？

什麼是 Mistral Large 3？它如何運作？

什麼是 Mistral Large 3？

核心架構：細粒度混合專家（MoE）

訓練配置：

Mistral Large 3 功能表

Mistral Large 3 在基準測試上的表現如何？

什麼是 Mistral Large 3？它如何運作？

什麼是 Mistral Large 3？

核心架構：細粒度混合專家（MoE）

訓練配置：

Mistral Large 3 功能表

Mistral Large 3 在基準測試上的表現如何？

目前展現的優勢

如何取得並使用 Mistral Large 3？

雲端託管存取（快速途徑）

本地或自有基礎設施運行（進階）

範例：Hugging Face 推理（python）

範例：啟動 vLLM 伺服器（概念）

部署 Mistral Large 3 的實用最佳做法

選擇合適的變體與精度

記憶體、分片與硬體

長上下文工程

面向 MoE 模型的提示工程

結論

閱讀更多

一個 API 中超過 500 個模型