請提供需要翻譯的原文內容(目標語言:繁體中文)。

CometAPI
AnnaDec 13, 2025
請提供需要翻譯的原文內容(目標語言:繁體中文)。

Mistral Large 3 是 Mistral AI 於 2025 年 12 月上旬推出的最新「前沿」模型家族。它是一個開放權重、面向生產的多模態基礎模型,採用 細粒度稀疏混合專家(MoE) 設計,旨在在保持推理可行性的同時,透過稀疏性與現代量化提供「前沿」推理、長上下文理解,以及視覺 + 文本能力。Mistral Large 3 被描述為擁有 675 billion 的總參數,在推理時約有 ~41 billion 的活動參數,預設配置提供 256k token 的上下文視窗——這種組合在不讓每次推理都觸及所有參數的前提下,同時推動能力與規模。

什麼是 Mistral Large 3?它如何運作?

什麼是 Mistral Large 3?

Mistral Large 3 是 Mistral AI 在 Mistral 3 家族中的旗艦「前沿」模型——一個 大型、開放權重、多模態的混合專家(MoE) 模型,依 Apache-2.0 授權發佈。它旨在提供「前沿」能力(推理、程式設計、長上下文理解、多模態任務),同時透過僅為每個 token 啟用部分專家的方式,讓推理計算保持 稀疏。Mistral 的官方材料將 Large 3 描述為具有 ~675 billion 的總參數,以及每次前向傳播大約 40–41 billion 的活動參數;它亦包含視覺編碼器,並被設計以處理非常長的上下文視窗(Mistral 與合作夥伴引用可達 256k tokens)。

簡而言之:這是一個 MoE 模型,總容量巨大(可儲存多樣專長),但在推理時計算的只是較小的活動子集——旨在比同等總規模的稠密模型更有效率地提供前沿效能。

核心架構:細粒度混合專家(MoE)

從高層來看,Mistral Large 3 用 MoE 層 取代了部分(或許多)Transformer 的前饋子層。每個 MoE 層包含:

  • 大量專家(experts) —— 彼此獨立的子網路(通常是 FFN 區塊)。合計起來形成模型極大的「總」參數量(例如數百 billion)。
  • 路由/門控網路(router/gating network) —— 一個小型網路,根據 token 的表徵決定該由哪些專家來處理該 token。現代 MoE 路由器通常只選擇 top-k 專家(稀疏門控),常見 k=1 或 k=2,以保持低計算量。
  • 稀疏啟用 —— 對於任一 token,僅執行被選中的專家;其餘略過。效率正是由此而來:總儲存參數 >> 每 token 實際計算的活動參數。

Mistral 將其設計稱為「細粒度」MoE,以強調模型擁有許多小型/專門化的專家與一套優化的路由方案,可在多 GPU 與長上下文下擴展。其結果是:極大的表徵容量,同時將每 token 的計算維持在接近一個更小的稠密模型。總參數:

  • Total Parameters: 675 billion;所有專家與 Transformer 其它部分的參數總和。此數字表示模型的總體容量(可容納的知識與專業化程度)。
  • Active Parameters: 41 billion。由於路由器僅為每個 token 啟用少數專家,典型前向傳播時實際使用/計算的參數子集。這個指標更貼近每次推理的計算與記憶體使用。Mistral 公開資料列出約 ~41B 的活動參數;部分模型頁面對特定變體(例如 39B)顯示略有差異——可能反映不同變體/指令調優版本或四捨五入。

訓練配置:

  • 使用 3000 張 NVIDIA H200 GPU 從零開始訓練;
  • 數據涵蓋多語言、多任務與多模態;
  • 支援影像輸入與跨語言推理。

Mistral Large 3 功能表

類別技術能力描述
多模態理解支援影像輸入與分析,能在對話中理解視覺內容。
多語言支援原生支援 10+ 主流語言(English、French、Spanish、German、Italian、Portuguese、Dutch、Chinese、Japanese、Korean、Arabic 等)。
系統提示支援對系統指令與上下文提示高度一致,適合複雜工作流程。
智能體能力支援原生函式呼叫與結構化 JSON 輸出,可直接調用工具或整合外部系統。
上下文視窗支援超長的 256K tokens 上下文視窗,為開源模型中最長之一。
效能定位生產級表現,具備強大的長上下文理解與穩定輸出。
開源授權Apache 2.0 License,可自由用於商業改造。

概覽:

  • 效能可與主流閉源模型相媲美;
  • 在多語言任務上表現出色(尤其在非英語與非中文場景);
  • 具備影像理解與指令遵循能力;
  • 提供基礎版(Base)與指令優化版(Instruct),推理優化版(Reasoning)即將推出。

Mistral Large 3 在基準測試上的表現如何?

早期公開的基準測試與排行榜顯示,Mistral Large 3 在開源模型中名列前茅:在 LMArena 的 OSS 非推理模型中排名 #2,並在多項標準任務(例如 GPQA、MMLU 與其它推理/常識套件)上位居頂尖。

![Mistral Large 3 是 Mistral AI 於 2025 年 12 月上旬推出的最新「前沿」模型家族。它是一個開放權重、面向生產的多模態基礎模型,採用 細粒度稀疏混合專家(MoE) 設計,旨在在保持推理可行性的同時,透過稀疏性與現代量化提供「前沿」推理、長上下文理解,以及視覺 + 文本能力。Mistral Large 3 被描述為擁有 675 billion 的總參數,在推理時約有 ~41 billion 的活動參數,預設配置提供 256k token 的上下文視窗——這種組合在不讓每次推理都觸及所有參數的前提下,同時推動能力與規模。

什麼是 Mistral Large 3?它如何運作?

什麼是 Mistral Large 3?

Mistral Large 3 是 Mistral AI 在 Mistral 3 家族中的旗艦「前沿」模型——一個 大型、開放權重、多模態的混合專家(MoE) 模型,依 Apache-2.0 授權發佈。它旨在提供「前沿」能力(推理、程式設計、長上下文理解、多模態任務),同時透過僅為每個 token 啟用部分專家的方式,讓推理計算保持 稀疏

Mistral Large 3 採用 混合專家(MoE) 方法:模型不為每個 token 啟用所有參數,而是將 token 的處理路由到部分專家子網路。Large 3 發佈的參數量約為 41 billion 的活動參數(典型每個 token 參與的參數)與 675 billion 的總參數(遍佈所有專家),一種稀疏但容量巨大的設計,旨在在計算效率與模型容量間取得平衡。該模型亦支援極長的上下文視窗(記載為 256k tokens)與多模態輸入(文本 + 影像)。

簡而言之:這是一個 MoE 模型,總容量巨大(可儲存多樣專長),但在推理時計算的只是較小的活動子集——旨在比同等總規模的稠密模型更有效率地提供前沿效能。

核心架構:細粒度混合專家(MoE)

從高層來看,Mistral Large 3 用 MoE 層 取代了部分(或許多)Transformer 的前饋子層。每個 MoE 層包含:

  • 大量專家(experts) —— 彼此獨立的子網路(通常是 FFN 區塊)。合計起來形成模型極大的「總」參數量(例如數百 billion)。
  • 路由/門控網路(router/gating network) —— 一個小型網路,根據 token 的表徵決定該由哪些專家來處理該 token。現代 MoE 路由器通常只選擇 top-k 專家(稀疏門控),常見 k=1 或 k=2,以保持低計算量。
  • 稀疏啟用 —— 對於任一 token,僅執行被選中的專家;其餘略過。效率正是由此而來:總儲存參數 >> 每 token 實際計算的活動參數。

Mistral 將其設計稱為「細粒度」MoE,以強調模型擁有許多小型/專門化的專家與一套優化的路由方案,可在多 GPU 與長上下文下擴展。其結果是:極大的表徵容量,同時將每 token 的計算維持在接近一個更小的稠密模型。總參數:

  • Total Parameters: 675 billion;所有專家與 Transformer 其它部分的參數總和。此數字表示模型的總體容量(可容納的知識與專業化程度)。
  • Active Parameters: 41 billion。由於路由器僅為每個 token 啟用少數專家,典型前向傳播時實際使用/計算的參數子集。這個指標更貼近每次推理的計算與記憶體使用。Mistral 公開資料列出約 ~41B 的活動參數;部分模型頁面對特定變體(例如 39B)顯示略有差異——可能反映不同變體/指令調優版本或四捨五入。

訓練配置:

  • 使用 3000 張 NVIDIA H200 GPU 從零開始訓練;
  • 數據涵蓋多語言、多任務與多模態;
  • 支援影像輸入與跨語言推理。

Mistral Large 3 功能表

類別技術能力描述
多模態理解支援影像輸入與分析,能在對話中理解視覺內容。
多語言支援原生支援 10+ 主流語言(English、French、Spanish、German、Italian、Portuguese、Dutch、Chinese、Japanese、Korean、Arabic 等)。
系統提示支援對系統指令與上下文提示高度一致,適合複雜工作流程。
智能體能力支援原生函式呼叫與結構化 JSON 輸出,可直接調用工具或整合外部系統。
上下文視窗支援超長的 256K tokens 上下文視窗,為開源模型中最長之一。
效能定位生產級表現,具備強大的長上下文理解與穩定輸出。
開源授權Apache 2.0 License,可自由用於商業改造。

概覽:

  • 效能可與主流閉源模型相媲美;
  • 在多語言任務上表現出色(尤其在非英語與非中文場景);
  • 具備影像理解與指令遵循能力;
  • 提供基礎版(Base)與指令優化版(Instruct),推理優化版(Reasoning)即將推出。

Mistral Large 3 在基準測試上的表現如何?

早期公開的基準測試與排行榜顯示,Mistral Large 3 在開源模型中名列前茅:在 LMArena 的 OSS 非推理模型中排名 #2,並在多項標準任務(例如 GPQA、MMLU 與其它推理/常識套件)上位居頂尖。]()

![Mistral Large 3 是 Mistral AI 於 2025 年 12 月上旬推出的最新「前沿」模型家族。它是一個開放權重、面向生產的多模態基礎模型,採用 細粒度稀疏混合專家(MoE) 設計,旨在在保持推理可行性的同時,透過稀疏性與現代量化提供「前沿」推理、長上下文理解,以及視覺 + 文本能力。Mistral Large 3 被描述為擁有 675 billion 的總參數,在推理時約有 ~41 billion 的活動參數,預設配置提供 256k token 的上下文視窗——這種組合在不讓每次推理都觸及所有參數的前提下,同時推動能力與規模。

什麼是 Mistral Large 3?它如何運作?

什麼是 Mistral Large 3?

Mistral Large 3 是 Mistral AI 在 Mistral 3 家族中的旗艦「前沿」模型——一個 大型、開放權重、多模態的混合專家(MoE) 模型,依 Apache-2.0 授權發佈。它旨在提供「前沿」能力(推理、程式設計、長上下文理解、多模態任務),同時透過僅為每個 token 啟用部分專家的方式,讓推理計算保持 稀疏

Mistral Large 3 採用 混合專家(MoE) 方法:模型不為每個 token 啟用所有參數,而是將 token 的處理路由到部分專家子網路。Large 3 發佈的參數量約為 41 billion 的活動參數(典型每個 token 參與的參數)與 675 billion 的總參數(遍佈所有專家),一種稀疏但容量巨大的設計,旨在在計算效率與模型容量間取得平衡。該模型亦支援極長的上下文視窗(記載為 256k tokens)與多模態輸入(文本 + 影像)。

簡而言之:這是一個 MoE 模型,總容量巨大(可儲存多樣專長),但在推理時計算的只是較小的活動子集——旨在比同等總規模的稠密模型更有效率地提供前沿效能。

核心架構:細粒度混合專家(MoE)

從高層來看,Mistral Large 3 用 MoE 層 取代了部分(或許多)Transformer 的前饋子層。每個 MoE 層包含:

  • 大量專家(experts) —— 彼此獨立的子網路(通常是 FFN 區塊)。合計起來形成模型極大的「總」參數量(例如數百 billion)。
  • 路由/門控網路(router/gating network) —— 一個小型網路,根據 token 的表徵決定該由哪些專家來處理該 token。現代 MoE 路由器通常只選擇 top-k 專家(稀疏門控),常見 k=1 或 k=2,以保持低計算量。
  • 稀疏啟用 —— 對於任一 token,僅執行被選中的專家;其餘略過。效率正是由此而來:總儲存參數 >> 每 token 實際計算的活動參數。

Mistral 將其設計稱為「細粒度」MoE,以強調模型擁有許多小型/專門化的專家與一套優化的路由方案,可在多 GPU 與長上下文下擴展。其結果是:極大的表徵容量,同時將每 token 的計算維持在接近一個更小的稠密模型。總參數:

  • Total Parameters: 675 billion;所有專家與 Transformer 其它部分的參數總和。此數字表示模型的總體容量(可容納的知識與專業化程度)。
  • Active Parameters: 41 billion。由於路由器僅為每個 token 啟用少數專家,典型前向傳播時實際使用/計算的參數子集。這個指標更貼近每次推理的計算與記憶體使用。Mistral 公開資料列出約 ~41B 的活動參數;部分模型頁面對特定變體(例如 39B)顯示略有差異——可能反映不同變體/指令調優版本或四捨五入。

訓練配置:

  • 使用 3000 張 NVIDIA H200 GPU 從零開始訓練;
  • 數據涵蓋多語言、多任務與多模態;
  • 支援影像輸入與跨語言推理。

Mistral Large 3 功能表

類別技術能力描述
多模態理解支援影像輸入與分析,能在對話中理解視覺內容。
多語言支援原生支援 10+ 主流語言(English、French、Spanish、German、Italian、Portuguese、Dutch、Chinese、Japanese、Korean、Arabic 等)。
系統提示支援對系統指令與上下文提示高度一致,適合複雜工作流程。
智能體能力支援原生函式呼叫與結構化 JSON 輸出,可直接調用工具或整合外部系統。
上下文視窗支援超長的 256K tokens 上下文視窗,為開源模型中最長之一。
效能定位生產級表現,具備強大的長上下文理解與穩定輸出。
開源授權Apache 2.0 License,可自由用於商業改造。

概覽:

  • 效能可與主流閉源模型相媲美;
  • 在多語言任務上表現出色(尤其在非英語與非中文場景);
  • 具備影像理解與指令遵循能力;
  • 提供基礎版(Base)與指令優化版(Instruct),推理優化版(Reasoning)即將推出。

Mistral Large 3 在基準測試上的表現如何?

早期公開的基準測試與排行榜顯示,Mistral Large 3 在開源模型中名列前茅:在 LMArena 的 OSS 非推理模型中排名 #2,並在多項標準任務(例如 GPQA、MMLU 與其它推理/常識套件)上位居頂尖。

請提供需要翻譯的原文內容(目標語言:繁體中文)。

目前展現的優勢

  • 長文件理解與檢索增強任務: 長上下文與稀疏容量的組合讓 Mistral Large 3 在長上下文任務(文件問答、跨大型文件摘要)中具優勢。
  • 常識與指令遵循: 在指令調優變體中,Mistral Large 3 在許多「通用助手」任務與系統提示一致性方面表現強勁。
  • 能效與吞吐(在優化硬體上): NVIDIA 的分析顯示,當 Mistral Large 3 在 GB200 NVL72 並配合 MoE 專用優化運行時,能效與吞吐顯著提升——這些數字直接轉化為企業的每 token 成本與可擴展性。

如何取得並使用 Mistral Large 3?

雲端託管存取(快速途徑)

Mistral Large 3 可透過多個雲端與平台合作夥伴取得:

  • Hugging Face 託管模型卡與推理工件(包含指令變體與優化的 NVFP4 工件)。您可以透過 Hugging Face Inference API 呼叫模型,或下載相容工件。
  • Azure / Microsoft Foundry 宣佈 Mistral Large 3 可用於企業工作負載。
  • NVIDIA 發佈了針對 GB200/H200 系列的加速運行時與優化說明,合作夥伴如 Red Hat 提供了 vLLM 的操作指南。

這些託管途徑可讓您無需處理 MoE 運行時工程即可快速上手。

本地或自有基礎設施運行(進階)

在本地或私有基礎設施上運行 Mistral Large 3 可行但不甚簡單:

選項:

  1. Hugging Face 工件 + accelerate/transformers —— 適用於較小的變體,或在您擁有 GPU 叢集與適當分片工具時。模型卡列出平台特定限制與建議格式(例如 NVFP4)。
  2. vLLM —— 一個為大型 LLM 與長上下文優化的推理伺服器;Red Hat 與其它合作夥伴發佈了在 vLLM 上運行 Mistral Large 3 的指南,以獲得高效吞吐與延遲。
  3. 專用堆疊(NVIDIA Triton / NVL72 / 自訂核心) —— 規模化時獲得最佳延遲/效率所需;NVIDIA 發佈了使用 GB200/H200 與 NVL72 運行時加速 Mistral 3 的部落格。
  4. Ollama / 本地 VM 管理器 —— 社群指南展示了本地設置(Ollama、Docker)以供試驗;需預期龐大的 RAM/GPU 需求,並需要使用模型變體或量化檢查點。

範例:Hugging Face 推理(python)

這是一個使用 Hugging Face Inference API 的簡單範例(適用於指令變體)。請以模型卡中的值替換 HF_API_KEYMODEL

# Example: call Mistral Large 3 via Hugging Face Inference APIimport requests, json, os​HF_API_KEY = os.environ.get("HF_API_KEY")MODEL = "mistralai/Mistral-Large-3-675B-Instruct-2512"​headers = {"Authorization": f"Bearer {HF_API_KEY}", "Content-Type": "application/json"}payload = {    "inputs": "Summarize the following document in 3 bullet points: <paste your long text here>",    "parameters": {"max_new_tokens": 256, "temperature": 0.0}}​r = requests.post(f"https://api-inference.huggingface.co/models/{MODEL}", headers=headers, data=json.dumps(payload))print(r.json())

注意:對於非常長的上下文(數萬個 tokens),請查閱供應商的串流/分塊建議,以及該模型變體所支援的上下文長度。

範例:啟動 vLLM 伺服器(概念)

vLLM 是企業常用的高效能推理伺服器。以下為概念性啟動(請查閱 vLLM 文件以獲取旗標、模型路徑與 MoE 支援):

# conceptual example — adjust to your environment and model pathvllm --model-path /models/mistral-large-3-instruct \     --num-gpus 4 \     --max-batch-size 8 \     --max-seq-len 65536 \     --log-level info

接著使用 vLLM 的 Python 用戶端或 HTTP API 發送請求。對於 MoE 模型,您必須確保 vLLM 的建置與運行時支援稀疏專家核心,以及模型的檢查點格式(NVFP4/FP8/BF16)。


部署 Mistral Large 3 的實用最佳做法

選擇合適的變體與精度

  • 從指令調優檢查點開始 用於助手工作流程(此模型家族提供 Instruct 變體)。僅在您計劃自行進行微調或指令調優時使用 Base 模型。
  • 使用優化的低精度變體(NVFP4、FP8、BF16)(若您的硬體支援且提供)以獲得巨大效率提升;若由模型供應商產製並驗證,品質劣化通常可忽略。

記憶體、分片與硬體

  • 不要期望在單一消費級 GPU 上運行 675B 總參數的檢查點 —— 即使每 token 只有 ~41B 活動參數,完整檢查點仍極為龐大,需分片策略與高記憶體加速器(GB200/H200 等級),或協同的 CPU+GPU 轉載。
  • 使用模型並行 + 專家佈局:MoE 模型可透過將專家分配到不同裝置來平衡路由流量。遵循供應商的專家分配指南。

長上下文工程

  • 分塊與檢索:對於多數長文件任務,將檢索組件與 256k 上下文結合,以維持可接受的延遲與成本——例如先檢索相關分塊,再將聚焦的上下文傳遞給模型。
  • 串流與視窗化:對於持續串流,維持滑動視窗並將較舊的上下文摘要為精煉筆記,以讓模型的注意力預算更有效。

面向 MoE 模型的提示工程

  • 偏好明確指令:指令調優檢查點對清晰的任務與範例反應更佳。對於複雜的結構化輸出,請在提示中使用少量示例(few-shot)。
  • 思維鏈與系統訊息:在推理任務中,將提示結構化以鼓勵逐步推理並驗證中間結果。但請注意:提示思維鏈會增加 token 消耗與延遲。

結論

Mistral Large 3 是開放權重模型版圖中的重要里程碑:一個具備 675B 總參數/~41B 活動參數的 MoE 模型,擁有 256k 上下文 視窗、多模態能力,並與主要基礎設施合作夥伴共同優化了部署範式。對能採用 MoE 運行時與硬體堆疊的企業而言,它提供了極具吸引力的效能/成本比;同時,在專門推理任務與營運就緒度方面仍需謹慎評估。

首先,探索更多 AI 模型(例如 Gemini 3 Pro)的能力於 Playground,並查閱 API 指南 以獲取詳細說明。在訪問之前,請確保您已登入 CometAPI 並取得 API 金鑰。CometAPI 提供遠低於官方價格的方案,助您完成整合。

準備好了嗎?→ 立即註冊 CometAPI !

SHARE THIS BLOG

閱讀更多

一個 API 中超過 500 個模型

最高 20% 折扣