Mistral 3:模型家族、架構、基準測試與更多

CometAPI
AnnaDec 7, 2025
Mistral 3:模型家族、架構、基準測試與更多

Mistral 3 是 Mistral AI 最新且雄心勃勃的發佈 —— 一整套開放權重模型家族,並行在多個方向上推進:旗艦規模的稀疏專家化(sparse-expert)擴展、面向邊緣與本地部署的緊湊型稠密變體、長上下文多模態,以及鼓勵真實世界使用與研究的寬鬆開源授權。

什麼是 Mistral 3?

Mistral 3 是由 Mistral AI 於 2025 年下半年發佈的開放權重多模態語言模型「家族」。該家族包含三個稠密(非稀疏)緊湊模型 —— Ministral 3 的 3B、8B 與 14B 參數版本 —— 以及旗艦級的 Mistral Large 3:一個稀疏專家混合(MoE)模型,總參數約 675B,推理時活躍參數約 41B。所有模型均以 Apache 2.0 授權釋出,並提供壓縮格式以支援廣泛分發與本地部署。Mistral 強調的關鍵特性包括多模態能力、超長上下文視窗(Large:最高可達 256K tokens),以及針對現代加速器的最佳化。

Mistral 3 重要的三個原因:

  1. Range —— 家族涵蓋從小型到前沿規模(3B / 8B / 14B 稠密 Ministral 變體與 675B 參數 MoE),可在成本/效能折衷間,實現一致的研究與生產工作流程。
  2. Openness —— Mistral 以 Apache-2.0 授權釋出模型與權重,並在 Hugging Face 等平台提供可部署的工件,加速採用。
  3. Engineering focus —— Large 3 採用精細粒度的 MoE 架構,總參數極大,但推理時的「活躍」參數集更小,旨在以更佳吞吐與成本效率,為特定工作負載提供接近前沿的能力。

Mistral 3 系列概覽

Ministral 3 — 14B (Ministral 3 14B)

What it is: 緊湊/邊緣「Ministral」產品線中最大的稠密(非 MoE)模型:高品質的 140 億參數多模態模型,提供 Base / Instruct / Reasoning 變體,並針對文字 + 圖像理解與指令跟隨進行調校。

When to pick it: 你希望在不引入 MoE 複雜度的前提下,獲得接近頂級的稠密模型效能,並在單一模型中同時具備強勁的指令/對話表現與視覺能力。適用於聊天代理、多模態助理、程式碼生成,以及可負擔較大型模型的更嚴苛邊緣/裝置端工作負載。

Ministral 3 — 8B (Ministral 3 8B)

What it is: Ministral 3 家族中均衡高效的 80 億參數稠密模型。提供 Base / Instruct / Reasoning 變體並支援多模態輸入。被定位為許多生產場景的「甜蜜點」。

When to pick it: 你需要良好的生成品質與推理能力,但希望延遲與 VRAM 佔用遠小於 14B。非常適合聊天機器人、裝置端助理、GPU 預算受限的網路服務,以及配合量化的嵌入式使用。

Ministral 3 — 3B (Ministral 3 3B)

What it is: Ministral 3 家族中最小的稠密成員:一個 30 億參數的多模態模型(Base / Instruct / Reasoning)。為極低記憶體/延遲場景而設計,同時保留現代多模態特性。

When to pick it: 當你需要裝置端推理、極低延遲,或以低成本運行大量並發的輕量代理 —— 例如行動應用、機器人、無人機,或注重本地隱私的部署。適合聊天、摘要、輕量程式碼任務與快速的視覺+文字任務。

Mistral Small 3 — 24B(Mistral Small 3)

What it is: Mistral 作為 Mistral 3 家族一部分發佈的「延遲最佳化的 240 億參數稠密模型」。它旨在在單張 GPU 上提供高吞吐與強勁生成品質,同時保持易於服務(無 MoE 複雜度)。

When to pick it: 你想要最佳的單 GPU(或單節點)折衷:在許多基準上顯著高於 14B/8B,同時部署仍相對簡單。適合生產級對話系統、更高保真度的助理,以及需要更強推理但不想承擔 MoE 服務複雜度的應用。

Mistral Large 3 — MoE (Mixture-of-Experts)

What it is: Mistral 3 家族的旗艦「稀疏 Mixture-of-Experts(MoE)」模型:總參數約 675B,每個 token 的活躍參數約 41B(即每個 token 只啟用部分專家)。針對前沿推理、超長上下文與頂尖跨領域表現而設計。開放權重(Apache-2.0)。

When to pick it: 當你需要最佳的推理能力、超長上下文理解(Large 3 支援超長視窗 —— 供應商頁面報告可達 256k tokens),或你正在構建可為 MoE 服務複雜度與基礎設施投入提供正當理由的高價值企業系統時使用。

比較表

ModelStrengthsLimitations & notes
Ministral 3 14B在緊湊家族中於品質與模型大小之間達到最佳平衡;在最佳化堆疊中,延遲常能匹配或接近 24B 級別的單 GPU 表現。使用 Instruct / Reasoning 變體時具備強勁的推理與多模態理解。記憶體佔用比 8B/3B 更大 —— 消費級單 GPU 部署可能需要量化或最佳化核心。如果你需要絕對最小的延遲足跡,考慮 8B 或 3B 替代。
Ministral 3 8B成本/延遲折衷優秀:相比 14B 具有更低的記憶體與運算需求,同時保留強勁的多模態與推理表現(特別是 Reasoning 變體)。配合最佳化執行期與量化易於運行。在最困難的推理或最長上下文任務上不如 14B 或 24B Small,但在大幅更低成本下,對多數生產場景往往已「足夠好」。針對數學/編碼/STEM 任務使用 Reasoning 變體。
Ministral 3 3B佔用最小、在受限硬體上執行最快、最易量化與本地部署。其調校變體仍支援圖像理解與指令跟隨。對非常長或非常複雜的推理任務,原生生成品質低於 8B/14B/24B/大型 MoE。非常適合擴展或邊緣場景,但若追求最高準確度,請選擇更大模型。
Mistral Small 3在其級別中具有較高的 MMLU 類基準表現、延遲最佳化架構與核心,並以 Apache-2.0 釋出以供直接使用。受到雲端廠商與最佳化執行期(NVIDIA 等)廣泛支援。比 Ministral 14B/8B/3B 需要更大的 VRAM/運算 —— 若追求大上下文視窗或高併發,可能需要更強的單卡或多 GPU 方案。但其託管仍比 MoE 旗艦更簡單。
Mistral Large 3與具可比推理成本的稠密模型相比,每個 token 具有更高的有效容量(因僅使用活躍專家),從而帶來更優的推理與長上下文行為。服務複雜度:MoE 需要專家分片、路由、額外記憶體與網路 IO —— 在大規模運行上比稠密模型更複雜且成本更高。

Mistral 3 基準測試 —— 表現如何?

基準測試並非萬能,但仍是有用的度量。自發佈以來已有多個獨立與第三方評估浮現;情況較為複雜:Mistral Large 3 在許多標準排行榜(特別是非推理與多模態任務)上推進或匹配頂尖開源模型,而 Ministral 系列在小規模任務上展現出強勁的性價比。

一般 NLP 與推理

強於推理與長上下文任務:在社群比較中,Mistral Large 3 在推理資料集(AIME、高階數學/程式碼推理套件)與一般知識基準(如 MMLU)上報告了具競爭力(常為開源頂尖)的分數。納入 Large 3 的跨任務獨立論文與排行榜顯示,它在開放權重模型中表現處於頂尖或近頂尖水平。

程式碼與軟體工程

開源程式碼排行榜:早期的 LMArena 與 SWE-Bench 貼文顯示,Mistral Large 3 是開源模型中程式碼任務的領先者之一 —— 一些社群排名將其列為特定程式碼排行榜的開源第 1。話雖如此,在專有排行榜上,封閉模型(OpenAI、xAI、Google)在絕對頂級的程式碼能力上仍常居領先。

在 LMArena 排行榜上,Mistral Large 3 排名:

  • 開源非推理模型第 2;
  • 開源整體模型第 6。
ItemMistral 3 14B InstructMistral 3 8B InstructMistral 3 3B Instruct
Model Positioning高效能邊緣旗艦(企業級)均衡且節能的主流模型超輕量本地/邊緣模型
Total Parameters≈ 14B (13.5B LM + 0.4B Vision)≈ 8.8B (8.4B LM + 0.4B Vision)≈ 3.8B (3.4B LM + 0.4B Vision)
Vision Capability高解析度圖像理解、文件分析中解析度圖像問答輕量級圖像描述
Agent CapabilitiesFunction Calling + JSON outputFunction Calling + JSON outputFunction Calling + JSON output
Context Reasoning Ability⭐⭐⭐⭐⭐ (Strong)⭐⭐⭐⭐ (Medium-strong)⭐⭐⭐ (Lightweight)
Math Reasoning (AIME25)0.8500.7870.721
Multimodal Performance (MMMBench)8.498.087.83
Instruction Following (WildBench)68.566.856.8
Knowledge Understanding (MMLU)0.7940.7610.652
Memory Requirement (FP8)≈ 24 GB≈ 12 GB≈ 8 GB

如何取得/試用 Mistral 3(逐步)

1)Download and run from Hugging Face (weights + model cards)

  • 造訪 Mistral 組織與特定模型頁面(例如 mistralai/Mistral-Large-3-675B-Instruct-2512 或各個 Ministral 3 模型頁),依照「Files & versions」/ 模型卡上的建議格式(NVFP4/FP8/FP16)操作。
  • 典型流程:
    1. pip install transformers accelerate torch(或使用 vLLM 等執行期)。
    2. 從 Hugging Face 複製精確的模型 ID(模型頁包含官方 ID 與建議格式)。
    3. 範例(針對「緊湊」Ministral 模型 —— 實際運行請使用「精確」的 HF id):
from transformers import AutoTokenizer, AutoModelForCausalLM  
tokenizer = AutoTokenizer.from_pretrained("mistralai/<model-id>")  
model = AutoModelForCausalLM.from_pretrained("mistralai/<model-id>",  
                                             device_map="auto",  
                                             torch_dtype="auto")
  1. 對 Large 3(MoE),優先使用供應商執行期或 HF-inference 端點 —— 直接以 transformers 載入可能不利於 MoE 分佈式最佳化。

2) 使用託管雲端端點(最快,無基礎設施)

  • Amazon Bedrock:已加入 Mistral Large 3 與 Ministral 3 —— 你可透過 Bedrock 建立無伺服器端點並以其 API/SDK 呼叫。適合無基礎設施營運的生產應用。
  • IBM watsonx 與 Azure Foundry:作為發佈合作夥伴 —— 提供企業級託管存取與合規功能。
  • Mistral AI Studio:Mistral 自家模型的雲端試驗產品。

3) 使用供應商最佳化堆疊(若自我託管)

  • NVIDIA:使用 NVIDIA 最佳化的執行期與 FP8/NVFP4 變體以獲得更佳吞吐與成本(NVIDIA 發表了針對 Mistral 3 的開發部落格最佳化指南)。若計畫託管 Large 3,使用 GB200/H200 級硬體並遵循 NVIDIA 指南。
  • vLLM / 專用 MoE 執行期:許多團隊使用 vLLM 或 MoE 感知的推理堆疊以降低延遲並提升批次效率。

4) 第三方託管 / API

Modal、CometAPI 等供應商讓你能透過更簡單的 API 或隨用隨付端點呼叫模型 —— 對避免雲端廠商綁定的原型開發很有用。

限制、風險與最佳實務

已知限制與失效模式

  • 基準測試並非全部:排行榜名次會變動;務必進行任務特定的評估。
  • 指令微調差異:不同的 instruction-tuned 變體(base / instruct / reasoning)會產生不同行為;選用正確變體很重要。
  • MoE 部署複雜度:混合專家模型在部署與調優上更複雜(路由、記憶體佈局、批次)。盡可能使用供應商建議的執行期與量化格式。

成本與效率考量

  • Ministral 3(3–14B):每 token 成本低,可用廉價 GPU 或大量內部節點運行。適合內嵌於客戶端應用、行動後端,或延遲嚴格的服務。
  • Mistral Large 3:絕對資源需求更高,但相較於稠密的 675B 模型,稀疏啟用降低了每 token 的活躍運算;供應商最佳化堆疊(如 NVIDIA)可顯著降低延遲與成本。若你需要其推理/長上下文優勢,Large 3 相對於可比的稠密模型(需更大量推理運算才能達到相當能力)就會變得更具成本效益。

安全與治理

開源授權 + 企業控制:Apache 2.0 權重允許廣泛使用;企業仍應加上安全層(過濾器、人工審核、來源追溯),並針對領域特定的濫用情境進行紅隊測試。合作與新聞顯示 Mistral 正與夥伴合作推動負責任落地。

最佳實務

  • 在你的資料上做基準:使用你的提示、溫度設定與後處理重現評估。
  • 多層推理路由:將便宜/快速任務路由至稠密的 Ministral 模型,將 Large 3 保留給更重的工作。
  • 善用最佳化格式:使用供應商提供的格式與核心(NVFP4/Triton),以改善延遲並降低記憶體佔用。

最終結論:Mistral 3 在 2025 年的定位?

Mistral 3 對開源與企業 AI 生態而言是「具有戰略意義的發佈」。透過將具寬鬆授權、易於部署的緊湊家族(Ministral 3)與高容量稀疏旗艦(Mistral Large 3)結合,Mistral 提供了一套工具箱,從愛好者的本地開發一路覆蓋到嚴苛的企業代理工作負載。供應商最佳化(尤其與 NVIDIA 的合作)與開放格式意味著你可以依工作負載調校效能與成本。早期基準顯示,Mistral Large 3 可在開源模型排行榜上競爭頂尖,而 Ministral 變體則在實務任務中以性價比突顯。

If your priorities are open licensing, the ability to run models locally/offline, and competitive reasoning performance at bot

要開始,請在 Playground 探索更多模型(如 Gemini 3 Pro)的能力,並查閱 API guide 以獲取詳細指引。訪問前,請先登入 CometAPI 並取得 API 金鑰。CometAPI 提供遠低於官方的價格,協助你整合。

Ready to Go?→ Sign up for CometAPI today !

閱讀更多

一個 API 中超過 500 個模型

最高 20% 折扣