MiMo-V2-Flash 概述
MiMo-V2-Flash 是 Xiaomi MiMo 面向 MiMo-V2-Flash API 的開放權重專家混合(MoE)推理模型,圍繞快速推理、程式設計與智能體工作流程而構建。模型卡與技術報告將其描述為一個總參數 309B、每個 Token 活躍參數 15B,採用混合注意力設計與多 Token 預測以加速解碼的模型。
技術規格
| 項目 | MiMo-V2-Flash |
|---|---|
| 提供方 | Xiaomi MiMo |
| 模型系列 | MiMo-V2 |
| 模型類型 | 專家混合(MoE)語言模型 |
| 總參數 | 309B |
| 活躍參數 | 15B |
| 原生上下文長度 | 32K |
| 擴充上下文長度 | 最高 256K |
| 注意力設計 | 混合滑動視窗注意力(SWA 與全域注意力比 5:1) |
| 滑動視窗大小 | 128 tokens |
| MTP 層 | 3 |
| 訓練規模 | 27T tokens |
| 輸出模態 | 文字 |
| 發佈日期 | 2025-12-16 |
| 儲存庫授權條款 | Apache-2.0(GitHub 儲存庫) |
什麼是 MiMo-V2-Flash?
MiMo-V2-Flash 是 Xiaomi 面向高強度推理工作負載的高效推理基礎模型。它旨在在長上下文處理與較低服務成本之間取得平衡,使用滑動視窗注意力降低快取壓力,並透過多 Token 預測加速解碼。
MiMo-V2-Flash 的主要特性
- 活躍規模小的 MoE 效率: 總參數 309B,但每個 Token 僅有 15B 活躍參數,這是其能夠高效服務的關鍵原因之一。
- 面向長上下文的混合注意力: 架構以五層 SWA 交替一層全域注意力,使用 128 Token 視窗以降低 KV 快取成本。
- 透過多 Token 預測加速解碼: 模型包含 3 層 MTP,技術材料將其描述為生成速度與吞吐優化。
- 為智能體工作流程而建: Xiaomi 將其定位於推理、程式設計與智能體用例,評測套件包含 SWE-Bench、Terminal-Bench 與 BrowseComp。
- 長上下文支援: 程式碼庫聲稱可支援至 256K;同時 vLLM 範例根據記憶體預算為較低的
max-model-len值提供實際部署指引。
基準測試表現
程式碼庫中的基礎模型表格顯示,MiMo-V2-Flash 在通識、數學、程式與長上下文任務上相較更大的開源模型具有競爭力。後訓練表格則凸顯其在智能體與推理方面的強勢表現。
| 基準 | MiMo-V2-Flash | 含義說明 |
|---|---|---|
| MMLU-Pro | 84.9 | 廣泛推理能力強 |
| GPQA-Diamond | 83.7 | 困難問答表現穩健 |
| AIME 2025 | 94.1 | 數學推理能力強 |
| LiveCodeBench-v6 | 80.6 | 程式能力具競爭力 |
| SWE-Bench Verified | 73.4 | 軟體智能體表現強 |
| SWE-Bench Multilingual | 71.7 | 多語言程式/智能體覆蓋良好 |
| Terminal-Bench 2.0 | 38.5 | 在終端機密集型任務上有用但非頂尖 |
| NIAH-Multi 256K | 96.7 | 在 256K 下長上下文檢索仍然表現強勁 |
MiMo-V2-Flash 與相近推理模型比較
| 模型 | MMLU-Pro | SWE-Bench Verified | Terminal-Bench 2.0 | 備註 |
|---|---|---|---|---|
| MiMo-V2-Flash | 84.9 | 73.4 | 38.5 | 高效的開放權重推理模型 |
| Kimi-K2 Thinking | 84.6 | 71.3 | 35.7 | 推理相近,終端機任務較弱 |
| DeepSeek-V3.2 Thinking | 85.0 | 73.1 | 46.4 | 終端機表現強,推理檔次相近 |
最佳使用情境
當你需要一個能在長輸入上進行推理、協助程式任務,且在生產中保持高效的模型時,MiMo-V2-Flash 最為合適。它非常適合文件密集型 RAG、多步驟智能體工作流程、程式輔助,以及服務成本重要的長上下文分析。
限制
MiMo-V2-Flash 為推理效率進行了優化,因此實際吞吐取決於批處理、張量並行以及服務配置。vLLM 指南也顯示,基於記憶體與延遲的權衡,實務上的 max-model-len 設定可能低於標稱的 256K。