MiMo-V2-Flash 概述

MiMo-V2-Flash 是 Xiaomi MiMo 面向 MiMo-V2-Flash API 的開放權重專家混合（MoE）推理模型，圍繞快速推理、程式設計與智能體工作流程而構建。模型卡與技術報告將其描述為一個總參數 309B、每個 Token 活躍參數 15B，採用混合注意力設計與多 Token 預測以加速解碼的模型。

技術規格

項目	MiMo-V2-Flash
提供方	Xiaomi MiMo
模型系列	MiMo-V2
模型類型	專家混合（MoE）語言模型
總參數	309B
活躍參數	15B
原生上下文長度	32K
擴充上下文長度	最高 256K
注意力設計	混合滑動視窗注意力（SWA 與全域注意力比 5:1）
滑動視窗大小	128 tokens
MTP 層	3
訓練規模	27T tokens
輸出模態	文字
發佈日期	2025-12-16
儲存庫授權條款	Apache-2.0（GitHub 儲存庫）

什麼是 MiMo-V2-Flash?

MiMo-V2-Flash 是 Xiaomi 面向高強度推理工作負載的高效推理基礎模型。它旨在在長上下文處理與較低服務成本之間取得平衡，使用滑動視窗注意力降低快取壓力，並透過多 Token 預測加速解碼。

MiMo-V2-Flash 的主要特性

活躍規模小的 MoE 效率： 總參數 309B，但每個 Token 僅有 15B 活躍參數，這是其能夠高效服務的關鍵原因之一。
面向長上下文的混合注意力： 架構以五層 SWA 交替一層全域注意力，使用 128 Token 視窗以降低 KV 快取成本。
透過多 Token 預測加速解碼： 模型包含 3 層 MTP，技術材料將其描述為生成速度與吞吐優化。
為智能體工作流程而建： Xiaomi 將其定位於推理、程式設計與智能體用例，評測套件包含 SWE-Bench、Terminal-Bench 與 BrowseComp。
長上下文支援： 程式碼庫聲稱可支援至 256K；同時 vLLM 範例根據記憶體預算為較低的 max-model-len 值提供實際部署指引。

基準測試表現

程式碼庫中的基礎模型表格顯示，MiMo-V2-Flash 在通識、數學、程式與長上下文任務上相較更大的開源模型具有競爭力。後訓練表格則凸顯其在智能體與推理方面的強勢表現。

基準	MiMo-V2-Flash	含義說明
MMLU-Pro	84.9	廣泛推理能力強
GPQA-Diamond	83.7	困難問答表現穩健
AIME 2025	94.1	數學推理能力強
LiveCodeBench-v6	80.6	程式能力具競爭力
SWE-Bench Verified	73.4	軟體智能體表現強
SWE-Bench Multilingual	71.7	多語言程式/智能體覆蓋良好
Terminal-Bench 2.0	38.5	在終端機密集型任務上有用但非頂尖
NIAH-Multi 256K	96.7	在 256K 下長上下文檢索仍然表現強勁

MiMo-V2-Flash 與相近推理模型比較

模型	MMLU-Pro	SWE-Bench Verified	Terminal-Bench 2.0	備註
MiMo-V2-Flash	84.9	73.4	38.5	高效的開放權重推理模型
Kimi-K2 Thinking	84.6	71.3	35.7	推理相近，終端機任務較弱
DeepSeek-V3.2 Thinking	85.0	73.1	46.4	終端機表現強，推理檔次相近

最佳使用情境

當你需要一個能在長輸入上進行推理、協助程式任務，且在生產中保持高效的模型時，MiMo-V2-Flash 最為合適。它非常適合文件密集型 RAG、多步驟智能體工作流程、程式輔助，以及服務成本重要的長上下文分析。

限制

MiMo-V2-Flash 為推理效率進行了優化，因此實際吞吐取決於批處理、張量並行以及服務配置。vLLM 指南也顯示，基於記憶體與延遲的權衡，實務上的 max-model-len 設定可能低於標稱的 256K。

mimo-v2-flash

MiMo-V2-Flash 概述

技術規格

什麼是 MiMo-V2-Flash?

MiMo-V2-Flash 的主要特性

基準測試表現

MiMo-V2-Flash 與相近推理模型比較

最佳使用情境

限制

常見問題

What does the MiMo-V2-Flash API do best?

How much context can the MiMo-V2-Flash API handle?

Can MiMo-V2-Flash API handle coding and terminal-style agents?

When should I use MiMo-V2-Flash API instead of Kimi-K2 Thinking or DeepSeek-V3.2 Thinking?

Is MiMo-V2-Flash API suitable for long-document RAG or summarization?

What are the known limitations of MiMo-V2-Flash API?

How do I integrate MiMo-V2-Flash API with vLLM?

mimo-v2-flash 的功能

mimo-v2-flash 的定價

mimo-v2-flash 的範例程式碼和 API

更多模型