Xiaomi 將 MiMo 從單一機型擴展為面向不同產品需求的三機型產品線。Flash 於 2025 年 12 月 16 日發布,作為開源的 MoE 模型,面向推理、程式編寫與代理型任務;而 Pro 與 Omni 則於 2026 年 3 月 18 日正式亮相,分別定位為旗艦級推理模型與完整多模態模型。
What Is MiMo V2 and Why it Matter?
Xiaomi 的 MiMo V2 系列代表這家中國科技巨頭在前沿 AI 基礎模型上的佈局,並針對真實世界的代理型工作負載進行優化。該系列分階段發布(Flash 於 2025 年底/2026 年初,Pro 與 Omni 於 2026 年 3 月 18 日),採用 Mixture-of-Experts(MoE)架構以提高效率:總參數量龐大,但推理時啟用的參數遠少於總量。
MiMo-V2-Omni:「眼睛與耳朵」——統一多模態模型,融合文字、視覺、影片與延展音訊。
MiMo-V2-Flash:「高效工作者」——輕量、開源、超高性價比。
MiMo-V2-Pro:「推理旗艦」——兆級參數大腦,面向複雜的多步任務。
所有模型均強調工具呼叫、長上下文推理,以及與 OpenClaw、OpenCode、KiloCode 等代理框架的整合。它們以遠低於 OpenAI、Anthropic 或 Google 的價格提供能力——通常便宜 5–10 倍——同時在關鍵基準上位列全球與中國領先行列。
MiMo V2-Omni vs MiMo V2-Pro vs MiMo V2-Flash: Quick Comparison
| Feature / Metric | MiMo-V2-Flash | MiMo-V2-Pro | MiMo-V2-Omni |
|---|---|---|---|
| Release | Dec 2025 | Mar 18, 2026 | Mar 19, 2026 |
| Parameters | 309B total / 15B active (MoE) | ~1T total / 42B active (MoE) | Multimodal (exact params undisclosed) |
| Context Window | 256K tokens | 1M tokens (tiered pricing) | 256K tokens |
| Primary Strength | Speed & cost (coding/agents) | Reasoning & complex agents | Multimodal perception (vision/audio) |
| Benchmarks (Key Examples) | SWE-Bench: 73.4% (#1 open-source); Artificial Analysis: ~41 | ClawEval: 61.5 (#3 global); PinchBench: 81.0; Global rank #7–8 | Strong in vision/audio tasks (e.g., browser shopping, hazard detection) |
| Official Pricing (per 1M tokens) | $0.09 input / $0.29 output | ≤256K: $1/$3; >256K: $2/$6 | $0.40 input / $2 output |
| Open-Source | Yes (MIT on HF) | No (API only) | No (API only) |
| Best For | High-volume, fast tasks | Production agents & long workflows | Vision/audio + text agents |
| Inference Speed | ~150 tokens/s | High (MTP optimized) | Multimodal latency ~2–5s |
What is MiMo V2-Omni, MiMo V2-Pro and MiMo V2-Flash
What is MiMo-V2-Flash? the efficiency-first model
MiMo-V2-Flash 是該系列中較早且最知名的成員。於 Hugging Face 的模型卡中,Xiaomi 將其描述為一個擁有 309B 總參數、15B 啟用參數的 Mixture-of-Experts 模型,使用混合注意力(Hybrid Attention)與多 Token 預測(Multi-Token Prediction)來提高輸出速度並降低推理成本;其在 27T tokens 上以 FP8 混合精度進行訓練,支援最高 256K 上下文,並針對高速推理與代理型工作流程進行最佳化。
實務結論是,Flash 是最均衡、適用於文字密集場景的「日常」MiMo 模型。MiMo-V2-Flash 長於長上下文推理、程式協助與代理流程;其在 SWE-bench Verified 與 SWE-bench Multilingual 上位居全球開源模型第 1,同時成本僅約為 Claude Sonnet 4.5 的 3.5%。這樣的組合使 Flash 成為在不消耗大量預算的情況下測試此系列的自然起點。
What is MiMo-V2-Pro? the flagship agent brain
MiMo-V2-Pro 是該系列中以文字為先的旗艦模型。Xiaomi 表示其擁有超過 1T 總參數、42B 啟用參數、7:1 的擴展混合注意力比例,以及 1M-token 的上下文視窗;其程式能力超越 Claude 4.6 Sonnet,而在 ClawEval 上的通用代理表現接近 Opus 4.6。更重要的是,Xiaomi 指出工具呼叫的穩定性與準確性已大幅提升,這正是開發者從展示走向生產時最關注的信號。
What is MiMo-V2-Omni? the multimodal agent model
MiMo-V2-Omni 是 Xiaomi 面向代理問題的多模態解法。它將影像、影片與音訊編碼器融合至一個共享骨幹,使模型能以單一感知流同時「看見、聽見與閱讀」。Xiaomi 也表示其原生支援結構化工具呼叫、函式執行與 UI 錨定,這也是 Omni 被定位為代理模型,而非通用多模態聊天機器人的原因。
在音訊理解方面,Omni 超越僅轉錄的層次,能處理超過 10 小時的連續音訊;同時在音訊任務上勝過 Gemini 3 Pro,在影像理解上超越 Claude Opus 4.6,並達到如 Gemini 3 等頂級閉源模型的水準。Omni 在瀏覽器與行動端工作流程上表現強勁,其代理展示由 OpenClaw 負責瀏覽器控制、檔案系統存取與終端互動。
可排名的長尾關鍵字洞察:搜尋「MiMo V2 Pro vs Flash for agentic coding」的開發者,往往因速度/成本選擇 Flash,而將 Pro 用於生產中的可靠性需求。

MiMo V2 API Pricing 2026
Pricing Comparison (per 1M tokens)
| Model | Input Price | Output Price | Context Tiering Notes | Blended Cost Example (100K Input + 10K Output) |
|---|---|---|---|---|
| Flash | $0.09 – $0.10 | $0.29 – $0.30 | Flat rate | ~$0.012 – $0.013 |
| Pro | $1.00 (≤256K) $2.00 (256K–1M) | $3.00 (≤256K) $6.00 (256K–1M) | Tiered by context length; cache pricing available | ~$0.13 – $0.26 |
| Omni | $0.40 | $2.00 | Flat rate (multimodal tokens billed accordingly) | ~$0.06 |
Examples:
- Flash 在高頻簡單任務上勝出(例如,每日 1M tokens 僅需極低成本)。
- Omni 在多模態方面具備高性價比(較 Gemini 3.1 同類更便宜)。
- Pro 的價格約為 Claude Sonnet 4.6 的 1/5–1/6,且在許多代理/程式基準上相當或更優。快取計價可進一步降低長上下文成本。
What is the price of Mimo V2 series API on CometAPI?
在 CometAPI 上,Mimo API 的價格低於官方網站,約為官方價格的 20%(近似免費)。MImo-v2 pro、mimo-V2-omni、與 mimo-v2-flash 也可在 openclaw 中使用。例如:
| Comet Price (USD / M Tokens) | Official Price (USD / M Tokens) | Discount |
|---|---|---|
| Input:$0.8/MOutput:$2.4/M | Input:$1/MOutput:$3/M | 20% |
需要注意的是,「最便宜」並不總是意味著「最佳價值」。當一次模型呼叫能取代多次重試、工具呼叫或人工介入時,Pro 可能是最具成本效益的選擇。當多模態錨定能避免建立獨立的 OCR、音訊與視覺管線時,Omni 可能更划算。當你需要高吞吐與可預期支出時,Flash 則是性價比領先者。
Performance Benchmark Comparison
General Intelligence & Reasoning Benchmarks
| Benchmark | MiMo-V2-Flash | MiMo-V2-Pro | MiMo-V2-Omni | Notes / Comparison Context |
|---|---|---|---|---|
| Artificial Analysis Intelligence Index | 39–41 | 49 (Global #8, Chinese #2) | Not primary focus | Pro shows significant leap over Flash |
| AIME 2025 (Math) | 94.1% | ~94.0% | N/A | Flash highly competitive for its size |
| Hallucination Rate | ~48% | ~30% | N/A | Pro demonstrates improved reliability |
| LongBench V2 (Long Context) | 60.6 | Strong (1M context advantage) | N/A | Pro excels in ultra-long tasks |
Coding & Agentic Benchmarks
| Benchmark | MiMo-V2-Flash | MiMo-V2-Pro | MiMo-V2-Omni | Comparison Highlights |
|---|---|---|---|---|
| SWE-Bench Verified | 73.4% (Top open-source) | 78.0% | ~74.8% | Pro leads; Flash #1 among open models |
| SWE-Bench Multilingual | 71.7% | 57.1% (multilingual variant) | N/A | Flash particularly strong here |
| ClawEval (Agentic Tool Use) | 48.1 – 62.1 | 61.5 – 81.0 | 52.0 – 54.8 | Pro often matches/exceeds Claude Sonnet 4.6 in coding scenarios |
| GDPVal-AA / PinchBench | 1040 – 1426 range | 1426 | 81.2 (variant) | Pro strong in real-world agent tasks |
| OmniGAIA / Multi-Modal Agent | N/A | N/A | 54.8 | Omni competitive in multimodal agents |
Multimodal Benchmarks (Omni-Focused)
| Benchmark | MiMo-V2-Omni Score | Notable Competitors | Highlights |
|---|---|---|---|
| MMAU-Pro (Audio) | 76.8 | Claude Opus 4.6 (73.9) | Omni leads |
| BigBench Audio / Speech Reasoning | Up to 80.1 – 94.0 | Varies | Strong long-audio capability (10+ hours) |
| MMMU-Pro (Image) | 85.3 | Varies (edges some leaders) | Excellent chart & visual understanding |
| Video-MME | 94.0 | Strong vs. Gemini 3 Pro in select areas | High video event forecasting |
| CharXiv (Charts) | 66.7 | Beats Gemini 3 Pro in some reports | Solid structured visual reasoning |
Performance Comparison: Which is Better?
在推理與程式方面,Mimo-V2-Flash 就紙面數據而言極為強勢。Mimo-V2-Flash 在 AIME 2025、GPQA-Diamond、SWE-bench Verified 與 SWE-bench Multilingual 中表現頂尖,作為全球開源模型中在 SWE-bench Verified 的佼佼者,其表現可與 Claude Sonnet 4.5 比肩,而成本僅約其 3.5%。這使得 Flash 成為注重吞吐與成本效率的開發者之突出選擇。
對於純代理控制,Pro 是旗艦之選。Xiaomi 強調工具呼叫穩定性、長期任務規劃與生產級工程工作流程,且 1M-token 的上下文視窗在大型程式碼庫、多文件分析與長時間瀏覽器/工具鏈中尤為實用。
在多模態感知方面,Omni 是明顯改變產品形態的一員。其差異化不在於「聊天稍微更好」,而在於原生的影像、影片與音訊理解,結合工具使用與 UI 錨定。若你的產品需要查看截圖、解析圖表、檢視影片、聆聽音訊或操作介面,Omni 是此三者中唯一為該堆疊而生的模型。
橫跨智能、程式、代理與多模態的指標,這些模型劃分出各自的利基:
- Reasoning/Intelligence:Pro 領先(AA Index 49);Flash 就其規模而言具競爭力;Omni 在跨模態上表現強勁。
- Coding/Agentic:Pro 在許多情境中常超越 Claude Sonnet 4.6(SWE-Bench、ClawEval);Omni 在多模態代理中緊隨其後;Flash 居開源之首。
- Speed:Flash 因啟用參數較小而最快。
- Context:Pro 以 1M tokens 稱霸。
- Multimodal:Omni 在家族中無可匹敵。
Pro 與 Omni 相較於美國前沿模型可節省 5–10 倍成本,同時位列全球前十。Flash 以近乎十分之一的價格提供接近許多閉源模型的開源性能。
How Should You Choose?
Choose MiMo V2 Pro if…
你需要在長期、高風險的代理工作中獲得最佳勝算:大型軟體任務、深度工作流程編排、超大上下文視窗與穩健的工具使用。當效能比單位 Token 成本更重要,且任務主要是文字或結構化工具互動而非影像與音訊時,Pro 是正確選擇。
Choose MiMo V2 Omni if…
你的產品需要將多模態感知作為一等公民:截圖、儀表板、照片、影片、音訊、瀏覽器狀態或跨裝置動作。若不需要 1M-token 的旗艦級上下文,Omni 是打造「看、聽、行動」應用的甜蜜點,較 Pro 更容易正當化其成本。
Choose MiMo V2 Flash if…
你想要最佳性價比。Flash 是程式協作、批次代理、高頻客服、內部自動化與強調開源權重、速度與低成本的實驗之最佳人選。由於已公布的 Token 價格遠低於其他兩者,它也是在預算審核中最容易被接受的模型。
Key Differences & When Each Model Shines
| Factor | Flash (Best For) | Pro (Best For) | Omni (Best For) |
|---|---|---|---|
| Budget | Extreme low-cost / high volume | High-value reasoning | Multimodal value |
| Task Type | Simple queries, local deploy | Complex agents, coding, planning | Vision/video/audio + agents |
| Context | Medium | Longest (1M) | Medium |
| Open-Source | Yes | No | No |
| Speed | Fastest | Balanced | Balanced (multimodal overhead) |
Decision Framework
Step 1:是否需要多模態(影像/影片/音訊)?→ Omni($0.40/$2.00)。
Step 2:純文字 + 最大化推理/代理能力?→ Pro($1–2/$3–6)。
Step 3:預算、速度或自託管是否關鍵?→ Flash($0.09/$0.29,開源)。
Hybrid Strategy(由 API 供應商推薦):使用 Flash 處理 80% 的常規任務,將複雜推理路由至 Pro,多模態路由至 Omni,且透過單一 API 金鑰接入(例如 CometAPI)。此法可在控成本的同時使用整個家族。
Final Verdict: Your Personalized Recommendation
MiMo V2 表達了 Xiaomi 希望打造完整 AI 堆疊,而不僅僅是單一王牌模型的企圖。Pro 是旗艦級推理引擎,Omni 是多模態運作手,Flash 是高效的開源主力。最佳選擇與其說取決於純粹的基準排名,不如說取決於你的工作負載型態:偏重文本的代理選擇 Flash 或 Pro,多模態系統選擇 Omni,巨量上下文的生產工作流程選擇 Pro。
MiMo V2 家族證明,高效能 AI 不再需要昂貴的西方定價。對多數使用者而言,從 Flash 或 Omni 起步,隨需求成長再擴展至 Pro,並關注 Xiaomi 的路線圖以迎接更多突破。
Ready to test? 透過如 CometAPI 等平台以一把金鑰接入三者。立即試用——正確的選擇可能在一夜之間改變你的 AI 生產力。
