Home/Models/Xiaomi/mimo-v2-flash
X

mimo-v2-flash

輸入:$0.08/M
輸出:$0.24/M
MiMo-V2-Flash 是对 Thinking Mode 的全面升级。它显著增强了编程与复杂逻辑能力,将工具调用准确率提升至97%,并优化链式思维(CoT),以减少幻觉,同时降低延迟与 token 成本。
新
商用
Playground
概览
功能亮点
定价
API

MiMo-V2-Flash 概览

MiMo-V2-Flash 是 Xiaomi MiMo 面向 MiMo-V2-Flash API 推出的开放权重混合专家推理模型,围绕快速推理、编程和智能体工作流构建。模型卡和技术报告将其描述为一个拥有 309B 参数、15B 激活参数的 MoE 模型,采用混合注意力设计,并使用多 token 预测来实现更快的解码。

技术规格

项目MiMo-V2-Flash
提供方Xiaomi MiMo
模型系列MiMo-V2
模型类型混合专家(MoE)语言模型
总参数量309B
激活参数量15B
原生上下文长度32K
扩展上下文长度最高 256K
注意力设计混合滑动窗口注意力(SWA 与全局注意力比例为 5:1)
滑动窗口大小128 tokens
MTP 层数3
训练规模27T tokens
输出模态文本
发布日期2025-12-16
仓库许可证Apache-2.0(GitHub 仓库)

什么是 MiMo-V2-Flash?

MiMo-V2-Flash 是 Xiaomi 面向高推理负载场景打造的高推理效率基础模型。它旨在平衡长上下文处理能力与更低的服务成本,通过滑动窗口注意力降低缓存压力,并通过多 token 预测加快解码速度。

MiMo-V2-Flash 的主要特性

  • MoE 高效率且激活开销小: 总参数量为 309B,但每个 token 仅激活 15B 参数,这也是该模型被定位为高效服务模型的重要原因。
  • 面向长上下文的混合注意力: 该架构以五层 SWA 加一层全局注意力的方式交替排列,并使用 128-token 窗口来降低 KV-cache 成本。
  • 通过多 token 预测加快解码: 该模型包含 3 个 MTP 层,技术资料将其描述为生成速度和吞吐量优化设计。
  • 为智能体工作流而构建: Xiaomi 将其定位于推理、编程和智能体使用场景,评测套件包括 SWE-Bench、Terminal-Bench 和 BrowseComp。
  • 支持长上下文: 仓库报告支持最高 256K,而 vLLM 配方则根据内存预算为较低的 max-model-len 值提供了实际部署指导。

基准测试表现

仓库中的基础模型表显示,MiMo-V2-Flash 在通用知识、数学、编程和长上下文任务上,与更大的开放模型相比表现出较强竞争力。后训练结果表则突出了其在智能体和推理任务上的强劲表现。

基准测试MiMo-V2-Flash说明
MMLU-Pro84.9较强的广泛推理能力
GPQA-Diamond83.7扎实的高难度问答表现
AIME 202594.1较强的数学推理能力
LiveCodeBench-v680.6具有竞争力的编程能力
SWE-Bench Verified73.4较强的软件智能体表现
SWE-Bench Multilingual71.7良好的多语言编程/智能体覆盖能力
Terminal-Bench 2.038.5实用,但在终端密集型任务上并非同类最佳
NIAH-Multi 256K96.7在 256K 上下文下仍保持较强的长上下文检索能力

MiMo-V2-Flash 与邻近推理模型的对比

模型MMLU-ProSWE-Bench VerifiedTerminal-Bench 2.0备注
MiMo-V2-Flash84.973.438.5高效的开放权重推理模型
Kimi-K2 Thinking84.671.335.7推理能力接近,但终端任务较弱
DeepSeek-V3.2 Thinking85.073.146.4终端表现更强,推理水平相近

最佳使用场景

当你需要一个能够处理长输入、辅助编程任务并在生产环境中保持高效率的模型时,MiMo-V2-Flash 最为适合。它非常适用于文档密集型 RAG、多步智能体工作流、代码辅助以及对服务成本敏感的长上下文分析场景。

局限性

MiMo-V2-Flash 针对推理效率进行了优化,因此实际吞吐量取决于批处理、张量并行和服务配置。vLLM 指南还表明,依据内存和延迟权衡,实际可用的 max-model-len 设置可能会低于标称的 256K。

常见问题

What does the MiMo-V2-Flash API do best?

MiMo-V2-Flash is tuned for fast reasoning, coding, and agentic workflows rather than pure chat polish. Xiaomi describes it as a 309B-parameter MoE model with 15B active parameters and a hybrid attention design built to reduce serving cost while keeping long-context performance.

How much context can the MiMo-V2-Flash API handle?

Support up to 256K context, with a native 32K pretraining length that was later extended.

Can MiMo-V2-Flash API handle coding and terminal-style agents?

Yes. In the post-training table, MiMo-V2-Flash scores 73.4 on SWE-Bench Verified, 71.7 on SWE-Bench Multilingual, and 38.5 on Terminal-Bench 2.0, which makes it a credible option for code assistants and agent loops.

When should I use MiMo-V2-Flash API instead of Kimi-K2 Thinking or DeepSeek-V3.2 Thinking?

Use MiMo-V2-Flash when you want a strong open-weight model with a smaller active compute footprint and good all-around reasoning plus agent performance. It is competitive with Kimi-K2 Thinking on MMLU-Pro and SWE-Bench, while DeepSeek-V3.2 Thinking is stronger on terminal-heavy tasks, so the better choice depends on whether you care more about efficiency or terminal depth.

Is MiMo-V2-Flash API suitable for long-document RAG or summarization?

Yes. The architecture uses sliding window attention to reduce long-sequence cost, and the repo reports very strong NIAH-Multi results even at 256K context. That makes it a sensible fit for long-document retrieval, summarization, and multi-hop context stitching.

What are the known limitations of MiMo-V2-Flash API?

It is optimized for inference efficiency, so speed and memory use still depend on batching, tensor parallelism, and the exact serving stack. A smaller runtime context can be a better production choice than the headline maximum if you need lower latency or lower memory use.

How do I integrate MiMo-V2-Flash API with vLLM?

The vLLM recipe serves it from XiaomiMiMo/MiMo-V2-Flash with --trust-remote-code, --served-model-name mimo_v2_flash, and tensor parallelism tuned for your hardware. If you need agent-style tool calling, the recipe also shows parser options such as qwen3_xml and qwen3.

mimo-v2-flash 的功能

了解 mimo-v2-flash 的核心能力,帮助提升性能与可用性,并改善整体体验。

mimo-v2-flash 的定价

查看 mimo-v2-flash 的竞争性定价,满足不同预算与使用需求,灵活方案确保随需求扩展。
Comet 价格 (USD / M Tokens)官方定价 (USD / M Tokens)折扣
輸入:$0.08/M
輸出:$0.24/M
輸入:$0.1/M
輸出:$0.3/M
-20%

mimo-v2-flash 的示例代码与 API

获取完整示例代码与 API 资源,简化 mimo-v2-flash 的集成流程,我们提供逐步指导,助你发挥模型潜能。
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"

client = OpenAI(api_key=COMETAPI_KEY, base_url="https://api.cometapi.com/v1")

# mimo-v2-flash is optimized for speed; test structured JSON output
completion = client.chat.completions.create(
    model="mimo-v2-flash",
    messages=[
        {"role": "system", "content": "You are a helpful assistant. Respond in JSON only."},
        {"role": "user", "content": "List 3 programming languages with their primary use case."},
    ],
    response_format={"type": "json_object"},
)

print(completion.choices[0].message.content)

更多模型