MiMo-V2-Flash 개요
MiMo-V2-Flash는 Xiaomi MiMo의 MiMo-V2-Flash API용 오픈 웨이트 Mixture-of-Experts 추론 모델로, 빠른 추론, 코딩, 에이전트형 워크플로를 중심으로 구축되었습니다. 모델 카드와 기술 보고서에서는 이 모델을 309B 파라미터, 15B 활성 파라미터를 갖춘 MoE로 설명하며, 더 빠른 디코딩을 위한 하이브리드 어텐션 설계와 멀티 토큰 예측을 채택하고 있습니다.
기술 사양
| 항목 | MiMo-V2-Flash |
|---|---|
| 제공자 | Xiaomi MiMo |
| 모델 패밀리 | MiMo-V2 |
| 모델 유형 | Mixture-of-Experts (MoE) 언어 모델 |
| 총 파라미터 수 | 309B |
| 활성 파라미터 수 | 15B |
| 기본 컨텍스트 길이 | 32K |
| 확장 컨텍스트 길이 | 최대 256K |
| 어텐션 설계 | Hybrid Sliding Window Attention (5:1 SWA 대 Global Attention) |
| 슬라이딩 윈도우 크기 | 128 토큰 |
| MTP 레이어 수 | 3 |
| 학습 규모 | 27T 토큰 |
| 출력 모달리티 | 텍스트 |
| 출시일 | 2025-12-16 |
| 저장소 라이선스 | Apache-2.0 (GitHub repo) |
MiMo-V2-Flash란?
MiMo-V2-Flash는 추론 중심 워크로드를 위한 Xiaomi의 추론 효율형 파운데이션 모델입니다. 슬라이딩 윈도우 어텐션을 사용해 캐시 부담을 줄이고, 멀티 토큰 예측으로 디코딩 속도를 높여, 긴 컨텍스트 처리와 더 낮은 서빙 비용 사이의 균형을 맞추도록 설계되었습니다.
MiMo-V2-Flash의 주요 특징
- 작은 활성 풋프린트를 통한 MoE 효율성: 총 파라미터는 309B이지만 토큰당 활성화되는 파라미터는 15B에 불과하며, 이것이 이 모델이 효율적인 서빙에 적합한 것으로 평가되는 큰 이유 중 하나입니다.
- 긴 컨텍스트를 위한 하이브리드 어텐션: 이 아키텍처는 다섯 개의 SWA 레이어와 하나의 글로벌 어텐션 레이어를 번갈아 사용하며, 128토큰 윈도우를 통해 KV-cache 비용을 줄입니다.
- 더 빠른 디코딩을 위한 멀티 토큰 예측: 이 모델은 3개의 MTP 레이어를 포함하고 있으며, 기술 자료에서는 이를 생성 속도와 처리량을 높이기 위한 최적화로 설명합니다.
- 에이전트형 워크플로를 위해 구축됨: Xiaomi는 이 모델을 추론, 코딩, 에이전트 사용 사례에 맞춰 포지셔닝하고 있으며, 평가 스위트에는 SWE-Bench, Terminal-Bench, BrowseComp가 포함됩니다.
- 긴 컨텍스트 지원: 저장소에서는 최대 256K 지원을 보고하고 있으며, vLLM 레시피는 메모리 예산에 따라 더 낮은
max-model-len값에 대한 실용적인 서빙 가이드를 제공합니다.
벤치마크 성능
저장소의 베이스 모델 표는 MiMo-V2-Flash가 일반 지식, 수학, 코딩, 긴 컨텍스트 작업에서 더 큰 오픈 모델들과 비교해 경쟁력 있는 성능을 보인다는 점을 보여줍니다. 포스트 트레이닝 표는 강력한 에이전트형 및 추론 성능을 강조합니다.
| 벤치마크 | MiMo-V2-Flash | 시사하는 바 |
|---|---|---|
| MMLU-Pro | 84.9 | 강력한 광범위 추론 |
| GPQA-Diamond | 83.7 | 까다로운 QA에서 견고한 성능 |
| AIME 2025 | 94.1 | 강력한 수학 추론 |
| LiveCodeBench-v6 | 80.6 | 경쟁력 있는 코딩 능력 |
| SWE-Bench Verified | 73.4 | 강력한 소프트웨어 에이전트 성능 |
| SWE-Bench Multilingual | 71.7 | 우수한 다국어 코딩/에이전트 커버리지 |
| Terminal-Bench 2.0 | 38.5 | 터미널 중심 작업에서 유용하지만 최고 수준은 아님 |
| NIAH-Multi 256K | 96.7 | 256K에서도 긴 컨텍스트 검색 성능이 강하게 유지됨 |
MiMo-V2-Flash와 인접한 추론 모델 비교
| 모델 | MMLU-Pro | SWE-Bench Verified | Terminal-Bench 2.0 | 비고 |
|---|---|---|---|---|
| MiMo-V2-Flash | 84.9 | 73.4 | 38.5 | 효율적인 오픈 웨이트 추론 모델 |
| Kimi-K2 Thinking | 84.6 | 71.3 | 35.7 | 추론에서는 근접하지만 터미널 작업에서는 더 약함 |
| DeepSeek-V3.2 Thinking | 85.0 | 73.1 | 46.4 | 강력한 터미널 성능, 비슷한 추론 등급 |
가장 적합한 사용 사례
MiMo-V2-Flash는 긴 입력에 대해 추론하고, 코딩 작업을 지원하며, 프로덕션 환경에서 효율성을 유지해야 할 때 가장 적합합니다. 문서 비중이 큰 RAG, 다단계 에이전트 워크플로, 코드 지원, 그리고 서빙 비용이 중요한 긴 컨텍스트 분석에 강력한 선택지입니다.
한계
MiMo-V2-Flash는 추론 효율성에 최적화되어 있으므로, 실제 처리량은 배치 처리, 텐서 병렬화, 서빙 구성에 따라 달라집니다. 또한 vLLM 가이드는 메모리 및 지연 시간 간의 트레이드오프에 따라 실용적인 max-model-len 설정이 대표 수치인 256K보다 낮을 수 있음을 보여줍니다.