MiMo-V2-Flash 개요

MiMo-V2-Flash는 Xiaomi MiMo의 MiMo-V2-Flash API용 오픈 웨이트 Mixture-of-Experts 추론 모델로, 빠른 추론, 코딩, 에이전트형 워크플로를 중심으로 구축되었습니다. 모델 카드와 기술 보고서에서는 이 모델을 309B 파라미터, 15B 활성 파라미터를 갖춘 MoE로 설명하며, 더 빠른 디코딩을 위한 하이브리드 어텐션 설계와 멀티 토큰 예측을 채택하고 있습니다.

기술 사양

항목	MiMo-V2-Flash
제공자	Xiaomi MiMo
모델 패밀리	MiMo-V2
모델 유형	Mixture-of-Experts (MoE) 언어 모델
총 파라미터 수	309B
활성 파라미터 수	15B
기본 컨텍스트 길이	32K
확장 컨텍스트 길이	최대 256K
어텐션 설계	Hybrid Sliding Window Attention (5:1 SWA 대 Global Attention)
슬라이딩 윈도우 크기	128 토큰
MTP 레이어 수	3
학습 규모	27T 토큰
출력 모달리티	텍스트
출시일	2025-12-16
저장소 라이선스	Apache-2.0 (GitHub repo)

MiMo-V2-Flash란?

MiMo-V2-Flash는 추론 중심 워크로드를 위한 Xiaomi의 추론 효율형 파운데이션 모델입니다. 슬라이딩 윈도우 어텐션을 사용해 캐시 부담을 줄이고, 멀티 토큰 예측으로 디코딩 속도를 높여, 긴 컨텍스트 처리와 더 낮은 서빙 비용 사이의 균형을 맞추도록 설계되었습니다.

MiMo-V2-Flash의 주요 특징

작은 활성 풋프린트를 통한 MoE 효율성: 총 파라미터는 309B이지만 토큰당 활성화되는 파라미터는 15B에 불과하며, 이것이 이 모델이 효율적인 서빙에 적합한 것으로 평가되는 큰 이유 중 하나입니다.
긴 컨텍스트를 위한 하이브리드 어텐션: 이 아키텍처는 다섯 개의 SWA 레이어와 하나의 글로벌 어텐션 레이어를 번갈아 사용하며, 128토큰 윈도우를 통해 KV-cache 비용을 줄입니다.
더 빠른 디코딩을 위한 멀티 토큰 예측: 이 모델은 3개의 MTP 레이어를 포함하고 있으며, 기술 자료에서는 이를 생성 속도와 처리량을 높이기 위한 최적화로 설명합니다.
에이전트형 워크플로를 위해 구축됨: Xiaomi는 이 모델을 추론, 코딩, 에이전트 사용 사례에 맞춰 포지셔닝하고 있으며, 평가 스위트에는 SWE-Bench, Terminal-Bench, BrowseComp가 포함됩니다.
긴 컨텍스트 지원: 저장소에서는 최대 256K 지원을 보고하고 있으며, vLLM 레시피는 메모리 예산에 따라 더 낮은 max-model-len 값에 대한 실용적인 서빙 가이드를 제공합니다.

벤치마크 성능

저장소의 베이스 모델 표는 MiMo-V2-Flash가 일반 지식, 수학, 코딩, 긴 컨텍스트 작업에서 더 큰 오픈 모델들과 비교해 경쟁력 있는 성능을 보인다는 점을 보여줍니다. 포스트 트레이닝 표는 강력한 에이전트형 및 추론 성능을 강조합니다.

벤치마크	MiMo-V2-Flash	시사하는 바
MMLU-Pro	84.9	강력한 광범위 추론
GPQA-Diamond	83.7	까다로운 QA에서 견고한 성능
AIME 2025	94.1	강력한 수학 추론
LiveCodeBench-v6	80.6	경쟁력 있는 코딩 능력
SWE-Bench Verified	73.4	강력한 소프트웨어 에이전트 성능
SWE-Bench Multilingual	71.7	우수한 다국어 코딩/에이전트 커버리지
Terminal-Bench 2.0	38.5	터미널 중심 작업에서 유용하지만 최고 수준은 아님
NIAH-Multi 256K	96.7	256K에서도 긴 컨텍스트 검색 성능이 강하게 유지됨

MiMo-V2-Flash와 인접한 추론 모델 비교

모델	MMLU-Pro	SWE-Bench Verified	Terminal-Bench 2.0	비고
MiMo-V2-Flash	84.9	73.4	38.5	효율적인 오픈 웨이트 추론 모델
Kimi-K2 Thinking	84.6	71.3	35.7	추론에서는 근접하지만 터미널 작업에서는 더 약함
DeepSeek-V3.2 Thinking	85.0	73.1	46.4	강력한 터미널 성능, 비슷한 추론 등급

가장 적합한 사용 사례

MiMo-V2-Flash는 긴 입력에 대해 추론하고, 코딩 작업을 지원하며, 프로덕션 환경에서 효율성을 유지해야 할 때 가장 적합합니다. 문서 비중이 큰 RAG, 다단계 에이전트 워크플로, 코드 지원, 그리고 서빙 비용이 중요한 긴 컨텍스트 분석에 강력한 선택지입니다.

한계

MiMo-V2-Flash는 추론 효율성에 최적화되어 있으므로, 실제 처리량은 배치 처리, 텐서 병렬화, 서빙 구성에 따라 달라집니다. 또한 vLLM 가이드는 메모리 및 지연 시간 간의 트레이드오프에 따라 실용적인 max-model-len 설정이 대표 수치인 256K보다 낮을 수 있음을 보여줍니다.

mimo-v2-flash

MiMo-V2-Flash 개요

기술 사양

MiMo-V2-Flash란?

MiMo-V2-Flash의 주요 특징

벤치마크 성능

MiMo-V2-Flash와 인접한 추론 모델 비교

가장 적합한 사용 사례

한계

자주 묻는 질문

What does the MiMo-V2-Flash API do best?

How much context can the MiMo-V2-Flash API handle?

Can MiMo-V2-Flash API handle coding and terminal-style agents?

When should I use MiMo-V2-Flash API instead of Kimi-K2 Thinking or DeepSeek-V3.2 Thinking?

Is MiMo-V2-Flash API suitable for long-document RAG or summarization?

What are the known limitations of MiMo-V2-Flash API?

How do I integrate MiMo-V2-Flash API with vLLM?

mimo-v2-flash의 기능

mimo-v2-flash 가격

mimo-v2-flash의 샘플 코드 및 API

더 많은 모델