MiMo-V2-Flash шолуы

MiMo-V2-Flash — Xiaomi MiMo-ның ашық салмақты Mixture-of-Experts ойлау моделі, MiMo-V2-Flash API үшін жасалған және жылдам инференс, кодинг және агенттік жұмыс ағындарына бағдарланған. Модель картасы мен техникалық есепте ол 309B параметрлі, 15B белсенді параметрі бар MoE, гибридті attention дизайны және декодтауды жеделдету үшін multi-token prediction қолданатын модель ретінде сипатталады.

Техникалық сипаттамалар

Item	MiMo-V2-Flash
Provider	Xiaomi MiMo
Model family	MiMo-V2
Model type	Mixture-of-Experts (MoE) тілдік моделі
Total parameters	309B
Active parameters	15B
Native context length	32K
Extended context length	256K-ке дейін
Attention design	Гибридті сырғымалы терезелі зейін (SWA мен Global Attention арақатынасы 5:1)
Sliding window size	128 tokens
MTP layers	3
Training scale	27T tokens
Output modality	Мәтін
Release date	2025-12-16
Repository license	Apache-2.0 (GitHub repo)

MiMo-V2-Flash деген не?

MiMo-V2-Flash — Xiaomi-дің есептеуді тиімді жүргізуге оңтайландырылған, күрделі ойлау жүктемелеріне арналған базалық моделі. Ол ұзын контексті өңдеуді төмен қызмет көрсету құнымен теңестіретіндей етіп жобаланған: кэшке түсетін қысымды азайту үшін сырғымалы терезелі зейінді, ал декодтауды жылдамдату үшін көп-токенді болжауды пайдаланады.

MiMo-V2-Flash негізгі мүмкіндіктері

Белсенді ізі шағын MoE тиімділігі: Жалпы 309B параметр, бірақ әр токен үшін тек 15B белсенді — бұл модельдің тиімді қызмет көрсетуге қойылуының басты себептерінің бірі.
Ұзын контекст үшін гибридті зейін: Архитектура бес SWA қабатын бір жаһандық зейін қабатымен алмастырып отырады, KV-cache шығынын қысқарту үшін 128-token терезесін қолданады.
Жылдам декодтау үшін multi-token prediction: Модельде 3 MTP қабаты бар; техникалық материалдарда бұл генерация жылдамдығы мен өткізу қабілетін оңтайландыру деп сипатталады.
Агенттік жұмыс ағындарына лайық: Xiaomi оны ойлау, кодинг және агенттік қолдану сценарийлері үшін позициялайды; бағалау жиынына SWE-Bench, Terminal-Bench және BrowseComp кіреді.
Ұзын контекстті қолдау: Репозиторияда 256K-ке дейін қолдау көрсетілетіні айтылады, ал vLLM recipe жады бюджетіне қарай төмен max-model-len мәндеріне арналған практикалық сервинг нұсқаулығын ұсынады.

Бенчмарк нәтижелері

Репозиторийдегі базалық модель кестесі MiMo-V2-Flash-тың жалпы білім, математика, кодинг және ұзын контекст тапсырмаларында үлкен ашық модельдермен бәсекелес нәтижелер көрсететінін көрсетеді. Пост-оқыту кестесі агенттік және ойлау міндеттерінде мықты нәтижелерді ерекшелейді.

Benchmark	MiMo-V2-Flash	Нені білдіреді
MMLU-Pro	84.9	Кең ауқымды ойлау қабілеті жоғары
GPQA-Diamond	83.7	Қиын QA бойынша орнықты өнімділік
AIME 2025	94.1	Күшті математикалық ойлау
LiveCodeBench-v6	80.6	Бәсекеге қабілетті код жазу мүмкіндігі
SWE-Bench Verified	73.4	Бағдарламалық агент өнімділігі жоғары
SWE-Bench Multilingual	71.7	Көптілді кодтау/агент қамтуы жақсы
Terminal-Bench 2.0	38.5	Терминалға тәуелді тапсырмаларда пайдалы, бірақ үздік емес
NIAH-Multi 256K	96.7	256K-де ұзын контексттен іздеу әлі де мықты

MiMo-V2-Flash және жақын ойлау модельдерімен салыстыру

Model	MMLU-Pro	SWE-Bench Verified	Terminal-Bench 2.0	Ескертпелер
MiMo-V2-Flash	84.9	73.4	38.5	Тиімді, ашық салмақты ойлау моделі
Kimi-K2 Thinking	84.6	71.3	35.7	Ойлау бойынша жақын, терминал тапсырмаларында әлсіздеу
DeepSeek-V3.2 Thinking	85.0	73.1	46.4	Терминалда күшті өнімділік, ойлау деңгейі ұқсас

Ең қолайлы қолдану жағдайлары

MiMo-V2-Flash ең жақсысы — сізге ұзын енгізулер бойынша ой қорыта алатын, кодтау тапсырмаларына көмектесетін және продакшнда тиімді болып қалатын модель керек болғанда. Ол құжат-көлемі жоғары RAG, көпқадамды агенттік жұмыс ағындары, код көмекшісі және қызмет көрсету құны маңызды ұзын контекст талдауы үшін мықты таңдау.

Шектеулер

MiMo-V2-Flash инференс тиімділігіне оңтайландырылған, сондықтан нақты ортадағы өткізу қабілеті batching, тензорлық параллелизм және сервинг конфигурациясына тәуелді. Сондай-ақ vLLM guide жад пен латенттік арасындағы ымыраларға байланысты практикалық max-model-len мәндері жария 256K-тен төмен болуы мүмкін екенін көрсетеді.

mimo-v2-flash

MiMo-V2-Flash шолуы

Техникалық сипаттамалар

MiMo-V2-Flash деген не?

MiMo-V2-Flash негізгі мүмкіндіктері

Бенчмарк нәтижелері

MiMo-V2-Flash және жақын ойлау модельдерімен салыстыру

Ең қолайлы қолдану жағдайлары

Шектеулер

ЖҚС

What does the MiMo-V2-Flash API do best?

How much context can the MiMo-V2-Flash API handle?

Can MiMo-V2-Flash API handle coding and terminal-style agents?

When should I use MiMo-V2-Flash API instead of Kimi-K2 Thinking or DeepSeek-V3.2 Thinking?

Is MiMo-V2-Flash API suitable for long-document RAG or summarization?

What are the known limitations of MiMo-V2-Flash API?

How do I integrate MiMo-V2-Flash API with vLLM?

mimo-v2-flash үшін мүмкіндіктер

mimo-v2-flash үшін баға белгілеу

mimo-v2-flash үшін үлгі код және API

Көбірек модельдер