MiMo-V2-Flash шолуы
MiMo-V2-Flash — Xiaomi MiMo-ның ашық салмақты Mixture-of-Experts ойлау моделі, MiMo-V2-Flash API үшін жасалған және жылдам инференс, кодинг және агенттік жұмыс ағындарына бағдарланған. Модель картасы мен техникалық есепте ол 309B параметрлі, 15B белсенді параметрі бар MoE, гибридті attention дизайны және декодтауды жеделдету үшін multi-token prediction қолданатын модель ретінде сипатталады.
Техникалық сипаттамалар
| Item | MiMo-V2-Flash |
|---|---|
| Provider | Xiaomi MiMo |
| Model family | MiMo-V2 |
| Model type | Mixture-of-Experts (MoE) тілдік моделі |
| Total parameters | 309B |
| Active parameters | 15B |
| Native context length | 32K |
| Extended context length | 256K-ке дейін |
| Attention design | Гибридті сырғымалы терезелі зейін (SWA мен Global Attention арақатынасы 5:1) |
| Sliding window size | 128 tokens |
| MTP layers | 3 |
| Training scale | 27T tokens |
| Output modality | Мәтін |
| Release date | 2025-12-16 |
| Repository license | Apache-2.0 (GitHub repo) |
MiMo-V2-Flash деген не?
MiMo-V2-Flash — Xiaomi-дің есептеуді тиімді жүргізуге оңтайландырылған, күрделі ойлау жүктемелеріне арналған базалық моделі. Ол ұзын контексті өңдеуді төмен қызмет көрсету құнымен теңестіретіндей етіп жобаланған: кэшке түсетін қысымды азайту үшін сырғымалы терезелі зейінді, ал декодтауды жылдамдату үшін көп-токенді болжауды пайдаланады.
MiMo-V2-Flash негізгі мүмкіндіктері
- Белсенді ізі шағын MoE тиімділігі: Жалпы 309B параметр, бірақ әр токен үшін тек 15B белсенді — бұл модельдің тиімді қызмет көрсетуге қойылуының басты себептерінің бірі.
- Ұзын контекст үшін гибридті зейін: Архитектура бес SWA қабатын бір жаһандық зейін қабатымен алмастырып отырады, KV-cache шығынын қысқарту үшін 128-token терезесін қолданады.
- Жылдам декодтау үшін multi-token prediction: Модельде 3 MTP қабаты бар; техникалық материалдарда бұл генерация жылдамдығы мен өткізу қабілетін оңтайландыру деп сипатталады.
- Агенттік жұмыс ағындарына лайық: Xiaomi оны ойлау, кодинг және агенттік қолдану сценарийлері үшін позициялайды; бағалау жиынына SWE-Bench, Terminal-Bench және BrowseComp кіреді.
- Ұзын контекстті қолдау: Репозиторияда 256K-ке дейін қолдау көрсетілетіні айтылады, ал vLLM recipe жады бюджетіне қарай төмен
max-model-lenмәндеріне арналған практикалық сервинг нұсқаулығын ұсынады.
Бенчмарк нәтижелері
Репозиторийдегі базалық модель кестесі MiMo-V2-Flash-тың жалпы білім, математика, кодинг және ұзын контекст тапсырмаларында үлкен ашық модельдермен бәсекелес нәтижелер көрсететінін көрсетеді. Пост-оқыту кестесі агенттік және ойлау міндеттерінде мықты нәтижелерді ерекшелейді.
| Benchmark | MiMo-V2-Flash | Нені білдіреді |
|---|---|---|
| MMLU-Pro | 84.9 | Кең ауқымды ойлау қабілеті жоғары |
| GPQA-Diamond | 83.7 | Қиын QA бойынша орнықты өнімділік |
| AIME 2025 | 94.1 | Күшті математикалық ойлау |
| LiveCodeBench-v6 | 80.6 | Бәсекеге қабілетті код жазу мүмкіндігі |
| SWE-Bench Verified | 73.4 | Бағдарламалық агент өнімділігі жоғары |
| SWE-Bench Multilingual | 71.7 | Көптілді кодтау/агент қамтуы жақсы |
| Terminal-Bench 2.0 | 38.5 | Терминалға тәуелді тапсырмаларда пайдалы, бірақ үздік емес |
| NIAH-Multi 256K | 96.7 | 256K-де ұзын контексттен іздеу әлі де мықты |
MiMo-V2-Flash және жақын ойлау модельдерімен салыстыру
| Model | MMLU-Pro | SWE-Bench Verified | Terminal-Bench 2.0 | Ескертпелер |
|---|---|---|---|---|
| MiMo-V2-Flash | 84.9 | 73.4 | 38.5 | Тиімді, ашық салмақты ойлау моделі |
| Kimi-K2 Thinking | 84.6 | 71.3 | 35.7 | Ойлау бойынша жақын, терминал тапсырмаларында әлсіздеу |
| DeepSeek-V3.2 Thinking | 85.0 | 73.1 | 46.4 | Терминалда күшті өнімділік, ойлау деңгейі ұқсас |
Ең қолайлы қолдану жағдайлары
MiMo-V2-Flash ең жақсысы — сізге ұзын енгізулер бойынша ой қорыта алатын, кодтау тапсырмаларына көмектесетін және продакшнда тиімді болып қалатын модель керек болғанда. Ол құжат-көлемі жоғары RAG, көпқадамды агенттік жұмыс ағындары, код көмекшісі және қызмет көрсету құны маңызды ұзын контекст талдауы үшін мықты таңдау.
Шектеулер
MiMo-V2-Flash инференс тиімділігіне оңтайландырылған, сондықтан нақты ортадағы өткізу қабілеті batching, тензорлық параллелизм және сервинг конфигурациясына тәуелді. Сондай-ақ vLLM guide жад пен латенттік арасындағы ымыраларға байланысты практикалық max-model-len мәндері жария 256K-тен төмен болуы мүмкін екенін көрсетеді.