Обзор MiMo-V2-Flash
MiMo-V2-Flash — это модель рассуждений Mixture-of-Experts с открытыми весами от Xiaomi MiMo для API MiMo-V2-Flash, ориентированная на быстрый вывод, программирование и агентные рабочие процессы. В карточке модели и техническом отчете она описывается как MoE с 309B параметров и 15B активными параметрами, гибридным дизайном внимания и предсказанием нескольких токенов для ускоренного декодирования.
Технические характеристики
| Параметр | MiMo-V2-Flash |
|---|---|
| Поставщик | Xiaomi MiMo |
| Семейство модели | MiMo-V2 |
| Тип модели | языковая модель Mixture-of-Experts (MoE) |
| Общее число параметров | 309B |
| Активные параметры | 15B |
| Базовая длина контекста | 32K |
| Расширенная длина контекста | До 256K |
| Дизайн внимания | Гибридное внимание со скользящим окном (соотношение SWA к глобальному вниманию 5:1) |
| Размер скользящего окна | 128 токенов |
| Слои MTP | 3 |
| Масштаб обучения | 27T токенов |
| Выходная модальность | Текст |
| Дата релиза | 2025-12-16 |
| Лицензия репозитория | Apache-2.0 (репозиторий GitHub) |
Что такое MiMo-V2-Flash?
MiMo-V2-Flash — это эффективная по части вывода базовая модель Xiaomi для задач, требующих интенсивных рассуждений. Она разработана для баланса между обработкой длинного контекста и низкой стоимостью сервинга, используя внимание со скользящим окном для снижения нагрузки на кэш и предсказание нескольких токенов для ускорения декодирования.
Основные особенности MiMo-V2-Flash
- Эффективность MoE с малым активным «следом»: 309B общих параметров, но только 15B активных на токен — важная причина, почему модель подходит для эффективного сервинга.
- Гибридное внимание для длинного контекста: Архитектура чередует пять слоев SWA с одним слоем глобального внимания, используя окно из 128 токенов для сокращения стоимости KV-кэша.
- Предсказание нескольких токенов для более быстрого декодирования: Модель включает 3 слоя MTP; в технических материалах это описано как оптимизация скорости и пропускной способности генерации.
- Создана для агентных рабочих процессов: Xiaomi позиционирует ее для рассуждений, программирования и агентных сценариев; в набор оценки включены SWE-Bench, Terminal-Bench и BrowseComp.
- Поддержка длинного контекста: Репозиторий заявляет поддержку до 256K, а рецепт vLLM дает практические рекомендации по сервингу с меньшими значениями
max-model-lenв зависимости от бюджета памяти.
Результаты на бенчмарках
Таблица базовых моделей в репозитории показывает, что MiMo-V2-Flash конкурентна с более крупными открытыми моделями на задачах общей эрудиции, математики, программирования и длинного контекста. Таблица посттренинга подчеркивает сильные результаты в агентных и рассуждательных задачах.
| Бенчмарк | MiMo-V2-Flash | Что это показывает |
|---|---|---|
| MMLU-Pro | 84.9 | Сильные широкие рассуждения |
| GPQA-Diamond | 83.7 | Уверная работа в сложном QA |
| AIME 2025 | 94.1 | Сильные математические рассуждения |
| LiveCodeBench-v6 | 80.6 | Конкурентные способности в программировании |
| SWE-Bench Verified | 73.4 | Сильная работа софтового агента |
| SWE-Bench Multilingual | 71.7 | Хорошее покрытие многоязычных задач кодинга/агентов |
| Terminal-Bench 2.0 | 38.5 | Полезна, но не лучшая в задачах с терминалом |
| NIAH-Multi 256K | 96.7 | Извлечение из длинного контекста остается сильным на 256K |
MiMo-V2-Flash по сравнению с близкими моделями рассуждений
| Модель | MMLU-Pro | SWE-Bench Verified | Terminal-Bench 2.0 | Примечания |
|---|---|---|---|---|
| MiMo-V2-Flash | 84.9 | 73.4 | 38.5 | Эффективная модель рассуждений с открытыми весами |
| Kimi-K2 Thinking | 84.6 | 71.3 | 35.7 | Близка в рассуждениях, слабее в терминальных задачах |
| DeepSeek-V3.2 Thinking | 85.0 | 73.1 | 46.4 | Сильна в терминальных задачах, схожий уровень рассуждений |
Лучшие варианты использования
MiMo-V2-Flash лучше всего подходит, когда нужна модель, способная рассуждать по длинным входам, помогать в задачах программирования и при этом оставаться эффективной в продакшене. Это сильный выбор для RAG по большим документам, многошаговых агентных процессов, помощи в коде и анализа с длинным контекстом, где важна стоимость сервинга.
Ограничения
MiMo-V2-Flash оптимизирована под эффективность вывода, поэтому реальная пропускная способность зависит от батчинга, тензорного параллелизма и конфигурации сервинга. Руководство vLLM также показывает, что практические значения max-model-len могут быть ниже заявленных 256K в зависимости от ограничений по памяти и задержкам.