Обзор MiMo-V2-Flash

MiMo-V2-Flash — это модель рассуждений Mixture-of-Experts с открытыми весами от Xiaomi MiMo для API MiMo-V2-Flash, ориентированная на быстрый вывод, программирование и агентные рабочие процессы. В карточке модели и техническом отчете она описывается как MoE с 309B параметров и 15B активными параметрами, гибридным дизайном внимания и предсказанием нескольких токенов для ускоренного декодирования.

Технические характеристики

Параметр	MiMo-V2-Flash
Поставщик	Xiaomi MiMo
Семейство модели	MiMo-V2
Тип модели	языковая модель Mixture-of-Experts (MoE)
Общее число параметров	309B
Активные параметры	15B
Базовая длина контекста	32K
Расширенная длина контекста	До 256K
Дизайн внимания	Гибридное внимание со скользящим окном (соотношение SWA к глобальному вниманию 5:1)
Размер скользящего окна	128 токенов
Слои MTP	3
Масштаб обучения	27T токенов
Выходная модальность	Текст
Дата релиза	2025-12-16
Лицензия репозитория	Apache-2.0 (репозиторий GitHub)

Что такое MiMo-V2-Flash?

MiMo-V2-Flash — это эффективная по части вывода базовая модель Xiaomi для задач, требующих интенсивных рассуждений. Она разработана для баланса между обработкой длинного контекста и низкой стоимостью сервинга, используя внимание со скользящим окном для снижения нагрузки на кэш и предсказание нескольких токенов для ускорения декодирования.

Основные особенности MiMo-V2-Flash

Эффективность MoE с малым активным «следом»: 309B общих параметров, но только 15B активных на токен — важная причина, почему модель подходит для эффективного сервинга.
Гибридное внимание для длинного контекста: Архитектура чередует пять слоев SWA с одним слоем глобального внимания, используя окно из 128 токенов для сокращения стоимости KV-кэша.
Предсказание нескольких токенов для более быстрого декодирования: Модель включает 3 слоя MTP; в технических материалах это описано как оптимизация скорости и пропускной способности генерации.
Создана для агентных рабочих процессов: Xiaomi позиционирует ее для рассуждений, программирования и агентных сценариев; в набор оценки включены SWE-Bench, Terminal-Bench и BrowseComp.
Поддержка длинного контекста: Репозиторий заявляет поддержку до 256K, а рецепт vLLM дает практические рекомендации по сервингу с меньшими значениями max-model-len в зависимости от бюджета памяти.

Результаты на бенчмарках

Таблица базовых моделей в репозитории показывает, что MiMo-V2-Flash конкурентна с более крупными открытыми моделями на задачах общей эрудиции, математики, программирования и длинного контекста. Таблица посттренинга подчеркивает сильные результаты в агентных и рассуждательных задачах.

Бенчмарк	MiMo-V2-Flash	Что это показывает
MMLU-Pro	84.9	Сильные широкие рассуждения
GPQA-Diamond	83.7	Уверная работа в сложном QA
AIME 2025	94.1	Сильные математические рассуждения
LiveCodeBench-v6	80.6	Конкурентные способности в программировании
SWE-Bench Verified	73.4	Сильная работа софтового агента
SWE-Bench Multilingual	71.7	Хорошее покрытие многоязычных задач кодинга/агентов
Terminal-Bench 2.0	38.5	Полезна, но не лучшая в задачах с терминалом
NIAH-Multi 256K	96.7	Извлечение из длинного контекста остается сильным на 256K

MiMo-V2-Flash по сравнению с близкими моделями рассуждений

Модель	MMLU-Pro	SWE-Bench Verified	Terminal-Bench 2.0	Примечания
MiMo-V2-Flash	84.9	73.4	38.5	Эффективная модель рассуждений с открытыми весами
Kimi-K2 Thinking	84.6	71.3	35.7	Близка в рассуждениях, слабее в терминальных задачах
DeepSeek-V3.2 Thinking	85.0	73.1	46.4	Сильна в терминальных задачах, схожий уровень рассуждений

Лучшие варианты использования

MiMo-V2-Flash лучше всего подходит, когда нужна модель, способная рассуждать по длинным входам, помогать в задачах программирования и при этом оставаться эффективной в продакшене. Это сильный выбор для RAG по большим документам, многошаговых агентных процессов, помощи в коде и анализа с длинным контекстом, где важна стоимость сервинга.

Ограничения

MiMo-V2-Flash оптимизирована под эффективность вывода, поэтому реальная пропускная способность зависит от батчинга, тензорного параллелизма и конфигурации сервинга. Руководство vLLM также показывает, что практические значения max-model-len могут быть ниже заявленных 256K в зависимости от ограничений по памяти и задержкам.