Home/Models/Xiaomi/mimo-v2-flash
X

mimo-v2-flash

Ввод:$0.08/M
Вывод:$0.24/M
MiMo-V2-Flash — комплексное обновление режима Thinking Mode. Оно значительно улучшает возможности в области программирования и сложной логики, повышает точность вызовов инструментов до 97% и оптимизирует цепочку рассуждений (CoT), чтобы уменьшить галлюцинации, одновременно снижая задержку и стоимость токенов.
Новый
Коммерческое использование
Playground
Обзор
Функции
Цены
API

Обзор MiMo-V2-Flash

MiMo-V2-Flash — это модель рассуждений Mixture-of-Experts с открытыми весами от Xiaomi MiMo для API MiMo-V2-Flash, ориентированная на быстрый вывод, программирование и агентные рабочие процессы. В карточке модели и техническом отчете она описывается как MoE с 309B параметров и 15B активными параметрами, гибридным дизайном внимания и предсказанием нескольких токенов для ускоренного декодирования.

Технические характеристики

ПараметрMiMo-V2-Flash
ПоставщикXiaomi MiMo
Семейство моделиMiMo-V2
Тип моделиязыковая модель Mixture-of-Experts (MoE)
Общее число параметров309B
Активные параметры15B
Базовая длина контекста32K
Расширенная длина контекстаДо 256K
Дизайн вниманияГибридное внимание со скользящим окном (соотношение SWA к глобальному вниманию 5:1)
Размер скользящего окна128 токенов
Слои MTP3
Масштаб обучения27T токенов
Выходная модальностьТекст
Дата релиза2025-12-16
Лицензия репозиторияApache-2.0 (репозиторий GitHub)

Что такое MiMo-V2-Flash?

MiMo-V2-Flash — это эффективная по части вывода базовая модель Xiaomi для задач, требующих интенсивных рассуждений. Она разработана для баланса между обработкой длинного контекста и низкой стоимостью сервинга, используя внимание со скользящим окном для снижения нагрузки на кэш и предсказание нескольких токенов для ускорения декодирования.

Основные особенности MiMo-V2-Flash

  • Эффективность MoE с малым активным «следом»: 309B общих параметров, но только 15B активных на токен — важная причина, почему модель подходит для эффективного сервинга.
  • Гибридное внимание для длинного контекста: Архитектура чередует пять слоев SWA с одним слоем глобального внимания, используя окно из 128 токенов для сокращения стоимости KV-кэша.
  • Предсказание нескольких токенов для более быстрого декодирования: Модель включает 3 слоя MTP; в технических материалах это описано как оптимизация скорости и пропускной способности генерации.
  • Создана для агентных рабочих процессов: Xiaomi позиционирует ее для рассуждений, программирования и агентных сценариев; в набор оценки включены SWE-Bench, Terminal-Bench и BrowseComp.
  • Поддержка длинного контекста: Репозиторий заявляет поддержку до 256K, а рецепт vLLM дает практические рекомендации по сервингу с меньшими значениями max-model-len в зависимости от бюджета памяти.

Результаты на бенчмарках

Таблица базовых моделей в репозитории показывает, что MiMo-V2-Flash конкурентна с более крупными открытыми моделями на задачах общей эрудиции, математики, программирования и длинного контекста. Таблица посттренинга подчеркивает сильные результаты в агентных и рассуждательных задачах.

БенчмаркMiMo-V2-FlashЧто это показывает
MMLU-Pro84.9Сильные широкие рассуждения
GPQA-Diamond83.7Уверная работа в сложном QA
AIME 202594.1Сильные математические рассуждения
LiveCodeBench-v680.6Конкурентные способности в программировании
SWE-Bench Verified73.4Сильная работа софтового агента
SWE-Bench Multilingual71.7Хорошее покрытие многоязычных задач кодинга/агентов
Terminal-Bench 2.038.5Полезна, но не лучшая в задачах с терминалом
NIAH-Multi 256K96.7Извлечение из длинного контекста остается сильным на 256K

MiMo-V2-Flash по сравнению с близкими моделями рассуждений

МодельMMLU-ProSWE-Bench VerifiedTerminal-Bench 2.0Примечания
MiMo-V2-Flash84.973.438.5Эффективная модель рассуждений с открытыми весами
Kimi-K2 Thinking84.671.335.7Близка в рассуждениях, слабее в терминальных задачах
DeepSeek-V3.2 Thinking85.073.146.4Сильна в терминальных задачах, схожий уровень рассуждений

Лучшие варианты использования

MiMo-V2-Flash лучше всего подходит, когда нужна модель, способная рассуждать по длинным входам, помогать в задачах программирования и при этом оставаться эффективной в продакшене. Это сильный выбор для RAG по большим документам, многошаговых агентных процессов, помощи в коде и анализа с длинным контекстом, где важна стоимость сервинга.

Ограничения

MiMo-V2-Flash оптимизирована под эффективность вывода, поэтому реальная пропускная способность зависит от батчинга, тензорного параллелизма и конфигурации сервинга. Руководство vLLM также показывает, что практические значения max-model-len могут быть ниже заявленных 256K в зависимости от ограничений по памяти и задержкам.

ЧАВО

What does the MiMo-V2-Flash API do best?

MiMo-V2-Flash is tuned for fast reasoning, coding, and agentic workflows rather than pure chat polish. Xiaomi describes it as a 309B-parameter MoE model with 15B active parameters and a hybrid attention design built to reduce serving cost while keeping long-context performance.

How much context can the MiMo-V2-Flash API handle?

Support up to 256K context, with a native 32K pretraining length that was later extended.

Can MiMo-V2-Flash API handle coding and terminal-style agents?

Yes. In the post-training table, MiMo-V2-Flash scores 73.4 on SWE-Bench Verified, 71.7 on SWE-Bench Multilingual, and 38.5 on Terminal-Bench 2.0, which makes it a credible option for code assistants and agent loops.

When should I use MiMo-V2-Flash API instead of Kimi-K2 Thinking or DeepSeek-V3.2 Thinking?

Use MiMo-V2-Flash when you want a strong open-weight model with a smaller active compute footprint and good all-around reasoning plus agent performance. It is competitive with Kimi-K2 Thinking on MMLU-Pro and SWE-Bench, while DeepSeek-V3.2 Thinking is stronger on terminal-heavy tasks, so the better choice depends on whether you care more about efficiency or terminal depth.

Is MiMo-V2-Flash API suitable for long-document RAG or summarization?

Yes. The architecture uses sliding window attention to reduce long-sequence cost, and the repo reports very strong NIAH-Multi results even at 256K context. That makes it a sensible fit for long-document retrieval, summarization, and multi-hop context stitching.

What are the known limitations of MiMo-V2-Flash API?

It is optimized for inference efficiency, so speed and memory use still depend on batching, tensor parallelism, and the exact serving stack. A smaller runtime context can be a better production choice than the headline maximum if you need lower latency or lower memory use.

How do I integrate MiMo-V2-Flash API with vLLM?

The vLLM recipe serves it from XiaomiMiMo/MiMo-V2-Flash with --trust-remote-code, --served-model-name mimo_v2_flash, and tensor parallelism tuned for your hardware. If you need agent-style tool calling, the recipe also shows parser options such as qwen3_xml and qwen3.

Функции для mimo-v2-flash

Изучите ключевые функции mimo-v2-flash, разработанные для повышения производительности и удобства использования. Узнайте, как эти возможности могут принести пользу вашим проектам и улучшить пользовательский опыт.

Цены для mimo-v2-flash

Изучите конкурентоспособные цены на mimo-v2-flash, разработанные для различных бюджетов и потребностей использования. Наши гибкие планы гарантируют, что вы платите только за то, что используете, что упрощает масштабирование по мере роста ваших требований. Узнайте, как mimo-v2-flash может улучшить ваши проекты, сохраняя при этом управляемые расходы.
Цена Comet (USD / M Tokens)Официальная цена (USD / M Tokens)Скидка
Ввод:$0.08/M
Вывод:$0.24/M
Ввод:$0.1/M
Вывод:$0.3/M
-20%

Пример кода и API для mimo-v2-flash

Получите доступ к исчерпывающим примерам кода и ресурсам API для mimo-v2-flash, чтобы упростить процесс интеграции. Наша подробная документация предоставляет пошаговые инструкции, помогая вам использовать весь потенциал mimo-v2-flash в ваших проектах.
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"

client = OpenAI(api_key=COMETAPI_KEY, base_url="https://api.cometapi.com/v1")

# mimo-v2-flash is optimized for speed; test structured JSON output
completion = client.chat.completions.create(
    model="mimo-v2-flash",
    messages=[
        {"role": "system", "content": "You are a helpful assistant. Respond in JSON only."},
        {"role": "user", "content": "List 3 programming languages with their primary use case."},
    ],
    response_format={"type": "json_object"},
)

print(completion.choices[0].message.content)

Больше моделей