Przegląd MiMo-V2-Flash

MiMo-V2-Flash to model rozumowania typu Mixture-of-Experts o otwartych wagach od Xiaomi MiMo dla API MiMo-V2-Flash, zbudowany z myślą o szybkim wnioskowaniu, programowaniu i agentowych przepływach pracy. Karta modelu i raport techniczny opisują go jako model MoE o 309 mld parametrów, z 15 mld aktywnych parametrów, hybrydową architekturą uwagi oraz predykcją wielu tokenów dla szybszego dekodowania.

Specyfikacje techniczne

Pozycja	MiMo-V2-Flash
Dostawca	Xiaomi MiMo
Rodzina modeli	MiMo-V2
Typ modelu	Model językowy Mixture-of-Experts (MoE)
Łączna liczba parametrów	309B
Aktywne parametry	15B
Natywna długość kontekstu	32K
Rozszerzona długość kontekstu	Do 256K
Architektura uwagi	Hybrydowa Sliding Window Attention (5:1 SWA do Global Attention)
Rozmiar przesuwanego okna	128 tokenów
Warstwy MTP	3
Skala treningu	27T tokenów
Modalność wyjściowa	Tekst
Data wydania	2025-12-16
Licencja repozytorium	Apache-2.0 (repozytorium GitHub)

Czym jest MiMo-V2-Flash?

MiMo-V2-Flash to wydajny inferencyjnie model bazowy Xiaomi przeznaczony do zadań wymagających intensywnego rozumowania. Został zaprojektowany tak, aby równoważyć obsługę długiego kontekstu z niższym kosztem serwowania, wykorzystując mechanizm sliding window attention do zmniejszenia obciążenia pamięci podręcznej oraz predykcję wielu tokenów do przyspieszenia dekodowania.

Główne cechy MiMo-V2-Flash

Wydajność MoE przy małym aktywnym śladzie: 309B parametrów łącznie, ale tylko 15B aktywnych na token, co w dużej mierze tłumaczy, dlaczego model jest pozycjonowany jako efektywny w serwowaniu.
Hybrydowa uwaga dla długiego kontekstu: Architektura przeplata pięć warstw SWA jedną warstwą global attention, wykorzystując okno 128 tokenów do obniżenia kosztu KV-cache.
Predykcja wielu tokenów dla szybszego dekodowania: Model zawiera 3 warstwy MTP, a materiały techniczne opisują to jako optymalizację szybkości i przepustowości generowania.
Zaprojektowany do agentowych przepływów pracy: Xiaomi pozycjonuje go pod kątem rozumowania, programowania i zastosowań agentowych, a zestaw ewaluacyjny obejmuje SWE-Bench, Terminal-Bench i BrowseComp.
Obsługa długiego kontekstu: Repozytorium podaje obsługę do 256K, podczas gdy receptura vLLM dostarcza praktycznych wskazówek dotyczących serwowania dla niższych wartości max-model-len zależnie od budżetu pamięci.

Wyniki benchmarków

Tabela modelu bazowego w repozytorium pokazuje, że MiMo-V2-Flash wypada konkurencyjnie względem większych otwartych modeli w zadaniach z wiedzy ogólnej, matematyki, programowania i długiego kontekstu. Tabela po treningu dostrajającym podkreśla silne wyniki w zadaniach agentowych i rozumowaniu.

Benchmark	MiMo-V2-Flash	Co to sugeruje
MMLU-Pro	84.9	Silne szerokie rozumowanie
GPQA-Diamond	83.7	Solidne wyniki w trudnych zadaniach QA
AIME 2025	94.1	Silne rozumowanie matematyczne
LiveCodeBench-v6	80.6	Konkurencyjne zdolności programistyczne
SWE-Bench Verified	73.4	Silne wyniki jako agent programistyczny
SWE-Bench Multilingual	71.7	Dobre wielojęzyczne pokrycie zadań kodowania/agentowych
Terminal-Bench 2.0	38.5	Przydatny, ale nie najlepszy w zadaniach intensywnie terminalowych
NIAH-Multi 256K	96.7	Wyszukiwanie w długim kontekście pozostaje silne przy 256K

MiMo-V2-Flash a pobliskie modele rozumowania

Model	MMLU-Pro	SWE-Bench Verified	Terminal-Bench 2.0	Uwagi
MiMo-V2-Flash	84.9	73.4	38.5	Efektywny model rozumowania o otwartych wagach
Kimi-K2 Thinking	84.6	71.3	35.7	Zbliżony w rozumowaniu, słabszy w zadaniach terminalowych
DeepSeek-V3.2 Thinking	85.0	73.1	46.4	Silne wyniki terminalowe, podobna klasa rozumowania

Najlepsze przypadki użycia

MiMo-V2-Flash najlepiej sprawdza się wtedy, gdy potrzebujesz modelu, który potrafi rozumować na podstawie długich wejść, pomagać w zadaniach programistycznych i pozostawać wydajnym w środowisku produkcyjnym. To mocny wybór do RAG opartych na dużej liczbie dokumentów, wieloetapowych agentowych przepływów pracy, wsparcia programistycznego oraz analizy długiego kontekstu tam, gdzie koszt serwowania ma znaczenie.

Ograniczenia

MiMo-V2-Flash jest zoptymalizowany pod kątem wydajności inferencyjnej, więc rzeczywista przepustowość w praktyce zależy od batchowania, równoległości tensorowej i konfiguracji serwowania. Przewodnik vLLM pokazuje również, że praktyczne ustawienia max-model-len mogą być niższe niż deklarowane 256K, w zależności od kompromisów między pamięcią a opóźnieniami.

MiMo-V2-Flash is tuned for fast reasoning, coding, and agentic workflows rather than pure chat polish. Xiaomi describes it as a 309B-parameter MoE model with 15B active parameters and a hybrid attention design built to reduce serving cost while keeping long-context performance.

Support up to 256K context, with a native 32K pretraining length that was later extended.

Yes. In the post-training table, MiMo-V2-Flash scores 73.4 on SWE-Bench Verified, 71.7 on SWE-Bench Multilingual, and 38.5 on Terminal-Bench 2.0, which makes it a credible option for code assistants and agent loops.

Use MiMo-V2-Flash when you want a strong open-weight model with a smaller active compute footprint and good all-around reasoning plus agent performance. It is competitive with Kimi-K2 Thinking on MMLU-Pro and SWE-Bench, while DeepSeek-V3.2 Thinking is stronger on terminal-heavy tasks, so the better choice depends on whether you care more about efficiency or terminal depth.

Yes. The architecture uses sliding window attention to reduce long-sequence cost, and the repo reports very strong NIAH-Multi results even at 256K context. That makes it a sensible fit for long-document retrieval, summarization, and multi-hop context stitching.

It is optimized for inference efficiency, so speed and memory use still depend on batching, tensor parallelism, and the exact serving stack. A smaller runtime context can be a better production choice than the headline maximum if you need lower latency or lower memory use.

The vLLM recipe serves it from XiaomiMiMo/MiMo-V2-Flash with --trust-remote-code, --served-model-name mimo_v2_flash, and tensor parallelism tuned for your hardware. If you need agent-style tool calling, the recipe also shows parser options such as qwen3_xml and qwen3.