Przegląd MiMo-V2-Flash
MiMo-V2-Flash to model rozumowania typu Mixture-of-Experts o otwartych wagach od Xiaomi MiMo dla API MiMo-V2-Flash, zbudowany z myślą o szybkim wnioskowaniu, programowaniu i agentowych przepływach pracy. Karta modelu i raport techniczny opisują go jako model MoE o 309 mld parametrów, z 15 mld aktywnych parametrów, hybrydową architekturą uwagi oraz predykcją wielu tokenów dla szybszego dekodowania.
Specyfikacje techniczne
| Pozycja | MiMo-V2-Flash |
|---|---|
| Dostawca | Xiaomi MiMo |
| Rodzina modeli | MiMo-V2 |
| Typ modelu | Model językowy Mixture-of-Experts (MoE) |
| Łączna liczba parametrów | 309B |
| Aktywne parametry | 15B |
| Natywna długość kontekstu | 32K |
| Rozszerzona długość kontekstu | Do 256K |
| Architektura uwagi | Hybrydowa Sliding Window Attention (5:1 SWA do Global Attention) |
| Rozmiar przesuwanego okna | 128 tokenów |
| Warstwy MTP | 3 |
| Skala treningu | 27T tokenów |
| Modalność wyjściowa | Tekst |
| Data wydania | 2025-12-16 |
| Licencja repozytorium | Apache-2.0 (repozytorium GitHub) |
Czym jest MiMo-V2-Flash?
MiMo-V2-Flash to wydajny inferencyjnie model bazowy Xiaomi przeznaczony do zadań wymagających intensywnego rozumowania. Został zaprojektowany tak, aby równoważyć obsługę długiego kontekstu z niższym kosztem serwowania, wykorzystując mechanizm sliding window attention do zmniejszenia obciążenia pamięci podręcznej oraz predykcję wielu tokenów do przyspieszenia dekodowania.
Główne cechy MiMo-V2-Flash
- Wydajność MoE przy małym aktywnym śladzie: 309B parametrów łącznie, ale tylko 15B aktywnych na token, co w dużej mierze tłumaczy, dlaczego model jest pozycjonowany jako efektywny w serwowaniu.
- Hybrydowa uwaga dla długiego kontekstu: Architektura przeplata pięć warstw SWA jedną warstwą global attention, wykorzystując okno 128 tokenów do obniżenia kosztu KV-cache.
- Predykcja wielu tokenów dla szybszego dekodowania: Model zawiera 3 warstwy MTP, a materiały techniczne opisują to jako optymalizację szybkości i przepustowości generowania.
- Zaprojektowany do agentowych przepływów pracy: Xiaomi pozycjonuje go pod kątem rozumowania, programowania i zastosowań agentowych, a zestaw ewaluacyjny obejmuje SWE-Bench, Terminal-Bench i BrowseComp.
- Obsługa długiego kontekstu: Repozytorium podaje obsługę do 256K, podczas gdy receptura vLLM dostarcza praktycznych wskazówek dotyczących serwowania dla niższych wartości
max-model-lenzależnie od budżetu pamięci.
Wyniki benchmarków
Tabela modelu bazowego w repozytorium pokazuje, że MiMo-V2-Flash wypada konkurencyjnie względem większych otwartych modeli w zadaniach z wiedzy ogólnej, matematyki, programowania i długiego kontekstu. Tabela po treningu dostrajającym podkreśla silne wyniki w zadaniach agentowych i rozumowaniu.
| Benchmark | MiMo-V2-Flash | Co to sugeruje |
|---|---|---|
| MMLU-Pro | 84.9 | Silne szerokie rozumowanie |
| GPQA-Diamond | 83.7 | Solidne wyniki w trudnych zadaniach QA |
| AIME 2025 | 94.1 | Silne rozumowanie matematyczne |
| LiveCodeBench-v6 | 80.6 | Konkurencyjne zdolności programistyczne |
| SWE-Bench Verified | 73.4 | Silne wyniki jako agent programistyczny |
| SWE-Bench Multilingual | 71.7 | Dobre wielojęzyczne pokrycie zadań kodowania/agentowych |
| Terminal-Bench 2.0 | 38.5 | Przydatny, ale nie najlepszy w zadaniach intensywnie terminalowych |
| NIAH-Multi 256K | 96.7 | Wyszukiwanie w długim kontekście pozostaje silne przy 256K |
MiMo-V2-Flash a pobliskie modele rozumowania
| Model | MMLU-Pro | SWE-Bench Verified | Terminal-Bench 2.0 | Uwagi |
|---|---|---|---|---|
| MiMo-V2-Flash | 84.9 | 73.4 | 38.5 | Efektywny model rozumowania o otwartych wagach |
| Kimi-K2 Thinking | 84.6 | 71.3 | 35.7 | Zbliżony w rozumowaniu, słabszy w zadaniach terminalowych |
| DeepSeek-V3.2 Thinking | 85.0 | 73.1 | 46.4 | Silne wyniki terminalowe, podobna klasa rozumowania |
Najlepsze przypadki użycia
MiMo-V2-Flash najlepiej sprawdza się wtedy, gdy potrzebujesz modelu, który potrafi rozumować na podstawie długich wejść, pomagać w zadaniach programistycznych i pozostawać wydajnym w środowisku produkcyjnym. To mocny wybór do RAG opartych na dużej liczbie dokumentów, wieloetapowych agentowych przepływów pracy, wsparcia programistycznego oraz analizy długiego kontekstu tam, gdzie koszt serwowania ma znaczenie.
Ograniczenia
MiMo-V2-Flash jest zoptymalizowany pod kątem wydajności inferencyjnej, więc rzeczywista przepustowość w praktyce zależy od batchowania, równoległości tensorowej i konfiguracji serwowania. Przewodnik vLLM pokazuje również, że praktyczne ustawienia max-model-len mogą być niższe niż deklarowane 256K, w zależności od kompromisów między pamięcią a opóźnieniami.