Home/Models/Xiaomi/mimo-v2-flash
X

mimo-v2-flash

Wejście:$0.08/M
Wyjście:$0.24/M
MiMo-V2-Flash to kompleksowe ulepszenie trybu Thinking Mode. Znacząco zwiększa możliwości w zakresie programowania i złożonego rozumowania, podnosi dokładność wywołań narzędzi do 97% oraz optymalizuje Chain-of-Thought (CoT), aby ograniczyć halucynacje, jednocześnie obniżając opóźnienia i koszty tokenów.
Nowy
Użycie komercyjne
Playground
Przegląd
Funkcje
Cennik
API

Przegląd MiMo-V2-Flash

MiMo-V2-Flash to model rozumowania typu Mixture-of-Experts o otwartych wagach od Xiaomi MiMo dla API MiMo-V2-Flash, zbudowany z myślą o szybkim wnioskowaniu, programowaniu i agentowych przepływach pracy. Karta modelu i raport techniczny opisują go jako model MoE o 309 mld parametrów, z 15 mld aktywnych parametrów, hybrydową architekturą uwagi oraz predykcją wielu tokenów dla szybszego dekodowania.

Specyfikacje techniczne

PozycjaMiMo-V2-Flash
DostawcaXiaomi MiMo
Rodzina modeliMiMo-V2
Typ modeluModel językowy Mixture-of-Experts (MoE)
Łączna liczba parametrów309B
Aktywne parametry15B
Natywna długość kontekstu32K
Rozszerzona długość kontekstuDo 256K
Architektura uwagiHybrydowa Sliding Window Attention (5:1 SWA do Global Attention)
Rozmiar przesuwanego okna128 tokenów
Warstwy MTP3
Skala treningu27T tokenów
Modalność wyjściowaTekst
Data wydania2025-12-16
Licencja repozytoriumApache-2.0 (repozytorium GitHub)

Czym jest MiMo-V2-Flash?

MiMo-V2-Flash to wydajny inferencyjnie model bazowy Xiaomi przeznaczony do zadań wymagających intensywnego rozumowania. Został zaprojektowany tak, aby równoważyć obsługę długiego kontekstu z niższym kosztem serwowania, wykorzystując mechanizm sliding window attention do zmniejszenia obciążenia pamięci podręcznej oraz predykcję wielu tokenów do przyspieszenia dekodowania.

Główne cechy MiMo-V2-Flash

  • Wydajność MoE przy małym aktywnym śladzie: 309B parametrów łącznie, ale tylko 15B aktywnych na token, co w dużej mierze tłumaczy, dlaczego model jest pozycjonowany jako efektywny w serwowaniu.
  • Hybrydowa uwaga dla długiego kontekstu: Architektura przeplata pięć warstw SWA jedną warstwą global attention, wykorzystując okno 128 tokenów do obniżenia kosztu KV-cache.
  • Predykcja wielu tokenów dla szybszego dekodowania: Model zawiera 3 warstwy MTP, a materiały techniczne opisują to jako optymalizację szybkości i przepustowości generowania.
  • Zaprojektowany do agentowych przepływów pracy: Xiaomi pozycjonuje go pod kątem rozumowania, programowania i zastosowań agentowych, a zestaw ewaluacyjny obejmuje SWE-Bench, Terminal-Bench i BrowseComp.
  • Obsługa długiego kontekstu: Repozytorium podaje obsługę do 256K, podczas gdy receptura vLLM dostarcza praktycznych wskazówek dotyczących serwowania dla niższych wartości max-model-len zależnie od budżetu pamięci.

Wyniki benchmarków

Tabela modelu bazowego w repozytorium pokazuje, że MiMo-V2-Flash wypada konkurencyjnie względem większych otwartych modeli w zadaniach z wiedzy ogólnej, matematyki, programowania i długiego kontekstu. Tabela po treningu dostrajającym podkreśla silne wyniki w zadaniach agentowych i rozumowaniu.

BenchmarkMiMo-V2-FlashCo to sugeruje
MMLU-Pro84.9Silne szerokie rozumowanie
GPQA-Diamond83.7Solidne wyniki w trudnych zadaniach QA
AIME 202594.1Silne rozumowanie matematyczne
LiveCodeBench-v680.6Konkurencyjne zdolności programistyczne
SWE-Bench Verified73.4Silne wyniki jako agent programistyczny
SWE-Bench Multilingual71.7Dobre wielojęzyczne pokrycie zadań kodowania/agentowych
Terminal-Bench 2.038.5Przydatny, ale nie najlepszy w zadaniach intensywnie terminalowych
NIAH-Multi 256K96.7Wyszukiwanie w długim kontekście pozostaje silne przy 256K

MiMo-V2-Flash a pobliskie modele rozumowania

ModelMMLU-ProSWE-Bench VerifiedTerminal-Bench 2.0Uwagi
MiMo-V2-Flash84.973.438.5Efektywny model rozumowania o otwartych wagach
Kimi-K2 Thinking84.671.335.7Zbliżony w rozumowaniu, słabszy w zadaniach terminalowych
DeepSeek-V3.2 Thinking85.073.146.4Silne wyniki terminalowe, podobna klasa rozumowania

Najlepsze przypadki użycia

MiMo-V2-Flash najlepiej sprawdza się wtedy, gdy potrzebujesz modelu, który potrafi rozumować na podstawie długich wejść, pomagać w zadaniach programistycznych i pozostawać wydajnym w środowisku produkcyjnym. To mocny wybór do RAG opartych na dużej liczbie dokumentów, wieloetapowych agentowych przepływów pracy, wsparcia programistycznego oraz analizy długiego kontekstu tam, gdzie koszt serwowania ma znaczenie.

Ograniczenia

MiMo-V2-Flash jest zoptymalizowany pod kątem wydajności inferencyjnej, więc rzeczywista przepustowość w praktyce zależy od batchowania, równoległości tensorowej i konfiguracji serwowania. Przewodnik vLLM pokazuje również, że praktyczne ustawienia max-model-len mogą być niższe niż deklarowane 256K, w zależności od kompromisów między pamięcią a opóźnieniami.

Najczęściej zadawane pytania

What does the MiMo-V2-Flash API do best?

MiMo-V2-Flash is tuned for fast reasoning, coding, and agentic workflows rather than pure chat polish. Xiaomi describes it as a 309B-parameter MoE model with 15B active parameters and a hybrid attention design built to reduce serving cost while keeping long-context performance.

How much context can the MiMo-V2-Flash API handle?

Support up to 256K context, with a native 32K pretraining length that was later extended.

Can MiMo-V2-Flash API handle coding and terminal-style agents?

Yes. In the post-training table, MiMo-V2-Flash scores 73.4 on SWE-Bench Verified, 71.7 on SWE-Bench Multilingual, and 38.5 on Terminal-Bench 2.0, which makes it a credible option for code assistants and agent loops.

When should I use MiMo-V2-Flash API instead of Kimi-K2 Thinking or DeepSeek-V3.2 Thinking?

Use MiMo-V2-Flash when you want a strong open-weight model with a smaller active compute footprint and good all-around reasoning plus agent performance. It is competitive with Kimi-K2 Thinking on MMLU-Pro and SWE-Bench, while DeepSeek-V3.2 Thinking is stronger on terminal-heavy tasks, so the better choice depends on whether you care more about efficiency or terminal depth.

Is MiMo-V2-Flash API suitable for long-document RAG or summarization?

Yes. The architecture uses sliding window attention to reduce long-sequence cost, and the repo reports very strong NIAH-Multi results even at 256K context. That makes it a sensible fit for long-document retrieval, summarization, and multi-hop context stitching.

What are the known limitations of MiMo-V2-Flash API?

It is optimized for inference efficiency, so speed and memory use still depend on batching, tensor parallelism, and the exact serving stack. A smaller runtime context can be a better production choice than the headline maximum if you need lower latency or lower memory use.

How do I integrate MiMo-V2-Flash API with vLLM?

The vLLM recipe serves it from XiaomiMiMo/MiMo-V2-Flash with --trust-remote-code, --served-model-name mimo_v2_flash, and tensor parallelism tuned for your hardware. If you need agent-style tool calling, the recipe also shows parser options such as qwen3_xml and qwen3.

Funkcje dla mimo-v2-flash

Poznaj kluczowe funkcje mimo-v2-flash, zaprojektowane w celu zwiększenia wydajności i użyteczności. Odkryj, jak te możliwości mogą przynieść korzyści Twoim projektom i poprawić doświadczenie użytkownika.

Cennik dla mimo-v2-flash

Poznaj konkurencyjne ceny dla mimo-v2-flash, zaprojektowane tak, aby pasowały do różnych budżetów i potrzeb użytkowania. Nasze elastyczne plany zapewniają, że płacisz tylko za to, czego używasz, co ułatwia skalowanie w miarę wzrostu Twoich wymagań. Odkryj, jak mimo-v2-flash może ulepszyć Twoje projekty przy jednoczesnym utrzymaniu kosztów na rozsądnym poziomie.
Cena Comet (USD / M Tokens)Oficjalna cena (USD / M Tokens)Zniżka
Wejście:$0.08/M
Wyjście:$0.24/M
Wejście:$0.1/M
Wyjście:$0.3/M
-20%

Przykładowy kod i API dla mimo-v2-flash

Uzyskaj dostęp do kompleksowego przykładowego kodu i zasobów API dla mimo-v2-flash, aby usprawnić proces integracji. Nasza szczegółowa dokumentacja zapewnia wskazówki krok po kroku, pomagając wykorzystać pełny potencjał mimo-v2-flash w Twoich projektach.
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"

client = OpenAI(api_key=COMETAPI_KEY, base_url="https://api.cometapi.com/v1")

# mimo-v2-flash is optimized for speed; test structured JSON output
completion = client.chat.completions.create(
    model="mimo-v2-flash",
    messages=[
        {"role": "system", "content": "You are a helpful assistant. Respond in JSON only."},
        {"role": "user", "content": "List 3 programming languages with their primary use case."},
    ],
    response_format={"type": "json_object"},
)

print(completion.choices[0].message.content)

Więcej modeli