Xiaomi erweiterte MiMo von einer einzelnen Modellveröffentlichung zu einer dreiteiligen Produktlinie, die auf unterschiedliche Produktbedürfnisse ausgerichtet ist. Flash erschien am 16. Dezember 2025 als Open-Source-MoE-Modell für Reasoning, Coding und agentische Aufgaben, während Pro und Omni am 18. März 2026 offiziell als Flaggschiff-Reasoning-Modell bzw. als vollständig multimodales Modell vorgestellt wurden.
Was ist MiMo V2 und warum ist es wichtig?
Die MiMo V2-Serie von Xiaomi steht für den Vorstoß des chinesischen Tech-Giganten in Richtung wegweisender KI-Foundation-Models, die für reale agentische Workloads optimiert sind. In Phasen veröffentlicht (Flash Ende 2025/Anfang 2026, gefolgt von Pro und Omni am 18. März 2026), setzt die Reihe auf eine Mixture-of-Experts (MoE)-Architektur für Effizienz: enorme Gesamtparameter, von denen während der Inferenz deutlich weniger aktiv sind.
MiMo-V2-Omni: Die „Augen und Ohren“ – ein einheitliches multimodales Modell, das Text, Vision, Video und erweiterte Audioverarbeitung vereint.
MiMo-V2-Flash: Der „Schnellarbeiter“ – leichtgewichtig, Open-Source, ultrakostengünstig.
MiMo-V2-Pro: Das „Reasoning-Flaggschiff“ – Billionen-Parameter-Gehirn für komplexe, mehrstufige Aufgaben.
Alle Modelle betonen Tool-Aufrufe, Langkontext-Reasoning und die Integration mit Agenten-Frameworks wie OpenClaw, OpenCode und KiloCode. Sie erreichen dies zu drastisch niedrigeren Preisen als die Äquivalente von OpenAI, Anthropic oder Google – oft 5–10x günstiger – und rangieren gleichzeitig in Schlüsselbenchmarks unter den globalen und chinesischen Spitzenreitern.
MiMo V2-Omni vs MiMo V2-Pro vs MiMo V2-Flash: Schnellvergleich
| Feature / Metric | MiMo-V2-Flash | MiMo-V2-Pro | MiMo-V2-Omni |
|---|---|---|---|
| Release | Dez 2025 | 18. März 2026 | 19. März 2026 |
| Parameters | 309B total / 15B aktiv (MoE) | ~1T total / 42B aktiv (MoE) | Multimodal (genaue Parameter nicht offengelegt) |
| Context Window | 256K Tokens | 1M Tokens (gestaffelte Preise) | 256K Tokens |
| Primary Strength | Geschwindigkeit & Kosten (Coding/Agenten) | Reasoning & komplexe Agenten | Multimodale Wahrnehmung (Vision/Audio) |
| Benchmarks (Key Examples) | SWE-Bench: 73.4% (#1 Open-Source); Artificial Analysis: ~41 | ClawEval: 61.5 (#3 global); PinchBench: 81.0; Global rank #7–8 | Stark bei Vision-/Audio-Aufgaben (z. B. Browser-Shopping, Gefahrenerkennung) |
| Official Pricing (per 1M tokens) | $0.09 Eingabe / $0.29 Ausgabe | ≤256K: $1/$3; >256K: $2/$6 | $0.40 Eingabe / $2 Ausgabe |
| Open-Source | Ja (MIT auf HF) | Nein (nur API) | Nein (nur API) |
| Best For | Hochvolumige, schnelle Aufgaben | Produktions-Agenten & lange Workflows | Vision/Audio + Text-Agenten |
| Inference Speed | ~150 Tokens/s | Hoch (MTP-optimiert) | Multimodale Latenz ~2–5s |
Was ist MiMo V2-Omni, MiMo V2-Pro und MiMo V2-Flash
Was ist MiMo-V2-Flash? Das Modell mit Effizienz an erster Stelle
MiMo-V2-Flash ist das bekannteste frühe Mitglied der Familie. Auf der Hugging Face Model Card beschreibt Xiaomi es als ein Mixture-of-Experts-Modell mit 309B Gesamtparametern und 15B aktiven Parametern, das Hybrid Attention und Multi-Token Prediction nutzt, um die Ausgabegeschwindigkeit zu erhöhen und die Inferenzkosten zu senken. Es wurde mit 27T Tokens bei FP8-Mischpräzision trainiert, unterstützt bis zu 256K Kontext und ist für hochschnelles Reasoning und agentische Workflows optimiert.
Die praktische Quintessenz: Flash ist das ausgewogenste „Alltags“-MiMo-Modell für textlastige Anwendungsfälle. MiMo-V2-Flash ist stark bei Langkontext-Reasoning, Coding-Hilfe und Agent-Workflows, rangiert als globales Open-Source-#1-Modell auf SWE-bench Verified und SWE-bench Multilingual und kostet nur etwa 3,5 % von Claude Sonnet 4.5. Diese Kombination macht Flash zum natürlichen Ausgangspunkt, wenn Sie die Familie testen möchten, ohne das Budget zu sprengen.
Was ist MiMo-V2-Pro? Das Flaggschiff-Agentenhirn
MiMo-V2-Pro ist das Flaggschiff-Text-First-Modell der Familie. Xiaomi sagt, es habe mehr als 1T Gesamtparameter, 42B aktive Parameter, ein erweitertes Hybrid-Attention-Verhältnis von 7:1 und ein 1M-Token-Kontextfenster. Seine Coding-Fähigkeit übertrifft Claude 4.6 Sonnet, während seine allgemeine Agenten-Performance auf ClawEval sich Opus 4.6 annähert. Wichtig ist, dass Xiaomi von deutlich verbesserten Stabilität und Genauigkeit der Tool-Aufrufe spricht – genau das Signal, auf das Entwickler achten, wenn sie von Demos in die Produktion wechseln.
Was ist MiMo-V2-Omni? Das multimodale Agentenmodell
MiMo-V2-Omni ist Xiaomis multimodale Antwort auf das Agentenproblem. Es vereint Bild-, Video- und Audio-Encoder in einem gemeinsamen Backbone, sodass das Modell als ein einziger Wahrnehmungsstrom sehen, hören und lesen kann. Xiaomi sagt außerdem, dass es nativ strukturierte Tool-Aufrufe, Funktionsausführung und UI-Grounding unterstützt – daher wird Omni als Agentenmodell positioniert und nicht als allgemeiner multimodaler Chatbot.
Omni geht beim Audioverständnis über reine Transkription hinaus, verarbeitet kontinuierliches Audio von über 10 Stunden und übertrifft Gemini 3 Pro bei Audioaufgaben, während es Claude Opus 4.6 beim Bildverständnis überbietet und das Niveau führender Closed-Source-Modelle wie Gemini 3 erreicht. Omni zeigt starke Leistungen in Browser- und Mobile-Workflows, und die Agent-Demos wurden mit OpenClaw ausgeführt, das Browsersteuerung, Dateisystemzugriff und Terminal-Interaktion übernahm.
Rankable Long-Tail Keyword Insight: Entwickler, die nach „MiMo V2 Pro vs Flash for agentic coding“ suchen, wählen Flash wegen Geschwindigkeit/Kosten und Pro wegen Zuverlässigkeit in der Produktion.

MiMo V2 API-Preise 2026
Preisvergleich (pro 1M Tokens)
| Model | Input Price | Output Price | Context Tiering Notes | Blended Cost Example (100K Input + 10K Output) |
|---|---|---|---|---|
| Flash | $0.09 – $0.10 | $0.29 – $0.30 | Flat rate | ~$0.012 – $0.013 |
| Pro | $1.00 (≤256K) $2.00 (256K–1M) | $3.00 (≤256K) $6.00 (256K–1M) | Tiered by context length; cache pricing available | ~$0.13 – $0.26 |
| Omni | $0.40 | $2.00 | Flat rate (multimodal tokens billed accordingly) | ~$0.06 |
Beispiele:
- Flash gewinnt bei einfachen Aufgaben mit hohem Volumen (z. B. 1M Tokens/Tag kosten Centbeträge).
- Omni bietet starken Wert für Multimodalität (günstiger als Gemini 3.1-Äquivalente).
- Pro kostet ~1/5–1/6 von Claude Sonnet 4.6 und entspricht diesem in vielen agentischen/Coding-Benchmarks oder übertrifft ihn. Cache-Pricing reduziert die Kosten für lange Kontexte weiter.
Wie hoch ist der Preis der Mimo V2 Series API auf CometAPI?
In CometAPI bietet die Mimo-API einen niedrigeren Preis als die offizielle Website, etwa 20 % des offiziellen Preises (praktisch kostenlos). MImo-v2 pro, mimo-V2-omni, und mimo-v2-flash können auch in openclaw verwendet werden. Zum Beispiel:
| Comet Price (USD / M Tokens) | Official Price (USD / M Tokens) | Discount |
|---|---|---|
| Input:$0.8/MOutput:$2.4/M | Input:$1/MOutput:$3/M | 20% |
Die wichtige Einschränkung ist, dass „am günstigsten“ nicht immer „bester Wert“ bedeutet. Pro kann die kosteneffektivste Wahl sein, wenn ein einziger Modellaufruf mehrere Retries, Tool-Aufrufe oder menschliche Eingriffe ersetzt. Omni kann das bessere Schnäppchen sein, wenn multimodales Grounding den Aufbau separater OCR-, Audio- und Vision-Pipelines vermeidet. Flash ist der Preis-Leistungs-Sieger, wenn Sie hohes Volumen und planbare Ausgaben benötigen.
Performance-Benchmark-Vergleich
General Intelligence & Reasoning Benchmarks
| Benchmark | MiMo-V2-Flash | MiMo-V2-Pro | MiMo-V2-Omni | Notes / Comparison Context |
|---|---|---|---|---|
| Artificial Analysis Intelligence Index | 39–41 | 49 (Global #8, Chinese #2) | Not primary focus | Pro zeigt einen deutlichen Sprung gegenüber Flash |
| AIME 2025 (Math) | 94.1% | ~94.0% | N/A | Flash hoch konkurrenzfähig für seine Größe |
| Hallucination Rate | ~48% | ~30% | N/A | Pro demonstriert verbesserte Zuverlässigkeit |
| LongBench V2 (Long Context) | 60.6 | Stark (1M Kontext-Vorteil) | N/A | Pro glänzt bei ultralangen Aufgaben |
Coding & Agentic Benchmarks
| Benchmark | MiMo-V2-Flash | MiMo-V2-Pro | MiMo-V2-Omni | Comparison Highlights |
|---|---|---|---|---|
| SWE-Bench Verified | 73.4% (Top Open-Source) | 78.0% | ~74.8% | Pro führt; Flash #1 unter Open-Source-Modellen |
| SWE-Bench Multilingual | 71.7% | 57.1% (multilingual variant) | N/A | Flash hier besonders stark |
| ClawEval (Agentic Tool Use) | 48.1 – 62.1 | 61.5 – 81.0 | 52.0 – 54.8 | Pro erreicht oft das Niveau von/übertrifft Claude Sonnet 4.6 in Coding-Szenarien |
| GDPVal-AA / PinchBench | 1040 – 1426 range | 1426 | 81.2 (variant) | Pro stark bei realen Agentenaufgaben |
| OmniGAIA / Multi-Modal Agent | N/A | N/A | 54.8 | Omni konkurrenzfähig bei multimodalen Agenten |
Multimodale Benchmarks (Omni-Fokus)
| Benchmark | MiMo-V2-Omni Score | Notable Competitors | Highlights |
|---|---|---|---|
| MMAU-Pro (Audio) | 76.8 | Claude Opus 4.6 (73.9) | Omni führt |
| BigBench Audio / Speech Reasoning | Bis zu 80.1 – 94.0 | Variiert | Starke Langaudio-Fähigkeit (10+ Stunden) |
| MMMU-Pro (Image) | 85.3 | Variiert (übertrifft einige Spitzenreiter) | Exzellentes Verständnis von Charts & visuellen Inhalten |
| Video-MME | 94.0 | Stark vs. Gemini 3 Pro in ausgewählten Bereichen | Hohe Leistung bei der Vorhersage von Videoereignissen |
| CharXiv (Charts) | 66.7 | Schlägt Gemini 3 Pro in einigen Berichten | Solides strukturiertes visuelles Reasoning |
Performance-Vergleich: Was ist besser?
Für Reasoning und Coding wirkt Mimo-V2-Flash auf dem Papier äußerst stark. Mimo-V2-Flash ist Spitzenklasse bei AIME 2025, GPQA-Diamond, SWE-bench Verified und SWE-bench Multilingual und rangiert als globales Open-Source-Topmodell auf SWE-bench Verified – vergleichbar mit Claude Sonnet 4.5, kostet jedoch nur etwa 3,5 %. Das macht Flash zur herausragenden Wahl für Entwickler, denen Durchsatz und Kosteneffizienz wichtig sind.
Für reine agentische Kontrolle ist Pro das Flaggschiff. Xiaomi betont Tool-Call-Stabilität, Langhorizont-Planung und produktionsreife Engineering-Workflows, mit einem 1M-Token-Kontextfenster, das besonders nützlich für große Codebasen, Multi-Dokument-Analysen und lang laufende Browser- oder Tool-Ketten ist.
Für multimodale Wahrnehmung ist Omni das Modell, das die Produktlandschaft klar verändert. Der Differenzierer ist nicht „ein bisschen besserer Chat“, sondern natives Verständnis von Bild, Video und Audio kombiniert mit Tool-Nutzung und UI-Grounding. Wenn Ihr Produkt Screenshots betrachten, Charts parsen, Videos inspizieren, Audio anhören oder eine Oberfläche steuern muss, ist Omni das einzige Modell im Trio, das speziell dafür gebaut wurde.
Über Intelligenz-, Coding-, agentische und multimodale Metriken hinweg besetzen die Modelle klare Nischen:
- Reasoning/Intelligence: Pro führt (AA Index 49); Flash konkurrenzfähig für seine Größe; Omni stark über Modalitäten hinweg.
- Coding/Agentic: Pro übertrifft oft Claude Sonnet 4.6 (SWE-Bench, ClawEval); Omni knapp dahinter bei multimodalen Agenten; Flash top im Open-Source-Bereich.
- Speed: Flash am schnellsten dank kleinerer aktiver Parameter.
- Context: Pro dominiert mit 1M Tokens.
- Multimodal: Omni ist innerhalb der Familie unerreicht.
Pro und Omni liefern 5–10x Kostenvorteil gegenüber US-Frontier-Modellen und rangieren gleichzeitig in den globalen Top 10. Flash bietet nahezu gleichwertige Open-Source-Performance zum Zehntel des Preises vieler Closed-Modelle.
Wie sollten Sie wählen?
Wählen Sie MiMo V2 Pro, wenn…
Sie die bestmögliche Leistung für langhorizontige, risikoreiche Agentenarbeit benötigen: große Softwareaufgaben, tiefgreifende Workflow-Orchestrierung, große Kontextfenster und robuste Tool-Nutzung. Pro ist die richtige Wahl, wenn Performance wichtiger ist als Tokenkosten und wenn die Aufgabe hauptsächlich Text oder strukturierte Tool-Interaktionen statt Bilder und Audio umfasst.
Wählen Sie MiMo V2 Omni, wenn…
Ihr Produkt multimodale Wahrnehmung als erstklassiges Feature benötigt: Screenshots, Dashboards, Fotos, Videos, Audio, Browserzustand oder geräteübergreifende Aktionen. Omni ist die Sweet-Spot-Wahl für „sehen, hören, handeln“-Anwendungen und leichter zu rechtfertigen als Pro, wenn Sie das 1M-Token-Flaggschiff-Kontextfenster nicht benötigen.
Wählen Sie MiMo V2 Flash, wenn…
Sie den besten Gegenwert wollen. Flash ist der beste Kandidat für Coding-Copilots, Batch-Agenten, Support mit hohem Volumen, interne Automatisierung und Experimente, bei denen Open-Source-Gewichte, Geschwindigkeit und niedrige Kosten zählen. Es ist auch das einfachste Modell der Reihe, das sich in einer Budgetprüfung verteidigen lässt, da die veröffentlichten Tokenpreise dramatisch niedriger sind als bei den beiden anderen.
Hauptunterschiede & wann jedes Modell glänzt
| Faktor | Flash (Best For) | Pro (Best For) | Omni (Best For) |
|---|---|---|---|
| Budget | Extrem niedrige Kosten / hohes Volumen | Hochwertiges Reasoning | Multimodaler Gegenwert |
| Task Type | Einfache Anfragen, lokale Deploys | Komplexe Agenten, Coding, Planung | Vision/Video/Audio + Agenten |
| Context | Mittel | Am längsten (1M) | Mittel |
| Open-Source | Ja | Nein | Nein |
| Speed | Am schnellsten | Ausgewogen | Ausgewogen (multimodaler Overhead) |
Entscheidungsrahmen
Step 1: Benötigen Sie Multimodalität (Bilder/Video/Audio)? → Omni ($0.40/$2.00).
Step 2: Reiner Text + maximale Reasoning-/Agenten-Power? → Pro ($1–2/$3–6).
Step 3: Budget, Geschwindigkeit oder Self-Hosting entscheidend? → Flash ($0.09/$0.29, Open-Source).
Hybrid Strategy (von API-Anbietern empfohlen): Nutzen Sie Flash für 80 % der Routineaufgaben, leiten Sie komplexes Reasoning an Pro weiter und Multimodalität an Omni – mit einem einzigen API-Key (z. B. über CometAPI). So optimieren Sie die Kosten und greifen dennoch auf die gesamte Familie zu.
Abschließendes Urteil: Ihre personalisierte Empfehlung
MiMo V2 ist Xiaomis Signal, dass man einen vollständigen KI-Stack will – nicht nur ein einzelnes Hero-Modell. Pro ist die Reasoning-Engine als Flaggschiff, Omni der multimodale Operator und Flash das effiziente Open-Source-Arbeitstier. Die beste Wahl hängt weniger von reinen Benchmark-Werten ab als von der Form Ihrer Workloads: textlastige Agenten weisen auf Flash oder Pro, multimodale Systeme auf Omni, und riesige Kontextfenster in der Produktion auf Pro.
Die MiMo V2-Familie beweist, dass Hochleistungs-KI keine westlichen Premiumpreise mehr erfordert. Starten Sie für die meisten Nutzer mit Flash oder Omni, skalieren Sie bei Bedarf zu Pro und beobachten Sie Xiaomis Roadmap für weitere Durchbrüche.
Bereit zum Testen? Greifen Sie mit einer Plattform wie CometAPI mit einem einzigen Schlüssel auf alle drei zu. Experimentieren Sie noch heute – die richtige Wahl könnte Ihre KI-Produktivität über Nacht verändern.
