Home/Models/Xiaomi/mimo-v2-omni
X

mimo-v2-omni

Eingabe:$0.32/M
Ausgabe:$1.6/M
MiMo-V2-Omni ist ein wegweisendes omnimodales Modell, das Bild-, Video- und Audioeingaben nativ innerhalb einer einheitlichen Architektur verarbeitet. Es kombiniert starke multimodale Wahrnehmung mit agentischen Fähigkeiten – visuelle Verankerung, mehrstufige Planung, Werkzeugnutzung und Codeausführung – und eignet sich damit hervorragend für komplexe Aufgaben in der realen Welt, die mehrere Modalitäten umfassen. 256K-Kontextfenster.
Neu
Kommerzielle Nutzung
Playground
Überblick
Funktionen
Preisgestaltung
API

MiMo-V2-Omni Überblick

MiMo-V2-Omni ist das Omni-Foundation-Modell von Xiaomi MiMo für die API-Plattform, entwickelt, um im selben Workflow zu sehen, zu hören, zu lesen und zu handeln. Xiaomi positioniert es als ein multimodales Agentenmodell, das Bild-, Video-, Audio- und Textverständnis mit strukturiertem Tool-Calling, Funktionsausführung und UI-Grounding kombiniert.

Technische Spezifikationen

MerkmalMiMo-V2-Omni
AnbieterXiaomi MiMo
ModellfamilieMiMo-V2
ModalitätenBild, Video, Audio, Text
AusgabetypText
Native Audio-UnterstützungJa
Native gemeinsame Audio-Video-EingabeJa
Strukturiertes Tool-CallingJa
FunktionsausführungJa
UI-GroundingJa
Langes Audio-HandlingÜber 10 Stunden kontinuierliches Audioverständnis
Veröffentlichungsdatum2026-03-18
Öffentliche numerische KontextlängeAuf der offiziellen Omni-Seite nicht angegeben

Was ist MiMo-V2-Omni?

MiMo-V2-Omni ist für agentische Systeme konzipiert, die Wahrnehmung und Handlung in einem Modell benötigen. Xiaomi sagt, das Modell fusioniert dedizierte Bild-, Video- und Audio-Encoder zu einem gemeinsamen Backbone und trainiert es darauf, vorherzusehen, was als Nächstes passieren sollte, anstatt nur zu beschreiben, was bereits sichtbar ist.

Hauptfunktionen von MiMo-V2-Omni

  • Vereinheitlichte multimodale Wahrnehmung: Bild, Video, Audio und Text werden als ein einziger Wahrnehmungsstrom behandelt statt als separate Add-ons.
  • Agentenbereite Ausgaben: Das Modell unterstützt nativ strukturiertes Tool-Calling, Funktionsausführung und UI-Grounding für echte Agenten-Frameworks.
  • Langform-Audioverständnis: Xiaomi behauptet, es kann kontinuierliches Audio von mehr als 10 Stunden verarbeiten, was für ein allgemeines Omni-Modell außergewöhnlich stark ist.
  • Natives Audio-Video-Reasoning: Die offizielle Seite hebt eine gemeinsame Audio-Video-Eingabe für Videoverständnis hervor, anstelle einer rein textbasierten Transkript-Pipeline.
  • Browser- und Workflow-Ausführung: Xiaomi demonstriert End-to-End-Browser-Shopping und TikTok-Upload-Abläufe mit MiMo-V2-Omni plus OpenClaw.
  • Perception-to-Action-Framing: Das Modell ist darauf trainiert, das Gesehene mit dem zu verknüpfen, was als Nächstes zu tun ist, was den Kerunterschied zwischen einem Demo-Modell und einem agentischen Modell ausmacht.

Benchmark-Leistung

mimo-v2-omni

Darin wird klar angegeben, dass Omni Gemini 3 Pro beim Audioverständnis übertrifft, Claude Opus 4.6 beim Bildverständnis übertrifft und bei agentischen Produktivitätsbenchmarks auf Augenhöhe mit den stärksten Reasoning-Modellen liegt.

MiMo-V2-Omni vs MiMo-V2-Pro vs MiMo-V2-Flash

ModellKernstärkeKontext / SkalierungAm besten geeignet
MiMo-V2-OmniMultimodale Wahrnehmung + AgentenaktionenÖffentliche Kontextlänge auf der Omni-Seite nicht angegebenAudio-, Bild-, Video-, UI- und Browser-Agenten
MiMo-V2-ProGrößtes Flaggschiff-AgentenmodellBis zu 1M-Token-Kontext; 1T+ Parameter, 42B aktivAufwendige Agenten-Orchestrierung und Arbeit mit langen Planungshorizonten
MiMo-V2-FlashSchnelles Reasoning und Coding256K Kontext; 309B gesamt, 15B aktivEffizientes Reasoning, Coding und Agentenaufgaben mit hohem Durchsatz

Beste Anwendungsfälle

MiMo-V2-Omni ist die richtige Wahl, wenn Ihr Workflow von Nicht-Text-Ein- oder -Ausgaben abhängt: Bildschirmverständnis, Sprach- und Audioanalyse, Video-Review, Browserautomatisierung, multimodale Assistenten und agentische Schleifen im Robotik-Stil. Wenn Ihre Arbeitslast überwiegend nur Text umfasst und Ihnen Rohgeschwindigkeit oder maximaler Kontext wichtiger sind, sind die Schwestermodelle Pro und Flash die naheliegenderen Alternativen.

FAQ

What can the MiMo-V2-Omni API understand besides text?

MiMo-V2-Omni is built for image, video, audio, and undfied perceptual system rather than separate modality add-ons, which makes it a better fit for multimodal agents than a text-only LLM.

Can MiMo-V2-Omni API process audio and video together?

Yes. the model supports native audio-video joint input for video comprehension, so it can reason over what is happening on screen and in the soundtrack at the same time.

How long of an audio file can MiMo-V2-Omni API handle?

MiMo-V2-Omni supports continuous audio understanding beyond 10 hours. That is a strong signal that it is meant for long-form audio analysis rather than short clip transcription only.

When should I use MiMo-V2-Omni API instead of MiMo-V2-Pro?

Use MiMo-V2-Omni when the job depends on multimodal perception: screens, videos, voice, or audio-visual workflow mostly agentic text work and you want the largest flagship context window, which Xiaomi says reaches 1M tokens.

Does MiMo-V2-Omni API support structured tool?

Yes. MiMo-V2-Omni natively supports structured tool calling, function execution, and UI grounding, which is exactly what you want for agent automation.

Is MiMo-V2-Omni API good for browser automation and real-world agents?

Yes. Xiaomi’s demos show it scanning shopping adviceing on JD.com, and completing a TikTok upload workflow through OpenClaw. That makes it a strong fit for browser agents, workflow automation, and UI-driven tasks.

Funktionen für mimo-v2-omni

Entdecken Sie die wichtigsten Funktionen von mimo-v2-omni, die darauf ausgelegt sind, Leistung und Benutzerfreundlichkeit zu verbessern. Erfahren Sie, wie diese Fähigkeiten Ihren Projekten zugutekommen und die Benutzererfahrung verbessern können.

Preise für mimo-v2-omni

Entdecken Sie wettbewerbsfähige Preise für mimo-v2-omni, die für verschiedene Budgets und Nutzungsanforderungen konzipiert sind. Unsere flexiblen Tarife stellen sicher, dass Sie nur für das bezahlen, was Sie nutzen, und erleichtern die Skalierung entsprechend Ihren wachsenden Anforderungen. Erfahren Sie, wie mimo-v2-omni Ihre Projekte verbessern kann, während die Kosten überschaubar bleiben.
Comet-Preis (USD / M Tokens)Offizieller Preis (USD / M Tokens)Rabatt
Eingabe:$0.32/M
Ausgabe:$1.6/M
Eingabe:$0.4/M
Ausgabe:$2/M
-20%

Beispielcode und API für mimo-v2-omni

Greifen Sie auf umfassende Beispielcodes und API-Ressourcen für mimo-v2-omni zu, um Ihren Integrationsprozess zu optimieren. Unsere detaillierte Dokumentation bietet schrittweise Anleitungen und hilft Ihnen dabei, das volle Potenzial von mimo-v2-omni in Ihren Projekten zu nutzen.
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"

client = OpenAI(api_key=COMETAPI_KEY, base_url="https://api.cometapi.com/v1")

# mimo-v2-omni: built-in web_search tool (pass as top-level tools param)
completion = client.chat.completions.create(
    model="mimo-v2-omni",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Who is Lei Jun?"},
    ],
    tools=[{"type": "web_search", "force_search": True, "max_keyword": 3, "limit": 1}],
    tool_choice="auto",
    extra_body={"thinking": {"type": "disabled"}},
)

msg = completion.choices[0].message
if msg.content:
    print(msg.content)

# annotations are populated when web_search runs (content may be null on search-only responses)
raw = completion.model_dump()
annotations = raw["choices"][0]["message"].get("annotations") or []
if annotations:
    print("
--- Sources ---")
    for ann in annotations:
        c = ann.get("url_citation") or {}
        print(f"[{c.get('title')}] {c.get('url')}")

Weitere Modelle