Home/Models/Xiaomi/mimo-v2-omni
X

mimo-v2-omni

Indtast:$0.32/M
Output:$1.6/M
MiMo-V2-Omni er en banebrydende omnimodal model, der nativt behandler billed-, video- og lydinput i en samlet arkitektur. Den kombinerer stærk multimodal perception med agentiske evner – visuel forankring, flertrinsplanlægning, brug af værktøjer og afvikling af kode – hvilket gør den velegnet til komplekse opgaver i den virkelige verden, der går på tværs af modaliteter. 256K kontekstvindue.
Ny
Kommersiel brug
Playground
Oversigt
Funktioner
Priser
API

MiMo-V2-Omni Oversigt

MiMo-V2-Omni er Xiaomi MiMo’s omni-grundmodel til API-platformen, bygget til at se, høre, læse og handle i samme arbejdsgang. Xiaomi positionerer den som en multimodal agentmodel, der kombinerer billed-, video-, lyd- og tekstforståelse med struktureret værktøjskald, funktionsudførelse og UI-forankring.

Tekniske specifikationer

PunktMiMo-V2-Omni
UdbyderXiaomi MiMo
ModelfamilieMiMo-V2
ModalitetBillede, video, lyd, tekst
OutputtypeTekst
Indbygget lydunderstøttelseJa
Indbygget fælles lyd-video-inputJa
Struktureret værktøjskaldJa
FunktionsudførelseJa
UI-forankringJa
Håndtering af lange lydoptagelserOver 10 timers kontinuerlig lydforståelse
Udgivelsesdato2026-03-18
Offentligt oplyst numerisk kontekstlængdeIkke angivet på den officielle Omni-side

Hvad er MiMo-V2-Omni?

MiMo-V2-Omni er designet til agentbaserede systemer, der har brug for perception og handling i én model. Xiaomi siger, at modellen sammenfletter dedikerede billed-, video- og lydenkodere i en fælles backbone og derefter trænes til at forudse, hvad der bør ske næste gang, frem for kun at beskrive det, der allerede er synligt.

Hovedfunktioner i MiMo-V2-Omni

  • Samlet multimodal perception: billede, video, lyd og tekst håndteres som én perceptionsstrøm frem for separate tilføjelser.
  • Agentklare output: modellen understøtter indbygget struktureret værktøjskald, funktionsudførelse og UI-forankring til reelle agentrammeværker.
  • Langformat lydforståelse: Xiaomi hævder, at den kan håndtere kontinuerlig lyd på over 10 timer, hvilket er usædvanligt stærkt for en generel omni-model.
  • Indbygget lyd-video-resonnering: den officielle side fremhæver fælles lyd-video-input til videoforståelse i stedet for en tekst-only transkriptpipeline.
  • Browser- og arbejdsgangsudførelse: Xiaomi demonstrerer ende-til-ende browsershopping og TikTok-upload-forløb ved hjælp af MiMo-V2-Omni plus OpenClaw.
  • Fra perception til handling: modellen er trænet til at forbinde det, den ser, med hvad den bør gøre næste gang, hvilket er kerneforskellen mellem en demo-model og en agentmodel.

Benchmark-resultater

mimo-v2-omni

Det fremgår tydeligt, at Omni overgår Gemini 3 Pro i lydforståelse, overgår Claude Opus 4.6 i billedforståelse, og præsterer på niveau med de stærkeste ræsonneringsmodeller på agentorienterede produktivitetsbenchmarks.

MiMo-V2-Omni vs MiMo-V2-Pro vs MiMo-V2-Flash

ModelKernestyrkeKontekst / skalaBedst egnet
MiMo-V2-OmniMultimodal perception + agenthandlingOffentlig kontekstlængde ikke angivet på Omni-sidenLyd-, billede-, video-, UI- og browseragenter
MiMo-V2-ProStørste flagskibsagentmodelOp til 1M-token kontekst; 1T+ parametre, 42B aktiveTung agentorkestrering og arbejde med lange horisonter
MiMo-V2-FlashHurtig ræsonnering og kodning256K kontekst; 309B i alt, 15B aktiveEffektiv ræsonnering, kodning og agentopgaver med høj gennemstrømning

Bedste anvendelsesområder

MiMo-V2-Omni er det rigtige valg, når din arbejdsgang afhænger af ikke-tekst input eller output: skærmforståelse, stemme- og lydanalyse, videogennemgang, browserautomatisering, multimodale assistenter og robotiklignende agent-loops. Hvis din arbejdsbyrde mest er tekst-only, og du vægter rå hastighed eller maksimal kontekst højere, er søskendemodellerne Pro og Flash de mere oplagte alternativer.

FAQ

What can the MiMo-V2-Omni API understand besides text?

MiMo-V2-Omni is built for image, video, audio, and undfied perceptual system rather than separate modality add-ons, which makes it a better fit for multimodal agents than a text-only LLM.

Can MiMo-V2-Omni API process audio and video together?

Yes. the model supports native audio-video joint input for video comprehension, so it can reason over what is happening on screen and in the soundtrack at the same time.

How long of an audio file can MiMo-V2-Omni API handle?

MiMo-V2-Omni supports continuous audio understanding beyond 10 hours. That is a strong signal that it is meant for long-form audio analysis rather than short clip transcription only.

When should I use MiMo-V2-Omni API instead of MiMo-V2-Pro?

Use MiMo-V2-Omni when the job depends on multimodal perception: screens, videos, voice, or audio-visual workflow mostly agentic text work and you want the largest flagship context window, which Xiaomi says reaches 1M tokens.

Does MiMo-V2-Omni API support structured tool?

Yes. MiMo-V2-Omni natively supports structured tool calling, function execution, and UI grounding, which is exactly what you want for agent automation.

Is MiMo-V2-Omni API good for browser automation and real-world agents?

Yes. Xiaomi’s demos show it scanning shopping adviceing on JD.com, and completing a TikTok upload workflow through OpenClaw. That makes it a strong fit for browser agents, workflow automation, and UI-driven tasks.

Funktioner til mimo-v2-omni

Udforsk de vigtigste funktioner i mimo-v2-omni, designet til at forbedre ydeevne og brugervenlighed. Opdag hvordan disse muligheder kan gavne dine projekter og forbedre brugeroplevelsen.

Priser for mimo-v2-omni

Udforsk konkurrencedygtige priser for mimo-v2-omni, designet til at passe til forskellige budgetter og brugsbehov. Vores fleksible planer sikrer, at du kun betaler for det, du bruger, hvilket gør det nemt at skalere, efterhånden som dine krav vokser. Opdag hvordan mimo-v2-omni kan forbedre dine projekter, mens omkostningerne holdes håndterbare.
Comet-pris (USD / M Tokens)Officiel Pris (USD / M Tokens)Rabat
Indtast:$0.32/M
Output:$1.6/M
Indtast:$0.4/M
Output:$2/M
-20%

Eksempelkode og API til mimo-v2-omni

Få adgang til omfattende eksempelkode og API-ressourcer for mimo-v2-omni for at strømline din integrationsproces. Vores detaljerede dokumentation giver trin-for-trin vejledning, der hjælper dig med at udnytte det fulde potentiale af mimo-v2-omni i dine projekter.
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"

client = OpenAI(api_key=COMETAPI_KEY, base_url="https://api.cometapi.com/v1")

# mimo-v2-omni: built-in web_search tool (pass as top-level tools param)
completion = client.chat.completions.create(
    model="mimo-v2-omni",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Who is Lei Jun?"},
    ],
    tools=[{"type": "web_search", "force_search": True, "max_keyword": 3, "limit": 1}],
    tool_choice="auto",
    extra_body={"thinking": {"type": "disabled"}},
)

msg = completion.choices[0].message
if msg.content:
    print(msg.content)

# annotations are populated when web_search runs (content may be null on search-only responses)
raw = completion.model_dump()
annotations = raw["choices"][0]["message"].get("annotations") or []
if annotations:
    print("
--- Sources ---")
    for ann in annotations:
        c = ann.get("url_citation") or {}
        print(f"[{c.get('title')}] {c.get('url')}")

Flere modeller