Home/Models/Xiaomi/mimo-v2-omni
X

mimo-v2-omni

Inndata:$0.32/M
Utdata:$1.6/M
MiMo-V2-Omni er en ledende omni-modal modell som naturlig behandler bilde-, video- og lydinnganger innenfor en enhetlig arkitektur. Den kombinerer sterk multimodal persepsjon med agentiske evner – visuell forankring, flertrinnsplanlegging, verktøybruk og kodekjøring – noe som gjør den godt egnet for komplekse oppgaver i den virkelige verden som spenner over flere modaliteter. Kontekstvindu på 256K.
Ny
Kommersiell bruk
Playground
Oversikt
Funksjoner
Priser
API

MiMo-V2-Omni-oversikt

MiMo-V2-Omni er Xiaomi MiMos omni-grunnlagsmodell for API-plattformen, bygget for å se, høre, lese og handle i samme arbeidsflyt. Xiaomi posisjonerer den som en multimodal agentmodell som kombinerer bilde-, video-, lyd- og tekstforståelse med strukturert verktøykalling, funksjonsutførelse og UI-forankring.

Tekniske spesifikasjoner

ElementMiMo-V2-Omni
LeverandørXiaomi MiMo
ModellfamilieMiMo-V2
ModalitetBilde, video, lyd, tekst
UtdatatypeTekst
Innebygd lydstøtteJa
Innebygd kombinert lyd‑video-inngangJa
Strukturert verktøykallingJa
FunksjonsutførelseJa
UI-forankringJa
Håndtering av lange lydopptakOver 10 timer kontinuerlig lydforståelse
Utgivelsesdato2026-03-18
Offentlig numerisk kontekstlengdeIkke oppgitt på den offisielle Omni-siden

Hva er MiMo-V2-Omni?

MiMo-V2-Omni er designet for agentbaserte systemer som trenger persepsjon og handling i én modell. Xiaomi sier at modellen smelter dedikerte bilde-, video- og lydenkodere sammen i én felles ryggrad, og deretter trener den til å forutse hva som bør skje videre snarere enn bare å beskrive det som allerede er synlig.

Hovedfunksjoner i MiMo-V2-Omni

  • Enhetlig multimodal persepsjon: bilde, video, lyd og tekst behandles som én perseptuell strøm i stedet for separate tillegg.
  • Agentklare utdata: modellen støtter nativt strukturert verktøykalling, funksjonsutførelse og UI-forankring for reelle agentrammeverk.
  • Forståelse av langvarig lyd: Xiaomi hevder at den kan håndtere kontinuerlig lyd i over 10 timer, noe som er uvanlig sterkt for en generell omni-modell.
  • Innebygd lyd‑video-resonnering: den offisielle siden fremhever kombinert lyd‑video-inngang for videoforståelse i stedet for en kun tekstbasert transkripsjonsprosess.
  • Nettleser- og arbeidsflytutførelse: Xiaomi demonstrerer ende-til-ende nettleserhandel og TikTok-opplastingsflyter ved hjelp av MiMo-V2-Omni pluss OpenClaw.
  • Persepsjon‑til‑handling-ramme: modellen er trent til å koble det den ser til hva den bør gjøre neste, som er kjerneforskjellen mellom en demomodell og en agentmodell.

Benchmark-ytelse

mimo-v2-omni

Det fremgår tydelig at Omni overgår Gemini 3 Pro på lydforståelse, overgår Claude Opus 4.6 på bildeforståelse, og yter på nivå med de sterkeste resonneringsmodellene på agentbaserte produktivitetsbenchmarker.

MiMo-V2-Omni vs MiMo-V2-Pro vs MiMo-V2-Flash

ModellKjernestyrkeKontekst / skalaBest egnet
MiMo-V2-OmniMultimodal persepsjon + agenthandlingOffentlig kontekstlengde ikke oppgitt på Omni-sidenLyd-, bilde-, video-, UI- og nettleseragenter
MiMo-V2-ProStørste flaggskip-agentmodellOpptil 1M-token kontekst; 1T+ parametere, 42B aktiveTung agentorkestrering og arbeid med lange horisonter
MiMo-V2-FlashRask resonnering og koding256K kontekst; 309B totalt, 15B aktivEffektiv resonnering, koding og agentoppgaver med høy gjennomstrømning

Beste bruksområder

MiMo-V2-Omni er det riktige valget når arbeidsflyten din avhenger av ikke-tekstlige inndata eller utdata: skjermforståelse, stemme- og lydanalyse, videogjennomgang, nettleserautomatisering, multimodale assistenter og robotikk-lignende agentløkker. Hvis arbeidsbelastningen din er mest tekstbasert og du bryr deg mer om rå hastighet eller maksimal kontekst, er søsknene Pro og Flash de mer åpenbare alternativene.

FAQ

What can the MiMo-V2-Omni API understand besides text?

MiMo-V2-Omni is built for image, video, audio, and undfied perceptual system rather than separate modality add-ons, which makes it a better fit for multimodal agents than a text-only LLM.

Can MiMo-V2-Omni API process audio and video together?

Yes. the model supports native audio-video joint input for video comprehension, so it can reason over what is happening on screen and in the soundtrack at the same time.

How long of an audio file can MiMo-V2-Omni API handle?

MiMo-V2-Omni supports continuous audio understanding beyond 10 hours. That is a strong signal that it is meant for long-form audio analysis rather than short clip transcription only.

When should I use MiMo-V2-Omni API instead of MiMo-V2-Pro?

Use MiMo-V2-Omni when the job depends on multimodal perception: screens, videos, voice, or audio-visual workflow mostly agentic text work and you want the largest flagship context window, which Xiaomi says reaches 1M tokens.

Does MiMo-V2-Omni API support structured tool?

Yes. MiMo-V2-Omni natively supports structured tool calling, function execution, and UI grounding, which is exactly what you want for agent automation.

Is MiMo-V2-Omni API good for browser automation and real-world agents?

Yes. Xiaomi’s demos show it scanning shopping adviceing on JD.com, and completing a TikTok upload workflow through OpenClaw. That makes it a strong fit for browser agents, workflow automation, and UI-driven tasks.

Funksjoner for mimo-v2-omni

Utforsk nøkkelfunksjonene til mimo-v2-omni, designet for å forbedre ytelse og brukervennlighet. Oppdag hvordan disse mulighetene kan være til nytte for prosjektene dine og forbedre brukeropplevelsen.

Priser for mimo-v2-omni

Utforsk konkurransedyktige priser for mimo-v2-omni, designet for å passe ulike budsjetter og bruksbehov. Våre fleksible planer sikrer at du bare betaler for det du bruker, noe som gjør det enkelt å skalere etter hvert som kravene dine vokser. Oppdag hvordan mimo-v2-omni kan forbedre prosjektene dine samtidig som kostnadene holdes håndterbare.
Komet-pris (USD / M Tokens)Offisiell pris (USD / M Tokens)Rabatt
Inndata:$0.32/M
Utdata:$1.6/M
Inndata:$0.4/M
Utdata:$2/M
-20%

Eksempelkode og API for mimo-v2-omni

Få tilgang til omfattende eksempelkode og API-ressurser for mimo-v2-omni for å effektivisere integreringsprosessen din. Vår detaljerte dokumentasjon gir trinn-for-trinn-veiledning som hjelper deg med å utnytte det fulle potensialet til mimo-v2-omni i prosjektene dine.
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"

client = OpenAI(api_key=COMETAPI_KEY, base_url="https://api.cometapi.com/v1")

# mimo-v2-omni: built-in web_search tool (pass as top-level tools param)
completion = client.chat.completions.create(
    model="mimo-v2-omni",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Who is Lei Jun?"},
    ],
    tools=[{"type": "web_search", "force_search": True, "max_keyword": 3, "limit": 1}],
    tool_choice="auto",
    extra_body={"thinking": {"type": "disabled"}},
)

msg = completion.choices[0].message
if msg.content:
    print(msg.content)

# annotations are populated when web_search runs (content may be null on search-only responses)
raw = completion.model_dump()
annotations = raw["choices"][0]["message"].get("annotations") or []
if annotations:
    print("
--- Sources ---")
    for ann in annotations:
        c = ann.get("url_citation") or {}
        print(f"[{c.get('title')}] {c.get('url')}")

Flere modeller