Home/Models/Xiaomi/mimo-v2-omni
X

mimo-v2-omni

Ingresso:$0.32/M
Uscita:$1.6/M
MiMo-V2-Omni è un modello omnimodale all'avanguardia che elabora nativamente input di immagini, video e audio all'interno di un'architettura unificata. Combina una solida percezione multimodale con capacità agentiche - grounding visivo, pianificazione a più fasi, uso di strumenti ed esecuzione di codice - risultando particolarmente adatto a compiti complessi del mondo reale che coinvolgono più modalità. Finestra di contesto da 256K.
Nuovo
Uso commerciale
Playground
Panoramica
Caratteristiche
Prezzi
API

Panoramica di MiMo-V2-Omni

MiMo-V2-Omni è il modello base omni di Xiaomi MiMo per la piattaforma API, progettato per vedere, ascoltare, leggere e agire nello stesso flusso di lavoro. Xiaomi lo presenta come un modello agente multimodale che combina la comprensione di immagini, video, audio e testo con chiamate strutturate agli strumenti, esecuzione di funzioni e ancoraggio all'interfaccia utente.

Specifiche tecniche

VoceMiMo-V2-Omni
FornitoreXiaomi MiMo
Famiglia di modelliMiMo-V2
ModalitàImmagini, video, audio, testo
Tipo di outputTesto
Supporto audio nativoSì
Input congiunto audio-video nativoSì
Chiamata strutturata agli strumentiSì
Esecuzione di funzioniSì
Ancoraggio all'interfaccia utenteSì
Gestione di audio di lunga durataComprensione continua dell'audio oltre 10 ore
Data di rilascio2026-03-18
Lunghezza del contesto numerico pubblicoNon dichiarata sulla pagina ufficiale di Omni

Che cos'è MiMo-V2-Omni?

MiMo-V2-Omni è progettato per sistemi agentici che richiedono percezione e azione in un unico modello. Xiaomi afferma che il modello fonde encoder dedicati per immagini, video e audio in un'unica backbone condivisa, quindi lo addestra ad anticipare ciò che dovrebbe accadere dopo invece di descrivere solo ciò che è già visibile.

Caratteristiche principali di MiMo-V2-Omni

  • Percezione multimodale unificata: immagini, video, audio e testo sono gestiti come un unico flusso percettivo invece che come componenti aggiuntivi separati.
  • Output pronti per agenti: il modello supporta nativamente chiamate strutturate agli strumenti, esecuzione di funzioni e ancoraggio all'interfaccia utente per framework di agenti reali.
  • Comprensione di audio di lunga durata: Xiaomi afferma che può gestire audio continuo superiore a 10 ore, una capacità insolitamente elevata per un modello omni generico.
  • Ragionamento audio-video nativo: la pagina ufficiale evidenzia l'input congiunto audio-video per la comprensione video invece di una pipeline di trascrizione solo testuale.
  • Esecuzione su browser e dei flussi di lavoro: Xiaomi mostra flussi end-to-end di acquisti su browser e caricamenti su TikTok utilizzando MiMo-V2-Omni più OpenClaw.
  • Inquadramento dalla percezione all'azione: il modello è addestrato a collegare ciò che vede a ciò che dovrebbe fare dopo, che è la differenza fondamentale tra un modello da demo e un modello agentico.

Prestazioni nei benchmark

mimo-v2-omni

Dichiara chiaramente che Omni supera Gemini 3 Pro nella comprensione audio, supera Claude Opus 4.6 nella comprensione delle immagini e offre prestazioni alla pari con i modelli di ragionamento più forti nei benchmark di produttività agentica.

MiMo-V2-Omni vs MiMo-V2-Pro vs MiMo-V2-Flash

ModelloPunto di forza principaleContesto / scalaIdeale per
MiMo-V2-OmniPercezione multimodale + azione dell'agenteLunghezza del contesto pubblico non dichiarata sulla pagina di OmniAgenti per audio, immagini, video, UI e browser
MiMo-V2-ProIl più grande modello agente di puntaFino a 1M token di contesto; 1T+ parametri, 42B attiviOrchestrazione intensiva di agenti e attività a lungo orizzonte
MiMo-V2-FlashRagionamento e coding rapidi256K di contesto; 309B totali, 15B attiviRagionamento efficiente, coding e attività di agenti ad alto throughput

Casi d'uso migliori

MiMo-V2-Omni è la scelta giusta quando il tuo flusso di lavoro dipende da input o output non testuali: comprensione dello schermo, analisi di voce e audio, revisione video, automazione del browser, assistenti multimodali e cicli di agenti in stile robotico. Se il tuo carico di lavoro è prevalentemente solo testo e ti interessa di più la velocità pura o il contesto massimo, i modelli fratelli Pro e Flash sono le alternative più ovvie.

FAQ

What can the MiMo-V2-Omni API understand besides text?

MiMo-V2-Omni is built for image, video, audio, and undfied perceptual system rather than separate modality add-ons, which makes it a better fit for multimodal agents than a text-only LLM.

Can MiMo-V2-Omni API process audio and video together?

Yes. the model supports native audio-video joint input for video comprehension, so it can reason over what is happening on screen and in the soundtrack at the same time.

How long of an audio file can MiMo-V2-Omni API handle?

MiMo-V2-Omni supports continuous audio understanding beyond 10 hours. That is a strong signal that it is meant for long-form audio analysis rather than short clip transcription only.

When should I use MiMo-V2-Omni API instead of MiMo-V2-Pro?

Use MiMo-V2-Omni when the job depends on multimodal perception: screens, videos, voice, or audio-visual workflow mostly agentic text work and you want the largest flagship context window, which Xiaomi says reaches 1M tokens.

Does MiMo-V2-Omni API support structured tool?

Yes. MiMo-V2-Omni natively supports structured tool calling, function execution, and UI grounding, which is exactly what you want for agent automation.

Is MiMo-V2-Omni API good for browser automation and real-world agents?

Yes. Xiaomi’s demos show it scanning shopping adviceing on JD.com, and completing a TikTok upload workflow through OpenClaw. That makes it a strong fit for browser agents, workflow automation, and UI-driven tasks.

Funzionalità per mimo-v2-omni

Esplora le caratteristiche principali di mimo-v2-omni, progettato per migliorare le prestazioni e l'usabilità. Scopri come queste funzionalità possono beneficiare i tuoi progetti e migliorare l'esperienza utente.

Prezzi per mimo-v2-omni

Esplora i prezzi competitivi per mimo-v2-omni, progettato per adattarsi a vari budget e necessità di utilizzo. I nostri piani flessibili garantiscono che paghi solo per quello che usi, rendendo facile scalare man mano che i tuoi requisiti crescono. Scopri come mimo-v2-omni può migliorare i tuoi progetti mantenendo i costi gestibili.
Prezzo Comet (USD / M Tokens)Prezzo Ufficiale (USD / M Tokens)Sconto
Ingresso:$0.32/M
Uscita:$1.6/M
Ingresso:$0.4/M
Uscita:$2/M
-20%

Codice di esempio e API per mimo-v2-omni

Accedi a codice di esempio completo e risorse API per mimo-v2-omni per semplificare il tuo processo di integrazione. La nostra documentazione dettagliata fornisce una guida passo dopo passo, aiutandoti a sfruttare appieno il potenziale di mimo-v2-omni nei tuoi progetti.
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"

client = OpenAI(api_key=COMETAPI_KEY, base_url="https://api.cometapi.com/v1")

# mimo-v2-omni: built-in web_search tool (pass as top-level tools param)
completion = client.chat.completions.create(
    model="mimo-v2-omni",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Who is Lei Jun?"},
    ],
    tools=[{"type": "web_search", "force_search": True, "max_keyword": 3, "limit": 1}],
    tool_choice="auto",
    extra_body={"thinking": {"type": "disabled"}},
)

msg = completion.choices[0].message
if msg.content:
    print(msg.content)

# annotations are populated when web_search runs (content may be null on search-only responses)
raw = completion.model_dump()
annotations = raw["choices"][0]["message"].get("annotations") or []
if annotations:
    print("
--- Sources ---")
    for ann in annotations:
        c = ann.get("url_citation") or {}
        print(f"[{c.get('title')}] {c.get('url')}")

Altri modelli