Home/Models/Xiaomi/mimo-v2-omni
X

mimo-v2-omni

ان پٹ:$0.32/M
آؤٹ پٹ:$1.6/M
MiMo-V2-Omni ایک صفِ اوّل کا ہمہ وضع ماڈل ہے جو یکجا آرکیٹیکچر کے تحت تصویر، ویڈیو اور آڈیو اِن پٹس کو بنیادی طور پر پروسیس کرتا ہے۔ یہ مضبوط ہمہ وضع ادراک کو ایجنٹ جیسی صلاحیتوں — بصری گراؤنڈنگ، متعدد مرحلوں پر مبنی منصوبہ بندی، ٹولز کا استعمال، اور کوڈ کا نفاذ — کے ساتھ جوڑتا ہے، جس سے یہ حقیقی دنیا کے اُن پیچیدہ کاموں کے لیے نہایت موزوں بن جاتا ہے جو مختلف وضعوں پر محیط ہوں۔ 256K کانٹیکسٹ ونڈو۔
نیا
تجارتی استعمال
Playground
خلاصہ
خصوصیات
قیمت
API

MiMo-V2-Omni جائزہ

MiMo-V2-Omni، Xiaomi MiMo کا API پلیٹ فارم کے لیے اومنی فاؤنڈیشن ماڈل ہے، جو ایک ہی ورک فلو میں دیکھنے، سننے، پڑھنے اور عمل کرنے کے لیے بنایا گیا ہے۔ Xiaomi کے مطابق یہ ایک ملٹی موڈل ایجنٹ ماڈل ہے جو تصویر، ویڈیو، آڈیو اور متن کی سمجھ کو ساختہ ٹول کالنگ، فنکشن کے نفاذ اور UI گراؤنڈنگ کے ساتھ جوڑتا ہے۔

تکنیکی خصوصیات

آئٹمMiMo-V2-Omni
مہیا کنندہXiaomi MiMo
ماڈل فیملیMiMo-V2
موڈیلیٹیتصویر، ویڈیو، آڈیو، متن
آؤٹ پٹ کی قسممتن
مقامی آڈیو سپورٹہاں
مقامی آڈیو-ویڈیو مشترکہ ان پٹہاں
ساختہ ٹول کالنگہاں
فنکشن کا نفاذہاں
UI گراؤنڈنگہاں
طویل آڈیو ہینڈلنگ10 گھنٹے سے زیادہ مسلسل آڈیو کی تفہیم
ریلیز کی تاریخ2026-03-18
عوامی عددی کانٹیکسٹ لینتھآفیشل Omni صفحے پر بیان نہیں کیا گیا

MiMo-V2-Omni کیا ہے؟

MiMo-V2-Omni کو اُن ایجنٹک سسٹمز کے لیے ڈیزائن کیا گیا ہے جنہیں ایک ہی ماڈل میں ادراک اور عمل درکار ہو۔ Xiaomi کے مطابق ماڈل مخصوص تصویر، ویڈیو اور آڈیو انکوڈرز کو ایک مشترکہ بیک بون میں ضم کرتا ہے، پھر اسے صرف نظر آنے والی چیزوں کی وضاحت کرنے کے بجائے یہ اندازہ لگانے کی تربیت دیتا ہے کہ اگلا کیا ہونا چاہیے۔

MiMo-V2-Omni کی بنیادی خصوصیات

  • یکجا ملٹی موڈل ادراک: تصویر، ویڈیو، آڈیو اور متن کو الگ اضافوں کے بجائے ایک ہی ادراکی سلسلے کے طور پر ہینڈل کیا جاتا ہے۔
  • ایجنٹ کے لیے تیار آؤٹ پٹس: ماڈل ساختہ ٹول کالنگ، فنکشن کے نفاذ اور UI گراؤنڈنگ کو حقیقی ایجنٹ فریم ورکس کے لیے نیٹو طور پر سپورٹ کرتا ہے۔
  • طویل دورانیے کی آڈیو فہم: Xiaomi کا دعویٰ ہے کہ یہ 10 گھنٹے سے زیادہ مسلسل آڈیو کو سنبھال سکتا ہے، جو ایک عمومی اومنی ماڈل کے لیے غیر معمولی طور پر مضبوط ہے۔
  • مقامی آڈیو-ویڈیو استدلال: آفیشل صفحہ ٹیکسٹ-صرف ٹرانسکرپٹ پائپ لائن کے بجائے ویڈیو فہم کے لیے مشترکہ آڈیو-ویڈیو ان پٹ کو نمایاں کرتا ہے۔
  • براؤزر اور ورک فلو ایکزیکیوشن: Xiaomi نے MiMo-V2-Omni کے ساتھ OpenClaw استعمال کر کے اینڈ ٹو اینڈ براؤزر شاپنگ اور TikTok اپ لوڈ فلو دکھائے ہیں۔
  • ادراک سے عمل تک فریمینگ: ماڈل کو اس بات پر تربیت دی گئی ہے کہ وہ جو دیکھتا ہے اسے اس سے جوڑ دے کہ اگلا کیا کرنا چاہیے، جو ایک ڈیمو ماڈل اور ایک ایجنٹک ماڈل کے درمیان بنیادی فرق ہے۔

بینچ مارک کارکردگی

mimo-v2-omni

اس میں واضح طور پر کہا گیا ہے کہ Omni آڈیو فہم میں Gemini 3 Pro سے بہتر ہے، تصویری فہم میں Claude Opus 4.6 سے بہتر ہے، اور ایجنٹک پروڈکٹیویٹی بینچ مارکس پر مضبوط ترین استدلالی ماڈلز کے برابر کارکردگی دکھاتا ہے۔

MiMo-V2-Omni بمقابلہ MiMo-V2-Pro بمقابلہ MiMo-V2-Flash

ماڈلبنیادی صلاحیتکانٹیکسٹ / اسکیلمناسب ترین
MiMo-V2-Omniملٹی موڈل ادراک + ایجنٹ ایکشنOmni صفحے پر عوامی کانٹیکسٹ لینتھ بیان نہیں کی گئیآڈیو، تصویر، ویڈیو، UI اور براؤزر ایجنٹس
MiMo-V2-Proسب سے بڑا فلیگ شپ ایجنٹ ماڈل1M-token کانٹیکسٹ تک؛ 1T+ پیرامیٹرز، 42B فعالہیوی ایجنٹ آرکسٹریشن اور طویل افق کا کام
MiMo-V2-Flashتیز استدلال اور کوڈنگ256K کانٹیکسٹ؛ 309B مجموعی، 15B فعالمؤثر استدلال، کوڈنگ، اور ہائی تھروپٹ ایجنٹ ٹاسکس

بہترین استعمال کے کیسز

MiMo-V2-Omni درست انتخاب ہے جب آپ کے ورک فلو کا انحصار نان ٹیکسٹ ان پٹس یا آؤٹ پٹس پر ہو: اسکرین کی سمجھ، آواز اور آڈیو تجزیہ، ویڈیو ریویو، براؤزر آٹومیشن، ملٹی موڈل اسسٹنٹس، اور روبوٹکس طرز کے ایجنٹ لوپس۔ اگر آپ کا ورک لوڈ زیادہ تر صرف متن پر مبنی ہے اور آپ کو خام رفتار یا زیادہ سے زیادہ کانٹیکسٹ زیادہ اہم ہے، تو اس کے ہم جُڑواں Pro اور Flash ماڈلز زیادہ واضح متبادل ہیں۔

اکثر پوچھے جانے والے سوالات

What can the MiMo-V2-Omni API understand besides text?

MiMo-V2-Omni is built for image, video, audio, and undfied perceptual system rather than separate modality add-ons, which makes it a better fit for multimodal agents than a text-only LLM.

Can MiMo-V2-Omni API process audio and video together?

Yes. the model supports native audio-video joint input for video comprehension, so it can reason over what is happening on screen and in the soundtrack at the same time.

How long of an audio file can MiMo-V2-Omni API handle?

MiMo-V2-Omni supports continuous audio understanding beyond 10 hours. That is a strong signal that it is meant for long-form audio analysis rather than short clip transcription only.

When should I use MiMo-V2-Omni API instead of MiMo-V2-Pro?

Use MiMo-V2-Omni when the job depends on multimodal perception: screens, videos, voice, or audio-visual workflow mostly agentic text work and you want the largest flagship context window, which Xiaomi says reaches 1M tokens.

Does MiMo-V2-Omni API support structured tool?

Yes. MiMo-V2-Omni natively supports structured tool calling, function execution, and UI grounding, which is exactly what you want for agent automation.

Is MiMo-V2-Omni API good for browser automation and real-world agents?

Yes. Xiaomi’s demos show it scanning shopping adviceing on JD.com, and completing a TikTok upload workflow through OpenClaw. That makes it a strong fit for browser agents, workflow automation, and UI-driven tasks.

mimo-v2-omni کے لیے خصوصیات

[ماڈل کا نام] کی اہم خصوصیات دریافت کریں، جو کارکردگی اور قابل استعمال کو بہتر بنانے کے لیے ڈیزائن کی گئی ہیں۔ جانیں کہ یہ صلاحیتیں آپ کے منصوبوں کو کیسے فائدہ پہنچا سکتی ہیں اور صارف کے تجربے کو بہتر بنا سکتی ہیں۔

mimo-v2-omni کی قیمتیں

[ماڈل کا نام] کے لیے مسابقتی قیمتوں کو دریافت کریں، جو مختلف بجٹ اور استعمال کی ضروریات کے مطابق ڈیزائن کیا گیا ہے۔ ہمارے لچکدار منصوبے اس بات کو یقینی بناتے ہیں کہ آپ صرف اسی کے لیے ادائیگی کریں جو آپ استعمال کرتے ہیں، جس سے آپ کی ضروریات بڑھنے کے ساتھ ساتھ اسکیل کرنا آسان ہو جاتا ہے۔ دریافت کریں کہ [ماڈل کا نام] کیسے آپ کے پروجیکٹس کو بہتر بنا سکتا ہے جبکہ اخراجات کو قابو میں رکھتا ہے۔
Comet قیمت (USD / M Tokens)سرکاری قیمت (USD / M Tokens)رعایت
ان پٹ:$0.32/M
آؤٹ پٹ:$1.6/M
ان پٹ:$0.4/M
آؤٹ پٹ:$2/M
-20%

mimo-v2-omni کے لیے نمونہ کوڈ اور API

mimo-v2-omni کے لیے جامع نمونہ کوڈ اور API وسائل تک رسائی حاصل کریں تاکہ آپ کے انضمام کے عمل کو آسان بنایا جا سکے۔ ہماری تفصیلی دستاویزات قدم بہ قدم رہنمائی فراہم کرتی ہیں، جو آپ کو اپنے پروجیکٹس میں mimo-v2-omni کی مکمل صلاحیت سے فائدہ اٹھانے میں مدد کرتی ہیں۔
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"

client = OpenAI(api_key=COMETAPI_KEY, base_url="https://api.cometapi.com/v1")

# mimo-v2-omni: built-in web_search tool (pass as top-level tools param)
completion = client.chat.completions.create(
    model="mimo-v2-omni",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Who is Lei Jun?"},
    ],
    tools=[{"type": "web_search", "force_search": True, "max_keyword": 3, "limit": 1}],
    tool_choice="auto",
    extra_body={"thinking": {"type": "disabled"}},
)

msg = completion.choices[0].message
if msg.content:
    print(msg.content)

# annotations are populated when web_search runs (content may be null on search-only responses)
raw = completion.model_dump()
annotations = raw["choices"][0]["message"].get("annotations") or []
if annotations:
    print("
--- Sources ---")
    for ann in annotations:
        c = ann.get("url_citation") or {}
        print(f"[{c.get('title')}] {c.get('url')}")

مزید ماڈلز