Home/Models/Xiaomi/mimo-v2-omni
X

mimo-v2-omni

مدخل:$0.32/M
الإخراج:$1.6/M
MiMo-V2-Omni هو نموذج شمولي متعدد الوسائط متقدّم يعالج مدخلات الصور والفيديو والصوت بشكل أصيل ضمن بنية موحّدة. يجمع بين إدراك متعدد الوسائط قوي وقدرات وكيلية - الربط البصري، والتخطيط متعدد الخطوات، واستخدام الأدوات، وتنفيذ التعليمات البرمجية - مما يجعله مناسبًا للغاية للمهام الواقعية المعقدة التي تمتد عبر الوسائط. نافذة سياق بسعة 256K.
جديد
الاستخدام التجاري
Playground
نظرة عامة
الميزات
التسعير
API

لمحة عامة عن MiMo-V2-Omni

MiMo-V2-Omni هو نموذج الأساس الشامل لمنصة واجهة برمجة التطبيقات من Xiaomi MiMo، تم بناؤه للرؤية والسمع والقراءة والتصرف ضمن سير العمل نفسه. تقدّم Xiaomi هذا النموذج كوكيل متعدد الوسائط يجمع بين فهم الصور والفيديو والصوت والنص مع استدعاء الأدوات المُهيكل، وتنفيذ الوظائف، والارتساء على واجهة المستخدم.

المواصفات التقنية

البندMiMo-V2-Omni
المزوّدXiaomi MiMo
عائلة النموذجMiMo-V2
الوسائطصورة، فيديو، صوت، نص
نوع المخرجاتنص
دعم صوتي أصيلنعم
مدخل صوتي-مرئي أصيل مشتركنعم
استدعاء أدوات مُهيكلنعم
تنفيذ الوظائفنعم
الارتساء على واجهة المستخدمنعم
التعامل مع الصوت الطويلفهم صوتي مستمر لأكثر من 10 ساعات
تاريخ الإصدار2026-03-18
طول السياق العددي المُعلنغير مذكور في الصفحة الرسمية لـ Omni

ما هو MiMo-V2-Omni؟

صُمّم MiMo-V2-Omni لأنظمة الوكلاء التي تحتاج إلى الإدراك والفعل في نموذج واحد. تقول Xiaomi إن النموذج يدمج مِرمّزات مخصصة للصور والفيديو والصوت في عمود فقري مشترك واحد، ثم يُدرَّب على توقّع ما يجب أن يحدث لاحقًا بدلًا من الاكتفاء بوصف ما هو مرئي بالفعل.

الميزات الرئيسية لـ MiMo-V2-Omni

  • إدراك متعدد الوسائط موحّد: تُعالج الصورة والفيديو والصوت والنص كسير إدراكي واحد بدلًا من إضافات منفصلة.
  • مخرجات جاهزة للوكلاء: يدعم النموذج بصورة أصيلة استدعاء الأدوات المُهيكل، وتنفيذ الوظائف، والارتساء على واجهة المستخدم لأطر الوكلاء الفعلية.
  • فهم طويل الأمد للصوت: تدّعي Xiaomi أنه يستطيع التعامل مع صوت مستمر يزيد عن 10 ساعات، وهو أمر قوي على نحو غير معتاد لنموذج شامل عام.
  • استدلال صوتي-مرئي أصيل: تُبرز الصفحة الرسمية مدخلًا صوتيًا-مرئيًا مشتركًا لفهم الفيديو بدلًا من خط أنابيب يعتمد فقط على نص التفريغ.
  • تنفيذ عبر المتصفح وسير العمل: تستعرض Xiaomi عمليات تسوق عبر المتصفح ومسارات تحميل على TikTok من الطرف إلى الطرف باستخدام MiMo-V2-Omni مع OpenClaw.
  • تأطير من الإدراك إلى الفعل: يُدرَّب النموذج على ربط ما يراه بما ينبغي فعله لاحقًا، وهو الفارق الجوهري بين نموذج العرض ونموذج الوكيل.

أداء مقاييس الاختبار

mimo-v2-omni

يُصرّح بوضوح بأن Omni يتفوق على Gemini 3 Pro في فهم الصوت، ويتفوق على Claude Opus 4.6 في فهم الصور، ويؤدي على قدم المساواة مع أقوى نماذج الاستدلال في مقاييس إنتاجية الوكلاء.

MiMo-V2-Omni مقابل MiMo-V2-Pro مقابل MiMo-V2-Flash

النموذجنقطة القوة الأساسيةالسياق / الحجمأنسب استخدام
MiMo-V2-Omniإدراك متعدد الوسائط + فعل الوكيلطول السياق المُعلن غير مذكور في صفحة Omniوكلاء الصوت والصورة والفيديو وواجهة المستخدم والمتصفح
MiMo-V2-Proأكبر نموذج وكيل رائدسياق يصل إلى 1M رمز؛ أكثر من 1T من المعاملات، 42B نشطةتنسيق كثيف للوكلاء وأعمال طويلة الأفق
MiMo-V2-Flashاستدلال وترميز سريعانسياق 256K؛ 309B إجماليًا، 15B نشطةاستدلال وترميز فعّالان، ومهام وكلاء عالية الإنتاجية

أفضل حالات الاستخدام

يكون MiMo-V2-Omni هو الخيار المناسب عندما يعتمد سير عملك على مدخلات أو مخرجات غير نصية: فهم الشاشة، تحليل الصوت والصوتيات، مراجعة الفيديو، أتمتة المتصفح، المساعدات متعددة الوسائط، وحلقات الوكلاء بأسلوب الروبوتات. إذا كان عبء عملك في الغالب نصيًا فقط وتهتم أكثر بالسرعة الخام أو بأقصى طول للسياق، فإن النموذجين الشقيقين Pro وFlash هما البديلان الأكثر وضوحًا.

الأسئلة الشائعة

What can the MiMo-V2-Omni API understand besides text?

MiMo-V2-Omni is built for image, video, audio, and undfied perceptual system rather than separate modality add-ons, which makes it a better fit for multimodal agents than a text-only LLM.

Can MiMo-V2-Omni API process audio and video together?

Yes. the model supports native audio-video joint input for video comprehension, so it can reason over what is happening on screen and in the soundtrack at the same time.

How long of an audio file can MiMo-V2-Omni API handle?

MiMo-V2-Omni supports continuous audio understanding beyond 10 hours. That is a strong signal that it is meant for long-form audio analysis rather than short clip transcription only.

When should I use MiMo-V2-Omni API instead of MiMo-V2-Pro?

Use MiMo-V2-Omni when the job depends on multimodal perception: screens, videos, voice, or audio-visual workflow mostly agentic text work and you want the largest flagship context window, which Xiaomi says reaches 1M tokens.

Does MiMo-V2-Omni API support structured tool?

Yes. MiMo-V2-Omni natively supports structured tool calling, function execution, and UI grounding, which is exactly what you want for agent automation.

Is MiMo-V2-Omni API good for browser automation and real-world agents?

Yes. Xiaomi’s demos show it scanning shopping adviceing on JD.com, and completing a TikTok upload workflow through OpenClaw. That makes it a strong fit for browser agents, workflow automation, and UI-driven tasks.

الميزات لـ mimo-v2-omni

استكشف الميزات الرئيسية لـ mimo-v2-omni، المصممة لتعزيز الأداء وسهولة الاستخدام. اكتشف كيف يمكن لهذه القدرات أن تفيد مشاريعك وتحسن تجربة المستخدم.

التسعير لـ mimo-v2-omni

استكشف الأسعار التنافسية لـ mimo-v2-omni، المصمم ليناسب الميزانيات المختلفة واحتياجات الاستخدام المتنوعة. تضمن خططنا المرنة أن تدفع فقط مقابل ما تستخدمه، مما يجعل من السهل التوسع مع نمو متطلباتك. اكتشف كيف يمكن لـ mimo-v2-omni تحسين مشاريعك مع الحفاظ على التكاليف قابلة للإدارة.
سعر كوميت (USD / M Tokens)السعر الرسمي (USD / M Tokens)خصم
مدخل:$0.32/M
الإخراج:$1.6/M
مدخل:$0.4/M
الإخراج:$2/M
-20%

نموذج الكود وواجهة برمجة التطبيقات لـ mimo-v2-omni

احصل على أكواد نماذجية شاملة وموارد API لـ mimo-v2-omni لتبسيط عملية التكامل الخاصة بك. توفر وثائقنا التفصيلية إرشادات خطوة بخطوة، مما يساعدك على الاستفادة من الإمكانات الكاملة لـ mimo-v2-omni في مشاريعك.
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"

client = OpenAI(api_key=COMETAPI_KEY, base_url="https://api.cometapi.com/v1")

# mimo-v2-omni: built-in web_search tool (pass as top-level tools param)
completion = client.chat.completions.create(
    model="mimo-v2-omni",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Who is Lei Jun?"},
    ],
    tools=[{"type": "web_search", "force_search": True, "max_keyword": 3, "limit": 1}],
    tool_choice="auto",
    extra_body={"thinking": {"type": "disabled"}},
)

msg = completion.choices[0].message
if msg.content:
    print(msg.content)

# annotations are populated when web_search runs (content may be null on search-only responses)
raw = completion.model_dump()
annotations = raw["choices"][0]["message"].get("annotations") or []
if annotations:
    print("
--- Sources ---")
    for ann in annotations:
        c = ann.get("url_citation") or {}
        print(f"[{c.get('title')}] {c.get('url')}")

المزيد من النماذج