لمحة عامة عن MiMo-V2-Omni
MiMo-V2-Omni هو نموذج الأساس الشامل لمنصة واجهة برمجة التطبيقات من Xiaomi MiMo، تم بناؤه للرؤية والسمع والقراءة والتصرف ضمن سير العمل نفسه. تقدّم Xiaomi هذا النموذج كوكيل متعدد الوسائط يجمع بين فهم الصور والفيديو والصوت والنص مع استدعاء الأدوات المُهيكل، وتنفيذ الوظائف، والارتساء على واجهة المستخدم.
المواصفات التقنية
| البند | MiMo-V2-Omni |
|---|---|
| المزوّد | Xiaomi MiMo |
| عائلة النموذج | MiMo-V2 |
| الوسائط | صورة، فيديو، صوت، نص |
| نوع المخرجات | نص |
| دعم صوتي أصيل | نعم |
| مدخل صوتي-مرئي أصيل مشترك | نعم |
| استدعاء أدوات مُهيكل | نعم |
| تنفيذ الوظائف | نعم |
| الارتساء على واجهة المستخدم | نعم |
| التعامل مع الصوت الطويل | فهم صوتي مستمر لأكثر من 10 ساعات |
| تاريخ الإصدار | 2026-03-18 |
| طول السياق العددي المُعلن | غير مذكور في الصفحة الرسمية لـ Omni |
ما هو MiMo-V2-Omni؟
صُمّم MiMo-V2-Omni لأنظمة الوكلاء التي تحتاج إلى الإدراك والفعل في نموذج واحد. تقول Xiaomi إن النموذج يدمج مِرمّزات مخصصة للصور والفيديو والصوت في عمود فقري مشترك واحد، ثم يُدرَّب على توقّع ما يجب أن يحدث لاحقًا بدلًا من الاكتفاء بوصف ما هو مرئي بالفعل.
الميزات الرئيسية لـ MiMo-V2-Omni
- إدراك متعدد الوسائط موحّد: تُعالج الصورة والفيديو والصوت والنص كسير إدراكي واحد بدلًا من إضافات منفصلة.
- مخرجات جاهزة للوكلاء: يدعم النموذج بصورة أصيلة استدعاء الأدوات المُهيكل، وتنفيذ الوظائف، والارتساء على واجهة المستخدم لأطر الوكلاء الفعلية.
- فهم طويل الأمد للصوت: تدّعي Xiaomi أنه يستطيع التعامل مع صوت مستمر يزيد عن 10 ساعات، وهو أمر قوي على نحو غير معتاد لنموذج شامل عام.
- استدلال صوتي-مرئي أصيل: تُبرز الصفحة الرسمية مدخلًا صوتيًا-مرئيًا مشتركًا لفهم الفيديو بدلًا من خط أنابيب يعتمد فقط على نص التفريغ.
- تنفيذ عبر المتصفح وسير العمل: تستعرض Xiaomi عمليات تسوق عبر المتصفح ومسارات تحميل على TikTok من الطرف إلى الطرف باستخدام MiMo-V2-Omni مع OpenClaw.
- تأطير من الإدراك إلى الفعل: يُدرَّب النموذج على ربط ما يراه بما ينبغي فعله لاحقًا، وهو الفارق الجوهري بين نموذج العرض ونموذج الوكيل.
أداء مقاييس الاختبار

يُصرّح بوضوح بأن Omni يتفوق على Gemini 3 Pro في فهم الصوت، ويتفوق على Claude Opus 4.6 في فهم الصور، ويؤدي على قدم المساواة مع أقوى نماذج الاستدلال في مقاييس إنتاجية الوكلاء.
MiMo-V2-Omni مقابل MiMo-V2-Pro مقابل MiMo-V2-Flash
| النموذج | نقطة القوة الأساسية | السياق / الحجم | أنسب استخدام |
|---|---|---|---|
| MiMo-V2-Omni | إدراك متعدد الوسائط + فعل الوكيل | طول السياق المُعلن غير مذكور في صفحة Omni | وكلاء الصوت والصورة والفيديو وواجهة المستخدم والمتصفح |
| MiMo-V2-Pro | أكبر نموذج وكيل رائد | سياق يصل إلى 1M رمز؛ أكثر من 1T من المعاملات، 42B نشطة | تنسيق كثيف للوكلاء وأعمال طويلة الأفق |
| MiMo-V2-Flash | استدلال وترميز سريعان | سياق 256K؛ 309B إجماليًا، 15B نشطة | استدلال وترميز فعّالان، ومهام وكلاء عالية الإنتاجية |
أفضل حالات الاستخدام
يكون MiMo-V2-Omni هو الخيار المناسب عندما يعتمد سير عملك على مدخلات أو مخرجات غير نصية: فهم الشاشة، تحليل الصوت والصوتيات، مراجعة الفيديو، أتمتة المتصفح، المساعدات متعددة الوسائط، وحلقات الوكلاء بأسلوب الروبوتات. إذا كان عبء عملك في الغالب نصيًا فقط وتهتم أكثر بالسرعة الخام أو بأقصى طول للسياق، فإن النموذجين الشقيقين Pro وFlash هما البديلان الأكثر وضوحًا.