لمحة عامة عن MiMo-V2-Omni

MiMo-V2-Omni هو نموذج الأساس الشامل لمنصة واجهة برمجة التطبيقات من Xiaomi MiMo، تم بناؤه للرؤية والسمع والقراءة والتصرف ضمن سير العمل نفسه. تقدّم Xiaomi هذا النموذج كوكيل متعدد الوسائط يجمع بين فهم الصور والفيديو والصوت والنص مع استدعاء الأدوات المُهيكل، وتنفيذ الوظائف، والارتساء على واجهة المستخدم.

المواصفات التقنية

البند	MiMo-V2-Omni
المزوّد	Xiaomi MiMo
عائلة النموذج	MiMo-V2
الوسائط	صورة، فيديو، صوت، نص
نوع المخرجات	نص
دعم صوتي أصيل	نعم
مدخل صوتي-مرئي أصيل مشترك	نعم
استدعاء أدوات مُهيكل	نعم
تنفيذ الوظائف	نعم
الارتساء على واجهة المستخدم	نعم
التعامل مع الصوت الطويل	فهم صوتي مستمر لأكثر من 10 ساعات
تاريخ الإصدار	2026-03-18
طول السياق العددي المُعلن	غير مذكور في الصفحة الرسمية لـ Omni

ما هو MiMo-V2-Omni؟

صُمّم MiMo-V2-Omni لأنظمة الوكلاء التي تحتاج إلى الإدراك والفعل في نموذج واحد. تقول Xiaomi إن النموذج يدمج مِرمّزات مخصصة للصور والفيديو والصوت في عمود فقري مشترك واحد، ثم يُدرَّب على توقّع ما يجب أن يحدث لاحقًا بدلًا من الاكتفاء بوصف ما هو مرئي بالفعل.

الميزات الرئيسية لـ MiMo-V2-Omni

إدراك متعدد الوسائط موحّد: تُعالج الصورة والفيديو والصوت والنص كسير إدراكي واحد بدلًا من إضافات منفصلة.
مخرجات جاهزة للوكلاء: يدعم النموذج بصورة أصيلة استدعاء الأدوات المُهيكل، وتنفيذ الوظائف، والارتساء على واجهة المستخدم لأطر الوكلاء الفعلية.
فهم طويل الأمد للصوت: تدّعي Xiaomi أنه يستطيع التعامل مع صوت مستمر يزيد عن 10 ساعات، وهو أمر قوي على نحو غير معتاد لنموذج شامل عام.
استدلال صوتي-مرئي أصيل: تُبرز الصفحة الرسمية مدخلًا صوتيًا-مرئيًا مشتركًا لفهم الفيديو بدلًا من خط أنابيب يعتمد فقط على نص التفريغ.
تنفيذ عبر المتصفح وسير العمل: تستعرض Xiaomi عمليات تسوق عبر المتصفح ومسارات تحميل على TikTok من الطرف إلى الطرف باستخدام MiMo-V2-Omni مع OpenClaw.
تأطير من الإدراك إلى الفعل: يُدرَّب النموذج على ربط ما يراه بما ينبغي فعله لاحقًا، وهو الفارق الجوهري بين نموذج العرض ونموذج الوكيل.

أداء مقاييس الاختبار

mimo-v2-omni

يُصرّح بوضوح بأن Omni يتفوق على Gemini 3 Pro في فهم الصوت، ويتفوق على Claude Opus 4.6 في فهم الصور، ويؤدي على قدم المساواة مع أقوى نماذج الاستدلال في مقاييس إنتاجية الوكلاء.

MiMo-V2-Omni مقابل MiMo-V2-Pro مقابل MiMo-V2-Flash

النموذج	نقطة القوة الأساسية	السياق / الحجم	أنسب استخدام
MiMo-V2-Omni	إدراك متعدد الوسائط + فعل الوكيل	طول السياق المُعلن غير مذكور في صفحة Omni	وكلاء الصوت والصورة والفيديو وواجهة المستخدم والمتصفح
MiMo-V2-Pro	أكبر نموذج وكيل رائد	سياق يصل إلى 1M رمز؛ أكثر من 1T من المعاملات، 42B نشطة	تنسيق كثيف للوكلاء وأعمال طويلة الأفق
MiMo-V2-Flash	استدلال وترميز سريعان	سياق 256K؛ 309B إجماليًا، 15B نشطة	استدلال وترميز فعّالان، ومهام وكلاء عالية الإنتاجية

أفضل حالات الاستخدام

يكون MiMo-V2-Omni هو الخيار المناسب عندما يعتمد سير عملك على مدخلات أو مخرجات غير نصية: فهم الشاشة، تحليل الصوت والصوتيات، مراجعة الفيديو، أتمتة المتصفح، المساعدات متعددة الوسائط، وحلقات الوكلاء بأسلوب الروبوتات. إذا كان عبء عملك في الغالب نصيًا فقط وتهتم أكثر بالسرعة الخام أو بأقصى طول للسياق، فإن النموذجين الشقيقين Pro وFlash هما البديلان الأكثر وضوحًا.

لمحة عامة عن MiMo-V2-Omni

المواصفات التقنية

البند	MiMo-V2-Omni
المزوّد	Xiaomi MiMo
عائلة النموذج	MiMo-V2
الوسائط	صورة، فيديو، صوت، نص
نوع المخرجات	نص
دعم صوتي أصيل	نعم
مدخل صوتي-مرئي أصيل مشترك	نعم
استدعاء أدوات مُهيكل	نعم
تنفيذ الوظائف	نعم
الارتساء على واجهة المستخدم	نعم
التعامل مع الصوت الطويل	فهم صوتي مستمر لأكثر من 10 ساعات
تاريخ الإصدار	2026-03-18
طول السياق العددي المُعلن	غير مذكور في الصفحة الرسمية لـ Omni

ما هو MiMo-V2-Omni؟

الميزات الرئيسية لـ MiMo-V2-Omni

إدراك متعدد الوسائط موحّد: تُعالج الصورة والفيديو والصوت والنص كسير إدراكي واحد بدلًا من إضافات منفصلة.
مخرجات جاهزة للوكلاء: يدعم النموذج بصورة أصيلة استدعاء الأدوات المُهيكل، وتنفيذ الوظائف، والارتساء على واجهة المستخدم لأطر الوكلاء الفعلية.
فهم طويل الأمد للصوت: تدّعي Xiaomi أنه يستطيع التعامل مع صوت مستمر يزيد عن 10 ساعات، وهو أمر قوي على نحو غير معتاد لنموذج شامل عام.
استدلال صوتي-مرئي أصيل: تُبرز الصفحة الرسمية مدخلًا صوتيًا-مرئيًا مشتركًا لفهم الفيديو بدلًا من خط أنابيب يعتمد فقط على نص التفريغ.
تنفيذ عبر المتصفح وسير العمل: تستعرض Xiaomi عمليات تسوق عبر المتصفح ومسارات تحميل على TikTok من الطرف إلى الطرف باستخدام MiMo-V2-Omni مع OpenClaw.
تأطير من الإدراك إلى الفعل: يُدرَّب النموذج على ربط ما يراه بما ينبغي فعله لاحقًا، وهو الفارق الجوهري بين نموذج العرض ونموذج الوكيل.

أداء مقاييس الاختبار

mimo-v2-omni

MiMo-V2-Omni مقابل MiMo-V2-Pro مقابل MiMo-V2-Flash

النموذج	نقطة القوة الأساسية	السياق / الحجم	أنسب استخدام
MiMo-V2-Omni	إدراك متعدد الوسائط + فعل الوكيل	طول السياق المُعلن غير مذكور في صفحة Omni	وكلاء الصوت والصورة والفيديو وواجهة المستخدم والمتصفح
MiMo-V2-Pro	أكبر نموذج وكيل رائد	سياق يصل إلى 1M رمز؛ أكثر من 1T من المعاملات، 42B نشطة	تنسيق كثيف للوكلاء وأعمال طويلة الأفق
MiMo-V2-Flash	استدلال وترميز سريعان	سياق 256K؛ 309B إجماليًا، 15B نشطة	استدلال وترميز فعّالان، ومهام وكلاء عالية الإنتاجية

mimo-v2-omni

لمحة عامة عن MiMo-V2-Omni

المواصفات التقنية

ما هو MiMo-V2-Omni؟

الميزات الرئيسية لـ MiMo-V2-Omni

أداء مقاييس الاختبار

MiMo-V2-Omni مقابل MiMo-V2-Pro مقابل MiMo-V2-Flash

أفضل حالات الاستخدام

الأسئلة الشائعة

What can the MiMo-V2-Omni API understand besides text?

Can MiMo-V2-Omni API process audio and video together?

How long of an audio file can MiMo-V2-Omni API handle?

When should I use MiMo-V2-Omni API instead of MiMo-V2-Pro?

Does MiMo-V2-Omni API support structured tool?

Is MiMo-V2-Omni API good for browser automation and real-world agents?

الميزات لـ mimo-v2-omni

التسعير لـ mimo-v2-omni

نموذج الكود وواجهة برمجة التطبيقات لـ mimo-v2-omni

المزيد من النماذج

mimo-v2-omni

لمحة عامة عن MiMo-V2-Omni

المواصفات التقنية

ما هو MiMo-V2-Omni؟

الميزات الرئيسية لـ MiMo-V2-Omni

أداء مقاييس الاختبار

MiMo-V2-Omni مقابل MiMo-V2-Pro مقابل MiMo-V2-Flash

أفضل حالات الاستخدام

الأسئلة الشائعة

What can the MiMo-V2-Omni API understand besides text?

Can MiMo-V2-Omni API process audio and video together?

How long of an audio file can MiMo-V2-Omni API handle?

When should I use MiMo-V2-Omni API instead of MiMo-V2-Pro?

Does MiMo-V2-Omni API support structured tool?

Is MiMo-V2-Omni API good for browser automation and real-world agents?

الميزات لـ mimo-v2-omni

التسعير لـ mimo-v2-omni

نموذج الكود وواجهة برمجة التطبيقات لـ mimo-v2-omni

المزيد من النماذج