وسّعت Xiaomi منظومة MiMo من إصدار نموذج واحد إلى تشكيلة تضم ثلاثة نماذج تستهدف احتياجات منتجات مختلفة. وصل Flash في 16 ديسمبر 2025 كنموذج MoE مفتوح المصدر للاستدلال والبرمجة والمهام الوكيلية، بينما كُشف رسميًا عن Pro وOmni في 18 مارس 2026 بوصفهما على الترتيب النموذج الرائد للاستدلال والنموذج متعدد الوسائط الكامل.
ما هو MiMo V2 ولماذا يهم؟
تمثل سلسلة MiMo V2 من Xiaomi دخول عملاق التكنولوجيا الصيني إلى نماذج الأساس المتقدمة المحسّنة لأعباء العمل الوكيلية في العالم الحقيقي. أُطلق على مراحل (Flash في أواخر 2025/بداية 2026، تلاه Pro وOmni في 18 مارس 2026)، وتعتمد التشكيلة على بنية مزيج الخبراء (MoE) لتحقيق الكفاءة: عدد ضخم من المعاملات الكلية مع عدد أقل بكثير فعّال أثناء الاستدلال.
MiMo-V2-Omni: "العينان والأذنان" – نموذج متعدد الوسائط موحّد يدمج النص والرؤية والفيديو والصوت الممتد.
MiMo-V2-Flash: "العامل السريع" – خفيف الوزن، مفتوح المصدر، منخفض التكلفة للغاية.
MiMo-V2-Pro: "عقل الاستدلال الرائد" – دماغ بتريليون معامل للمهام المعقّدة متعددة الخطوات.
تركّز كل النماذج على استدعاء الأدوات، والاستدلال بسياق طويل، والتكامل مع أطر الوكلاء مثل OpenClaw وOpenCode وKiloCode. وتحقق ذلك بأسعار أقل بكثير من نظرائها لدى OpenAI وAnthropic وGoogle—غالبًا أرخص بـ 5–10 مرات—مع احتلال مراتب بين القادة عالميًا وداخل الصين على مؤشرات مرجعية رئيسية.
MiMo V2-Omni مقابل MiMo V2-Pro مقابل MiMo V2-Flash: مقارنة سريعة
| الميزة / المؤشر | MiMo-V2-Flash | MiMo-V2-Pro | MiMo-V2-Omni |
|---|---|---|---|
| الإصدار | Dec 2025 | Mar 18, 2026 | Mar 19, 2026 |
| المعاملات | 309B إجمالي / 15B فعّال (MoE) | ~1T إجمالي / 42B فعّال (MoE) | متعدد الوسائط (المعاملات الدقيقة غير معلنة) |
| نافذة السياق | 256K رموز | 1M رموز (تسعير متعدد الشرائح) | 256K رموز |
| نقطة القوة الأساسية | السرعة والتكلفة (الترميز/الوكلاء) | الاستدلال والوكلاء المعقّدون | الإدراك متعدد الوسائط (رؤية/صوت) |
| المؤشرات (أمثلة رئيسية) | SWE-Bench: 73.4% (#1 مفتوح المصدر); Artificial Analysis: ~41 | ClawEval: 61.5 (#3 عالميًا); PinchBench: 81.0; الترتيب العالمي #7–8 | قوي في مهام الرؤية/الصوت (مثل التسوق عبر المتصفح، كشف المخاطر) |
| التسعير الرسمي (لكل 1M رموز) | $0.09 إدخال / $0.29 إخراج | ≤256K: $1/$3; >256K: $2/$6 | $0.40 إدخال / $2 إخراج |
| مفتوح المصدر | نعم (MIT على HF) | لا (API فقط) | لا (API فقط) |
| الأفضل لـ | مهام سريعة وعالية الحجم | وكلاء الإنتاج وسير عمل طويل | وكلاء نص + رؤية/صوت |
| سرعة الاستدلال | ~150 tokens/s | عالية (محسّنة عبر MTP) | كمون متعدد الوسائط ~2–5s |
ما هو MiMo V2-Omni وMiMo V2-Pro وMiMo V2-Flash
ما هو MiMo-V2-Flash؟ نموذج يضع الكفاءة أولًا
يُعد MiMo-V2-Flash العضو الأسبق الأكثر شهرة في العائلة. في بطاقة النموذج على Hugging Face، تصفه Xiaomi بأنه نموذج مزيج خبراء يضم 309B معاملات كلية و15B معاملات فعّالة، يستخدم الانتباه الهجين وMulti-Token Prediction لتحسين سرعة المخرجات وتقليل كلفة الاستدلال، وقد تم تدريبه على 27T رموز بدقة مختلطة FP8، ويدعم حتى 256K سياق، ومُحسّن للاستدلال عالي السرعة وسير العمل الوكيلي.
الخلاصة العملية أن Flash هو النموذج "اليومي" الأكثر توازنًا لحالات الاستخدام النصية. يتفوق MiMo-V2-Flash في الاستدلال بسياق طويل، ومساعدة الترميز، وسير عمل الوكلاء، ويحتل المرتبة الأولى عالميًا بين النماذج مفتوحة المصدر على SWE-bench Verified وSWE-bench Multilingual بينما يكلف حوالي 3.5% فقط من تكلفة Claude Sonnet 4.5. هذا المزيج يجعل Flash نقطة الانطلاق الطبيعية إذا أردت اختبار العائلة دون حرق الميزانية.
ما هو MiMo-V2-Pro؟ دماغ الوكيل الرائد
MiMo-V2-Pro هو النموذج الرائد الموجّه للنص ضمن العائلة. تقول Xiaomi إن لديه أكثر من 1T معاملات كلية، و42B معاملات فعّالة، ونسبة انتباه هجينة موسّعة 7:1، ونافذة سياق تبلغ 1M رمز، وأن قدرته في الترميز تتجاوز Claude 4.6 Sonnet، بينما يقترب أداؤه العام كوكلاء على ClawEval من Opus 4.6. والأهم أن Xiaomi تقول إن استقرار ودقة استدعاء الأدوات قد تحسّنا بشكل ملحوظ، وهو بالضبط النوع من الإشارات التي يبحث عنها المطورون عند الانتقال من العروض إلى الإنتاج.
ما هو MiMo-V2-Omni؟ نموذج الوكيل متعدد الوسائط
MiMo-V2-Omni هو رد Xiaomi متعدد الوسائط على مسألة الوكلاء. يدمج مشفّرات الصور والفيديو والصوت في عمود فقري مشترك واحد، بحيث يمكن للنموذج أن يرى ويسمع ويقرأ كسلسلة إدراكية واحدة. تقول Xiaomi أيضًا إنه يدعم أصلاً استدعاء الأدوات المهيكل، وتنفيذ الوظائف، وإسناد واجهة المستخدم، ولهذا يُوضع Omni كنموذج وكيل وليس دردشة متعدد الوسائط عام.
يتجاوز Omni مرحلة النسخ في فهم الصوت، إذ يتعامل مع صوت مستمر يتجاوز 10 ساعات، ويتفوق على Gemini 3 Pro في مهام الصوت بينما يتجاوز Claude Opus 4.6 في فهم الصور ويصل إلى مستوى النماذج مغلقة المصدر المتصدّرة مثل Gemini 3. يؤدي Omni بقوة في سير العمل على المتصفح والجوال، وقد جرى تشغيل عروضه التجريبية للوكلاء باستخدام OpenClaw للتحكم بالمتصفح والوصول إلى نظام الملفات والتفاعل مع الطرفية.
رؤية كلمات مفتاحية طويلة الذيل قابلة للترتيب: المطورون الذين يبحثون عن “MiMo V2 Pro vs Flash for agentic coding” يختارون Flash للسرعة/التكلفة وPro للاعتمادية في الإنتاج.

تسعير واجهة برمجة تطبيقات MiMo V2 لعام 2026
مقارنة الأسعار (لكل 1M رموز)
| النموذج | سعر الإدخال | سعر الإخراج | ملاحظات شرائح السياق | مثال تكلفة ممزوجة (100K إدخال + 10K إخراج) |
|---|---|---|---|---|
| Flash | $0.09 – $0.10 | $0.29 – $0.30 | سعر ثابت | ~$0.012 – $0.013 |
| Pro | $1.00 (≤256K) $2.00 (256K–1M) | $3.00 (≤256K) $6.00 (256K–1M) | شرائح حسب طول السياق؛ تسعير ذاكرة التخزين متاح | ~$0.13 – $0.26 |
| Omni | $0.40 | $2.00 | سعر ثابت (تُفوتر الرموز متعددة الوسائط وفقًا لذلك) | ~$0.06 |
أمثلة:
- يتفوّق Flash في المهام البسيطة عالية الحجم (مثل 1M رموز/يوم بتكلفة زهيدة).
- يقدّم Omni قيمة قوية للوسائط المتعددة (أرخص من مكافئات Gemini 3.1).
- يبلغ سعر Pro حوالي 1/5–1/6 من سعر Claude Sonnet 4.6 بينما يساويه أو يتجاوزه في العديد من مؤشرات الوكلاء/الترميز. تسعير الذاكرة يقلّل أكثر من تكاليف السياقات الطويلة.
ما سعر واجهة برمجة سلسلة Mimo V2 على CometAPI؟
في CometAPI، يقدّم Mimo API سعرًا أقل من الموقع الرسمي، يقارب 20% من السعر الرسمي (يعادل مجانًا تقريبًا). يمكن استخدام MImo-v2 pro، mimo-V2-omni، وmimo-v2-flash أيضًا في openclaw. على سبيل المثال:
| سعر Comet (USD / M Tokens) | السعر الرسمي (USD / M Tokens) | الخصم |
|---|---|---|
| إدخال:$0.8/Mإخراج:$2.4/M | إدخال:$1/Mإخراج:$3/M | 20% |
التحذير المهم هو أن "الأرخص" لا يعني دائمًا "أفضل قيمة". يمكن أن يكون Pro الأكثر فعالية من حيث التكلفة عندما تحل استدعاءة واحدة للنموذج محل عدة محاولات، أو استدعاءات أدوات، أو تدخلات بشرية. يمكن أن يكون Omni الصفقة الأفضل عندما يمنع الإرساء متعدد الوسائط الحاجة لبناء خطوط OCR وصوت ورؤية منفصلة. يظل Flash قائد القيمة عندما تحتاج إلى حجم كبير وإنفاق قابل للتنبؤ.
مقارنة مؤشرات الأداء
مؤشرات الذكاء العام والاستدلال
| المؤشر | MiMo-V2-Flash | MiMo-V2-Pro | MiMo-V2-Omni | ملاحظات / سياق المقارنة |
|---|---|---|---|---|
| Artificial Analysis Intelligence Index | 39–41 | 49 (Global #8, Chinese #2) | ليس التركيز الأساسي | يظهر Pro قفزة كبيرة فوق Flash |
| AIME 2025 (رياضيات) | 94.1% | ~94.0% | N/A | Flash تنافسي للغاية بالنسبة لحجمه |
| معدل الهلوسة | ~48% | ~30% | N/A | يبرهن Pro على موثوقية محسّنة |
| LongBench V2 (سياق طويل) | 60.6 | قوي (أفضلية سياق 1M) | N/A | يتفوق Pro في المهام فائقة الطول |
مؤشرات الترميز والوكالة
| المؤشر | MiMo-V2-Flash | MiMo-V2-Pro | MiMo-V2-Omni | أبرز نقاط المقارنة |
|---|---|---|---|---|
| SWE-Bench Verified | 73.4% (Top مفتوح المصدر) | 78.0% | ~74.8% | Pro يتصدر؛ Flash #1 بين المفتوحة المصدر |
| SWE-Bench Multilingual | 71.7% | 57.1% (نسخة متعددة اللغات) | N/A | Flash قوي بشكل خاص هنا |
| ClawEval (استخدام الأدوات الوكيلية) | 48.1 – 62.1 | 61.5 – 81.0 | 52.0 – 54.8 | غالبًا ما يضاهي Pro/يتجاوز Claude Sonnet 4.6 في سيناريوهات الترميز |
| GDPVal-AA / PinchBench | 1040 – 1426 نطاق | 1426 | 81.2 (نسخة) | Pro قوي في مهام الوكلاء الواقعية |
| OmniGAIA / وكيل متعدد الوسائط | N/A | N/A | 54.8 | Omni تنافسي في وكلاء الوسائط المتعددة |
مؤشرات الوسائط المتعددة (تركيز Omni)
| المؤشر | نتيجة MiMo-V2-Omni | منافسون بارزون | أبرز النقاط |
|---|---|---|---|
| MMAU-Pro (صوت) | 76.8 | Claude Opus 4.6 (73.9) | Omni في الصدارة |
| BigBench Audio / استدلال صوتي | حتى 80.1 – 94.0 | متفاوت | قدرة قوية على الصوت الطويل (10+ ساعات) |
| MMMU-Pro (صورة) | 85.3 | متفاوت (يتفوق على بعض القادة) | فهم ممتاز للمخططات والبصر |
| Video-MME | 94.0 | قوي مقابل Gemini 3 Pro في مجالات مختارة | تنبؤ عالٍ بأحداث الفيديو |
| CharXiv (مخططات) | 66.7 | يتفوق على Gemini 3 Pro في بعض التقارير | استدلال بصري بنيوي متين |
مقارنة الأداء: أيهما أفضل؟
بالنسبة للاستدلال والترميز، يبدو Mimo-V2-Flash قويًا للغاية على الورق. يتصدر Mimo-V2-Flash مؤشرات AIME 2025 وGPQA-Diamond وSWE-bench Verified وSWE-bench Multilingual، ويأتي كأفضل نموذج مفتوح المصدر عالميًا على SWE-bench Verified ومقارنًا بـ Claude Sonnet 4.5 بينما يكلف حوالي 3.5% فقط منه. هذا يجعل Flash مميزًا للمطورين الذين يهتمون بالإنتاجية وكفاءة التكلفة.
للسيطرة الوكيلية الخالصة، Pro هو الرائد. تؤكد Xiaomi على استقرار استدعاء الأدوات، وتخطيط المهام طويلة الأفق، وسير العمل الهندسي الإنتاجي، مع نافذة سياق 1M رمز المفيدة بشكل خاص في قواعد الشيفرة الكبيرة، وتحليل مستندات متعددة، وسلاسل أدوات/متصفح طويلة الأمد.
في الإدراك متعدد الوسائط، Omni هو من يغيّر شكل المنتج بوضوح. ما يميّزه ليس "أن يكون أفضل قليلًا في الدردشة"؛ بل الفهم الأصلي للصور والفيديو والصوت مع استخدام الأدوات وإسناد الواجهة. إذا كان منتجك يحتاج إلى النظر في لقطات الشاشة، أو تحليل المخططات، أو فحص الفيديو، أو الاستماع للصوت، أو قيادة واجهة، فإن Omni هو النموذج الوحيد في الثلاثي المصمم خصيصًا لهذه السلسلة.
عبر مؤشرات الذكاء، والترميز، والوكالة، والوسائط المتعددة، تحجز النماذج مواقع متمايزة:
- الاستدلال/الذكاء: Pro يتصدر (AA Index 49)؛ Flash تنافسي بالنسبة لحجمه؛ Omni قوي عبر الأنماط.
- الترميز/الوكالة: غالبًا ما يتجاوز Pro Claude Sonnet 4.6 (SWE-Bench, ClawEval)؛ Omni قريب في الوكلاء متعدد الوسائط؛ Flash يتصدر المفتوحة المصدر.
- السرعة: Flash الأسرع بفضل عدد المعاملات الفعّالة الأصغر.
- السياق: Pro يهيمن بنافذة 1M رمز.
- الوسائط المتعددة: Omni لا يضاهى داخل العائلة.
يوفر Pro وOmni وفورات 5–10 أضعاف مقارنة بالنماذج الأميركية المتقدمة مع احتلال مراتب ضمن العشرة الأوائل عالميًا. ويقدم Flash أداءً مفتوح المصدر يقارب المغلق وبسعر يعادل عُشر العديد من النماذج المغلقة.
كيف تختار؟
اختر MiMo V2 Pro إذا…
كنت تحتاج إلى أفضل فرصة للعمل الوكيلي طويل الأفق وعالي المخاطر: مهام برمجية كبيرة، تنسيق سير عمل عميق، نوافذ سياق ضخمة، واستخدام أدوات متين. Pro هو الاختيار الصحيح عندما يهم الأداء أكثر من تكلفة الرمز وعندما تكون المهمة في معظمها نصية أو تفاعلات أدوات مهيكلة بدل الصور والصوت.
اختر MiMo V2 Omni إذا…
كان منتجك يحتاج إلى إدراك متعدد الوسائط كميزة من الدرجة الأولى: لقطات شاشة، لوحات معلومات، صور، فيديوهات، صوت، حالة متصفح، أو عمل عبر الأجهزة. Omni هو نقطة التوازن لتطبيقات "انظر، اسمع، تحرّك" ومن الأسهل تبريره مقارنة بـ Pro إذا لم تكن بحاجة إلى نافذة السياق الرائدة 1M.
اختر MiMo V2 Flash إذا…
كنت تريد أفضل قيمة. Flash هو أفضل مرشح لمساعدي الترميز، ووكلاء الدُفعات، والدعم عالي الحجم، والأتمتة الداخلية، والتجارب حيث تهم الأوزان المفتوحة المصدر والسرعة والتكلفة المنخفضة. وهو أيضًا أسهل نموذج في التشكيلة للدفاع عنه في مراجعة الميزانية، لأن أسعار الرموز المنشورة أقل بكثير من النموذجين الآخرين.
الفروقات الرئيسية ومتى يتألق كل نموذج
| العامل | Flash (الأفضل لـ) | Pro (الأفضل لـ) | Omni (الأفضل لـ) |
|---|---|---|---|
| الميزانية | تكلفة منخفضة للغاية/حجم عالٍ | استدلال عالي القيمة | قيمة في الوسائط المتعددة |
| نوع المهمة | استفسارات بسيطة، نشر محلي | وكلاء معقّدون، ترميز، تخطيط | رؤية/فيديو/صوت + وكلاء |
| السياق | متوسط | الأطول (1M) | متوسط |
| مفتوح المصدر | نعم | لا | لا |
| السرعة | الأسرع | متوازن | متوازن (حِمل متعدد الوسائط) |
إطار اتخاذ القرار
الخطوة 1: هل تحتاج وسائط متعددة (صور/فيديو/صوت)؟ → Omni ($0.40/$2.00).
الخطوة 2: نص خالص + أقصى قوة استدلال/وكالة؟ → Pro ($1–2/$3–6).
الخطوة 3: هل الميزانية أو السرعة أو الاستضافة الذاتية مهمة؟ → Flash ($0.09/$0.29، مفتوح المصدر).
إستراتيجية هجينة (موصى بها من مزودي API): استخدم Flash لـ 80% من المهام الروتينية، ووجّه الاستدلال المعقّد إلى Pro، والوسائط المتعددة إلى Omni عبر مفتاح API واحد (مثل CometAPI). هذا يحسّن التكلفة مع الوصول إلى العائلة كاملة.
الخلاصة: توصيتك المخصصة
MiMo V2 هي طريقة Xiaomi للقول إنها تريد حزمة ذكاء اصطناعي كاملة، لا نموذجًا بطلاً واحدًا. Pro هو محرك الاستدلال الرائد، وOmni هو المشغّل متعدد الوسائط، وFlash هو عامل قوي مفتوح المصدر وفعّال. يعتمد الاختيار الأفضل أقل على التباهي بالمؤشرات وأكثر على شكل عبء عملك: الوكلاء كثيفو النص يشيرون إلى Flash أو Pro، والأنظمة متعددة الوسائط تشير إلى Omni، وسير العمل الإنتاجي ذو السياق العملاق يشير إلى Pro.
تثبت عائلة MiMo V2 أن الذكاء الاصطناعي عالي الأداء لم يعد يتطلب تسعيرًا غربيًا باهظًا. ابدأ بـ Flash أو Omni لمعظم المستخدمين، وتوسّع إلى Pro مع نمو الاحتياجات، وراقب خارطة طريق Xiaomi لمزيد من الاختراقات.
هل أنت مستعد للتجربة؟ تمكّن من الوصول إلى الثلاثة عبر منصات مثل CometAPI بمفتاح واحد. جرّب اليوم—قد يغير الاختيار الصحيح إنتاجيتك في الذكاء الاصطناعي بين ليلة وضحاها.
