نظرة عامة على MiMo-V2-Flash
MiMo-V2-Flash هو نموذج مزيج الخبراء بأوزان مفتوحة من Xiaomi MiMo لواجهة برمجة تطبيقات MiMo-V2-Flash، مبني حول الاستدلال السريع، والترميز، وتدفقات العمل القائمة على الوكلاء. تصف بطاقة النموذج والتقرير التقني أنه MoE بعدد معاملات إجمالي 309B مع 15B معاملات نشطة، وتصميم انتباه هجين، وتنبؤًا متعدد الرموز لتسريع فك الترميز.
المواصفات التقنية
| البند | MiMo-V2-Flash |
|---|---|
| المزوّد | Xiaomi MiMo |
| عائلة النموذج | MiMo-V2 |
| نوع النموذج | نموذج لغة بمزيج الخبراء (MoE) |
| إجمالي المعاملات | 309B |
| المعاملات النشطة | 15B |
| طول السياق الأصلي | 32K |
| طول السياق الممتد | حتى 256K |
| تصميم الانتباه | انتباه نافذة منزلقة هجين (5:1 بين SWA والانتباه العالمي) |
| حجم النافذة المنزلقة | 128 رمزًا |
| طبقات MTP | 3 |
| مقياس التدريب | 27T رموز |
| نمط الإخراج | نص |
| تاريخ الإصدار | 2025-12-16 |
| ترخيص المستودع | Apache-2.0 (GitHub repo) |
ما هو MiMo-V2-Flash؟
MiMo-V2-Flash هو نموذج أساس فعّال للاستدلال من Xiaomi مصمم للأعباء كثيفة الاستدلال. يوازن بين التعامل مع السياقات الطويلة وتخفيض تكلفة التشغيل، باستخدام انتباه النافذة المنزلقة لتقليل ضغط ذاكرة KV-cache والتنبؤ متعدد الرموز لتسريع فك الترميز.
الميزات الرئيسية لـ MiMo-V2-Flash
- كفاءة MoE مع بصمة نشطة صغيرة: 309B إجمالي المعاملات لكن 15B فقط نشطة لكل رمز، وهو سبب رئيسي لتموضع النموذج لخدمة فعّالة.
- انتباه هجين للسياق الطويل: تتناوب البنية بين خمس طبقات SWA وطبقة واحدة من الانتباه العالمي، باستخدام نافذة بحجم 128 رمزًا لخفض تكلفة KV-cache.
- تنبؤ متعدد الرموز لفك ترميز أسرع: يتضمن النموذج 3 طبقات MTP، وتصف المواد التقنية ذلك بأنه تحسين للسرعة والإنتاجية أثناء التوليد.
- مصمم لتدفقات عمل قائمة على الوكلاء: تضعه Xiaomi لحالات استخدام الاستدلال والترميز والوكلاء، وتشمل باقة التقييم SWE-Bench وTerminal-Bench وBrowseComp.
- دعم السياق الطويل: يذكر المستودع دعمًا حتى 256K، بينما يقدّم دليل vLLM إرشادات تشغيل عملية لقيم
max-model-lenالأقل حسب ميزانية الذاكرة.
أداء المقاييس القياسية
يُظهر جدول النموذج الأساسي في المستودع أداءً تنافسيًا لـ MiMo-V2-Flash مقابل نماذج مفتوحة أكبر في مهام المعرفة العامة والرياضيات والترميز والسياقات الطويلة. ويبرز جدول ما بعد التدريب نتائج قوية في قدرات الوكلاء والاستدلال.
| المعيار | MiMo-V2-Flash | ما الذي يُشير إليه |
|---|---|---|
| MMLU-Pro | 84.9 | استدلال واسع قوي |
| GPQA-Diamond | 83.7 | أداء متين في أسئلة وأجوبة صعبة |
| AIME 2025 | 94.1 | استدلال رياضي قوي |
| LiveCodeBench-v6 | 80.6 | قدرة ترميز تنافسية |
| SWE-Bench Verified | 73.4 | أداء قوي لوكلاء البرمجيات |
| SWE-Bench Multilingual | 71.7 | تغطية جيدة متعددة اللغات للترميز/الوكلاء |
| Terminal-Bench 2.0 | 38.5 | مفيد لكنه ليس الأفضل في المهام كثيفة الطرفية |
| NIAH-Multi 256K | 96.7 | يظل الاسترجاع في السياق الطويل قويًا عند 256K |
MiMo-V2-Flash مقابل نماذج الاستدلال القريبة
| النموذج | MMLU-Pro | SWE-Bench Verified | Terminal-Bench 2.0 | ملاحظات |
|---|---|---|---|---|
| MiMo-V2-Flash | 84.9 | 73.4 | 38.5 | نموذج استدلال بأوزان مفتوحة وكفؤ |
| Kimi-K2 Thinking | 84.6 | 71.3 | 35.7 | مقارب في الاستدلال، أضعف في مهام الطرفية |
| DeepSeek-V3.2 Thinking | 85.0 | 73.1 | 46.4 | أداء قوي في الطرفية، طبقة استدلال مماثلة |
أفضل حالات الاستخدام
يتناسب MiMo-V2-Flash على أفضل نحو عندما تحتاج إلى نموذج يستطيع الاستدلال على مدخلات طويلة، والمساعدة في مهام الترميز، والبقاء فعّالًا في بيئات الإنتاج. إنه خيار قوي لـ RAG كثيف الوثائق، وتدفقات عمل الوكلاء متعددة الخطوات، ومساعدة الترميز، والتحليل طويل السياق حيث تهم تكلفة التشغيل.
القيود
تم تحسين MiMo-V2-Flash لكفاءة الاستدلال، لذا يعتمد معدل الإنتاج الفعلي على التجميع، والتوازي الموتر، وتكوين الخدمة. يُظهر دليل vLLM أيضًا أن إعدادات max-model-len العملية قد تكون أقل من قيمة 256K المُعلنة اعتمادًا على مفاضلات الذاكرة والكمون.