MiMo-V2-Flash کا جائزہ
MiMo-V2-Flash، Xiaomi MiMo کا MiMo-V2-Flash API کے لیے اوپن-ویٹ Mixture-of-Experts ریزننگ ماڈل ہے، جسے تیز انفیرنس، کوڈنگ، اور ایجنٹک ورک فلوز کے گرد بنایا گیا ہے۔ ماڈل کارڈ اور تکنیکی رپورٹ اسے 309B-پیرامیٹر MoE کے طور پر بیان کرتے ہیں، جس میں 15B فعال پیرامیٹرز، ایک ہائبرڈ اٹینشن ڈیزائن، اور تیز تر ڈیکوڈنگ کے لیے ملٹی-ٹوکن پریڈکشن شامل ہے۔
تکنیکی وضاحتیں
| Item | MiMo-V2-Flash |
|---|---|
| Provider | Xiaomi MiMo |
| Model family | MiMo-V2 |
| Model type | Mixture-of-Experts (MoE) زبان ماڈل |
| Total parameters | 309B |
| Active parameters | 15B |
| Native context length | 32K |
| Extended context length | Up to 256K |
| Attention design | Hybrid Sliding Window Attention (5:1 SWA to Global Attention) |
| Sliding window size | 128 tokens |
| MTP layers | 3 |
| Training scale | 27T tokens |
| Output modality | متن |
| Release date | 2025-12-16 |
| Repository license | Apache-2.0 (GitHub repo) |
MiMo-V2-Flash کیا ہے؟
MiMo-V2-Flash، Xiaomi کا انفیرنس-موثر بنیادی ماڈل ہے جو ریزننگ پر مبنی بھاری ورک لوڈز کے لیے بنایا گیا ہے۔ اسے طویل کانٹیکسٹ ہینڈلنگ اور کم سروسنگ لاگت کے درمیان توازن قائم کرنے کے لیے ڈیزائن کیا گیا ہے، جہاں سلائیڈنگ ونڈو اٹینشن کیش پریشر کو کم کرتی ہے اور ملٹی-ٹوکن پریڈکشن ڈیکوڈنگ کو تیز بناتی ہے۔
MiMo-V2-Flash کی اہم خصوصیات
- چھوٹے فعال فٹ پرنٹ کے ساتھ MoE افادیت: کل 309B پیرامیٹرز، لیکن فی ٹوکن صرف 15B فعال، جو اس بات کی ایک بڑی وجہ ہے کہ ماڈل کو موثر سروسنگ کے لیے موزوں سمجھا جاتا ہے۔
- طویل کانٹیکسٹ کے لیے ہائبرڈ اٹینشن: آرکیٹیکچر پانچ SWA لیئرز اور ایک گلوبل اٹینشن لیئر کے درمیان باری باری کام کرتا ہے، اور KV-cache لاگت کم کرنے کے لیے 128-ٹوکن ونڈو استعمال کرتا ہے۔
- تیز تر ڈیکوڈنگ کے لیے ملٹی-ٹوکن پریڈکشن: ماڈل میں 3 MTP لیئرز شامل ہیں، اور تکنیکی مواد اسے جنریشن کے لیے رفتار اور تھروپٹ کی بہتری کے طور پر بیان کرتا ہے۔
- ایجنٹک ورک فلوز کے لیے تیار: Xiaomi اسے ریزننگ، کوڈنگ، اور ایجنٹ یوز کیسز کے لیے پیش کرتا ہے، اور ایویلیوایشن سوٹ میں SWE-Bench، Terminal-Bench، اور BrowseComp شامل ہیں۔
- طویل کانٹیکسٹ سپورٹ: ریپو 256K تک سپورٹ رپورٹ کرتا ہے، جبکہ vLLM recipe میموری بجٹ کے مطابق کم
max-model-lenقدروں کے لیے عملی سروسنگ رہنمائی فراہم کرتی ہے۔
بینچ مارک کارکردگی
ریپو میں موجود بیس-ماڈل ٹیبل دکھاتی ہے کہ MiMo-V2-Flash عمومی علم، ریاضی، کوڈنگ، اور طویل کانٹیکسٹ ٹاسکس میں بڑے اوپن ماڈلز کے مقابلے میں مسابقتی کارکردگی دکھاتا ہے۔ پوسٹ-ٹریننگ ٹیبل مضبوط ایجنٹک اور ریزننگ نتائج کو نمایاں کرتی ہے۔
| Benchmark | MiMo-V2-Flash | What it suggests |
|---|---|---|
| MMLU-Pro | 84.9 | مضبوط وسیع ریزننگ |
| GPQA-Diamond | 83.7 | مشکل QA میں مضبوط کارکردگی |
| AIME 2025 | 94.1 | مضبوط ریاضیاتی ریزننگ |
| LiveCodeBench-v6 | 80.6 | مسابقتی کوڈنگ صلاحیت |
| SWE-Bench Verified | 73.4 | مضبوط سافٹ ویئر-ایجنٹ کارکردگی |
| SWE-Bench Multilingual | 71.7 | کثیر لسانی کوڈنگ/ایجنٹ کوریج اچھی ہے |
| Terminal-Bench 2.0 | 38.5 | مفید، لیکن ٹرمینل-مرکوز ٹاسکس میں بہترین درجے کا نہیں |
| NIAH-Multi 256K | 96.7 | 256K پر طویل کانٹیکسٹ ریٹریول مضبوط رہتا ہے |
MiMo-V2-Flash بمقابلہ قریبی ریزننگ ماڈلز
| Model | MMLU-Pro | SWE-Bench Verified | Terminal-Bench 2.0 | Notes |
|---|---|---|---|---|
| MiMo-V2-Flash | 84.9 | 73.4 | 38.5 | موثر اوپن-ویٹ ریزننگ ماڈل |
| Kimi-K2 Thinking | 84.6 | 71.3 | 35.7 | ریزننگ میں قریب، ٹرمینل ٹاسکس میں نسبتاً کمزور |
| DeepSeek-V3.2 Thinking | 85.0 | 73.1 | 46.4 | مضبوط ٹرمینل کارکردگی، ملتی جلتی ریزننگ سطح |
بہترین استعمال کے کیسز
MiMo-V2-Flash اُس وقت بہترین طور پر موزوں ہے جب آپ کو ایسا ماڈل درکار ہو جو طویل اِن پٹس پر ریزن کر سکے، کوڈنگ ٹاسکس میں مدد دے سکے، اور پروڈکشن میں موثر بھی رہے۔ یہ دستاویزات پر مبنی بھاری RAG، کثیر-مرحلہ ایجنٹ ورک فلوز، کوڈ معاونت، اور ایسے طویل کانٹیکسٹ تجزیے کے لیے ایک مضبوط انتخاب ہے جہاں سروسنگ لاگت اہم ہو۔
حدود
MiMo-V2-Flash کو انفیرنس افادیت کے لیے بہتر بنایا گیا ہے، اس لیے حقیقی دنیا میں تھروپٹ کا انحصار batching، tensor parallelism، اور سروسنگ کنفیگریشن پر ہوتا ہے۔ vLLM گائیڈ یہ بھی دکھاتی ہے کہ عملی max-model-len سیٹنگز، میموری اور latency کے توازن کے لحاظ سے، نمایاں 256K سے کم ہو سکتی ہیں۔