ภาพรวมของ MiMo-V2-Flash
MiMo-V2-Flash คือโมเดลให้เหตุผลแบบ Mixture-of-Experts ที่เปิดน้ำหนักของ Xiaomi MiMo สำหรับ MiMo-V2-Flash API ซึ่งถูกออกแบบมาโดยเน้นการอนุมานที่รวดเร็ว งานโค้ด และเวิร์กโฟลว์เชิงเอเจนต์ การ์ดโมเดลและรายงานทางเทคนิคอธิบายว่าเป็น MoE ขนาด 309B พารามิเตอร์ โดยมีพารามิเตอร์ที่ใช้งานจริง 15B ออกแบบ Attention แบบไฮบริด และมีการทำนายหลายโทเคนเพื่อเร่งการถอดรหัส
ข้อมูลทางเทคนิค
| รายการ | MiMo-V2-Flash |
|---|---|
| ผู้พัฒนา | Xiaomi MiMo |
| ตระกูลโมเดล | MiMo-V2 |
| ประเภทโมเดล | โมเดลภาษาแบบ Mixture-of-Experts (MoE) |
| จำนวนพารามิเตอร์ทั้งหมด | 309B |
| พารามิเตอร์ที่ใช้งาน | 15B |
| ความยาวบริบทพื้นฐาน | 32K |
| ความยาวบริบทขยาย | สูงสุด 256K |
| การออกแบบ Attention | Hybrid Sliding Window Attention (5:1 SWA to Global Attention) |
| ขนาดหน้าต่างแบบเลื่อน | 128 tokens |
| ชั้น MTP | 3 |
| ขนาดข้อมูลฝึก | 27T tokens |
| รูปแบบเอาต์พุต | ข้อความ |
| วันที่เผยแพร่ | 2025-12-16 |
| ใบอนุญาตของที่เก็บ | Apache-2.0 (GitHub repo) |
MiMo-V2-Flash คืออะไร?
MiMo-V2-Flash คือโมเดลฐานที่มีประสิทธิภาพการอนุมานสูงของ Xiaomi สำหรับงานที่เน้นการให้เหตุผล ออกแบบมาเพื่อสร้างสมดุลระหว่างการรองรับบริบทยาวและต้นทุนการให้บริการที่ต่ำ โดยใช้ sliding window attention เพื่อลดแรงกดดันต่อแคช และใช้การทำนายหลายโทเคนเพื่อเร่งความเร็วในการถอดรหัส
คุณสมบัติหลักของ MiMo-V2-Flash
- ประสิทธิภาพของ MoE กับพารามิเตอร์ที่ใช้งานจริงขนาดเล็ก: รวม 309B พารามิเตอร์ แต่ใช้งานจริงต่อโทเคนเพียง 15B ซึ่งเป็นเหตุผลสำคัญที่ทำให้โมเดลนี้เหมาะกับการให้บริการอย่างมีประสิทธิภาพ
- Attention แบบไฮบริดสำหรับบริบทยาว: สถาปัตยกรรมสลับห้าชั้น SWA กับหนึ่งชั้น global attention โดยใช้หน้าต่าง 128 โทเคน เพื่อลดต้นทุน KV-cache
- การทำนายหลายโทเคนเพื่อการถอดรหัสที่เร็วขึ้น: โมเดลมี 3 ชั้น MTP และเอกสารเทคนิคอธิบายว่านี่คือการเพิ่มประสิทธิภาพด้านความเร็วและอัตราผลิตสำหรับการสร้างข้อความ
- สร้างมาเพื่อเวิร์กโฟลว์เชิงเอเจนต์: Xiaomi วางตำแหน่งให้ใช้กับงานให้เหตุผล งานโค้ด และงานเอเจนต์ โดยชุดประเมินรวม SWE-Bench, Terminal-Bench และ BrowseComp
- รองรับบริบทยาว: รีโพระบุว่ารองรับสูงสุดถึง 256K ขณะที่คำแนะนำของ vLLM ให้แนวทางปฏิบัติในการให้บริการด้วยค่า
max-model-lenที่ต่ำกว่าตามงบหน่วยความจำ
ผลการทดสอบมาตรฐาน
ตารางโมเดลฐานในรีโพแสดงว่า MiMo-V2-Flash ทำผลงานได้ทัดเทียมกับโมเดลเปิดขนาดใหญ่กว่าในงานความรู้ทั่วไป คณิตศาสตร์ โค้ด และบริบทยาว ขณะที่ตารางหลังการฝึกเน้นผลลัพธ์ด้านเอเจนต์และการให้เหตุผลที่แข็งแกร่ง
| Benchmark | MiMo-V2-Flash | สิ่งที่บ่งชี้ |
|---|---|---|
| MMLU-Pro | 84.9 | ความสามารถให้เหตุผลกว้างขวางและแข็งแกร่ง |
| GPQA-Diamond | 83.7 | ประสิทธิภาพ QA ระดับยากที่มั่นคง |
| AIME 2025 | 94.1 | การให้เหตุผลเชิงคณิตศาสตร์ที่แข็งแกร่ง |
| LiveCodeBench-v6 | 80.6 | ความสามารถด้านโค้ดที่แข่งขันได้ |
| SWE-Bench Verified | 73.4 | สมรรถนะเอเจนต์ซอฟต์แวร์ที่แข็งแกร่ง |
| SWE-Bench Multilingual | 71.7 | ครอบคลุมโค้ด/เอเจนต์แบบหลายภาษาที่ดี |
| Terminal-Bench 2.0 | 38.5 | มีประโยชน์แต่ยังไม่แถวหน้าสำหรับงานเทอร์มินัลหนัก |
| NIAH-Multi 256K | 96.7 | การเรียกคืนบริบทยาวยังคงแข็งแกร่งที่ 256K |
MiMo-V2-Flash เทียบกับโมเดลให้เหตุผลระดับใกล้เคียง
| โมเดล | MMLU-Pro | SWE-Bench Verified | Terminal-Bench 2.0 | หมายเหตุ |
|---|---|---|---|---|
| MiMo-V2-Flash | 84.9 | 73.4 | 38.5 | โมเดลให้เหตุผลแบบน้ำหนักเปิดที่มีประสิทธิภาพ |
| Kimi-K2 Thinking | 84.6 | 71.3 | 35.7 | ให้เหตุผลไล่เลี่ยกัน แต่ด้อยกว่างานเทอร์มินัล |
| DeepSeek-V3.2 Thinking | 85.0 | 73.1 | 46.4 | ประสิทธิภาพเทอร์มินัลแข็งแกร่ง ระดับการให้เหตุผลใกล้เคียงกัน |
กรณีใช้งานที่เหมาะสมที่สุด
MiMo-V2-Flash เหมาะอย่างยิ่งเมื่อคุณต้องการโมเดลที่สามารถให้เหตุผลบนอินพุตยาว ช่วยงานโค้ด และคงความมีประสิทธิภาพในการใช้งานจริง เป็นตัวเลือกที่แข็งแกร่งสำหรับ RAG ที่ใช้เอกสารจำนวนมาก เวิร์กโฟลว์เอเจนต์แบบหลายขั้นตอน ผู้ช่วยโค้ด และการวิเคราะห์บริบทยาวในสถานการณ์ที่ต้นทุนการให้บริการมีความสำคัญ
ข้อจำกัด
MiMo-V2-Flash ได้รับการเพิ่มประสิทธิภาพเพื่อการอนุมาน ดังนั้นอัตราผลิตจริงจึงขึ้นอยู่กับการทำ batching, tensor parallelism และการตั้งค่าการให้บริการ คำแนะนำของ vLLM ยังแสดงให้เห็นว่าในการใช้งานจริง ค่า max-model-len อาจตั้งไว้ต่ำกว่าค่า 256K ที่เป็นตัวเลขไฮไลต์ ทั้งนี้ขึ้นกับข้อจำกัดด้านหน่วยความจำและเวลาหน่วง