ภาพรวมของ MiMo-V2-Flash

MiMo-V2-Flash คือโมเดลให้เหตุผลแบบ Mixture-of-Experts ที่เปิดน้ำหนักของ Xiaomi MiMo สำหรับ MiMo-V2-Flash API ซึ่งถูกออกแบบมาโดยเน้นการอนุมานที่รวดเร็ว งานโค้ด และเวิร์กโฟลว์เชิงเอเจนต์ การ์ดโมเดลและรายงานทางเทคนิคอธิบายว่าเป็น MoE ขนาด 309B พารามิเตอร์ โดยมีพารามิเตอร์ที่ใช้งานจริง 15B ออกแบบ Attention แบบไฮบริด และมีการทำนายหลายโทเคนเพื่อเร่งการถอดรหัส

ข้อมูลทางเทคนิค

รายการ	MiMo-V2-Flash
ผู้พัฒนา	Xiaomi MiMo
ตระกูลโมเดล	MiMo-V2
ประเภทโมเดล	โมเดลภาษาแบบ Mixture-of-Experts (MoE)
จำนวนพารามิเตอร์ทั้งหมด	309B
พารามิเตอร์ที่ใช้งาน	15B
ความยาวบริบทพื้นฐาน	32K
ความยาวบริบทขยาย	สูงสุด 256K
การออกแบบ Attention	Hybrid Sliding Window Attention (5:1 SWA to Global Attention)
ขนาดหน้าต่างแบบเลื่อน	128 tokens
ชั้น MTP	3
ขนาดข้อมูลฝึก	27T tokens
รูปแบบเอาต์พุต	ข้อความ
วันที่เผยแพร่	2025-12-16
ใบอนุญาตของที่เก็บ	Apache-2.0 (GitHub repo)

MiMo-V2-Flash คืออะไร?

MiMo-V2-Flash คือโมเดลฐานที่มีประสิทธิภาพการอนุมานสูงของ Xiaomi สำหรับงานที่เน้นการให้เหตุผล ออกแบบมาเพื่อสร้างสมดุลระหว่างการรองรับบริบทยาวและต้นทุนการให้บริการที่ต่ำ โดยใช้ sliding window attention เพื่อลดแรงกดดันต่อแคช และใช้การทำนายหลายโทเคนเพื่อเร่งความเร็วในการถอดรหัส

คุณสมบัติหลักของ MiMo-V2-Flash

ประสิทธิภาพของ MoE กับพารามิเตอร์ที่ใช้งานจริงขนาดเล็ก: รวม 309B พารามิเตอร์ แต่ใช้งานจริงต่อโทเคนเพียง 15B ซึ่งเป็นเหตุผลสำคัญที่ทำให้โมเดลนี้เหมาะกับการให้บริการอย่างมีประสิทธิภาพ
Attention แบบไฮบริดสำหรับบริบทยาว: สถาปัตยกรรมสลับห้าชั้น SWA กับหนึ่งชั้น global attention โดยใช้หน้าต่าง 128 โทเคน เพื่อลดต้นทุน KV-cache
การทำนายหลายโทเคนเพื่อการถอดรหัสที่เร็วขึ้น: โมเดลมี 3 ชั้น MTP และเอกสารเทคนิคอธิบายว่านี่คือการเพิ่มประสิทธิภาพด้านความเร็วและอัตราผลิตสำหรับการสร้างข้อความ
สร้างมาเพื่อเวิร์กโฟลว์เชิงเอเจนต์: Xiaomi วางตำแหน่งให้ใช้กับงานให้เหตุผล งานโค้ด และงานเอเจนต์ โดยชุดประเมินรวม SWE-Bench, Terminal-Bench และ BrowseComp
รองรับบริบทยาว: รีโพระบุว่ารองรับสูงสุดถึง 256K ขณะที่คำแนะนำของ vLLM ให้แนวทางปฏิบัติในการให้บริการด้วยค่า max-model-len ที่ต่ำกว่าตามงบหน่วยความจำ

ผลการทดสอบมาตรฐาน

ตารางโมเดลฐานในรีโพแสดงว่า MiMo-V2-Flash ทำผลงานได้ทัดเทียมกับโมเดลเปิดขนาดใหญ่กว่าในงานความรู้ทั่วไป คณิตศาสตร์ โค้ด และบริบทยาว ขณะที่ตารางหลังการฝึกเน้นผลลัพธ์ด้านเอเจนต์และการให้เหตุผลที่แข็งแกร่ง

Benchmark	MiMo-V2-Flash	สิ่งที่บ่งชี้
MMLU-Pro	84.9	ความสามารถให้เหตุผลกว้างขวางและแข็งแกร่ง
GPQA-Diamond	83.7	ประสิทธิภาพ QA ระดับยากที่มั่นคง
AIME 2025	94.1	การให้เหตุผลเชิงคณิตศาสตร์ที่แข็งแกร่ง
LiveCodeBench-v6	80.6	ความสามารถด้านโค้ดที่แข่งขันได้
SWE-Bench Verified	73.4	สมรรถนะเอเจนต์ซอฟต์แวร์ที่แข็งแกร่ง
SWE-Bench Multilingual	71.7	ครอบคลุมโค้ด/เอเจนต์แบบหลายภาษาที่ดี
Terminal-Bench 2.0	38.5	มีประโยชน์แต่ยังไม่แถวหน้าสำหรับงานเทอร์มินัลหนัก
NIAH-Multi 256K	96.7	การเรียกคืนบริบทยาวยังคงแข็งแกร่งที่ 256K

MiMo-V2-Flash เทียบกับโมเดลให้เหตุผลระดับใกล้เคียง

โมเดล	MMLU-Pro	SWE-Bench Verified	Terminal-Bench 2.0	หมายเหตุ
MiMo-V2-Flash	84.9	73.4	38.5	โมเดลให้เหตุผลแบบน้ำหนักเปิดที่มีประสิทธิภาพ
Kimi-K2 Thinking	84.6	71.3	35.7	ให้เหตุผลไล่เลี่ยกัน แต่ด้อยกว่างานเทอร์มินัล
DeepSeek-V3.2 Thinking	85.0	73.1	46.4	ประสิทธิภาพเทอร์มินัลแข็งแกร่ง ระดับการให้เหตุผลใกล้เคียงกัน

กรณีใช้งานที่เหมาะสมที่สุด

MiMo-V2-Flash เหมาะอย่างยิ่งเมื่อคุณต้องการโมเดลที่สามารถให้เหตุผลบนอินพุตยาว ช่วยงานโค้ด และคงความมีประสิทธิภาพในการใช้งานจริง เป็นตัวเลือกที่แข็งแกร่งสำหรับ RAG ที่ใช้เอกสารจำนวนมาก เวิร์กโฟลว์เอเจนต์แบบหลายขั้นตอน ผู้ช่วยโค้ด และการวิเคราะห์บริบทยาวในสถานการณ์ที่ต้นทุนการให้บริการมีความสำคัญ

ข้อจำกัด

MiMo-V2-Flash ได้รับการเพิ่มประสิทธิภาพเพื่อการอนุมาน ดังนั้นอัตราผลิตจริงจึงขึ้นอยู่กับการทำ batching, tensor parallelism และการตั้งค่าการให้บริการ คำแนะนำของ vLLM ยังแสดงให้เห็นว่าในการใช้งานจริง ค่า max-model-len อาจตั้งไว้ต่ำกว่าค่า 256K ที่เป็นตัวเลขไฮไลต์ ทั้งนี้ขึ้นกับข้อจำกัดด้านหน่วยความจำและเวลาหน่วง