Tổng quan về MiMo-V2-Flash
MiMo-V2-Flash là mô hình suy luận Mixture-of-Experts trọng số mở của Xiaomi MiMo dành cho API MiMo-V2-Flash, được xây dựng xoay quanh suy luận nhanh, lập trình và các quy trình làm việc tác tử. Thẻ mô hình và báo cáo kỹ thuật mô tả đây là một MoE 309B tham số với 15B tham số hoạt động, thiết kế attention lai và dự đoán nhiều token để giải mã nhanh hơn.
Thông số kỹ thuật
| Mục | MiMo-V2-Flash |
|---|---|
| Nhà cung cấp | Xiaomi MiMo |
| Họ mô hình | MiMo-V2 |
| Loại mô hình | Mô hình ngôn ngữ Mixture-of-Experts (MoE) |
| Tổng số tham số | 309B |
| Tham số hoạt động | 15B |
| Độ dài ngữ cảnh gốc | 32K |
| Độ dài ngữ cảnh mở rộng | Lên đến 256K |
| Thiết kế attention | Hybrid Sliding Window Attention (tỷ lệ 5:1 giữa SWA và Global Attention) |
| Kích thước cửa sổ trượt | 128 token |
| Số lớp MTP | 3 |
| Quy mô huấn luyện | 27T token |
| Phương thức đầu ra | Văn bản |
| Ngày phát hành | 2025-12-16 |
| Giấy phép kho mã nguồn | Apache-2.0 (repo GitHub) |
MiMo-V2-Flash là gì?
MiMo-V2-Flash là mô hình nền tảng tối ưu hiệu quả suy luận của Xiaomi cho các khối lượng công việc nặng về suy luận. Mô hình được thiết kế để cân bằng giữa xử lý ngữ cảnh dài và chi phí phục vụ thấp hơn, sử dụng sliding window attention để giảm áp lực bộ nhớ đệm và dự đoán nhiều token để tăng tốc giải mã.
Các tính năng chính của MiMo-V2-Flash
- Hiệu quả MoE với số tham số hoạt động nhỏ: Tổng cộng 309B tham số nhưng chỉ 15B hoạt động trên mỗi token, đây là một phần quan trọng lý do mô hình được định vị cho việc phục vụ hiệu quả.
- Attention lai cho ngữ cảnh dài: Kiến trúc xen kẽ năm lớp SWA với một lớp global attention, sử dụng cửa sổ 128 token để cắt giảm chi phí KV-cache.
- Dự đoán nhiều token để giải mã nhanh hơn: Mô hình bao gồm 3 lớp MTP, và các tài liệu kỹ thuật mô tả đây là một tối ưu hóa về tốc độ và thông lượng cho quá trình sinh.
- Được xây dựng cho các quy trình làm việc tác tử: Xiaomi định vị mô hình cho các trường hợp sử dụng suy luận, lập trình và tác tử, và bộ đánh giá bao gồm SWE-Bench, Terminal-Bench và BrowseComp.
- Hỗ trợ ngữ cảnh dài: Repo cho biết hỗ trợ lên đến 256K, trong khi công thức vLLM cung cấp hướng dẫn phục vụ thực tế cho các giá trị
max-model-lenthấp hơn tùy theo ngân sách bộ nhớ.
Hiệu năng benchmark
Bảng mô hình cơ sở trong repo cho thấy MiMo-V2-Flash hoạt động cạnh tranh với các mô hình mở lớn hơn trên các tác vụ kiến thức tổng quát, toán học, lập trình và ngữ cảnh dài. Bảng hậu huấn luyện nhấn mạnh kết quả mạnh mẽ về tác tử và suy luận.
| Benchmark | MiMo-V2-Flash | Điều đó gợi ý gì |
|---|---|---|
| MMLU-Pro | 84.9 | Suy luận rộng mạnh mẽ |
| GPQA-Diamond | 83.7 | Hiệu năng QA khó tốt |
| AIME 2025 | 94.1 | Suy luận toán học mạnh |
| LiveCodeBench-v6 | 80.6 | Năng lực lập trình cạnh tranh |
| SWE-Bench Verified | 73.4 | Hiệu năng tác tử phần mềm mạnh |
| SWE-Bench Multilingual | 71.7 | Độ bao phủ tốt cho lập trình/tác tử đa ngôn ngữ |
| Terminal-Bench 2.0 | 38.5 | Hữu ích nhưng chưa thuộc nhóm dẫn đầu trên các tác vụ nặng về terminal |
| NIAH-Multi 256K | 96.7 | Khả năng truy hồi ngữ cảnh dài vẫn mạnh ở 256K |
MiMo-V2-Flash so với các mô hình suy luận lân cận
| Mô hình | MMLU-Pro | SWE-Bench Verified | Terminal-Bench 2.0 | Ghi chú |
|---|---|---|---|---|
| MiMo-V2-Flash | 84.9 | 73.4 | 38.5 | Mô hình suy luận trọng số mở hiệu quả |
| Kimi-K2 Thinking | 84.6 | 71.3 | 35.7 | Gần tương đương về suy luận, yếu hơn ở các tác vụ terminal |
| DeepSeek-V3.2 Thinking | 85.0 | 73.1 | 46.4 | Hiệu năng terminal mạnh, cùng tầng về suy luận |
Các trường hợp sử dụng phù hợp nhất
MiMo-V2-Flash phù hợp nhất khi bạn cần một mô hình có thể suy luận trên đầu vào dài, hỗ trợ các tác vụ lập trình và vẫn duy trì hiệu quả trong môi trường production. Đây là lựa chọn mạnh cho RAG nặng về tài liệu, các quy trình làm việc tác tử nhiều bước, hỗ trợ lập trình và phân tích ngữ cảnh dài khi chi phí phục vụ là yếu tố quan trọng.
Hạn chế
MiMo-V2-Flash được tối ưu cho hiệu quả suy luận, vì vậy thông lượng thực tế phụ thuộc vào batching, tensor parallelism và cấu hình phục vụ. Hướng dẫn vLLM cũng cho thấy các thiết lập max-model-len thực tế có thể thấp hơn mức 256K được nêu bật, tùy thuộc vào sự đánh đổi giữa bộ nhớ và độ trễ.