Tổng quan về MiMo-V2-Flash

MiMo-V2-Flash là mô hình suy luận Mixture-of-Experts trọng số mở của Xiaomi MiMo dành cho API MiMo-V2-Flash, được xây dựng xoay quanh suy luận nhanh, lập trình và các quy trình làm việc tác tử. Thẻ mô hình và báo cáo kỹ thuật mô tả đây là một MoE 309B tham số với 15B tham số hoạt động, thiết kế attention lai và dự đoán nhiều token để giải mã nhanh hơn.

Thông số kỹ thuật

Mục	MiMo-V2-Flash
Nhà cung cấp	Xiaomi MiMo
Họ mô hình	MiMo-V2
Loại mô hình	Mô hình ngôn ngữ Mixture-of-Experts (MoE)
Tổng số tham số	309B
Tham số hoạt động	15B
Độ dài ngữ cảnh gốc	32K
Độ dài ngữ cảnh mở rộng	Lên đến 256K
Thiết kế attention	Hybrid Sliding Window Attention (tỷ lệ 5:1 giữa SWA và Global Attention)
Kích thước cửa sổ trượt	128 token
Số lớp MTP	3
Quy mô huấn luyện	27T token
Phương thức đầu ra	Văn bản
Ngày phát hành	2025-12-16
Giấy phép kho mã nguồn	Apache-2.0 (repo GitHub)

MiMo-V2-Flash là gì?

MiMo-V2-Flash là mô hình nền tảng tối ưu hiệu quả suy luận của Xiaomi cho các khối lượng công việc nặng về suy luận. Mô hình được thiết kế để cân bằng giữa xử lý ngữ cảnh dài và chi phí phục vụ thấp hơn, sử dụng sliding window attention để giảm áp lực bộ nhớ đệm và dự đoán nhiều token để tăng tốc giải mã.

Các tính năng chính của MiMo-V2-Flash

Hiệu quả MoE với số tham số hoạt động nhỏ: Tổng cộng 309B tham số nhưng chỉ 15B hoạt động trên mỗi token, đây là một phần quan trọng lý do mô hình được định vị cho việc phục vụ hiệu quả.
Attention lai cho ngữ cảnh dài: Kiến trúc xen kẽ năm lớp SWA với một lớp global attention, sử dụng cửa sổ 128 token để cắt giảm chi phí KV-cache.
Dự đoán nhiều token để giải mã nhanh hơn: Mô hình bao gồm 3 lớp MTP, và các tài liệu kỹ thuật mô tả đây là một tối ưu hóa về tốc độ và thông lượng cho quá trình sinh.
Được xây dựng cho các quy trình làm việc tác tử: Xiaomi định vị mô hình cho các trường hợp sử dụng suy luận, lập trình và tác tử, và bộ đánh giá bao gồm SWE-Bench, Terminal-Bench và BrowseComp.
Hỗ trợ ngữ cảnh dài: Repo cho biết hỗ trợ lên đến 256K, trong khi công thức vLLM cung cấp hướng dẫn phục vụ thực tế cho các giá trị max-model-len thấp hơn tùy theo ngân sách bộ nhớ.

Hiệu năng benchmark

Bảng mô hình cơ sở trong repo cho thấy MiMo-V2-Flash hoạt động cạnh tranh với các mô hình mở lớn hơn trên các tác vụ kiến thức tổng quát, toán học, lập trình và ngữ cảnh dài. Bảng hậu huấn luyện nhấn mạnh kết quả mạnh mẽ về tác tử và suy luận.

Benchmark	MiMo-V2-Flash	Điều đó gợi ý gì
MMLU-Pro	84.9	Suy luận rộng mạnh mẽ
GPQA-Diamond	83.7	Hiệu năng QA khó tốt
AIME 2025	94.1	Suy luận toán học mạnh
LiveCodeBench-v6	80.6	Năng lực lập trình cạnh tranh
SWE-Bench Verified	73.4	Hiệu năng tác tử phần mềm mạnh
SWE-Bench Multilingual	71.7	Độ bao phủ tốt cho lập trình/tác tử đa ngôn ngữ
Terminal-Bench 2.0	38.5	Hữu ích nhưng chưa thuộc nhóm dẫn đầu trên các tác vụ nặng về terminal
NIAH-Multi 256K	96.7	Khả năng truy hồi ngữ cảnh dài vẫn mạnh ở 256K

MiMo-V2-Flash so với các mô hình suy luận lân cận

Mô hình	MMLU-Pro	SWE-Bench Verified	Terminal-Bench 2.0	Ghi chú
MiMo-V2-Flash	84.9	73.4	38.5	Mô hình suy luận trọng số mở hiệu quả
Kimi-K2 Thinking	84.6	71.3	35.7	Gần tương đương về suy luận, yếu hơn ở các tác vụ terminal
DeepSeek-V3.2 Thinking	85.0	73.1	46.4	Hiệu năng terminal mạnh, cùng tầng về suy luận

Các trường hợp sử dụng phù hợp nhất

MiMo-V2-Flash phù hợp nhất khi bạn cần một mô hình có thể suy luận trên đầu vào dài, hỗ trợ các tác vụ lập trình và vẫn duy trì hiệu quả trong môi trường production. Đây là lựa chọn mạnh cho RAG nặng về tài liệu, các quy trình làm việc tác tử nhiều bước, hỗ trợ lập trình và phân tích ngữ cảnh dài khi chi phí phục vụ là yếu tố quan trọng.

Hạn chế

MiMo-V2-Flash được tối ưu cho hiệu quả suy luận, vì vậy thông lượng thực tế phụ thuộc vào batching, tensor parallelism và cấu hình phục vụ. Hướng dẫn vLLM cũng cho thấy các thiết lập max-model-len thực tế có thể thấp hơn mức 256K được nêu bật, tùy thuộc vào sự đánh đổi giữa bộ nhớ và độ trễ.

mimo-v2-flash

Tổng quan về MiMo-V2-Flash

Thông số kỹ thuật

MiMo-V2-Flash là gì?

Các tính năng chính của MiMo-V2-Flash

Hiệu năng benchmark

MiMo-V2-Flash so với các mô hình suy luận lân cận

Các trường hợp sử dụng phù hợp nhất

Hạn chế

Câu hỏi thường gặp

What does the MiMo-V2-Flash API do best?

How much context can the MiMo-V2-Flash API handle?

Can MiMo-V2-Flash API handle coding and terminal-style agents?

When should I use MiMo-V2-Flash API instead of Kimi-K2 Thinking or DeepSeek-V3.2 Thinking?

Is MiMo-V2-Flash API suitable for long-document RAG or summarization?

What are the known limitations of MiMo-V2-Flash API?

How do I integrate MiMo-V2-Flash API with vLLM?

Tính năng cho mimo-v2-flash

Giá cả cho mimo-v2-flash

Mã mẫu và API cho mimo-v2-flash

Thêm mô hình