Tổng quan về MiMo-V2-Omni
MiMo-V2-Omni là mô hình nền tảng omni của Xiaomi MiMo dành cho nền tảng API, được xây dựng để có thể nhìn, nghe, đọc và hành động trong cùng một quy trình làm việc. Xiaomi định vị đây là một mô hình tác tử đa phương thức, kết hợp khả năng hiểu hình ảnh, video, âm thanh và văn bản với gọi công cụ có cấu trúc, thực thi hàm và định vị UI.
Thông số kỹ thuật
| Mục | MiMo-V2-Omni |
|---|---|
| Nhà cung cấp | Xiaomi MiMo |
| Họ mô hình | MiMo-V2 |
| Phương thức | Hình ảnh, video, âm thanh, văn bản |
| Loại đầu ra | Văn bản |
| Hỗ trợ âm thanh gốc | Có |
| Đầu vào kết hợp âm thanh-video gốc | Có |
| Gọi công cụ có cấu trúc | Có |
| Thực thi hàm | Có |
| Định vị UI | Có |
| Xử lý âm thanh dài | Hiểu âm thanh liên tục hơn 10 giờ |
| Ngày phát hành | 2026-03-18 |
| Độ dài ngữ cảnh công khai bằng số | Không được nêu trên trang Omni chính thức |
MiMo-V2-Omni là gì?
MiMo-V2-Omni được thiết kế cho các hệ thống tác tử cần cả nhận thức lẫn hành động trong một mô hình. Xiaomi cho biết mô hình này hợp nhất các bộ mã hóa chuyên biệt cho hình ảnh, video và âm thanh vào một backbone dùng chung, sau đó huấn luyện nó để dự đoán điều gì nên xảy ra tiếp theo thay vì chỉ mô tả những gì đã hiển thị.
Các tính năng chính của MiMo-V2-Omni
- Nhận thức đa phương thức hợp nhất: hình ảnh, video, âm thanh và văn bản được xử lý như một luồng nhận thức thống nhất thay vì các phần bổ sung tách rời.
- Đầu ra sẵn sàng cho tác tử: mô hình hỗ trợ gốc gọi công cụ có cấu trúc, thực thi hàm và định vị UI cho các framework tác tử thực tế.
- Hiểu âm thanh dài: Xiaomi tuyên bố mô hình có thể xử lý âm thanh liên tục dài hơn 10 giờ, điều này mạnh bất thường đối với một mô hình omni tổng quát.
- Suy luận âm thanh-video gốc: trang chính thức nhấn mạnh đầu vào âm thanh-video kết hợp cho việc hiểu video thay vì một quy trình chỉ dùng bản chép lời văn bản.
- Thực thi trình duyệt và quy trình làm việc: Xiaomi trình diễn các luồng mua sắm trên trình duyệt và tải lên TikTok từ đầu đến cuối bằng MiMo-V2-Omni kết hợp với OpenClaw.
- Khung nhận thức đến hành động: mô hình được huấn luyện để kết nối những gì nó nhìn thấy với những gì nó nên làm tiếp theo, đây là khác biệt cốt lõi giữa một mô hình demo và một mô hình tác tử.
Hiệu năng benchmark

Trang này nêu rõ rằng Omni vượt Gemini 3 Pro về khả năng hiểu âm thanh, vượt Claude Opus 4.6 về khả năng hiểu hình ảnh, và thể hiện ngang ngửa với các mô hình suy luận mạnh nhất trên các benchmark năng suất tác tử.
MiMo-V2-Omni vs MiMo-V2-Pro vs MiMo-V2-Flash
| Mô hình | Thế mạnh cốt lõi | Ngữ cảnh / quy mô | Phù hợp nhất |
|---|---|---|---|
| MiMo-V2-Omni | Nhận thức đa phương thức + hành động tác tử | Độ dài ngữ cảnh công khai không được nêu trên trang Omni | Tác tử âm thanh, hình ảnh, video, UI và trình duyệt |
| MiMo-V2-Pro | Mô hình tác tử flagship lớn nhất | Ngữ cảnh lên tới 1M token; hơn 1T tham số, 42B hoạt động | Điều phối tác tử nặng và công việc dài hạn |
| MiMo-V2-Flash | Suy luận và lập trình nhanh | Ngữ cảnh 256K; tổng 309B, 15B hoạt động | Suy luận hiệu quả, lập trình và các tác vụ tác tử thông lượng cao |
Các trường hợp sử dụng tốt nhất
MiMo-V2-Omni là lựa chọn phù hợp khi quy trình làm việc của bạn phụ thuộc vào đầu vào hoặc đầu ra không phải văn bản: hiểu màn hình, phân tích giọng nói và âm thanh, rà soát video, tự động hóa trình duyệt, trợ lý đa phương thức và các vòng lặp tác tử kiểu robot. Nếu khối lượng công việc của bạn chủ yếu chỉ là văn bản và bạn quan tâm nhiều hơn đến tốc độ thuần hoặc ngữ cảnh tối đa, thì các mô hình Pro và Flash cùng họ là những lựa chọn thay thế rõ ràng hơn.