Tổng quan về MiMo-V2-Omni

MiMo-V2-Omni là mô hình nền tảng omni của Xiaomi MiMo dành cho nền tảng API, được xây dựng để có thể nhìn, nghe, đọc và hành động trong cùng một quy trình làm việc. Xiaomi định vị đây là một mô hình tác tử đa phương thức, kết hợp khả năng hiểu hình ảnh, video, âm thanh và văn bản với gọi công cụ có cấu trúc, thực thi hàm và định vị UI.

Thông số kỹ thuật

Mục	MiMo-V2-Omni
Nhà cung cấp	Xiaomi MiMo
Họ mô hình	MiMo-V2
Phương thức	Hình ảnh, video, âm thanh, văn bản
Loại đầu ra	Văn bản
Hỗ trợ âm thanh gốc	Có
Đầu vào kết hợp âm thanh-video gốc	Có
Gọi công cụ có cấu trúc	Có
Thực thi hàm	Có
Định vị UI	Có
Xử lý âm thanh dài	Hiểu âm thanh liên tục hơn 10 giờ
Ngày phát hành	2026-03-18
Độ dài ngữ cảnh công khai bằng số	Không được nêu trên trang Omni chính thức

MiMo-V2-Omni là gì?

MiMo-V2-Omni được thiết kế cho các hệ thống tác tử cần cả nhận thức lẫn hành động trong một mô hình. Xiaomi cho biết mô hình này hợp nhất các bộ mã hóa chuyên biệt cho hình ảnh, video và âm thanh vào một backbone dùng chung, sau đó huấn luyện nó để dự đoán điều gì nên xảy ra tiếp theo thay vì chỉ mô tả những gì đã hiển thị.

Các tính năng chính của MiMo-V2-Omni

Nhận thức đa phương thức hợp nhất: hình ảnh, video, âm thanh và văn bản được xử lý như một luồng nhận thức thống nhất thay vì các phần bổ sung tách rời.
Đầu ra sẵn sàng cho tác tử: mô hình hỗ trợ gốc gọi công cụ có cấu trúc, thực thi hàm và định vị UI cho các framework tác tử thực tế.
Hiểu âm thanh dài: Xiaomi tuyên bố mô hình có thể xử lý âm thanh liên tục dài hơn 10 giờ, điều này mạnh bất thường đối với một mô hình omni tổng quát.
Suy luận âm thanh-video gốc: trang chính thức nhấn mạnh đầu vào âm thanh-video kết hợp cho việc hiểu video thay vì một quy trình chỉ dùng bản chép lời văn bản.
Thực thi trình duyệt và quy trình làm việc: Xiaomi trình diễn các luồng mua sắm trên trình duyệt và tải lên TikTok từ đầu đến cuối bằng MiMo-V2-Omni kết hợp với OpenClaw.
Khung nhận thức đến hành động: mô hình được huấn luyện để kết nối những gì nó nhìn thấy với những gì nó nên làm tiếp theo, đây là khác biệt cốt lõi giữa một mô hình demo và một mô hình tác tử.

Hiệu năng benchmark

mimo-v2-omni

Trang này nêu rõ rằng Omni vượt Gemini 3 Pro về khả năng hiểu âm thanh, vượt Claude Opus 4.6 về khả năng hiểu hình ảnh, và thể hiện ngang ngửa với các mô hình suy luận mạnh nhất trên các benchmark năng suất tác tử.

MiMo-V2-Omni vs MiMo-V2-Pro vs MiMo-V2-Flash

Mô hình	Thế mạnh cốt lõi	Ngữ cảnh / quy mô	Phù hợp nhất
MiMo-V2-Omni	Nhận thức đa phương thức + hành động tác tử	Độ dài ngữ cảnh công khai không được nêu trên trang Omni	Tác tử âm thanh, hình ảnh, video, UI và trình duyệt
MiMo-V2-Pro	Mô hình tác tử flagship lớn nhất	Ngữ cảnh lên tới 1M token; hơn 1T tham số, 42B hoạt động	Điều phối tác tử nặng và công việc dài hạn
MiMo-V2-Flash	Suy luận và lập trình nhanh	Ngữ cảnh 256K; tổng 309B, 15B hoạt động	Suy luận hiệu quả, lập trình và các tác vụ tác tử thông lượng cao

Các trường hợp sử dụng tốt nhất

MiMo-V2-Omni là lựa chọn phù hợp khi quy trình làm việc của bạn phụ thuộc vào đầu vào hoặc đầu ra không phải văn bản: hiểu màn hình, phân tích giọng nói và âm thanh, rà soát video, tự động hóa trình duyệt, trợ lý đa phương thức và các vòng lặp tác tử kiểu robot. Nếu khối lượng công việc của bạn chủ yếu chỉ là văn bản và bạn quan tâm nhiều hơn đến tốc độ thuần hoặc ngữ cảnh tối đa, thì các mô hình Pro và Flash cùng họ là những lựa chọn thay thế rõ ràng hơn.

mimo-v2-omni

Tổng quan về MiMo-V2-Omni

Thông số kỹ thuật

MiMo-V2-Omni là gì?

Các tính năng chính của MiMo-V2-Omni

Hiệu năng benchmark

MiMo-V2-Omni vs MiMo-V2-Pro vs MiMo-V2-Flash

Các trường hợp sử dụng tốt nhất

Câu hỏi thường gặp

What can the MiMo-V2-Omni API understand besides text?

Can MiMo-V2-Omni API process audio and video together?

How long of an audio file can MiMo-V2-Omni API handle?

When should I use MiMo-V2-Omni API instead of MiMo-V2-Pro?

Does MiMo-V2-Omni API support structured tool?

Is MiMo-V2-Omni API good for browser automation and real-world agents?

Tính năng cho mimo-v2-omni

Giá cả cho mimo-v2-omni

Mã mẫu và API cho mimo-v2-omni

Thêm mô hình