MiMo-V2-Omni 개요
MiMo-V2-Omni는 API 플랫폼을 위한 Xiaomi MiMo의 옴니 파운데이션 모델로, 하나의 워크플로에서 보고, 듣고, 읽고, 행동하도록 설계되었습니다. Xiaomi는 이 모델을 이미지, 비디오, 오디오, 텍스트 이해를 구조화된 도구 호출, 함수 실행, UI 그라운딩과 결합한 멀티모달 에이전틱 에이전트 모델로 포지셔닝합니다.
기술 사양
| 항목 | MiMo-V2-Omni |
|---|---|
| 제공사 | Xiaomi MiMo |
| 모델 계열 | MiMo-V2 |
| 모달리티 | 이미지, 비디오, 오디오, 텍스트 |
| 출력 유형 | 텍스트 |
| 기본 오디오 지원 | 예 |
| 기본 오디오-비디오 결합 입력 | 예 |
| 구조화된 도구 호출 | 예 |
| 함수 실행 | 예 |
| UI 그라운딩 | 예 |
| 장시간 오디오 처리 | 10시간 초과 연속 오디오 이해 |
| 출시일 | 2026-03-18 |
| 공개 수치 컨텍스트 길이 | 공식 Omni 페이지에 명시되지 않음 |
MiMo-V2-Omni란 무엇인가?
MiMo-V2-Omni는 하나의 모델에서 지각과 행동이 모두 필요한 에이전틱 시스템을 위해 설계되었습니다. Xiaomi에 따르면, 이 모델은 전용 이미지, 비디오, 오디오 인코더를 하나의 공유 백본으로 융합하고, 이미 보이는 것을 묘사하는 데 그치지 않고 다음에 무엇이 일어날지 예측하도록 학습됩니다.
주요 기능
- 통합 멀티모달 지각: 이미지, 비디오, 오디오, 텍스트를 별도 애드온이 아니라 하나의 지각 스트림으로 처리합니다.
- 에이전트에 바로 사용 가능한 출력: 실제 에이전트 프레임워크를 위해 구조화된 도구 호출, 함수 실행, UI 그라운딩을 네이티브로 지원합니다.
- 장시간 오디오 이해: 일반적인 옴니 모델로서는 이례적으로 강력하게, 10시간을 초과하는 연속 오디오를 처리할 수 있다고 Xiaomi는 주장합니다.
- 네이티브 오디오-비디오 추론: 공식 페이지는 텍스트 전사 기반 파이프라인 대신 동시 오디오-비디오 입력을 통한 비디오 이해를 강조합니다.
- 브라우저 및 워크플로 실행: Xiaomi는 MiMo-V2-Omni와 OpenClaw를 함께 사용해 엔드 투 엔드 브라우저 쇼핑과 TikTok 업로드 플로우를 시연합니다.
- 지각-행동 프레이밍: 모델은 본 것을 다음에 해야 할 행동과 연결하도록 학습되어 있으며, 이는 데모 모델과 에이전틱 모델의 핵심 차이점입니다.
벤치마크 성능

오디오 이해에서 Gemini 3 Pro를 능가하고, 이미지 이해에서 Claude Opus 4.6을 능가하며, 에이전틱 생산성 벤치마크에서는 가장 강력한 추론 모델들과 동급의 성능을 보인다고 명시합니다.
MiMo-V2-Omni vs MiMo-V2-Pro vs MiMo-V2-Flash
| 모델 | 핵심 강점 | 컨텍스트/스케일 | 최적 용도 |
|---|---|---|---|
| MiMo-V2-Omni | 멀티모달 지각 + 에이전트 행동 | Omni 페이지에 공개 컨텍스트 길이 미기재 | 오디오, 이미지, 비디오, UI 및 브라우저 에이전트 |
| MiMo-V2-Pro | 최대 규모의 플래그십 에이전트 모델 | 최대 1M-token 컨텍스트; 1T+ 파라미터, 42B 활성 | 대규모 에이전트 오케스트레이션 및 장기 호라이즌 작업 |
| MiMo-V2-Flash | 고속 추론 및 코딩 | 256K 컨텍스트; 총 309B, 활성 15B | 효율적 추론, 코딩, 고처리량 에이전트 작업 |
최적 사용 사례
MiMo-V2-Omni는 워크플로가 비텍스트 입력 또는 출력에 의존하는 경우에 적합한 선택입니다: 화면 이해, 음성 및 오디오 분석, 비디오 리뷰, 브라우저 자동화, 멀티모달 어시스턴트, 로보틱스 스타일의 에이전트 루프. 워크로드가 대부분 텍스트 중심이고 원시 속도나 최대 컨텍스트를 더 중시한다면, 형제 모델인 Pro와 Flash가 보다 명확한 대안입니다.