MiMo-V2-Omni 개요

MiMo-V2-Omni는 API 플랫폼을 위한 Xiaomi MiMo의 옴니 파운데이션 모델로, 하나의 워크플로에서 보고, 듣고, 읽고, 행동하도록 설계되었습니다. Xiaomi는 이 모델을 이미지, 비디오, 오디오, 텍스트 이해를 구조화된 도구 호출, 함수 실행, UI 그라운딩과 결합한 멀티모달 에이전틱 에이전트 모델로 포지셔닝합니다.

기술 사양

항목	MiMo-V2-Omni
제공사	Xiaomi MiMo
모델 계열	MiMo-V2
모달리티	이미지, 비디오, 오디오, 텍스트
출력 유형	텍스트
기본 오디오 지원	예
기본 오디오-비디오 결합 입력	예
구조화된 도구 호출	예
함수 실행	예
UI 그라운딩	예
장시간 오디오 처리	10시간 초과 연속 오디오 이해
출시일	2026-03-18
공개 수치 컨텍스트 길이	공식 Omni 페이지에 명시되지 않음

MiMo-V2-Omni란 무엇인가?

MiMo-V2-Omni는 하나의 모델에서 지각과 행동이 모두 필요한 에이전틱 시스템을 위해 설계되었습니다. Xiaomi에 따르면, 이 모델은 전용 이미지, 비디오, 오디오 인코더를 하나의 공유 백본으로 융합하고, 이미 보이는 것을 묘사하는 데 그치지 않고 다음에 무엇이 일어날지 예측하도록 학습됩니다.

주요 기능

통합 멀티모달 지각: 이미지, 비디오, 오디오, 텍스트를 별도 애드온이 아니라 하나의 지각 스트림으로 처리합니다.
에이전트에 바로 사용 가능한 출력: 실제 에이전트 프레임워크를 위해 구조화된 도구 호출, 함수 실행, UI 그라운딩을 네이티브로 지원합니다.
장시간 오디오 이해: 일반적인 옴니 모델로서는 이례적으로 강력하게, 10시간을 초과하는 연속 오디오를 처리할 수 있다고 Xiaomi는 주장합니다.
네이티브 오디오-비디오 추론: 공식 페이지는 텍스트 전사 기반 파이프라인 대신 동시 오디오-비디오 입력을 통한 비디오 이해를 강조합니다.
브라우저 및 워크플로 실행: Xiaomi는 MiMo-V2-Omni와 OpenClaw를 함께 사용해 엔드 투 엔드 브라우저 쇼핑과 TikTok 업로드 플로우를 시연합니다.
지각-행동 프레이밍: 모델은 본 것을 다음에 해야 할 행동과 연결하도록 학습되어 있으며, 이는 데모 모델과 에이전틱 모델의 핵심 차이점입니다.

벤치마크 성능

mimo-v2-omni

오디오 이해에서 Gemini 3 Pro를 능가하고, 이미지 이해에서 Claude Opus 4.6을 능가하며, 에이전틱 생산성 벤치마크에서는 가장 강력한 추론 모델들과 동급의 성능을 보인다고 명시합니다.

MiMo-V2-Omni vs MiMo-V2-Pro vs MiMo-V2-Flash

모델	핵심 강점	컨텍스트/스케일	최적 용도
MiMo-V2-Omni	멀티모달 지각 + 에이전트 행동	Omni 페이지에 공개 컨텍스트 길이 미기재	오디오, 이미지, 비디오, UI 및 브라우저 에이전트
MiMo-V2-Pro	최대 규모의 플래그십 에이전트 모델	최대 1M-token 컨텍스트; 1T+ 파라미터, 42B 활성	대규모 에이전트 오케스트레이션 및 장기 호라이즌 작업
MiMo-V2-Flash	고속 추론 및 코딩	256K 컨텍스트; 총 309B, 활성 15B	효율적 추론, 코딩, 고처리량 에이전트 작업

최적 사용 사례

MiMo-V2-Omni는 워크플로가 비텍스트 입력 또는 출력에 의존하는 경우에 적합한 선택입니다: 화면 이해, 음성 및 오디오 분석, 비디오 리뷰, 브라우저 자동화, 멀티모달 어시스턴트, 로보틱스 스타일의 에이전트 루프. 워크로드가 대부분 텍스트 중심이고 원시 속도나 최대 컨텍스트를 더 중시한다면, 형제 모델인 Pro와 Flash가 보다 명확한 대안입니다.

mimo-v2-omni

MiMo-V2-Omni 개요

기술 사양

MiMo-V2-Omni란 무엇인가?

주요 기능

벤치마크 성능

MiMo-V2-Omni vs MiMo-V2-Pro vs MiMo-V2-Flash

최적 사용 사례

자주 묻는 질문

What can the MiMo-V2-Omni API understand besides text?

Can MiMo-V2-Omni API process audio and video together?

How long of an audio file can MiMo-V2-Omni API handle?

When should I use MiMo-V2-Omni API instead of MiMo-V2-Pro?

Does MiMo-V2-Omni API support structured tool?

Is MiMo-V2-Omni API good for browser automation and real-world agents?

mimo-v2-omni의 기능

mimo-v2-omni 가격

mimo-v2-omni의 샘플 코드 및 API

더 많은 모델