ภาพรวมของ MiMo-V2-Omni
MiMo-V2-Omni คือโมเดลพื้นฐานแบบออมนิของ Xiaomi MiMo สำหรับแพลตฟอร์ม API ซึ่งถูกสร้างขึ้นเพื่อให้มองเห็น ฟัง อ่าน และลงมือทำได้ภายในเวิร์กโฟลว์เดียวกัน Xiaomi วางตำแหน่งให้เป็นโมเดลเอเจนต์แบบมัลติโหมดที่ผสานความเข้าใจภาพ วิดีโอ เสียง และข้อความ เข้ากับการเรียกใช้เครื่องมือแบบมีโครงสร้าง การรันฟังก์ชัน และการยึดโยงกับ UI
ข้อมูลจำเพาะทางเทคนิค
| Item | MiMo-V2-Omni |
|---|---|
| Provider | Xiaomi MiMo |
| Model family | MiMo-V2 |
| Modality | ภาพ, วิดีโอ, เสียง, ข้อความ |
| Output type | ข้อความ |
| Native audio support | รองรับ |
| Native audio-video joint input | รองรับ |
| Structured tool calling | รองรับ |
| Function execution | รองรับ |
| UI grounding | รองรับ |
| Long audio handling | เข้าใจเสียงต่อเนื่องได้นานกว่า 10 ชั่วโมง |
| Release date | 2026-03-18 |
| Public numeric context length | ไม่ได้ระบุไว้ในหน้า Omni อย่างเป็นทางการ |
MiMo-V2-Omni คืออะไร?
MiMo-V2-Omni ถูกออกแบบมาสำหรับระบบเอเจนต์ที่ต้องการทั้งการรับรู้และการลงมือทำในโมเดลเดียว Xiaomi ระบุว่าโมเดลนี้รวมตัวเข้ารหัสภาพ วิดีโอ และเสียงเฉพาะทางไว้ในแบ็กโบนร่วมเดียว จากนั้นฝึกให้คาดการณ์ว่าสิ่งใดควรเกิดขึ้นต่อไป แทนที่จะอธิบายเพียงสิ่งที่มองเห็นอยู่แล้วเท่านั้น
คุณสมบัติหลักของ MiMo-V2-Omni
- การรับรู้แบบมัลติโหมดที่เป็นหนึ่งเดียว: ภาพ วิดีโอ เสียง และข้อความ ถูกจัดการเป็นกระแสการรับรู้เดียว แทนที่จะเป็นส่วนเสริมที่แยกจากกัน
- เอาต์พุตพร้อมสำหรับเอเจนต์: โมเดลรองรับการเรียกใช้เครื่องมือแบบมีโครงสร้าง การรันฟังก์ชัน และการยึดโยงกับ UI แบบเนทีฟ สำหรับเฟรมเวิร์กเอเจนต์จริง
- ความเข้าใจเสียงระยะยาว: Xiaomi อ้างว่าสามารถจัดการเสียงต่อเนื่องที่ยาวเกิน 10 ชั่วโมงได้ ซึ่งถือว่าโดดเด่นผิดปกติสำหรับโมเดลออมนิทั่วไป
- การให้เหตุผลด้วยเสียงและวิดีโอแบบเนทีฟ: หน้าอย่างเป็นทางการเน้นการรับอินพุตเสียงและวิดีโอร่วมกันเพื่อความเข้าใจวิดีโอ แทนการใช้ไปป์ไลน์ถอดเสียงเป็นข้อความเพียงอย่างเดียว
- การทำงานผ่านเบราว์เซอร์และเวิร์กโฟลว์: Xiaomi สาธิตโฟลว์การช้อปปิ้งผ่านเบราว์เซอร์และการอัปโหลด TikTok แบบต้นทางถึงปลายทาง โดยใช้ MiMo-V2-Omni ร่วมกับ OpenClaw
- กรอบคิดจากการรับรู้สู่การลงมือทำ: โมเดลถูกฝึกให้เชื่อมโยงสิ่งที่เห็นเข้ากับสิ่งที่ควรทำต่อไป ซึ่งเป็นความแตกต่างหลักระหว่างโมเดลสำหรับเดโมกับโมเดลแบบเอเจนต์
ประสิทธิภาพบนเบนช์มาร์ก

มีการระบุไว้อย่างชัดเจนว่า Omni เหนือกว่า Gemini 3 Pro ในด้านความเข้าใจเสียง เหนือกว่า Claude Opus 4.6 ในด้านความเข้าใจภาพ และทำผลงานได้ทัดเทียมกับโมเดลการให้เหตุผลที่แข็งแกร่งที่สุดในเบนช์มาร์กด้านผลิตภาพของเอเจนต์
MiMo-V2-Omni เทียบกับ MiMo-V2-Pro และ MiMo-V2-Flash
| Model | Core strength | Context / scale | Best fit |
|---|---|---|---|
| MiMo-V2-Omni | การรับรู้แบบมัลติโหมด + การลงมือทำของเอเจนต์ | ไม่ได้ระบุความยาวคอนเท็กซ์สาธารณะไว้ในหน้า Omni | เอเจนต์ด้านเสียง ภาพ วิดีโอ UI และเบราว์เซอร์ |
| MiMo-V2-Pro | โมเดลเอเจนต์เรือธงขนาดใหญ่ที่สุด | คอนเท็กซ์สูงสุด 1M โทเค็น; 1T+ พารามิเตอร์, แอ็กทีฟ 42B | งาน orchestration ของเอเจนต์ที่ซับซ้อนและงานระยะยาว |
| MiMo-V2-Flash | การให้เหตุผลและการเขียนโค้ดที่รวดเร็ว | คอนเท็กซ์ 256K; รวม 309B, แอ็กทีฟ 15B | การให้เหตุผลอย่างมีประสิทธิภาพ การเขียนโค้ด และงานเอเจนต์ปริมาณสูง |
กรณีใช้งานที่เหมาะสมที่สุด
MiMo-V2-Omni เป็นตัวเลือกที่เหมาะเมื่อเวิร์กโฟลว์ของคุณพึ่งพาอินพุตหรือเอาต์พุตที่ไม่ใช่ข้อความ เช่น การเข้าใจหน้าจอ การวิเคราะห์เสียงและเสียงพูด การตรวจทานวิดีโอ การทำงานอัตโนมัติบนเบราว์เซอร์ ผู้ช่วยแบบมัลติโหมด และลูปเอเจนต์สไตล์หุ่นยนต์ หากภาระงานของคุณส่วนใหญ่เป็นข้อความล้วน และคุณให้ความสำคัญกับความเร็วล้วนหรือคอนเท็กซ์สูงสุดมากกว่า โมเดลพี่น้องอย่าง Pro และ Flash จะเป็นทางเลือกที่ชัดเจนกว่า