Home/Models/Xiaomi/mimo-v2-omni
X

mimo-v2-omni

อินพุต:$0.32/M
เอาต์พุต:$1.6/M
MiMo-V2-Omni เป็นโมเดลออมนีโมดัลระดับแนวหน้าที่สามารถประมวลผลอินพุตภาพ วิดีโอ และเสียงได้โดยตรงภายใต้สถาปัตยกรรมแบบรวมหนึ่งเดียว It ผสานความสามารถด้านการรับรู้แบบหลายโมดัลที่ทรงพลังเข้ากับความสามารถแบบเอเจนต์ - visual grounding, การวางแผนหลายขั้นตอน, การใช้เครื่องมือ และการรันโค้ด - ทำให้เหมาะอย่างยิ่งสำหรับงานในโลกจริงที่ซับซ้อนซึ่งครอบคลุมหลายโมดัล หน้าต่างบริบท 256K.
ใหม่
ใช้งานเชิงพาณิชย์
Playground
ภาพรวม
คุณสมบัติ
ราคา
API

ภาพรวมของ MiMo-V2-Omni

MiMo-V2-Omni คือโมเดลพื้นฐานแบบออมนิของ Xiaomi MiMo สำหรับแพลตฟอร์ม API ซึ่งถูกสร้างขึ้นเพื่อให้มองเห็น ฟัง อ่าน และลงมือทำได้ภายในเวิร์กโฟลว์เดียวกัน Xiaomi วางตำแหน่งให้เป็นโมเดลเอเจนต์แบบมัลติโหมดที่ผสานความเข้าใจภาพ วิดีโอ เสียง และข้อความ เข้ากับการเรียกใช้เครื่องมือแบบมีโครงสร้าง การรันฟังก์ชัน และการยึดโยงกับ UI

ข้อมูลจำเพาะทางเทคนิค

ItemMiMo-V2-Omni
ProviderXiaomi MiMo
Model familyMiMo-V2
Modalityภาพ, วิดีโอ, เสียง, ข้อความ
Output typeข้อความ
Native audio supportรองรับ
Native audio-video joint inputรองรับ
Structured tool callingรองรับ
Function executionรองรับ
UI groundingรองรับ
Long audio handlingเข้าใจเสียงต่อเนื่องได้นานกว่า 10 ชั่วโมง
Release date2026-03-18
Public numeric context lengthไม่ได้ระบุไว้ในหน้า Omni อย่างเป็นทางการ

MiMo-V2-Omni คืออะไร?

MiMo-V2-Omni ถูกออกแบบมาสำหรับระบบเอเจนต์ที่ต้องการทั้งการรับรู้และการลงมือทำในโมเดลเดียว Xiaomi ระบุว่าโมเดลนี้รวมตัวเข้ารหัสภาพ วิดีโอ และเสียงเฉพาะทางไว้ในแบ็กโบนร่วมเดียว จากนั้นฝึกให้คาดการณ์ว่าสิ่งใดควรเกิดขึ้นต่อไป แทนที่จะอธิบายเพียงสิ่งที่มองเห็นอยู่แล้วเท่านั้น

คุณสมบัติหลักของ MiMo-V2-Omni

  • การรับรู้แบบมัลติโหมดที่เป็นหนึ่งเดียว: ภาพ วิดีโอ เสียง และข้อความ ถูกจัดการเป็นกระแสการรับรู้เดียว แทนที่จะเป็นส่วนเสริมที่แยกจากกัน
  • เอาต์พุตพร้อมสำหรับเอเจนต์: โมเดลรองรับการเรียกใช้เครื่องมือแบบมีโครงสร้าง การรันฟังก์ชัน และการยึดโยงกับ UI แบบเนทีฟ สำหรับเฟรมเวิร์กเอเจนต์จริง
  • ความเข้าใจเสียงระยะยาว: Xiaomi อ้างว่าสามารถจัดการเสียงต่อเนื่องที่ยาวเกิน 10 ชั่วโมงได้ ซึ่งถือว่าโดดเด่นผิดปกติสำหรับโมเดลออมนิทั่วไป
  • การให้เหตุผลด้วยเสียงและวิดีโอแบบเนทีฟ: หน้าอย่างเป็นทางการเน้นการรับอินพุตเสียงและวิดีโอร่วมกันเพื่อความเข้าใจวิดีโอ แทนการใช้ไปป์ไลน์ถอดเสียงเป็นข้อความเพียงอย่างเดียว
  • การทำงานผ่านเบราว์เซอร์และเวิร์กโฟลว์: Xiaomi สาธิตโฟลว์การช้อปปิ้งผ่านเบราว์เซอร์และการอัปโหลด TikTok แบบต้นทางถึงปลายทาง โดยใช้ MiMo-V2-Omni ร่วมกับ OpenClaw
  • กรอบคิดจากการรับรู้สู่การลงมือทำ: โมเดลถูกฝึกให้เชื่อมโยงสิ่งที่เห็นเข้ากับสิ่งที่ควรทำต่อไป ซึ่งเป็นความแตกต่างหลักระหว่างโมเดลสำหรับเดโมกับโมเดลแบบเอเจนต์

ประสิทธิภาพบนเบนช์มาร์ก

mimo-v2-omni

มีการระบุไว้อย่างชัดเจนว่า Omni เหนือกว่า Gemini 3 Pro ในด้านความเข้าใจเสียง เหนือกว่า Claude Opus 4.6 ในด้านความเข้าใจภาพ และทำผลงานได้ทัดเทียมกับโมเดลการให้เหตุผลที่แข็งแกร่งที่สุดในเบนช์มาร์กด้านผลิตภาพของเอเจนต์

MiMo-V2-Omni เทียบกับ MiMo-V2-Pro และ MiMo-V2-Flash

ModelCore strengthContext / scaleBest fit
MiMo-V2-Omniการรับรู้แบบมัลติโหมด + การลงมือทำของเอเจนต์ไม่ได้ระบุความยาวคอนเท็กซ์สาธารณะไว้ในหน้า Omniเอเจนต์ด้านเสียง ภาพ วิดีโอ UI และเบราว์เซอร์
MiMo-V2-Proโมเดลเอเจนต์เรือธงขนาดใหญ่ที่สุดคอนเท็กซ์สูงสุด 1M โทเค็น; 1T+ พารามิเตอร์, แอ็กทีฟ 42Bงาน orchestration ของเอเจนต์ที่ซับซ้อนและงานระยะยาว
MiMo-V2-Flashการให้เหตุผลและการเขียนโค้ดที่รวดเร็วคอนเท็กซ์ 256K; รวม 309B, แอ็กทีฟ 15Bการให้เหตุผลอย่างมีประสิทธิภาพ การเขียนโค้ด และงานเอเจนต์ปริมาณสูง

กรณีใช้งานที่เหมาะสมที่สุด

MiMo-V2-Omni เป็นตัวเลือกที่เหมาะเมื่อเวิร์กโฟลว์ของคุณพึ่งพาอินพุตหรือเอาต์พุตที่ไม่ใช่ข้อความ เช่น การเข้าใจหน้าจอ การวิเคราะห์เสียงและเสียงพูด การตรวจทานวิดีโอ การทำงานอัตโนมัติบนเบราว์เซอร์ ผู้ช่วยแบบมัลติโหมด และลูปเอเจนต์สไตล์หุ่นยนต์ หากภาระงานของคุณส่วนใหญ่เป็นข้อความล้วน และคุณให้ความสำคัญกับความเร็วล้วนหรือคอนเท็กซ์สูงสุดมากกว่า โมเดลพี่น้องอย่าง Pro และ Flash จะเป็นทางเลือกที่ชัดเจนกว่า

คำถามที่พบบ่อย

What can the MiMo-V2-Omni API understand besides text?

MiMo-V2-Omni is built for image, video, audio, and undfied perceptual system rather than separate modality add-ons, which makes it a better fit for multimodal agents than a text-only LLM.

Can MiMo-V2-Omni API process audio and video together?

Yes. the model supports native audio-video joint input for video comprehension, so it can reason over what is happening on screen and in the soundtrack at the same time.

How long of an audio file can MiMo-V2-Omni API handle?

MiMo-V2-Omni supports continuous audio understanding beyond 10 hours. That is a strong signal that it is meant for long-form audio analysis rather than short clip transcription only.

When should I use MiMo-V2-Omni API instead of MiMo-V2-Pro?

Use MiMo-V2-Omni when the job depends on multimodal perception: screens, videos, voice, or audio-visual workflow mostly agentic text work and you want the largest flagship context window, which Xiaomi says reaches 1M tokens.

Does MiMo-V2-Omni API support structured tool?

Yes. MiMo-V2-Omni natively supports structured tool calling, function execution, and UI grounding, which is exactly what you want for agent automation.

Is MiMo-V2-Omni API good for browser automation and real-world agents?

Yes. Xiaomi’s demos show it scanning shopping adviceing on JD.com, and completing a TikTok upload workflow through OpenClaw. That makes it a strong fit for browser agents, workflow automation, and UI-driven tasks.

คุณสมบัติสำหรับ mimo-v2-omni

สำรวจคุณสมบัติหลักของ mimo-v2-omni ที่ออกแบบมาเพื่อเพิ่มประสิทธิภาพและความสะดวกในการใช้งาน ค้นพบว่าความสามารถเหล่านี้สามารถเป็นประโยชน์ต่อโครงการของคุณและปรับปรุงประสบการณ์ของผู้ใช้ได้อย่างไร

ราคาสำหรับ mimo-v2-omni

สำรวจราคาที่แข่งขันได้สำหรับ mimo-v2-omni ที่ออกแบบมาให้เหมาะสมกับงบประมาณและความต้องการการใช้งานที่หลากหลาย แผนการบริการที่ยืดหยุ่นของเรารับประกันว่าคุณจะจ่ายเฉพาะสิ่งที่คุณใช้เท่านั้น ทำให้สามารถขยายขนาดได้ง่ายเมื่อความต้องการของคุณเพิ่มขึ้น ค้นพบว่า mimo-v2-omni สามารถยกระดับโปรเจกต์ของคุณได้อย่างไรในขณะที่ควบคุมต้นทุนให้อยู่ในระดับที่จัดการได้
ราคา Comet (USD / M Tokens)ราคาทางการ (USD / M Tokens)ส่วนลด
อินพุต:$0.32/M
เอาต์พุต:$1.6/M
อินพุต:$0.4/M
เอาต์พุต:$2/M
-20%

โค้ดตัวอย่างและ API สำหรับ mimo-v2-omni

เข้าถึงโค้ดตัวอย่างที่ครอบคลุมและทรัพยากร API สำหรับ mimo-v2-omni เพื่อปรับปรุงกระบวนการผสานรวมของคุณ เอกสารประกอบที่มีรายละเอียดของเราให้คำแนะนำทีละขั้นตอน ช่วยให้คุณใช้ประโยชน์จากศักยภาพเต็มรูปแบบของ mimo-v2-omni ในโครงการของคุณ
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"

client = OpenAI(api_key=COMETAPI_KEY, base_url="https://api.cometapi.com/v1")

# mimo-v2-omni: built-in web_search tool (pass as top-level tools param)
completion = client.chat.completions.create(
    model="mimo-v2-omni",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Who is Lei Jun?"},
    ],
    tools=[{"type": "web_search", "force_search": True, "max_keyword": 3, "limit": 1}],
    tool_choice="auto",
    extra_body={"thinking": {"type": "disabled"}},
)

msg = completion.choices[0].message
if msg.content:
    print(msg.content)

# annotations are populated when web_search runs (content may be null on search-only responses)
raw = completion.model_dump()
annotations = raw["choices"][0]["message"].get("annotations") or []
if annotations:
    print("
--- Sources ---")
    for ann in annotations:
        c = ann.get("url_citation") or {}
        print(f"[{c.get('title')}] {c.get('url')}")

โมเดลเพิ่มเติม