Home/Models/Xiaomi/mimo-v2-flash
X

mimo-v2-flash

อินพุต:$0.08/M
เอาต์พุต:$0.24/M
MiMo-V2-Flash เป็นการอัปเกรดแบบครอบคลุมสำหรับ Thinking Mode ช่วยยกระดับความสามารถด้านการเขียนโค้ดและตรรกะที่ซับซ้อนอย่างมีนัยสำคัญ เพิ่มความแม่นยำในการเรียกใช้เครื่องมือให้ถึง 97% และเพิ่มประสิทธิภาพ Chain-of-Thought (CoT) เพื่อลดฮัลลูซิเนชัน พร้อมทั้งลดความหน่วงและค่าใช้จ่ายของโทเคน
ใหม่
ใช้งานเชิงพาณิชย์
Playground
ภาพรวม
คุณสมบัติ
ราคา
API

ภาพรวมของ MiMo-V2-Flash

MiMo-V2-Flash คือโมเดลให้เหตุผลแบบ Mixture-of-Experts ที่เปิดน้ำหนักของ Xiaomi MiMo สำหรับ MiMo-V2-Flash API ซึ่งถูกออกแบบมาโดยเน้นการอนุมานที่รวดเร็ว งานโค้ด และเวิร์กโฟลว์เชิงเอเจนต์ การ์ดโมเดลและรายงานทางเทคนิคอธิบายว่าเป็น MoE ขนาด 309B พารามิเตอร์ โดยมีพารามิเตอร์ที่ใช้งานจริง 15B ออกแบบ Attention แบบไฮบริด และมีการทำนายหลายโทเคนเพื่อเร่งการถอดรหัส

ข้อมูลทางเทคนิค

รายการMiMo-V2-Flash
ผู้พัฒนาXiaomi MiMo
ตระกูลโมเดลMiMo-V2
ประเภทโมเดลโมเดลภาษาแบบ Mixture-of-Experts (MoE)
จำนวนพารามิเตอร์ทั้งหมด309B
พารามิเตอร์ที่ใช้งาน15B
ความยาวบริบทพื้นฐาน32K
ความยาวบริบทขยายสูงสุด 256K
การออกแบบ AttentionHybrid Sliding Window Attention (5:1 SWA to Global Attention)
ขนาดหน้าต่างแบบเลื่อน128 tokens
ชั้น MTP3
ขนาดข้อมูลฝึก27T tokens
รูปแบบเอาต์พุตข้อความ
วันที่เผยแพร่2025-12-16
ใบอนุญาตของที่เก็บApache-2.0 (GitHub repo)

MiMo-V2-Flash คืออะไร?

MiMo-V2-Flash คือโมเดลฐานที่มีประสิทธิภาพการอนุมานสูงของ Xiaomi สำหรับงานที่เน้นการให้เหตุผล ออกแบบมาเพื่อสร้างสมดุลระหว่างการรองรับบริบทยาวและต้นทุนการให้บริการที่ต่ำ โดยใช้ sliding window attention เพื่อลดแรงกดดันต่อแคช และใช้การทำนายหลายโทเคนเพื่อเร่งความเร็วในการถอดรหัส

คุณสมบัติหลักของ MiMo-V2-Flash

  • ประสิทธิภาพของ MoE กับพารามิเตอร์ที่ใช้งานจริงขนาดเล็ก: รวม 309B พารามิเตอร์ แต่ใช้งานจริงต่อโทเคนเพียง 15B ซึ่งเป็นเหตุผลสำคัญที่ทำให้โมเดลนี้เหมาะกับการให้บริการอย่างมีประสิทธิภาพ
  • Attention แบบไฮบริดสำหรับบริบทยาว: สถาปัตยกรรมสลับห้าชั้น SWA กับหนึ่งชั้น global attention โดยใช้หน้าต่าง 128 โทเคน เพื่อลดต้นทุน KV-cache
  • การทำนายหลายโทเคนเพื่อการถอดรหัสที่เร็วขึ้น: โมเดลมี 3 ชั้น MTP และเอกสารเทคนิคอธิบายว่านี่คือการเพิ่มประสิทธิภาพด้านความเร็วและอัตราผลิตสำหรับการสร้างข้อความ
  • สร้างมาเพื่อเวิร์กโฟลว์เชิงเอเจนต์: Xiaomi วางตำแหน่งให้ใช้กับงานให้เหตุผล งานโค้ด และงานเอเจนต์ โดยชุดประเมินรวม SWE-Bench, Terminal-Bench และ BrowseComp
  • รองรับบริบทยาว: รีโพระบุว่ารองรับสูงสุดถึง 256K ขณะที่คำแนะนำของ vLLM ให้แนวทางปฏิบัติในการให้บริการด้วยค่า max-model-len ที่ต่ำกว่าตามงบหน่วยความจำ

ผลการทดสอบมาตรฐาน

ตารางโมเดลฐานในรีโพแสดงว่า MiMo-V2-Flash ทำผลงานได้ทัดเทียมกับโมเดลเปิดขนาดใหญ่กว่าในงานความรู้ทั่วไป คณิตศาสตร์ โค้ด และบริบทยาว ขณะที่ตารางหลังการฝึกเน้นผลลัพธ์ด้านเอเจนต์และการให้เหตุผลที่แข็งแกร่ง

BenchmarkMiMo-V2-Flashสิ่งที่บ่งชี้
MMLU-Pro84.9ความสามารถให้เหตุผลกว้างขวางและแข็งแกร่ง
GPQA-Diamond83.7ประสิทธิภาพ QA ระดับยากที่มั่นคง
AIME 202594.1การให้เหตุผลเชิงคณิตศาสตร์ที่แข็งแกร่ง
LiveCodeBench-v680.6ความสามารถด้านโค้ดที่แข่งขันได้
SWE-Bench Verified73.4สมรรถนะเอเจนต์ซอฟต์แวร์ที่แข็งแกร่ง
SWE-Bench Multilingual71.7ครอบคลุมโค้ด/เอเจนต์แบบหลายภาษาที่ดี
Terminal-Bench 2.038.5มีประโยชน์แต่ยังไม่แถวหน้าสำหรับงานเทอร์มินัลหนัก
NIAH-Multi 256K96.7การเรียกคืนบริบทยาวยังคงแข็งแกร่งที่ 256K

MiMo-V2-Flash เทียบกับโมเดลให้เหตุผลระดับใกล้เคียง

โมเดลMMLU-ProSWE-Bench VerifiedTerminal-Bench 2.0หมายเหตุ
MiMo-V2-Flash84.973.438.5โมเดลให้เหตุผลแบบน้ำหนักเปิดที่มีประสิทธิภาพ
Kimi-K2 Thinking84.671.335.7ให้เหตุผลไล่เลี่ยกัน แต่ด้อยกว่างานเทอร์มินัล
DeepSeek-V3.2 Thinking85.073.146.4ประสิทธิภาพเทอร์มินัลแข็งแกร่ง ระดับการให้เหตุผลใกล้เคียงกัน

กรณีใช้งานที่เหมาะสมที่สุด

MiMo-V2-Flash เหมาะอย่างยิ่งเมื่อคุณต้องการโมเดลที่สามารถให้เหตุผลบนอินพุตยาว ช่วยงานโค้ด และคงความมีประสิทธิภาพในการใช้งานจริง เป็นตัวเลือกที่แข็งแกร่งสำหรับ RAG ที่ใช้เอกสารจำนวนมาก เวิร์กโฟลว์เอเจนต์แบบหลายขั้นตอน ผู้ช่วยโค้ด และการวิเคราะห์บริบทยาวในสถานการณ์ที่ต้นทุนการให้บริการมีความสำคัญ

ข้อจำกัด

MiMo-V2-Flash ได้รับการเพิ่มประสิทธิภาพเพื่อการอนุมาน ดังนั้นอัตราผลิตจริงจึงขึ้นอยู่กับการทำ batching, tensor parallelism และการตั้งค่าการให้บริการ คำแนะนำของ vLLM ยังแสดงให้เห็นว่าในการใช้งานจริง ค่า max-model-len อาจตั้งไว้ต่ำกว่าค่า 256K ที่เป็นตัวเลขไฮไลต์ ทั้งนี้ขึ้นกับข้อจำกัดด้านหน่วยความจำและเวลาหน่วง

คำถามที่พบบ่อย

What does the MiMo-V2-Flash API do best?

MiMo-V2-Flash is tuned for fast reasoning, coding, and agentic workflows rather than pure chat polish. Xiaomi describes it as a 309B-parameter MoE model with 15B active parameters and a hybrid attention design built to reduce serving cost while keeping long-context performance.

How much context can the MiMo-V2-Flash API handle?

Support up to 256K context, with a native 32K pretraining length that was later extended.

Can MiMo-V2-Flash API handle coding and terminal-style agents?

Yes. In the post-training table, MiMo-V2-Flash scores 73.4 on SWE-Bench Verified, 71.7 on SWE-Bench Multilingual, and 38.5 on Terminal-Bench 2.0, which makes it a credible option for code assistants and agent loops.

When should I use MiMo-V2-Flash API instead of Kimi-K2 Thinking or DeepSeek-V3.2 Thinking?

Use MiMo-V2-Flash when you want a strong open-weight model with a smaller active compute footprint and good all-around reasoning plus agent performance. It is competitive with Kimi-K2 Thinking on MMLU-Pro and SWE-Bench, while DeepSeek-V3.2 Thinking is stronger on terminal-heavy tasks, so the better choice depends on whether you care more about efficiency or terminal depth.

Is MiMo-V2-Flash API suitable for long-document RAG or summarization?

Yes. The architecture uses sliding window attention to reduce long-sequence cost, and the repo reports very strong NIAH-Multi results even at 256K context. That makes it a sensible fit for long-document retrieval, summarization, and multi-hop context stitching.

What are the known limitations of MiMo-V2-Flash API?

It is optimized for inference efficiency, so speed and memory use still depend on batching, tensor parallelism, and the exact serving stack. A smaller runtime context can be a better production choice than the headline maximum if you need lower latency or lower memory use.

How do I integrate MiMo-V2-Flash API with vLLM?

The vLLM recipe serves it from XiaomiMiMo/MiMo-V2-Flash with --trust-remote-code, --served-model-name mimo_v2_flash, and tensor parallelism tuned for your hardware. If you need agent-style tool calling, the recipe also shows parser options such as qwen3_xml and qwen3.

คุณสมบัติสำหรับ mimo-v2-flash

สำรวจคุณสมบัติหลักของ mimo-v2-flash ที่ออกแบบมาเพื่อเพิ่มประสิทธิภาพและความสะดวกในการใช้งาน ค้นพบว่าความสามารถเหล่านี้สามารถเป็นประโยชน์ต่อโครงการของคุณและปรับปรุงประสบการณ์ของผู้ใช้ได้อย่างไร

ราคาสำหรับ mimo-v2-flash

สำรวจราคาที่แข่งขันได้สำหรับ mimo-v2-flash ที่ออกแบบมาให้เหมาะสมกับงบประมาณและความต้องการการใช้งานที่หลากหลาย แผนการบริการที่ยืดหยุ่นของเรารับประกันว่าคุณจะจ่ายเฉพาะสิ่งที่คุณใช้เท่านั้น ทำให้สามารถขยายขนาดได้ง่ายเมื่อความต้องการของคุณเพิ่มขึ้น ค้นพบว่า mimo-v2-flash สามารถยกระดับโปรเจกต์ของคุณได้อย่างไรในขณะที่ควบคุมต้นทุนให้อยู่ในระดับที่จัดการได้
ราคา Comet (USD / M Tokens)ราคาทางการ (USD / M Tokens)ส่วนลด
อินพุต:$0.08/M
เอาต์พุต:$0.24/M
อินพุต:$0.1/M
เอาต์พุต:$0.3/M
-20%

โค้ดตัวอย่างและ API สำหรับ mimo-v2-flash

เข้าถึงโค้ดตัวอย่างที่ครอบคลุมและทรัพยากร API สำหรับ mimo-v2-flash เพื่อปรับปรุงกระบวนการผสานรวมของคุณ เอกสารประกอบที่มีรายละเอียดของเราให้คำแนะนำทีละขั้นตอน ช่วยให้คุณใช้ประโยชน์จากศักยภาพเต็มรูปแบบของ mimo-v2-flash ในโครงการของคุณ
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"

client = OpenAI(api_key=COMETAPI_KEY, base_url="https://api.cometapi.com/v1")

# mimo-v2-flash is optimized for speed; test structured JSON output
completion = client.chat.completions.create(
    model="mimo-v2-flash",
    messages=[
        {"role": "system", "content": "You are a helpful assistant. Respond in JSON only."},
        {"role": "user", "content": "List 3 programming languages with their primary use case."},
    ],
    response_format={"type": "json_object"},
)

print(completion.choices[0].message.content)

โมเดลเพิ่มเติม