Home/Models/Xiaomi/mimo-v2-flash
X

mimo-v2-flash

Masukan:$0.08/M
Keluaran:$0.24/M
MiMo-V2-Flash ialah naik taraf menyeluruh untuk Thinking Mode. Ia meningkatkan keupayaan pengekodan dan logik kompleks dengan ketara, meningkatkan ketepatan pemanggilan alat kepada 97%, serta mengoptimumkan Chain-of-Thought (CoT) untuk mengurangkan halusinasi sambil mengurangkan kependaman dan kos token.
Baru
Penggunaan komersial
Playground
Gambaran Keseluruhan
Ciri-ciri
Harga
API

Gambaran keseluruhan MiMo-V2-Flash

MiMo-V2-Flash ialah model penaakulan Mixture-of-Experts dengan berat terbuka untuk API MiMo-V2-Flash daripada Xiaomi MiMo, dibina berasaskan inferens pantas, pengaturcaraan, dan aliran kerja berasaskan agen. Kad model dan laporan teknikal menerangkannya sebagai MoE 309B parameter dengan 15B parameter aktif, reka bentuk perhatian hibrid, dan peramalan berbilang token untuk penyahkodan lebih pantas.

Spesifikasi teknikal

ItemMiMo-V2-Flash
PenyediaXiaomi MiMo
Keluarga modelMiMo-V2
Jenis modelModel bahasa Mixture-of-Experts (MoE)
Jumlah parameter309B
Parameter aktif15B
Panjang konteks natif32K
Panjang konteks lanjutanSehingga 256K
Reka bentuk perhatianPerhatian Tetingkap Gelongsor Hibrid (5:1 SWA kepada Perhatian Global)
Saiz tetingkap gelongsor128 token
Lapisan MTP3
Skala latihan27T token
Mod keluaranTeks
Tarikh keluaran2025-12-16
Lesen repositoriApache-2.0 (GitHub repo)

Apakah MiMo-V2-Flash?

MiMo-V2-Flash ialah model asas cekap inferens Xiaomi untuk beban kerja berintensif penaakulan. Ia direka untuk mengimbangi pengendalian konteks panjang dengan kos penyajian lebih rendah, menggunakan perhatian tetingkap gelongsor untuk mengurangkan tekanan cache dan peramalan berbilang token untuk mempercepat penyahkodan.

Ciri utama MiMo-V2-Flash

  • Kecekapan MoE dengan jejak aktif kecil: 309B jumlah parameter tetapi hanya 15B aktif setiap token, yang merupakan sebab utama model ini diposisikan untuk penyajian cekap.
  • Perhatian hibrid untuk konteks panjang: Seni bina menggiliri lima lapisan SWA dengan satu lapisan perhatian global, menggunakan tetingkap 128 token untuk mengurangkan kos KV-cache.
  • Peramalan berbilang token untuk penyahkodan lebih pantas: Model termasuk 3 lapisan MTP, dan bahan teknikal menerangkannya sebagai pengoptimuman kelajuan dan throughput untuk penjanaan.
  • Dibina untuk aliran kerja berasaskan agen: Xiaomi memposisikannya untuk penggunaan penaakulan, pengaturcaraan, dan agen, dan suit penilaian merangkumi SWE-Bench, Terminal-Bench, dan BrowseComp.
  • Sokongan konteks panjang: Repositori melaporkan sokongan sehingga 256K, manakala resipi vLLM menyediakan panduan penyajian praktikal untuk nilai max-model-len yang lebih rendah bergantung pada bajet memori.

Prestasi penanda aras

Jadual model asas dalam repositori menunjukkan MiMo-V2-Flash berprestasi kompetitif berbanding model terbuka lebih besar pada tugasan pengetahuan umum, matematik, pengaturcaraan, dan konteks panjang. Jadual selepas latihan menyerlahkan keputusan agen dan penaakulan yang kukuh.

Penanda arasMiMo-V2-FlashApa yang disarankan
MMLU-Pro84.9Penaakulan luas yang kukuh
GPQA-Diamond83.7Prestasi QA sukar yang mantap
AIME 202594.1Penaakulan matematik yang kukuh
LiveCodeBench-v680.6Keupayaan pengaturcaraan yang kompetitif
SWE-Bench Verified73.4Prestasi agen perisian yang kukuh
SWE-Bench Multilingual71.7Liputan pengaturcaraan/agen berbilang bahasa yang baik
Terminal-Bench 2.038.5Berguna tetapi bukan teratas pada tugasan berat terminal
NIAH-Multi 256K96.7Pengambilan konteks panjang kekal kukuh pada 256K

MiMo-V2-Flash vs model penaakulan berdekatan

ModelMMLU-ProSWE-Bench VerifiedTerminal-Bench 2.0Catatan
MiMo-V2-Flash84.973.438.5Model penaakulan berat terbuka yang cekap
Kimi-K2 Thinking84.671.335.7Hampir setanding pada penaakulan, lebih lemah pada tugasan terminal
DeepSeek-V3.2 Thinking85.073.146.4Prestasi terminal yang kuat, aras penaakulan serupa

Kes penggunaan terbaik

MiMo-V2-Flash paling sesuai apabila anda memerlukan model yang boleh membuat penaakulan atas input panjang, membantu tugasan pengaturcaraan, dan kekal cekap dalam produksi. Ia ialah pilihan yang kukuh untuk RAG berintensif dokumen, aliran kerja agen berbilang langkah, bantuan kod, dan analisis konteks panjang apabila kos penyajian penting.

Had

MiMo-V2-Flash dioptimumkan untuk kecekapan inferens, jadi throughput dunia sebenar bergantung pada pengelompokan (batching), paralelisme tensor, dan konfigurasi penyajian. Panduan vLLM juga menunjukkan bahawa tetapan praktikal max-model-len mungkin lebih rendah daripada angka utama 256K bergantung pada pertukaran antara memori dan kependaman.

Soalan Lazim

What does the MiMo-V2-Flash API do best?

MiMo-V2-Flash is tuned for fast reasoning, coding, and agentic workflows rather than pure chat polish. Xiaomi describes it as a 309B-parameter MoE model with 15B active parameters and a hybrid attention design built to reduce serving cost while keeping long-context performance.

How much context can the MiMo-V2-Flash API handle?

Support up to 256K context, with a native 32K pretraining length that was later extended.

Can MiMo-V2-Flash API handle coding and terminal-style agents?

Yes. In the post-training table, MiMo-V2-Flash scores 73.4 on SWE-Bench Verified, 71.7 on SWE-Bench Multilingual, and 38.5 on Terminal-Bench 2.0, which makes it a credible option for code assistants and agent loops.

When should I use MiMo-V2-Flash API instead of Kimi-K2 Thinking or DeepSeek-V3.2 Thinking?

Use MiMo-V2-Flash when you want a strong open-weight model with a smaller active compute footprint and good all-around reasoning plus agent performance. It is competitive with Kimi-K2 Thinking on MMLU-Pro and SWE-Bench, while DeepSeek-V3.2 Thinking is stronger on terminal-heavy tasks, so the better choice depends on whether you care more about efficiency or terminal depth.

Is MiMo-V2-Flash API suitable for long-document RAG or summarization?

Yes. The architecture uses sliding window attention to reduce long-sequence cost, and the repo reports very strong NIAH-Multi results even at 256K context. That makes it a sensible fit for long-document retrieval, summarization, and multi-hop context stitching.

What are the known limitations of MiMo-V2-Flash API?

It is optimized for inference efficiency, so speed and memory use still depend on batching, tensor parallelism, and the exact serving stack. A smaller runtime context can be a better production choice than the headline maximum if you need lower latency or lower memory use.

How do I integrate MiMo-V2-Flash API with vLLM?

The vLLM recipe serves it from XiaomiMiMo/MiMo-V2-Flash with --trust-remote-code, --served-model-name mimo_v2_flash, and tensor parallelism tuned for your hardware. If you need agent-style tool calling, the recipe also shows parser options such as qwen3_xml and qwen3.

Ciri-ciri untuk mimo-v2-flash

Terokai ciri-ciri utama mimo-v2-flash, yang direka untuk meningkatkan prestasi dan kebolehgunaan. Temui bagaimana keupayaan ini boleh memberi manfaat kepada projek anda dan meningkatkan pengalaman pengguna.

Harga untuk mimo-v2-flash

Terokai harga yang kompetitif untuk mimo-v2-flash, direka bentuk untuk memenuhi pelbagai bajet dan keperluan penggunaan. Pelan fleksibel kami memastikan anda hanya membayar untuk apa yang anda gunakan, menjadikannya mudah untuk meningkatkan skala apabila keperluan anda berkembang. Temui bagaimana mimo-v2-flash boleh meningkatkan projek anda sambil mengekalkan kos yang terurus.
Harga Comet (USD / M Tokens)Harga Rasmi (USD / M Tokens)Diskaun
Masukan:$0.08/M
Keluaran:$0.24/M
Masukan:$0.1/M
Keluaran:$0.3/M
-20%

Kod contoh dan API untuk mimo-v2-flash

Akses kod sampel yang komprehensif dan sumber API untuk mimo-v2-flash bagi memperlancar proses integrasi anda. Dokumentasi terperinci kami menyediakan panduan langkah demi langkah, membantu anda memanfaatkan potensi penuh mimo-v2-flash dalam projek anda.
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"

client = OpenAI(api_key=COMETAPI_KEY, base_url="https://api.cometapi.com/v1")

# mimo-v2-flash is optimized for speed; test structured JSON output
completion = client.chat.completions.create(
    model="mimo-v2-flash",
    messages=[
        {"role": "system", "content": "You are a helpful assistant. Respond in JSON only."},
        {"role": "user", "content": "List 3 programming languages with their primary use case."},
    ],
    response_format={"type": "json_object"},
)

print(completion.choices[0].message.content)

Lebih Banyak Model