MiniMax, syarikat permulaan AI China, telah mengeluarkan pemberat dan perkakasan secara terbuka MiniMax M2, model bahasa besar terbaharunya yang direka khusus untuk aliran kerja pengekodan dan penggunaan alat agenik. Syarikat itu berkata M2 dibina sebagai reka bentuk campuran pakar (MoE) yang cekap yang menyampaikan pengekodan peringkat teratas dan prestasi ejen pada sebahagian kecil daripada kos model proprietari setanding, saya akan menerangkan mengapa MiniMax M2 adalah raja keberkesanan kos daripada ciri, prestasi penanda aras, seni bina dan kos.
Apakah MiniMax M2?
MiniMax M2 ialah model bahasa besar sumber terbuka terbaru MiniMax yang ditujukan terutamanya untuk pengekodan, aliran kerja ejen berbilang langkah dan panggilan alat. Model ini menggunakan seni bina Mixture-of-Experts: ia mempunyai seni bina yang sangat besar jumlah jejak parameter, tetapi hanya bilangan parameter yang sederhana diaktifkan setiap token semasa inferens — reka bentuk yang mengurangkan kos inferens dan kependaman sambil mengekalkan keupayaan penaakulan dan pengekodan yang kukuh.
Nombor tajuk utama (seperti yang dikeluarkan)
- Jumlah belanjawan parameter: ~230 bilion (jumlah).
- Parameter yang diaktifkan / berkesan bagi setiap token: ~10 bilion (diaktifkan).
- Tetingkap konteks (dilaporkan): sehingga ~204,800 token
- lesen: MIT (berat sumber terbuka).
- Tuntutan kos dan kelajuan: Kos setiap tokennya hanya 8% daripada Anthropic Claude Sonnet dan kelajuannya kira-kira dua kali lebih pantas.
Apakah ciri tajuk utama MiniMax M2?
Tingkah laku agen / berorientasikan alat
MiniMax M2 dihantar dengan sokongan eksplisit untuk panggilan alat, gesaan berstruktur dan penaakulan bersilang → tindakan → corak pengesahan, menjadikannya mudah untuk membina ejen autonomi yang memanggil API luaran, menjalankan kod atau mengendalikan terminal. Beberapa resipi penyepaduan menyasarkan masa jalan ejen dan vLLM/mempercepatkan tindanan.
Dioptimumkan untuk tugas pengekodan & berbilang fail
Penanda aras yang dilaporkan pada Memeluk Wajah dan analisis pihak ketiga menunjukkan prestasi yang kukuh pada suite ujian berorientasikan pembangun (ujian unit, simulasi terminal, sintesis berbilang fail), di mana skor M2 sangat tinggi berbanding model terbuka dan tertutup yang lain. Itu sejajar dengan penekanan produk yang dinyatakan oleh MiniMax pada alat pembangun dan pembantu pengekodan.
Kecekapan Campuran Jarang Pakar (KPM).
Daripada set parameter padat tunggal, MiniMax M2 menggunakan a jarang Campuran Pakar strategi penghalaan jadi hanya subset bank parameter penuh diaktifkan setiap token. Ini menghasilkan jumlah kiraan parameter yang besar tetapi lebih kecil diaktifkan jejak parameter semasa inferens — meningkatkan kecekapan kos dan kependaman untuk banyak beban kerja.
Bagaimanakah MiniMax M2 berfungsi secara dalaman?
Seni bina peringkat tinggi
Menurut pendedahan teknikal dan pelaporan bebas MiniMax, MiniMax M2 dilaksanakan sebagai a pengubah MoE yang jarang dengan keputusan reka bentuk berikut, dilaporkan secara meluas,:
- Sangat besar jumlah kiraan parameter (dilaporkan dalam liputan akhbar mengikut susunan ratusan bilion), dengan hanya subset pakar yang diaktifkan setiap token (akhbar menyebut contoh seperti jumlah 230B dengan ~10B aktif setiap inferens dalam laporan awal). Ini ialah tukar ganti KPM klasik: kapasiti skala tanpa kos inferens linear.
- Penghalaan: penghalaan pakar top-k (Top-2 atau Top-K) yang menghantar setiap token kepada sebilangan kecil pakar supaya beban pengiraan adalah jarang dan boleh diramal.
- Pengekodan perhatian & kedudukan: corak perhatian hibrid (cth, campuran inti perhatian yang padat dan cekap) dan pengekodan kedudukan gaya berputar atau RoPE moden disebut dalam dokumentasi model komuniti dan kad model Hugging Face. Pilihan ini meningkatkan tingkah laku konteks panjang yang penting untuk pengekodan berbilang fail dan ingatan ejen.
Mengapa KPM yang jarang membantu aliran kerja agen
Aliran kerja agen biasanya memerlukan gabungan penaakulan, penjanaan kod, orkestrasi alat dan perancangan stateful. Dengan KPM, MiniMax M2 mampu membeli banyak submodul pakar khusus (cth, pakar yang lebih mahir dalam kod, pakar ditala untuk pemformatan alat, pakar untuk mendapatkan semula fakta) sambil mengaktifkan hanya pakar yang diperlukan untuk setiap token. Pengkhususan itu meningkatkan kedua-dua pemprosesan dan ketepatan untuk tugas kompaun sambil mengurangkan kos inferens berbanding model padat yang besar secara seragam.
Nota latihan & penalaan halus (apa yang diterbitkan oleh MiniMax)
MiniMax memetik campuran kod, penalaan arahan, teks web dan set data gelung ejen untuk arahan dan kelancaran alat M2.
Mengapa KPM untuk ejen dan kod?
MoE membolehkan anda mengembangkan kapasiti model (untuk penaakulan yang lebih baik dan keupayaan multimodal) tanpa meningkatkan FLOP inferens secara linear untuk setiap token. Untuk ejen dan pembantu pengekodan — yang kerap membuat banyak pertanyaan pendek, interaktif dan memanggil alat luaran — pengaktifan terpilih KPM memastikan kependaman dan bil awan adalah munasabah sambil mengekalkan faedah kapasiti model yang sangat besar.
Prestasi Penanda Aras
Menurut penilaian bebas oleh Analisis Buatan, penanda aras model AI generatif pihak ketiga dan organisasi penyelidikan, M2 kini menduduki tempat pertama di antara semua sistem wajaran sumber terbuka di seluruh dunia dalam "Indeks Kepintaran," ukuran komprehensif penaakulan, pengekodan dan prestasi pelaksanaan tugas.

Kad model MiniMax menunjukkan hasil perbandingan merentas pengekodan/agenik suite penanda aras (SWE-bench, Terminal-Bench, BrowseComp, GAIA, τ²-Bench, dll.). Dalam jadual yang diterbitkan itu, M2 menunjukkan skor yang kukuh pada pengekodan dan tugas alat berbilang langkah, dan MiniMax menyerlahkan skor kecerdasan kompetitif/komposit agen berbanding model terbuka yang lain.
Markah ini meletakkannya pada atau berhampiran tahap sistem proprietari teratas seperti GPT-5 (pemikiran) dan Claude Sonnet 4.5, menjadikan MiniMax-M2 model terbuka berprestasi tertinggi setakat ini dalam tugasan ejen dan alat-alatan dunia sebenar.

MiniMax-M2 mencapai prestasi teratas atau hampir teratas dalam banyak kategori:
- SWE-bench Disahkan: 69.4 — hampir dengan 74.9 GPT-5
- ArtifactsBench: 66.8 — di atas Claude Sonnet 4.5 dan DeepSeek-V3.2
- τ²-Bench: 77.2 — menghampiri 80.1 GPT-5
- GAIA (teks sahaja): 75.7 — mengatasi DeepSeek-V3.2
- BrowseComp: 44.0 — lebih kuat daripada model terbuka yang lain
- FinSearchComp-global: 65.5 — terbaik dalam kalangan sistem berat terbuka yang diuji
Kos dan Harga
MiniMax menyenaraikan harga API yang sangat kompetitif secara terbuka $0.30 setiap 1,000,000 token input and $1.20 setiap 1,000,000 token keluaran. Syarikat itu juga melaporkan angka hasil inferens (TPS) pada titik akhir yang dihoskannya ~100 token/saat (dan menyatakan mereka sedang memperbaikinya). CometAPI menawarkan diskaun 20% daripada harga rasmi untuk mengakses MiniMax M2 API.
Tafsiran cepat
- Token input adalah per-token yang sangat murah berbanding dengan banyak model komersial; token keluaran lebih mahal tetapi masih rendah berbanding dengan banyak alternatif tertutup.
- Throughput (token/saat) dan kependaman akan sangat bergantung pada pilihan penggunaan (dihoskan vs dihoskan sendiri, jenis GPU, kelompok, pengkuantitian). Gunakan TPS yang diterbitkan sebagai garis dasar untuk perancangan API yang dihoskan sahaja.
Apakah kes penggunaan terbaik untuk MiniMax M2?
1) Pembantu pembangun hujung ke hujung (pengarangan kod → jalankan → betulkan → sahkan)
MiniMax M2 dibina khusus untuk suntingan berbilang fail, kompil/jalankan/betulkan gelung dan automasi CI/IDE—di mana model mesti mengingati pangkalan kod besar atau transkrip terminal panjang dan mengatur panggilan alat (bina, uji, lint, git). Penanda aras dan ujian komuniti awal meletakkannya tinggi dalam kalangan pengekodan/suite agen.
Aliran biasa: ambil repo → jalankan ujian di dalam kotak pasir → parse kegagalan → hasilkan tampalan → jalankan ujian sekali lagi → buka PR jika hijau.
2) Ejen pelbagai langkah dan RPA (alat + memori)
Aplikasi agen yang memerlukan perancangan, penggunaan alat dan pemulihan (semakan imbas web, terminal, pangkalan data, API tersuai) mendapat manfaat daripada konteks yang panjang dan panggilan fungsi/alat berstruktur. Keupayaan konteks panjang M2 membolehkan anda menyimpan rancangan, log dan keadaan dalam ingatan tanpa mendapatkan semula luaran yang agresif.
3) Penaakulan dokumen panjang & sokongan pelanggan (buku permainan, manual)
Oleh kerana M2 menyokong konteks yang sangat besar, anda boleh menyuap keseluruhan manual produk, buku permainan atau sejarah perbualan pengguna yang panjang tanpa potongan berat — sesuai untuk automasi sokongan yang kaya konteks, alasan dasar dan semakan pematuhan.
4) Penyelidikan & eksperimen (wajaran terbuka, penggunaan permisif)
Dengan pemberat terbuka pada Muka Memeluk anda boleh menjalankan eksperimen (penalaan tersuai, penyelidikan KPM, strategi penghalaan baharu atau mekanisme keselamatan) secara tempatan atau pada kelompok persendirian. Itu menjadikan M2 menarik kepada makmal dan pasukan yang mahukan kawalan penuh.
Cadangan praktikal untuk jurutera dan pasukan produk
Jika anda mahukan percubaan pantas: Gunakan API awan MiniMax (serasi Anthropic/OpenAI). Ia menghilangkan geseran tempatan dan memberi anda akses segera kepada panggilan alat dan ciri konteks panjang.
Jika anda memerlukan kawalan dan pengoptimuman kos: Muat turun pemberat daripada Hugging Face dan sajikan dengan vLLM atau SGLang. Jangkakan untuk melabur dalam kejuruteraan untuk sharding MoE dan penalaan inferens yang teliti. Uji memori, kos dan kependaman terhadap beban kerja sebenar anda (tugas ejen berbilang pusingan dan kod berbilang fail).
Ujian dan keselamatan: Jalankan ujian pasukan merah anda sendiri, penapis keselamatan dan pengesahan alat. Wajaran terbuka mempercepatkan penyelidikan tetapi juga bermakna pelakon yang tidak baik boleh berulang dengan cepat; pengesan binaan dan pemeriksaan manusia-dalam-gelung jika perlu.
Kesimpulan
MiniMax M2 mewakili detik penting dalam ekosistem LLM sumber terbuka: model yang besar, tertumpu kepada ejen, berlesen permisif yang mengutamakan penggunaan pengekodan dan alat sambil menyasarkan untuk memastikan kos inferens dapat dipraktikkan melalui penghalaan MoE yang jarang. Bagi organisasi yang membina alat pembangun, ejen autonomi atau pasukan penyelidikan yang memerlukan akses kepada pemberat untuk penalaan halus, M2 menawarkan pilihan yang menarik dan boleh digunakan serta-merta — dengan syarat pasukan itu bersedia untuk mengurus kerumitan penggunaan KPM.
Bagaimana untuk Mengakses API MiniMax M2
CometAPI ialah platform API bersatu yang mengagregatkan lebih 500 model AI daripada pembekal terkemuka—seperti siri GPT OpenAI, Google Gemini, Anthropic's Claude, Midjourney, Suno dan banyak lagi—menjadi satu antara muka mesra pembangun. Dengan menawarkan pengesahan yang konsisten, pemformatan permintaan dan pengendalian respons, CometAPI secara dramatik memudahkan penyepaduan keupayaan AI ke dalam aplikasi anda. Sama ada anda sedang membina chatbots, penjana imej, komposer muzik atau saluran paip analitik terdorong data, CometAPI membolehkan anda mengulangi dengan lebih pantas, mengawal kos dan kekal sebagai vendor-agnostik—semuanya sambil memanfaatkan penemuan terkini merentas ekosistem AI.
Pembangun boleh mengakses API Minimax M2 melalui CometAPI, versi model terkini sentiasa dikemas kini dengan laman web rasmi. Untuk memulakan, terokai keupayaan model dalam Taman Permainan dan berunding dengan Panduan API untuk arahan terperinci. Sebelum mengakses, sila pastikan anda telah log masuk ke CometAPI dan memperoleh kunci API. CometAPI menawarkan harga yang jauh lebih rendah daripada harga rasmi untuk membantu anda menyepadukan.
Bersedia untuk Pergi?→ Daftar untuk CometAPI hari ini !
Jika anda ingin mengetahui lebih banyak petua, panduan dan berita tentang AI, ikuti kami VK, X and Perpecahan!
