Spesifikasi Teknis MiniMax M3
| Parameter | MiniMax M3 |
|---|---|
| Keluarga model | model fondasi frontier MiniMax M3 |
| Penyedia | MiniMax |
| Arsitektur | MiniMax Sparse Attention (MSA) |
| Jenis input | Teks, Gambar, Video |
| Jenis output | Teks |
| Jendela konteks | Hingga 1,000,000 token (minimum dijamin 512K) |
| Kekuatan utama | Pemrograman, alur kerja agentik, penalaran multimodal, pemrosesan konteks panjang |
| Mode penalaran | Mode Thinking aktif/nonaktif |
| Penggunaan alat | Alur kerja agen, pemanggilan alat, eksekusi tugas terminal |
| Penyebaran | API, MiniMax Code, Token Plan, rilis open-weight mendatang |
| Dukungan multimodal | Pra-pelatihan multimodal native sejak langkah nol |
| Tanggal rilis | Juni 2026 |
Apa itu MiniMax M3?
MiniMax M3 adalah model AI skala frontier yang dirancang berpusat pada tiga kapabilitas yang secara historis terbatas pada sistem sumber tertutup: kinerja pemrograman tingkat lanjut, pemrosesan konteks sejuta token, dan pemahaman multimodal native. Berbeda dari model yang menambahkan visi sebagai ekstensi belakangan, M3 dilatih sebagai model multimodal sejak awal, memungkinkan penyelarasan yang lebih dalam antara penalaran visual dan tekstual.
Model ini dibangun di atas MiniMax Sparse Attention (MSA), sebuah arsitektur perhatian jarang yang dirancang untuk membuat konteks sejuta token praktis secara komputasional sekaligus mempertahankan kinerja pada tugas pemrograman, penalaran, dan agentik.
Fitur Utama MiniMax M3
- Jendela konteks 1M token: Mendukung repositori yang sangat besar, korpora riset panjang, analisis multi-dokumen, dan sesi agen berdurasi panjang.
- Arsitektur berorientasi agen: Dirancang untuk dekomposisi tugas otonom, pemanggilan alat, perencanaan iteratif, dan eksekusi multi-langkah.
- Multimodal native: Memproses teks, gambar, diagram, tangkapan layar, dan input video tanpa mengandalkan tumpukan visi terpisah.
- Kapabilitas pemrograman tingkat lanjut: Kinerja kuat pada tolok ukur rekayasa perangkat lunak termasuk SWE-Bench Pro, Terminal-Bench, dan KernelBench.
- Eksekusi jangka panjang: Terbukti menjalankan alur kerja otonom selama berjam-jam termasuk reproduksi riset dan proyek optimisasi CUDA.
- Penalaran yang dapat dikonfigurasi: Mode Thinking dapat diaktifkan untuk beban kerja penalaran yang lebih dalam atau dinonaktifkan untuk interaksi berlatensi lebih rendah.
Kinerja Benchmark MiniMax M3
MiniMax melaporkan hasil benchmark tingkat frontier di seluruh tugas pemrograman, eksekusi agentik, dan evaluasi multimodal. Hasil yang dilaporkan mencakup:
| Benchmark | Skor |
|---|---|
| SWE-Bench Pro | 59.0% |
| Terminal-Bench 2.1 | 66.0% |
| SWE-fficiency | 34.8% |
| KernelBench Hard | 28.8% |
| MCP Atlas | 74.2% |
| BrowseComp | 83.5 |
| PostTrainBench | 37.1 |
Perusahaan juga melaporkan bahwa M3 melampaui GPT-5.5 dan Gemini 3.1 Pro pada beberapa tolok ukur berorientasi pemrograman sekaligus mendekati kinerja Claude Opus 4.7 dalam evaluasi tertentu. Klaim ini berasal dari pengungkapan benchmark internal MiniMax dan sebaiknya ditafsirkan bersama dengan pengujian pihak ketiga independen saat tersedia.
Arsitektur Konteks Panjang dan MSA
MiniMax Sparse Attention (MSA) adalah inovasi arsitektural di balik kapabilitas konteks sejuta token M3. Alih-alih menerapkan perhatian kuadratik penuh di seluruh urutan, MSA melakukan perutean tingkat blok dan perhatian jarang pada wilayah konteks terpilih.
Menurut MiniMax, ini secara signifikan mengurangi kebutuhan komputasi pada panjang konteks besar dan menghasilkan:
- Lebih dari 9× lebih cepat untuk prefill pada panjang konteks 1M
- Lebih dari 15× lebih cepat untuk decoding
- Kira-kira 1/20 komputasi per-token generasi sebelumnya pada skala konteks 1M
Peningkatan ini ditujukan untuk membuat pemrograman skala repositori dan alur kerja agen jangka panjang menjadi praktis.
MiniMax M3 vs Claude Opus 4.7 vs Gemini 3.1 Pro
| Kapabilitas | MiniMax M3 | Claude Opus 4.7 | Gemini 3.1 Pro |
|---|---|---|---|
| Jendela konteks | Hingga 1M | Tingkat konteks yang tersedia publik lebih kecil | Multimodal konteks besar |
| Pelatihan multimodal native | Ya | Ya | Ya |
| Fokus pemrograman agentik | Sangat kuat | Sangat kuat | Kuat |
| SWE-Bench Pro | 59.0% | Lebih tinggi menurut pelaporan MiniMax | Lebih rendah menurut pelaporan MiniMax |
| Ketersediaan Open-Weight | Direncanakan | Tidak | Tidak |
| Alur kerja agen jangka panjang | Fokus desain utama | Kuat | Kuat |
Keterbatasan yang Diketahui
- Sebagian besar pengungkapan benchmark saat ini berasal dari MiniMax, bukan dari laboratorium evaluasi independen.
- Berkas model open-weight dan laporan teknis lengkap telah diumumkan tetapi belum dirilis secara luas saat peluncuran.
- Keandalan di dunia nyata di berbagai lingkungan produksi masih divalidasi oleh komunitas pengembang.
- Beban kerja konteks sejuta token dapat menimbulkan biaya operasional dan latensi yang lebih tinggi dibandingkan beban kerja inferensi standar.
Contoh Kasus Penggunaan
Rekayasa Perangkat Lunak Skala Repositori
Menganalisis basis kode besar, melakukan refaktor multi-berkas, menghasilkan patch, meninjau pull request, dan mempertahankan konteks pengembangan jangka panjang.
Agen Riset Otonom
Mendukung tinjauan literatur, sintesis dokumen, analisis benchmark, dan alur kerja riset jangka panjang yang memerlukan ratusan ribu token.
Analisis Teknis Multimodal
Menafsirkan tangkapan layar, diagram arsitektur, bagan, dokumen teknis, dan konten video dalam alur penalaran yang sama.
Otomasi Terminal dan DevOps
Menjalankan alur kerja rekayasa yang kompleks meliputi pengujian, orkestrasi penerapan, manajemen dependensi, dan debug iteratif.
Sistem Pengetahuan Perusahaan
Menelusuri dan menalar atas koleksi besar kebijakan, kontrak, dokumentasi teknis, dan repositori pengetahuan internal.
Versi Model dan Ketersediaan
MiniMax M3 diperkenalkan secara resmi pada Juni 2026 sebagai penerus andalan dalam lini model MiniMax. Model ini tersedia melalui ekosistem API MiniMax dan CometAPI.