Mistral Small 4 adalah model AI multimodal yang baru dirilis oleh Mistral AI (Maret 2026) yang menyatukan inferensi, penalaran, pengodean, dan kapabilitas multimodal dalam satu arsitektur. Model ini menampilkan jendela konteks 256K, desain Mixture-of-Experts (MoE) (~119B parameter total, ~6.5B aktif per token), dan memberikan inferensi lebih cepat (hingga pengurangan latensi 40%) sambil mengungguli model terbuka sebanding seperti GPT-OSS 120B pada tolok ukur.
Untuk menjalankannya secara lokal, Anda memerlukan GPU ber-memori besar (≥48GB VRAM direkomendasikan) atau deployment terkuantisasi, beserta kerangka kerja seperti Transformers, vLLM, atau Ollama.
Apa itu Mistral Small 4?
Satu model untuk banyak tugas
Mistral Small 4 paling tepat dipahami sebagai “serba guna”: ia menggabungkan kekuatan dari keluarga instruksi, penalaran, dan pengodean Mistral sebelumnya ke dalam satu model. Dalam bahasa rilis perusahaan, Small 4 adalah model Mistral pertama yang menyatukan kapabilitas Magistral untuk penalaran, Pixtral untuk tugas multimodal, dan Devstral untuk pengodean agen. Model ini menerima masukan teks dan gambar, menghasilkan keluaran teks, dan ditujukan untuk percakapan, pengodean, alur kerja agen, pemahaman dokumen, riset, dan analisis visual.
Mengapa rilis ini penting
Makna praktisnya adalah Mistral Small 4 mengurangi overhead perpindahan model. Alih-alih merutekan satu prompt ke model instruksi cepat, prompt kedua ke model penalaran, dan prompt ketiga ke model visi, Anda dapat menggunakan satu endpoint dan menyesuaikan pengaturan reasoning_effort sesuai kebutuhan. Mistral secara eksplisit menyatakan reasoning_effort="none" memberikan respons cepat dan ringan yang sebanding dengan chat gaya Small 3.2, sementara reasoning_effort="high" menghasilkan penalaran yang lebih mendalam dan lebih panjang seperti model Magistral sebelumnya.
Tolok Ukur Kinerja Mistral Small 4
Sorotan Kinerja Utama

| Metrik | Mistral Small 4 |
|---|---|
| Arsitektur | MoE |
| Jendela Konteks | 256K |
| Latensi | ↓ hingga 40% |
| Tolok Ukur Koding | Mengungguli GPT-OSS 120B |
| Efisiensi Keluaran | 20% lebih sedikit token |
👉 Ini membuatnya ideal untuk sistem AI tingkat produksi.
Arsitektur (Wawasan Teknis Kunci)
- Tipe Model: Mixture-of-Experts (MoE)
- Total Parameter: ~119B
- Parameter Aktif per Token: ~6.5B
- Pakar: ~128 (4 aktif per lintasan forward)
👉 Arsitektur ini memungkinkan kecerdasan model besar dengan biaya model kecil, sehingga ideal untuk deployment lokal dibandingkan model padat.
Persyaratan Deployment jika Anda berencana menggunakan Mistral Small 4
Infrastruktur minimum dan rekomendasi resmi
Mistral kali ini sangat eksplisit. Infrastruktur minimum: 4x NVIDIA HGX H100, 2x NVIDIA HGX H200, atau 1x NVIDIA DGX B200. Konfigurasi yang direkomendasikan untuk kinerja optimal adalah 4x HGX H100, 4x HGX H200, atau 2x DGX B200. Ini sinyal kuat bahwa jalur resmi sepenuhnya ditujukan untuk mesin kelas pusat data, bukan satu GPU konsumen.
Artinya dalam praktik
Mistral Small 4 memiliki bobot terbuka dan efisien untuk ukurannya, tetapi tetap merupakan sistem MoE 119B dengan jendela konteks 256k. Dalam deployment nyata, kombinasi itu membuat tekanan memori meningkat cepat seiring bertambahnya panjang konteks, dan kinerja berkelanjutan biasanya bergantung pada tensor parallelism multi-GPU serta perangkat lunak penyajian yang efisien. Itulah mengapa kami merekomendasikan vLLM sebagai mesin self-deployment utama dan mengekspos pola penyajian yang kompatibel dengan OpenAI alih-alih default “satu mesin langsung jalan”.
Konfigurasi yang Direkomendasikan (Profesional)
| Komponen | Rekomendasi |
|---|---|
| GPU | 48GB–80GB VRAM (A100 / H100) |
| CPU | 16–32 core |
| RAM | 128GB |
| Penyimpanan | NVMe SSD |
Mengapa Perangkat Keras Penting
Karena:
- Model 119B parameter (meski MoE)
- Konteks besar (256K token)
- Pemrosesan multimodal
👉 Tanpa optimasi, terlalu berat untuk GPU konsumen
Cara Menjalankan Mistral Small 4 Secara Lokal (Langkah demi Langkah)
Langkah 1) Dapatkan bobot dan terima ketentuan akses
vLLM mengambil bobot dari Hugging Face secara default, jadi Anda memerlukan token akses Hugging Face dengan izin READ dan Anda harus menerima ketentuan pada kartu model. Untuk setup lokal yang praktis, siapkan mesin Linux dengan driver NVIDIA, dukungan runtime kompatibel CUDA, Python, dan memori GPU yang cukup untuk checkpoint yang dipilih. Jika Anda sudah memiliki artefak di penyimpanan sendiri, Anda bisa melewati setup Hugging Face dan menunjuk vLLM ke path lokal.
Langkah 2) Gunakan tumpukan server resmi yang direkomendasikan
Merekomendasikan self-deployment melalui vLLM, yang digambarkan sebagai kerangka kerja penyajian yang sangat dioptimalkan dan dapat mengekspos API yang kompatibel dengan OpenAI. Dokumentasi self-deployment-nya juga menyebut TensorRT-LLM dan TGI sebagai alternatif, tetapi vLLM adalah jalur yang direkomendasikan untuk keluarga model ini.
Langkah 3) Tarik image Docker yang direkomendasikan Mistral atau instal vLLM secara manual
Mistral Small 4 merekomendasikan penggunaan image Docker kustom dengan perbaikan pemanggilan alat dan parsing penalaran yang diperlukan, atau memasang build vLLM yang ditambal secara manual. Kartu model menyediakan image kustom dan mencatat bahwa Mistral bekerja sama dengan tim vLLM untuk mengarusutamakan perubahan tersebut.
Titik awal yang praktis adalah:
docker pull mistralllm/vllm-ms4:latestdocker run -it mistralllm/vllm-ms4:latest
Langkah 4) Layani model
Perintah server yang direkomendasikan Mistral adalah:
vllm serve mistralai/Mistral-Small-4-119B-2603-NVFP4 \ --max-model-len 262144 \ --tensor-parallel-size 2 \ --attention-backend TRITON_MLA \ --tool-call-parser mistral \ --enable-auto-tool-choice \ --reasoning-parser mistral \ --max_num_batched_tokens 16384 \ --max_num_seqs 128 \ --gpu_memory_utilization 0.8
Perintah itu adalah petunjuk paling penting dalam keseluruhan cerita lokal: ia memberi tahu Anda bahwa model ini ditujukan untuk dijalankan dengan backend GPU yang serius, jendela konteks panjang, dan parser alat serta penalaran spesifik Mistral yang diaktifkan.
Langkah 5) Hubungkan aplikasi Anda ke endpoint lokal
Karena vLLM mengekspos REST API yang kompatibel dengan OpenAI, Anda biasanya dapat mengarahkan kode SDK OpenAI yang ada ke http://localhost:8000/v1 dan mempertahankan sebagian besar logika aplikasi Anda tanpa perubahan. Contoh Mistral menggunakan base_url="http://localhost:8000/v1" dan kunci API kosong, yang merupakan pola umum pengembangan lokal.
from openai import OpenAIclient = OpenAI(api_key="EMPTY", base_url="http://localhost:8000/v1")resp = client.chat.completions.create( model="mistralai/Mistral-Small-4-119B-2603-NVFP4", messages=[{"role": "user", "content": "Summarize the document in five bullets."}], temperature=0.7, reasoning_effort="none",)print(resp.choices[0].message.content)
Langkah 6) Sesuaikan untuk kecepatan atau kualitas
Jika Anda sedang menguji model secara lokal, sarankan reasoning_effort="high" untuk prompt kompleks dan temperature=0.7 dalam mode itu, sementara temperatur lebih rendah lebih sesuai saat penalaran dimatikan. Kartu yang sama juga memisahkan checkpoint FP8 untuk akurasi terbaik dari checkpoint NVFP4 untuk throughput dan penggunaan memori yang lebih rendah, jadi konfigurasi yang tepat bergantung pada apakah Anda mengoptimalkan kualitas, kecepatan, atau jejak perangkat keras.
Langkah 7: Opsional – Jalankan via Ollama (Disederhanakan)
ollama run mistral-small-4
👉 Terbaik untuk:
- Pengembangan lokal
- Setup cepat
Mistral Small 4 vs GPT-OSS vs Qwen 3.5 (Perbandingan Lengkap)
Mistral Small 4: MoE dengan efisiensi ekstrem
- 119B total parameter
- ~6.5B aktif per token
- 128 pakar (4 aktif)
- Multimodal (teks + gambar)
👉 Gagasan utama: kapasitas sangat besar tetapi komputasi per token rendah
Ini memberikan:
- Kinerja tinggi
- Latensi rendah
- Biaya inferensi lebih rendah
GPT-OSS: MoE praktis untuk deployment
- Versi 120B: ~117B total / 5.1B aktif
- Versi 20B: ~21B total / 3.6B aktif
- Hanya teks
👉 Gagasan utama: menjalankan model kuat pada perangkat keras minimal
- Dapat berjalan pada satu GPU H100
- Dukungan alat/keluaran terstruktur yang kuat
Qwen 3.5: penskalaan berkemampuan tinggi
- Hingga 122B parameter
- Jumlah parameter aktif lebih tinggi (~20B+)
- Multimodal + multibahasa yang kuat
👉 Gagasan utama: memaksimalkan kapabilitas meski biaya komputasi meningkat
Perbandingan Tolok Ukur Kinerja
| Kategori | Mistral Small 4 | GPT-OSS (120B / 20B) | Qwen 3.5 (Plus / MoE) |
|---|---|---|---|
| Masukan / Keluaran | Masukan Teks + Gambar → Keluaran TeksKonteks: 256K token | Masukan Teks → Keluaran TeksKonteks: ~128K token | Masukan Teks + Gambar + Video → Keluaran TeksKonteks: hingga 1M token |
| Harga (API) | $0.15 /M masukan$0.60 /M keluaran | Tidak ada harga API resmi (self-hosted)→ Biaya bergantung infrastruktur | $0.40–0.50 /M masukan$2.40–3.00 /M keluaran |
| Arsitektur | MoE (Mixture-of-Experts)119B total / 6.5B aktif128 pakar (4 aktif) | MoE Transformer120B: 117B / 5.1B aktif20B: 21B / 3.6B aktif | MoE Hibrida + lapisan lanjutanHingga 397B total (A17B aktif) |
| Multimodal | ✅ Dukungan gambar | ❌ Hanya teks | ✅ Gambar + Video |
| Kontrol Penalaran | ✅ (reasoning_effort) | ✅ (mode rendah/sedang/tinggi) | ✅ Penalaran adaptif |
| Efisiensi Konteks | ⭐⭐⭐⭐⭐ (keluaran pendek) | ⭐⭐⭐⭐ | ⭐⭐⭐ (keluaran panjang) |
| Dukungan Alat/Agen | ✅ Alat native, agen, keluaran terstruktur | ✅ Penggunaan alat kuat, keluaran terstruktur | ✅ Ekosistem agen canggih |
| Kemampuan Koding | ⭐⭐⭐⭐⭐ (setingkat Devstral) | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| Deployment | Berat (multi-GPU direkomendasikan) | Fleksibel (satu GPU memungkinkan) | Berat (skala cloud lebih disukai) |
Dengan penalaran diaktifkan, Small 4 menyamai atau melampaui GPT-OSS 120B pada LCR, LiveCodeBench, dan AIME 2025, sambil menghasilkan keluaran yang lebih pendek. Mistral mengutip satu contoh di mana Small 4 meraih skor 0.72 pada AA LCR hanya dengan 1.6K karakter, sementara hasil Qwen yang sebanding memerlukan 5.8K–6.1K karakter, dan menyatakan Small 4 mengungguli GPT-OSS 120B pada LiveCodeBench sambil menghasilkan 20% lebih sedikit keluaran.


Mana pilihan lokal terbaik?
Menurut saya: Mistral Small 4 adalah pilihan “satu model” terbaik jika Anda menginginkan deployment lokal atau privat yang seimbang dengan chat umum yang kuat, pengodean, kerja agen, dan dukungan multimodal. GPT-OSS adalah pilihan paling jelas jika Anda menginginkan model OpenAI yang tersedia terbuka dengan panduan penyajian lokal yang sangat eksplisit, terutama versi 20B yang lebih kecil. Qwen3.5 adalah keluarga terluas, dan patut dilirik jika Anda paling peduli pada cakupan multibahasa, banyak tingkatan ukuran, dan opsi penyajian lokal yang fleksibel.
Jika Anda ingin mengakses model open-source terbaik ini menggunakan API dan tidak ingin berganti vendor, maka saya merekomendasikan CometAPI, yang menyediakan GPT-oss-120B dan Qwen 3.5 plus API dll.
Dengan kata lain, Anda dapat menggunakan Small 4 sebagai model hosted, atau menarik bobotnya dan meng-host sendiri di infrastruktur Anda.
Kesimpulan
Small 4 sangat cocok ketika Anda memerlukan model open-weight, multimodal, mampu bernalar yang dapat di-host sendiri, di-fine-tune, dan diintegrasikan ke dalam tumpukan aplikasi bergaya OpenAI yang ada. Model ini sangat menarik bagi tim yang peduli pada kontrol deployment, lokasi data, dan biaya token marginal yang lebih rendah, sambil tetap menginginkan model tujuan umum modern.
Siap mengakses Mistral Small 4? Maka datang ke CometAPI!
