Cara Menjalankan Mistral Small 4 Secara Lokal

Mistral Small 4 adalah model AI multimodal yang baru dirilis oleh Mistral AI (Maret 2026) yang menyatukan inferensi, penalaran, pengodean, dan kapabilitas multimodal dalam satu arsitektur. Model ini menampilkan jendela konteks 256K, desain Mixture-of-Experts (MoE) (~119B parameter total, ~6.5B aktif per token), dan memberikan inferensi lebih cepat (hingga pengurangan latensi 40%) sambil mengungguli model terbuka sebanding seperti GPT-OSS 120B pada tolok ukur.

Untuk menjalankannya secara lokal, Anda memerlukan GPU ber-memori besar (≥48GB VRAM direkomendasikan) atau deployment terkuantisasi, beserta kerangka kerja seperti Transformers, vLLM, atau Ollama.

Apa itu Mistral Small 4?

Satu model untuk banyak tugas

Mistral Small 4 paling tepat dipahami sebagai “serba guna”: ia menggabungkan kekuatan dari keluarga instruksi, penalaran, dan pengodean Mistral sebelumnya ke dalam satu model. Dalam bahasa rilis perusahaan, Small 4 adalah model Mistral pertama yang menyatukan kapabilitas Magistral untuk penalaran, Pixtral untuk tugas multimodal, dan Devstral untuk pengodean agen. Model ini menerima masukan teks dan gambar, menghasilkan keluaran teks, dan ditujukan untuk percakapan, pengodean, alur kerja agen, pemahaman dokumen, riset, dan analisis visual.

Mengapa rilis ini penting

Makna praktisnya adalah Mistral Small 4 mengurangi overhead perpindahan model. Alih-alih merutekan satu prompt ke model instruksi cepat, prompt kedua ke model penalaran, dan prompt ketiga ke model visi, Anda dapat menggunakan satu endpoint dan menyesuaikan pengaturan reasoning_effort sesuai kebutuhan. Mistral secara eksplisit menyatakan reasoning_effort="none" memberikan respons cepat dan ringan yang sebanding dengan chat gaya Small 3.2, sementara reasoning_effort="high" menghasilkan penalaran yang lebih mendalam dan lebih panjang seperti model Magistral sebelumnya.

Tolok Ukur Kinerja Mistral Small 4

Sorotan Kinerja Utama

Cara Menjalankan Mistral Small 4 Secara Lokal

Metrik	Mistral Small 4
Arsitektur	MoE
Jendela Konteks	256K
Latensi	↓ hingga 40%
Tolok Ukur Koding	Mengungguli GPT-OSS 120B
Efisiensi Keluaran	20% lebih sedikit token

👉 Ini membuatnya ideal untuk sistem AI tingkat produksi.

Arsitektur (Wawasan Teknis Kunci)

Tipe Model: Mixture-of-Experts (MoE)
Total Parameter: ~119B
Parameter Aktif per Token: ~6.5B
Pakar: ~128 (4 aktif per lintasan forward)

👉 Arsitektur ini memungkinkan kecerdasan model besar dengan biaya model kecil, sehingga ideal untuk deployment lokal dibandingkan model padat.

Persyaratan Deployment jika Anda berencana menggunakan Mistral Small 4

Infrastruktur minimum dan rekomendasi resmi

Mistral kali ini sangat eksplisit. Infrastruktur minimum: 4x NVIDIA HGX H100, 2x NVIDIA HGX H200, atau 1x NVIDIA DGX B200. Konfigurasi yang direkomendasikan untuk kinerja optimal adalah 4x HGX H100, 4x HGX H200, atau 2x DGX B200. Ini sinyal kuat bahwa jalur resmi sepenuhnya ditujukan untuk mesin kelas pusat data, bukan satu GPU konsumen.

Artinya dalam praktik

Mistral Small 4 memiliki bobot terbuka dan efisien untuk ukurannya, tetapi tetap merupakan sistem MoE 119B dengan jendela konteks 256k. Dalam deployment nyata, kombinasi itu membuat tekanan memori meningkat cepat seiring bertambahnya panjang konteks, dan kinerja berkelanjutan biasanya bergantung pada tensor parallelism multi-GPU serta perangkat lunak penyajian yang efisien. Itulah mengapa kami merekomendasikan vLLM sebagai mesin self-deployment utama dan mengekspos pola penyajian yang kompatibel dengan OpenAI alih-alih default “satu mesin langsung jalan”.

Konfigurasi yang Direkomendasikan (Profesional)

Komponen	Rekomendasi
GPU	48GB–80GB VRAM (A100 / H100)
CPU	16–32 core
RAM	128GB
Penyimpanan	NVMe SSD

Mengapa Perangkat Keras Penting

Karena:

Model 119B parameter (meski MoE)
Konteks besar (256K token)
Pemrosesan multimodal

👉 Tanpa optimasi, terlalu berat untuk GPU konsumen

Cara Menjalankan Mistral Small 4 Secara Lokal (Langkah demi Langkah)

Langkah 1) Dapatkan bobot dan terima ketentuan akses

vLLM mengambil bobot dari Hugging Face secara default, jadi Anda memerlukan token akses Hugging Face dengan izin READ dan Anda harus menerima ketentuan pada kartu model. Untuk setup lokal yang praktis, siapkan mesin Linux dengan driver NVIDIA, dukungan runtime kompatibel CUDA, Python, dan memori GPU yang cukup untuk checkpoint yang dipilih. Jika Anda sudah memiliki artefak di penyimpanan sendiri, Anda bisa melewati setup Hugging Face dan menunjuk vLLM ke path lokal.

Langkah 2) Gunakan tumpukan server resmi yang direkomendasikan

Merekomendasikan self-deployment melalui vLLM, yang digambarkan sebagai kerangka kerja penyajian yang sangat dioptimalkan dan dapat mengekspos API yang kompatibel dengan OpenAI. Dokumentasi self-deployment-nya juga menyebut TensorRT-LLM dan TGI sebagai alternatif, tetapi vLLM adalah jalur yang direkomendasikan untuk keluarga model ini.

Langkah 3) Tarik image Docker yang direkomendasikan Mistral atau instal vLLM secara manual

Mistral Small 4 merekomendasikan penggunaan image Docker kustom dengan perbaikan pemanggilan alat dan parsing penalaran yang diperlukan, atau memasang build vLLM yang ditambal secara manual. Kartu model menyediakan image kustom dan mencatat bahwa Mistral bekerja sama dengan tim vLLM untuk mengarusutamakan perubahan tersebut.

Titik awal yang praktis adalah:

docker pull mistralllm/vllm-ms4:latestdocker run -it mistralllm/vllm-ms4:latest

Langkah 4) Layani model

Perintah server yang direkomendasikan Mistral adalah:

vllm serve mistralai/Mistral-Small-4-119B-2603-NVFP4 \  --max-model-len 262144 \  --tensor-parallel-size 2 \  --attention-backend TRITON_MLA \  --tool-call-parser mistral \  --enable-auto-tool-choice \  --reasoning-parser mistral \  --max_num_batched_tokens 16384 \  --max_num_seqs 128 \  --gpu_memory_utilization 0.8

Perintah itu adalah petunjuk paling penting dalam keseluruhan cerita lokal: ia memberi tahu Anda bahwa model ini ditujukan untuk dijalankan dengan backend GPU yang serius, jendela konteks panjang, dan parser alat serta penalaran spesifik Mistral yang diaktifkan.

Langkah 5) Hubungkan aplikasi Anda ke endpoint lokal

Karena vLLM mengekspos REST API yang kompatibel dengan OpenAI, Anda biasanya dapat mengarahkan kode SDK OpenAI yang ada ke http://localhost:8000/v1 dan mempertahankan sebagian besar logika aplikasi Anda tanpa perubahan. Contoh Mistral menggunakan base_url="http://localhost:8000/v1" dan kunci API kosong, yang merupakan pola umum pengembangan lokal.

from openai import OpenAIclient = OpenAI(api_key="EMPTY", base_url="http://localhost:8000/v1")resp = client.chat.completions.create(    model="mistralai/Mistral-Small-4-119B-2603-NVFP4",    messages=[{"role": "user", "content": "Summarize the document in five bullets."}],    temperature=0.7,    reasoning_effort="none",)print(resp.choices[0].message.content)

Langkah 6) Sesuaikan untuk kecepatan atau kualitas

Jika Anda sedang menguji model secara lokal, sarankan reasoning_effort="high" untuk prompt kompleks dan temperature=0.7 dalam mode itu, sementara temperatur lebih rendah lebih sesuai saat penalaran dimatikan. Kartu yang sama juga memisahkan checkpoint FP8 untuk akurasi terbaik dari checkpoint NVFP4 untuk throughput dan penggunaan memori yang lebih rendah, jadi konfigurasi yang tepat bergantung pada apakah Anda mengoptimalkan kualitas, kecepatan, atau jejak perangkat keras.

Langkah 7: Opsional – Jalankan via Ollama (Disederhanakan)

ollama run mistral-small-4

👉 Terbaik untuk:

Pengembangan lokal
Setup cepat

Mistral Small 4 vs GPT-OSS vs Qwen 3.5 (Perbandingan Lengkap)

Mistral Small 4: MoE dengan efisiensi ekstrem

119B total parameter
~6.5B aktif per token
128 pakar (4 aktif)
Multimodal (teks + gambar)

👉 Gagasan utama: kapasitas sangat besar tetapi komputasi per token rendah

Ini memberikan:

Kinerja tinggi
Latensi rendah
Biaya inferensi lebih rendah

GPT-OSS: MoE praktis untuk deployment

Versi 120B: ~117B total / 5.1B aktif
Versi 20B: ~21B total / 3.6B aktif
Hanya teks

👉 Gagasan utama: menjalankan model kuat pada perangkat keras minimal

Dapat berjalan pada satu GPU H100
Dukungan alat/keluaran terstruktur yang kuat

Qwen 3.5: penskalaan berkemampuan tinggi

Hingga 122B parameter
Jumlah parameter aktif lebih tinggi (~20B+)
Multimodal + multibahasa yang kuat

👉 Gagasan utama: memaksimalkan kapabilitas meski biaya komputasi meningkat

Perbandingan Tolok Ukur Kinerja

Kategori	Mistral Small 4	GPT-OSS (120B / 20B)	Qwen 3.5 (Plus / MoE)
Masukan / Keluaran	Masukan Teks + Gambar → Keluaran TeksKonteks: 256K token	Masukan Teks → Keluaran TeksKonteks: ~128K token	Masukan Teks + Gambar + Video → Keluaran TeksKonteks: hingga 1M token
Harga (API)	$0.15 /M masukan$0.60 /M keluaran	Tidak ada harga API resmi (self-hosted)→ Biaya bergantung infrastruktur	$0.40–0.50 /M masukan$2.40–3.00 /M keluaran
Arsitektur	MoE (Mixture-of-Experts)119B total / 6.5B aktif128 pakar (4 aktif)	MoE Transformer120B: 117B / 5.1B aktif20B: 21B / 3.6B aktif	MoE Hibrida + lapisan lanjutanHingga 397B total (A17B aktif)
Multimodal	✅ Dukungan gambar	❌ Hanya teks	✅ Gambar + Video
Kontrol Penalaran	✅ (reasoning_effort)	✅ (mode rendah/sedang/tinggi)	✅ Penalaran adaptif
Efisiensi Konteks	⭐⭐⭐⭐⭐ (keluaran pendek)	⭐⭐⭐⭐	⭐⭐⭐ (keluaran panjang)
Dukungan Alat/Agen	✅ Alat native, agen, keluaran terstruktur	✅ Penggunaan alat kuat, keluaran terstruktur	✅ Ekosistem agen canggih
Kemampuan Koding	⭐⭐⭐⭐⭐ (setingkat Devstral)	⭐⭐⭐⭐	⭐⭐⭐⭐⭐
Deployment	Berat (multi-GPU direkomendasikan)	Fleksibel (satu GPU memungkinkan)	Berat (skala cloud lebih disukai)

Dengan penalaran diaktifkan, Small 4 menyamai atau melampaui GPT-OSS 120B pada LCR, LiveCodeBench, dan AIME 2025, sambil menghasilkan keluaran yang lebih pendek. Mistral mengutip satu contoh di mana Small 4 meraih skor 0.72 pada AA LCR hanya dengan 1.6K karakter, sementara hasil Qwen yang sebanding memerlukan 5.8K–6.1K karakter, dan menyatakan Small 4 mengungguli GPT-OSS 120B pada LiveCodeBench sambil menghasilkan 20% lebih sedikit keluaran.

Cara Menjalankan Mistral Small 4 Secara Lokal

Mana pilihan lokal terbaik?

Menurut saya: Mistral Small 4 adalah pilihan “satu model” terbaik jika Anda menginginkan deployment lokal atau privat yang seimbang dengan chat umum yang kuat, pengodean, kerja agen, dan dukungan multimodal. GPT-OSS adalah pilihan paling jelas jika Anda menginginkan model OpenAI yang tersedia terbuka dengan panduan penyajian lokal yang sangat eksplisit, terutama versi 20B yang lebih kecil. Qwen3.5 adalah keluarga terluas, dan patut dilirik jika Anda paling peduli pada cakupan multibahasa, banyak tingkatan ukuran, dan opsi penyajian lokal yang fleksibel.

Jika Anda ingin mengakses model open-source terbaik ini menggunakan API dan tidak ingin berganti vendor, maka saya merekomendasikan CometAPI, yang menyediakan GPT-oss-120B dan Qwen 3.5 plus API dll.

Dengan kata lain, Anda dapat menggunakan Small 4 sebagai model hosted, atau menarik bobotnya dan meng-host sendiri di infrastruktur Anda.

Kesimpulan

Small 4 sangat cocok ketika Anda memerlukan model open-weight, multimodal, mampu bernalar yang dapat di-host sendiri, di-fine-tune, dan diintegrasikan ke dalam tumpukan aplikasi bergaya OpenAI yang ada. Model ini sangat menarik bagi tim yang peduli pada kontrol deployment, lokasi data, dan biaya token marginal yang lebih rendah, sambil tetap menginginkan model tujuan umum modern.

Siap mengakses Mistral Small 4? Maka datang ke CometAPI!

Apa itu Mistral Small 4?

Satu model untuk banyak tugas

Mengapa rilis ini penting

Tolok Ukur Kinerja Mistral Small 4

Sorotan Kinerja Utama

Arsitektur (Wawasan Teknis Kunci)

Persyaratan Deployment jika Anda berencana menggunakan Mistral Small 4

Infrastruktur minimum dan rekomendasi resmi

Artinya dalam praktik

Konfigurasi yang Direkomendasikan (Profesional)

Mengapa Perangkat Keras Penting

Cara Menjalankan Mistral Small 4 Secara Lokal (Langkah demi Langkah)

Langkah 1) Dapatkan bobot dan terima ketentuan akses

Langkah 2) Gunakan tumpukan server resmi yang direkomendasikan

Langkah 3) Tarik image Docker yang direkomendasikan Mistral atau instal vLLM secara manual

Langkah 4) Layani model

Langkah 5) Hubungkan aplikasi Anda ke endpoint lokal

Langkah 6) Sesuaikan untuk kecepatan atau kualitas

Langkah 7: Opsional – Jalankan via Ollama (Disederhanakan)

Mistral Small 4 vs GPT-OSS vs Qwen 3.5 (Perbandingan Lengkap)

Mistral Small 4: MoE dengan efisiensi ekstrem

GPT-OSS: MoE praktis untuk deployment

Qwen 3.5: penskalaan berkemampuan tinggi

Perbandingan Tolok Ukur Kinerja

Mana pilihan lokal terbaik?

Kesimpulan

Akses Model Terbaik dengan Biaya Rendah

Baca Selengkapnya