Cara Menjalankan Mistral Small 4 Secara Setempat

CometAPI
AnnaMar 23, 2026
Cara Menjalankan Mistral Small 4 Secara Setempat

Mistral Small 4 ialah model AI multimodal keluaran baharu oleh Mistral AI (Mac 2026) yang menyatukan inferens, penaakulan, pengkodan dan keupayaan multimodal dalam satu seni bina. Ia menampilkan tetingkap konteks 256K, reka bentuk Mixture-of-Experts (MoE) (~119B jumlah parameter, ~6.5B aktif per token), dan memberikan inferens lebih pantas (pengurangan latensi sehingga 40%) sambil mengatasi model terbuka setanding seperti GPT-OSS 120B dalam penanda aras.

Untuk menjalankannya secara setempat, anda memerlukan GPU memori tinggi (≥48GB VRAM disyorkan) atau penyebaran terkuantum, bersama kerangka seperti Transformers, vLLM, atau Ollama.

Apakah Mistral Small 4?

Satu model untuk pelbagai tugas

Mistral Small 4 paling tepat difahami sebagai “serba boleh”: ia menggabungkan kekuatan keluarga arahan, penaakulan dan pengkodan Mistral sebelumnya ke dalam satu model. Dalam bahasa keluaran syarikat, Small 4 ialah model Mistral pertama yang menyatukan keupayaan Magistral untuk penaakulan, Pixtral untuk tugas multimodal, dan Devstral untuk pengkodan berasaskan agen. Ia menerima input teks dan imej, mengeluarkan teks, dan ditujukan untuk sembang, pengkodan, aliran kerja berasaskan agen, pemahaman dokumen, penyelidikan dan analisis visual.

Mengapa keluaran ini penting

Kepentingan praktikalnya ialah Mistral Small 4 mengurangkan beban pertukaran model. Daripada menghala satu gesaan ke model arahan pantas, gesaan kedua ke model penaakulan, dan gesaan ketiga ke model visi, anda boleh menggunakan satu titik akhir dan melaraskan tetapan reasoning_effort sebagaimana perlu. Mistral menyatakan dengan jelas reasoning_effort="none" memberikan respons pantas dan ringan yang sebanding dengan sembang gaya Small 3.2, manakala reasoning_effort="high" menghasilkan penaakulan yang lebih mendalam dan lebih terperinci seperti model Magistral sebelumnya.

Penanda Aras Prestasi Mistral Small 4

Sorotan Prestasi Utama

Cara Menjalankan Mistral Small 4 Secara Setempat

MetrikMistral Small 4
Seni binaMoE
Tetingkap konteks256K
Latensi↓ sehingga 40%
Penanda aras kodMengatasi GPT-OSS 120B
Kecekapan output20% lebih sedikit token

👉 Ini menjadikannya sesuai untuk sistem AI bertaraf produksi.

Seni Bina (Pandangan Teknikal Utama)

  • Jenis Model: Mixture-of-Experts (MoE)
  • Jumlah Parameter: ~119B
  • Parameter Aktif per Token: ~6.5B
  • Pakar: ~128 (4 aktif setiap laluan hadapan)

👉 Seni bina ini membolehkan kecerdasan model besar pada kos model kecil, menjadikannya sesuai untuk penyebaran setempat berbanding model padat.

Keperluan Penyebaran jika anda merancang untuk Mistral Small 4

Prasarana minimum dan disyorkan rasmi

Mistral amat jelas di sini. Prasarana minimum ialah 4x NVIDIA HGX H100, 2x NVIDIA HGX H200, atau 1x NVIDIA DGX B200. Persediaan yang disyorkan untuk prestasi optimum ialah 4x HGX H100, 4x HGX H200, atau 2x DGX B200. Ini merupakan isyarat kukuh bahawa laluan rasmi sepenuhnya disasarkan pada mesin kelas pusat data dan bukannya satu GPU pengguna.

Maksudnya dalam praktik

Mistral Small 4 mempunyai berat terbuka dan cekap untuk saiznya, tetapi ia masih sistem MoE 119B dengan tetingkap konteks 256k. Dalam penyebaran sebenar, gabungan itu bermakna tekanan memori meningkat dengan cepat apabila panjang konteks bertambah, dan prestasi berterusan biasanya bergantung pada paralelisme tensor berbilang GPU dan perisian penyajian yang cekap. Itulah sebabnya disyorkan vLLM sebagai enjin hos kendiri utama dan mendedahkan corak penyajian yang serasi dengan OpenAI berbanding lalai “sekadar berfungsi” mesin tunggal.

Persediaan Disyorkan (Profesional)

KomponenSyor
GPU48GB–80GB VRAM (A100 / H100)
CPU16–32 teras
RAM128GB
StoranNVMe SSD

Mengapa Perkakasan Penting

Kerana:

  • Model 119B parameter (walaupun MoE)
  • Konteks besar (256K token)
  • Pemprosesan multimodal

👉 Tanpa pengoptimuman, ia terlalu berat untuk GPU pengguna

Cara Menjalankan Mistral Small 4 Secara Setempat (Langkah demi Langkah)

Langkah 1) Dapatkan pemberat dan terima syarat akses

vLLM mendapatkan pemberat daripada Hugging Face secara lalai, jadi anda memerlukan token akses Hugging Face dengan keizinan READ dan anda mesti menerima syarat pada kad model. Untuk persediaan setempat praktikal, sediakan mesin Linux dengan pemacu NVIDIA, sokongan runtime serasi CUDA, Python, dan memori GPU yang mencukupi untuk titik semak terpilih. Jika anda sudah mempunyai artifak pada storan anda sendiri, anda boleh abaikan persediaan Hugging Face dan halakan vLLM ke laluan setempat sebaliknya.

Langkah 2) Gunakan tindanan pelayan rasmi yang disyorkan

Mengesyorkan hos kendiri melalui vLLM, yang digambarkan sebagai rangka penyajian yang sangat dioptimumkan yang boleh mendedahkan API serasi OpenAI. Dokumentasi hos kendiri juga menyebut TensorRT-LLM dan TGI sebagai alternatif, tetapi vLLM ialah laluan yang disyorkan untuk keluarga model ini.

Langkah 3) Tarik imej Docker yang disyorkan Mistral atau pasang vLLM secara manual

Mistral Small 4 mengesyorkan menggunakan imej Docker tersuai dengan pembetulan panggilan alat dan penghuraian penaakulan yang diperlukan, atau memasang binaan vLLM bertampal secara manual. Kad tersebut menyediakan imej tersuai dan menyatakan bahawa Mistral bekerjasama dengan pasukan vLLM untuk menggabungkan perubahan ke hulu.

Titik permulaan praktikal ialah:

docker pull mistralllm/vllm-ms4:latestdocker run -it mistralllm/vllm-ms4:latest

Langkah 4) Sajikan model

Perintah pelayan yang disyorkan Mistral ialah:

vllm serve mistralai/Mistral-Small-4-119B-2603-NVFP4 \  --max-model-len 262144 \  --tensor-parallel-size 2 \  --attention-backend TRITON_MLA \  --tool-call-parser mistral \  --enable-auto-tool-choice \  --reasoning-parser mistral \  --max_num_batched_tokens 16384 \  --max_num_seqs 128 \  --gpu_memory_utilization 0.8

Perintah itu ialah petunjuk praktikal paling penting dalam keseluruhan cerita setempat: ia memberitahu anda model ini bertujuan dijalankan dengan backend GPU yang serius, tetingkap konteks panjang, dan penghuraian alat serta penaakulan khusus Mistral diaktifkan.

Langkah 5) Sambungkan aplikasi anda kepada endpoint setempat

Oleh kerana vLLM mendedahkan REST API serasi OpenAI, anda biasanya boleh menghalakan kod SDK OpenAI sedia ada ke http://localhost:8000/v1 dan mengekalkan kebanyakan logik aplikasi anda tanpa perubahan. Contoh Mistral menggunakan base_url="http://localhost:8000/v1" dan kunci API kosong, yang merupakan corak pembangunan setempat biasa.

from openai import OpenAIclient = OpenAI(api_key="EMPTY", base_url="http://localhost:8000/v1")resp = client.chat.completions.create(    model="mistralai/Mistral-Small-4-119B-2603-NVFP4",    messages=[{"role": "user", "content": "Summarize the document in five bullets."}],    temperature=0.7,    reasoning_effort="none",)print(resp.choices[0].message.content)

Langkah 6) Laraskan untuk kelajuan atau kualiti

Jika anda menguji model ini secara setempat, cadangkan reasoning_effort="high" untuk gesaan kompleks dan temperature=0.7 dalam mod tersebut, manakala suhu lebih rendah lebih sesuai apabila penaakulan dimatikan. Kad yang sama juga memisahkan titik semak FP8 untuk ketepatan terbaik daripada titik semak NVFP4 untuk kadar tembus dan penggunaan memori lebih rendah, jadi konfigurasi yang betul bergantung pada sama ada anda mengoptimumkan untuk kualiti, kelajuan, atau jejak perkakasan.

Langkah 7: Pilihan – Jalankan melalui Ollama (Dipermudahkan)

ollama run mistral-small-4

👉 Sesuai untuk:

  • Pembangunan setempat
  • Persediaan pantas

Mistral Small 4 vs GPT-OSS vs Qwen 3.5 (Perbandingan Penuh)

Mistral Small 4: kecekapan ekstrem MoE

  • 119B jumlah parameter
  • ~6.5B aktif per token
  • 128 pakar (4 aktif)
  • Multimodal (teks + imej)

👉 Idea utama: kapasiti sangat besar tetapi pengiraan per token rendah

Ini memberikan:

  • Prestasi tinggi
  • Latensi rendah
  • Kos inferens lebih rendah

GPT-OSS: MoE praktikal untuk penyebaran

  • Versi 120B: ~117B jumlah / 5.1B aktif
  • Versi 20B: ~21B jumlah / 3.6B aktif
  • Teks sahaja

👉 Idea utama: memuatkan model berkuasa pada perkakasan minimum

  • Boleh berjalan pada satu GPU H100
  • Penggunaan alat yang kukuh / sokongan output berstruktur

Qwen 3.5: penskalaan berkeupayaan tinggi

  • Sehingga 122B parameter
  • Kiraan parameter aktif lebih tinggi (~20B+)
  • Multimodal + multibahasa yang kukuh

👉 Idea utama: memaksimumkan keupayaan walaupun kos pengiraan meningkat

Perbandingan Penanda Aras Prestasi

KategoriMistral Small 4GPT-OSS (120B / 20B)Qwen 3.5 (Plus / MoE)
Input / OutputInput Teks + Imej → Output Teks Konteks: 256K tokenInput Teks → Output Teks Konteks: ~128K tokenInput Teks + Imej + Video → Output Teks Konteks: sehingga 1M token
Harga (API)$0.15 /M input $0.60 /M outputTiada harga API rasmi (hos kendiri) → kos bergantung kepada infrastruktur$0.40–0.50 /M input $2.40–3.00 /M output
Seni binaMoE (Mixture-of-Experts) 119B jumlah / 6.5B aktif 128 pakar (4 aktif)Transformer MoE 120B: 117B / 5.1B aktif 20B: 21B / 3.6B aktifMoE hibrid + lapisan lanjutan Sehingga 397B jumlah (A17B aktif)
Multimodal✅ Sokongan imej❌ Teks sahaja✅ Imej + Video
Kawalan Penaakulan✅ (reasoning_effort)✅ (mod rendah/sederhana/tinggi)✅ Penaakulan adaptif
Kecekapan Konteks⭐⭐⭐⭐⭐ (output pendek)⭐⭐⭐⭐⭐⭐⭐ (output panjang)
Sokongan Alat / Agen✅ Alat asli, agen, output berstruktur✅ Penggunaan alat yang kukuh, output berstruktur✅ Ekosistem agen lanjutan
Keupayaan Pengkodan⭐⭐⭐⭐⭐ (tahap Devstral)⭐⭐⭐⭐⭐⭐⭐⭐⭐
PenyebaranBerat (disyorkan berbilang GPU)Fleksibel (satu GPU boleh)Berat (lebih suka skala awan)

Dengan penaakulan dihidupkan, Small 4 menyamai atau mengatasi GPT-OSS 120B pada LCR, LiveCodeBench, dan AIME 2025, sambil menghasilkan output yang lebih pendek. Mistral memetik satu contoh di mana Small 4 memperoleh 0.72 pada AA LCR dengan hanya 1.6K aksara, manakala keputusan Qwen setanding memerlukan 5.8K–6.1K aksara, dan menyatakan Small 4 mengatasi GPT-OSS 120B pada LiveCodeBench sambil menghasilkan 20% kurang output.

Cara Menjalankan Mistral Small 4 Secara Setempat

Cara Menjalankan Mistral Small 4 Secara Setempat

Yang manakah pilihan setempat terbaik?

Pandangan saya: Mistral Small 4 ialah pilihan “satu model” terbaik jika anda mahukan penyebaran setempat atau peribadi yang seimbang dengan sembang umum yang kukuh, pengkodan, kerja berasaskan agen, dan sokongan multimodal. GPT-OSS ialah pilihan paling jelas jika anda mahukan model OpenAI yang tersedia terbuka dengan panduan penyajian setempat yang sangat jelas, khususnya versi 20B yang lebih kecil. Qwen3.5 ialah keluarga paling luas, dan itulah yang patut diteliti jika anda paling mengambil berat tentang liputan multibahasa, pelbagai peringkat saiz, dan pilihan penyajian setempat yang fleksibel.

Jika anda mahu mengakses model sumber terbuka teratas ini menggunakan API dan tidak mahu menukar pembekal, maka saya mengesyorkan CometAPI, ia menyediakan GPT-oss-120B dan Qwen 3.5 plus API dan lain-lain.

Dengan kata lain, anda boleh menggunakan Small 4 sebagai model dihoskan, atau tarik pemberatnya dan hos kendiri pada infrastruktur anda sendiri.

Kesimpulan

Small 4 sangat sesuai apabila anda memerlukan model berat terbuka, multimodal, mampu penaakulan yang boleh dihoskan sendiri, ditala halus, dan diintegrasikan ke dalam tindanan aplikasi gaya OpenAI sedia ada. Ia amat menarik untuk pasukan yang mementingkan kawalan penyebaran, kediaman data, dan kos token marginal yang lebih rendah, sambil masih mahukan model serba guna moden.

Sedia untuk mengakses Mistral Small 4? Maka datang ke CometAPI!

Akses Model Terbaik dengan Kos Rendah

Baca Lagi