Mistral 3: Keluarga Model, Seni Bina, Penanda Aras & Banyak Lagi

Mistral 3 ialah keluaran terkini dan bercita-cita tinggi daripada Mistral AI — satu keluarga penuh model open-weight yang memacu beberapa aspek serentak: penskalakan sparse-expert pada saiz flagship, varian padat berketumpatan untuk penggunaan di edge dan tempatan, multimodal konteks panjang, serta pelesenan terbuka yang permisif yang menggalakkan penggunaan dunia sebenar dan penyelidikan.

Apakah Mistral 3?

Mistral 3 ialah keluarga model bahasa multimodal open-weight yang dikeluarkan oleh Mistral AI pada akhir 2025. Keluarga ini merangkumi tiga model padat (bukan sparse) yang kompak — Ministral 3 dengan 3B, 8B dan 14B parameter — serta Mistral Large 3 sebagai model flagship, iaitu model Mixture-of-Experts (MoE) sparse dengan 675B jumlah parameter dan kira-kira 41B parameter aktif semasa inferens. Semua model dikeluarkan di bawah lesen Apache 2.0 dan tersedia dalam format termampat untuk menyokong pengedaran meluas dan penggunaan tempatan. Ciri utama yang diketengahkan oleh Mistral termasuk keupayaan multimodal, tetingkap konteks yang sangat panjang (Large: sehingga 256K token), dan pengoptimuman untuk pemecut moden.

Mistral 3 penting atas tiga sebab:

Julat — keluarga ini meliputi skala daripada kecil hingga frontier (varian Ministral 3B / 8B / 14B yang padat dan MoE 675B parameter), membolehkan aliran kerja penyelidikan dan produksi yang konsisten merentas kompromi kos/prestasi.
Keterbukaan — Mistral melepaskan model dan weight di bawah lesen Apache-2.0 dan menyediakan artifak boleh dikerahkan pada platform seperti Hugging Face untuk mempercepatkan penggunaan.
Fokus kejuruteraan — model Large 3 mengguna pakai seni bina MoE berbutir dengan kiraan parameter total yang sangat besar tetapi set parameter aktif yang jauh lebih kecil semasa inferens, yang menyasar untuk menyampaikan keupayaan tahap frontier dengan throughput dan kecekapan kos yang lebih baik bagi beban kerja tertentu.

Gambaran keseluruhan Keluarga Mistral 3

Ministral 3 — 14B (Ministral 3 14B)

Apa itu: Model padat (bukan MoE) terbesar dalam barisan “Ministral” kompak/edge: model multimodal 14 bilion parameter berkualiti tinggi yang ditawarkan dalam varian Base / Instruct / Reasoning dan ditala untuk pemahaman teks + imej serta pematuhan arahan.

Bila patut memilihnya: Anda mahukan prestasi hampir peringkat tertinggi daripada model padat tanpa kompleksiti MoE, dan anda inginkan prestasi arahan/chat dan visi yang kukuh dalam satu model. Sesuai untuk agen chat, pembantu multimodal, penjanaan kod, dan beban kerja on-device/edge yang lebih menuntut yang masih boleh menampung model lebih besar.

Ministral 3 — 8B (Ministral 3 8B)

Apa itu: Model padat 8 bilion parameter yang seimbang dan cekap dalam keluarga Ministral 3. Tersedia dalam varian Base / Instruct / Reasoning dan menyokong input multimodal. Diposisikan sebagai “titik manis” bagi banyak kes penggunaan produksi.

Bila patut memilihnya: Anda perlukan kualiti generasi dan keupayaan penaakulan yang baik tetapi mahukan latensi dan jejak VRAM yang jauh lebih kecil berbanding 14B. Hebat untuk chatbot, pembantu on-device, perkhidmatan web dengan bajet GPU terhad, dan penggunaan terbenam dengan pengkuantuman.

Ministral 3 — 3B (Ministral 3 3B)

Apa itu: Ahli padat terkecil dalam keluarga Ministral 3: model multimodal 3 bilion parameter (Base / Instruct / Reasoning). Direka untuk senario memori/latensi yang sangat rendah sambil mengekalkan ciri multimodal moden.

Bila patut memilihnya: Apabila anda perlukan inferens pada peranti, latensi sangat rendah, atau menjalankan banyak agen ringan serentak pada kos rendah — cth., aplikasi mudah alih, robot, dron, atau penempatan tempatan yang sensitif terhadap privasi. Sesuai untuk chat, pemeringkasan, tugas kod ringan, dan tugas pantas visi+teks.

Mistral Small 3 — 24B(Mistral Small 3)

Apa itu: Model padat 24 bilion parameter yang dioptimumkan untuk latensi dikeluarkan oleh Mistral sebagai sebahagian keluarga Mistral 3. Ia direka untuk menyampaikan throughput GPU tunggal yang tinggi dan kualiti generasi yang kukuh sambil kekal mudah untuk dihoskan (tiada kompleksiti MoE).

Bila patut memilihnya: Anda mahukan kompromi terbaik GPU tunggal (atau nod tunggal): kualiti jauh lebih tinggi daripada 14B/8B dalam banyak penanda aras, sambil masih agak mudah untuk dikerahkan. Sesuai untuk sistem perbualan produksi, pembantu berketepatan lebih tinggi, dan aplikasi yang memerlukan penaakulan lebih kuat tanpa kompleksiti hos MoE.

Mistral Large 3 — MoE (Mixture-of-Experts)

Apa itu: Model Mixture-of-Experts (MoE) sparse flagship dalam keluarga Mistral 3: ≈675B jumlah parameter dengan ~41B parameter aktif per token (iaitu hanya sebahagian pakar diaktifkan bagi setiap token). Direka untuk penaakulan tahap frontier, panjang konteks yang sangat panjang, dan prestasi rentas domain terbaik. Ia open-weight (Apache-2.0).

Bila patut memilihnya: Gunakan apabila anda memerlukan penaakulan terbaik, pemahaman konteks sangat panjang (Large 3 menyokong tetingkap yang sangat panjang — halaman vendor melaporkan sehingga 256k token untuk penggunaan konteks panjang), atau apabila anda membina sistem perusahaan bernilai tinggi yang boleh membenarkan kompleksiti dan infrastruktur hos MoE.

Compare table

Model	Kekuatan	Batasan & nota
Ministral 3 14B	Keseimbangan terbaik antara kualiti → saiz model dalam keluarga kompak; sering menyamai atau menghampiri latensi GPU tunggal peringkat 24B dalam timbunan yang dioptimumkan. Penaakulan dan pemahaman multimodal yang kukuh (apabila menggunakan varian Instruct / Reasoning).	Jejak memori lebih besar berbanding 8B/3B — mungkin memerlukan pengkuantuman atau kernel dioptimumkan untuk penggunaan GPU tunggal pengguna. Jika anda perlukan jejak latensi paling kecil, pertimbangkan alternatif 8B atau 3B.
Ministral 3 8B	Kompromi kos/latensi yang kuat: keperluan memori dan pengiraan jauh lebih rendah daripada 14B sambil mengekalkan prestasi multimodal dan penaakulan yang kukuh (terutamanya dalam varian Reasoning). Mudah dijalankan dengan runtime dioptimumkan dan pengkuantuman.	Tidak sekuat pada tugas penaakulan paling sukar atau konteks terpanjang seperti 14B atau model Small 24B, tetapi sering “cukup baik” untuk produksi pada kos jauh lebih rendah. Gunakan varian Reasoning untuk tugas matematik/kod/STEM.
Ministral 3 3B	Jejak terkecil, terpantas dijalankan pada perkakasan terhad, paling mudah dikuantumkan dan dikerahkan secara tempatan. Masih menyokong pemahaman imej dan pematuhan arahan dalam varian yang ditala.	Kualiti generasi mentah lebih rendah pada tugas penaakulan yang sangat panjang atau sangat kompleks berbanding 8B/14B/24B/MoE besar. Cemerlang untuk skala keluar atau edge tetapi pilih model lebih besar untuk keperluan ketepatan tertinggi.
Mistral Small 3	Prestasi penanda aras gaya MMLU tinggi untuk kelasnya, seni bina dan kernel yang dioptimumkan untuk latensi, dan dikeluarkan di bawah Apache-2.0 untuk kegunaan langsung. Disokong secara meluas oleh vendor awan dan runtime dioptimumkan (NVIDIA, dll.).	VRAM/pengiraan lebih besar daripada model Ministral 14B/8B/3B — mungkin memerlukan GPU tunggal yang lebih berkuasa atau set-up multi-GPU jika anda menyasar tetingkap konteks besar atau kebersamaan tinggi. Tetapi ia lebih mudah dihos berbanding flagship MoE.
Mistral Large 3	Kapasiti berkesan per token jauh lebih tinggi daripada model padat pada kos inferens yang setanding (kerana hanya pakar aktif digunakan), membolehkan penaakulan dan tingkah laku konteks panjang yang unggul.	Kompleksiti hos: MoE memerlukan shard pakar, penghalaan, memori tambahan, dan IO rangkaian — lebih kompleks dan mahal untuk dijalankan pada skala berbanding model padat.

Penanda aras Mistral 3 — bagaimana prestasinya?

Penanda aras bukanlah segala-galanya tetapi berguna sebagai ukuran. Pelbagai penilaian bebas dan pihak ketiga telah muncul sejak pelancaran; gambaran adalah bernuansa: Mistral Large 3 menolak atau menyamai model terbuka teratas pada banyak papan pendahulu standard (terutamanya tugas bukan penaakulan dan multimodal), manakala siri Ministral menunjukkan harga-prestasi yang kuat untuk tugas berskala lebih kecil.

NLP umum dan penaakulan

Kuat merentas tugas penaakulan dan konteks panjang: Mistral Large 3 melaporkan skor kompetitif (sering teratas dalam sumber terbuka) pada set data penaakulan (AIME, set penaakulan matematik/kod lanjutan) dan penanda aras pengetahuan umum seperti MMLU dalam perbandingan komuniti. Kertas rentas tugas dan papan pendahulu bebas yang memasukkan Large 3 menunjukkan ia berprestasi di atau hampir puncak model open-weight.

Kod & kejuruteraan perisian

Papan pendahulu pengaturcaraan sumber terbuka: catatan awal LMArena dan SWE-Bench menunjukkan bahawa Mistral Large 3 ialah antara pelaksana teratas dalam kalangan model terbuka untuk tugas pengaturcaraan — beberapa ranking komuniti meletakkannya di #1 sumber terbuka untuk papan pendahulu pengaturcaraan tertentu. Begitu pun, model tertutup (OpenAI, xAI, Google) selalunya masih mendahului keupayaan kod pasaran teratas secara mutlak dalam papan pendahulu proprietari.

Dalam papan pendahulu LMArena, Mistral Large 3 berada di:

tempat ke-2 dalam kalangan model sumber terbuka bukan inferens;
tempat ke-6 dalam kalangan model sumber terbuka keseluruhan.

Item	Mistral 3 14B Instruct	Mistral 3 8B Instruct	Mistral 3 3B Instruct
Kedudukan Model	Flagship edge berprestasi tinggi (kelas perusahaan)	Model arus perdana seimbang dan cekap tenaga	Model tempatan/edge ultra-ringan
Jumlah Parameter	≈ 14B (13.5B LM + 0.4B Vision)	≈ 8.8B (8.4B LM + 0.4B Vision)	≈ 3.8B (3.4B LM + 0.4B Vision)
Keupayaan Visi	Pemahaman imej resolusi tinggi, analisis dokumen	Soal jawab imej resolusi sederhana	Penerangan imej ringan
Keupayaan Agen	Panggilan Fungsi + output JSON	Panggilan Fungsi + output JSON	Panggilan Fungsi + output JSON
Keupayaan Penaakulan Konteks	⭐⭐⭐⭐⭐ (Kuat)	⭐⭐⭐⭐ (Sederhana-kuat)	⭐⭐⭐ (Ringan)
Penaakulan Matematik (AIME25)	0.850	0.787	0.721
Prestasi Multimodal (MMMBench)	8.49	8.08	7.83
Pematuhan Arahan (WildBench)	68.5	66.8	56.8
Keperluan Memori (FP8)	≈ 24 GB	≈ 12 GB	≈ 8 GB

Cara mengakses / mencuba Mistral 3 (langkah demi langkah)

1)Muat turun dan jalankan daripada Hugging Face (weights + model card)

Lawati organisasi Mistral dan halaman model khusus (cth. mistralai/Mistral-Large-3-675B-Instruct-2512 atau halaman model Ministral 3) dan ikuti “Files & versions” / model card untuk format yang disyorkan (NVFP4/FP8/FP16).
Aliran kerja tipikal:
1. pip install transformers accelerate torch (atau gunakan runtime seperti vLLM).
2. Salin ID model tepat dari Hugging Face (halaman model mengandungi ID rasmi dan format yang disyorkan).
3. Contoh (untuk model Ministal yang kompak — gunakan id HF yang tepat untuk larian sebenar):

from transformers import AutoTokenizer, AutoModelForCausalLM  
tokenizer = AutoTokenizer.from_pretrained("mistralai/<model-id>")  
model = AutoModelForCausalLM.from_pretrained("mistralai/<model-id>",  
                                             device_map="auto",  
                                             torch_dtype="auto")

Untuk Large 3 (MoE), utamakan runtime vendor atau endpoint HF-inference — pemuatan terus transformers mungkin tidak optimum untuk pengagihan MoE.

2) Gunakan endpoint awan terurus (paling pantas, tanpa infra)

Amazon Bedrock: Mistral Large 3 dan Ministral 3 ditambah ke Bedrock — anda boleh mencipta endpoint tanpa pelayan melalui Bedrock dan memanggilnya melalui API/SDK Bedrock. Sesuai untuk aplikasi produksi tanpa operasi infra.
IBM watsonx dan Azure Foundry: diumumkan sebagai rakan pelancaran — akses terhos gred perusahaan dan ciri pematuhan.
Mistral AI Studio: produk terhos Mistral sendiri untuk bereksperimen dengan model mereka.

3) Gunakan timbunan dioptimumkan vendor (jika anda hos sendiri)

NVIDIA: gunakan runtime dioptimumkan NVIDIA dan varian FP8/NVFP4 untuk throughput dan kos yang lebih baik (NVIDIA menerbitkan blog dev dengan pengoptimuman untuk Mistral 3). Jika anda merancang untuk menghos Large 3, gunakan perkakasan kelas GB200/H200 dan ikuti panduan NVIDIA.
vLLM / runtime MoE khusus: ramai kumpulan menggunakan vLLM atau timbunan inferens yang peka MoE untuk latensi lebih rendah dan pembatching lebih baik.

4) Hos / API pihak ketiga

Penyedia seperti Modal, CometAPI dan lain-lain membolehkan anda memanggil model melalui API yang lebih ringkas atau endpoint bayar-semula — berguna untuk prototaip tanpa penguncian vendor awan.

batasan, risiko, dan amalan terbaik

Keterbatasan dan mod kegagalan yang diketahui

Penanda aras bukan segalanya: kedudukan pada papan pendahulu yang dilaporkan berbeza-beza; penilaian khusus tugas adalah kritikal.
Variasi penalaan arahan: varian yang ditala arahan berbeza (base / instruct / reasoning) boleh menghasilkan tingkah laku berbeza; pilih yang sesuai.
Kompleksiti penggelaran untuk MoE: model mixture-of-experts boleh lebih kompleks untuk dikerahkan dan ditala (penghalaan, susun atur memori, pembatching). Gunakan runtime yang disyorkan vendor dan format terkuantum jika boleh.

Pertimbangan kos dan kecekapan

Ministral 3 (3–14B): Kos per token rendah, boleh dilakukan dengan GPU murah atau banyak instance on-prem. Sesuai untuk disepadukan ke dalam aplikasi klien, backend mudah alih, atau perkhidmatan dengan bajet latensi ketat.
Mistral Large 3: Keperluan sumber mutlak lebih tinggi, tetapi pengaktifan sparse mengurangkan pengiraan aktif per token berbanding model padat 675B; timbunan dioptimumkan vendor (NVIDIA) boleh mengurangkan latensi dan kos dengan ketara. Jika anda memerlukan faedah penaakulan/konteks panjang, Large 3 menjadi kos efektif berbanding model padat setanding yang memerlukan pengiraan inferens jauh lebih banyak untuk menyamai keupayaan.

Keselamatan dan tadbir urus

Pelesenan terbuka + kawalan perusahaan: Weight Apache 2.0 membolehkan penggunaan meluas; perusahaan masih harus menambah lapisan keselamatan (penapis, semakan manusia-dalam-gelung, keturunan), dan melakukan red-teaming untuk senario salah guna khusus domain. Perkongsian dan berita menunjukkan Mistral bekerjasama dengan rakan kongsi untuk pelancaran yang bertanggungjawab.

Amalan terbaik

Uji penanda aras pada data anda: gandakan penilaian dengan prompt, tetapan suhu, dan pasca-pemprosesan anda.
Inferens berbilang peringkat: halakan tugas murah/pantas kepada model padat Ministral dan simpan Large 3 untuk kerja lebih berat.
Manfaatkan format dioptimumkan: gunakan format dan kernel yang dibekalkan vendor (NVFP4/Triton) untuk latensi lebih baik dan jejak memori berkurang.

Keputusan akhir: di mana Mistral 3 berada pada 2025?

Mistral 3 ialah keluaran berkepentingan strategik untuk ekosistem AI sumber terbuka dan perusahaan. Dengan menggabungkan keluarga kompak yang berlesen permisif dan mesra penggelaran (Ministral 3) dengan flagship sparse berkapasiti tinggi (Mistral Large 3), Mistral telah menyampaikan set alat yang merangkumi pembangunan tempatan hobi sehinggalah beban kerja agen perusahaan yang menuntut. Pengoptimuman vendor (terutamanya dengan NVIDIA) dan format terbuka bermakna prestasi dan kos boleh ditala mengikut beban kerja. Penanda aras awal menunjukkan Mistral Large 3 bersaing di puncak papan pendahulu model terbuka manakala varian Ministral menonjol untuk kecekapan kos dalam tugas praktikal.

Jika keutamaan anda adalah pelesenan terbuka, keupayaan menjalankan model secara tempatan/luar talian, dan prestasi penaakulan yang kompetitif pada bot

Untuk bermula, terokai keupayaan lebih banyak model (seperti Gemini 3 Pro) dalam Playground dan rujuk panduan API untuk arahan terperinci. Sebelum mengakses, pastikan anda telah log masuk ke CometAPI dan memperoleh kunci API. CometAPI menawarkan harga yang jauh lebih rendah daripada harga rasmi bagi membantu anda melakukan integrasi.

Sedia untuk bermula?→ Daftar CometAPI hari ini !