Mistral Large 3 adalah keluarga model “frontier” terbaru yang dirilis oleh Mistral AI pada awal Desember 2025. Ini adalah model fondasi multimodal open-weight yang berorientasi produksi, dibangun di atas desain Mixture-of-Experts (MoE) granular yang jarang, dan ditujukan untuk menghadirkan kemampuan penalaran “frontier”, pemahaman konteks panjang, serta kemampuan visi + teks sambil menjaga inferensi tetap praktis melalui sparsitas dan kuantisasi modern. Mistral Large 3 memiliki 675 miliar parameter total dengan ~41 miliar parameter aktif saat inferensi dan jendela konteks 256k token dalam konfigurasi default — kombinasi yang dirancang untuk mendorong kapabilitas dan skala tanpa memaksa setiap inferensi menyentuh semua parameter.
Apa itu Mistral Large 3? Bagaimana cara kerjanya?
Apa itu Mistral Large 3?
Mistral Large 3 adalah model frontier unggulan Mistral AI dalam keluarga Mistral 3 — sebuah model Mixture-of-Experts (MoE) besar, open-weight, multimodal yang dirilis di bawah lisensi Apache-2.0. Model ini dirancang untuk menghadirkan kapabilitas “frontier” (penalaran, pengodean, pemahaman konteks panjang, tugas multimodal) sambil menjaga komputasi inferensi tetap sparse dengan hanya mengaktifkan sebagian pakar model untuk setiap token. Materi resmi Mistral menggambarkan Large 3 sebagai model dengan ~675 miliar parameter total dan sekitar 40–41 miliar parameter aktif yang digunakan per forward pass; model ini juga menyertakan encoder visi dan direkayasa untuk menangani jendela konteks yang sangat panjang (Mistral dan mitra menyebut hingga 256k token).
Singkatnya: ini adalah model MoE yang mengemas kapasitas total yang sangat besar (agar dapat menyimpan beragam spesialisasi) tetapi hanya menghitung pada subset aktif yang jauh lebih kecil saat inferensi — bertujuan memberikan performa frontier secara lebih efisien dibandingkan model dense dengan ukuran total yang sebanding.
Arsitektur inti: Mixture-of-Experts (MoE) granular
Secara garis besar, Mistral Large 3 menggantikan beberapa (atau banyak) sublayer feed-forward dari transformer dengan lapisan MoE. Setiap lapisan MoE berisi:
- Banyak pakar (experts) — sub-jaringan independen (biasanya blok FFN). Secara agregat, mereka menghasilkan jumlah parameter total model yang sangat besar (misalnya ratusan miliar).
- Router / jaringan gating — jaringan kecil yang melihat representasi token dan memutuskan pakar mana yang harus memproses token tersebut. Router MoE modern biasanya hanya memilih top-k pakar (sparse gating), sering kali k=1 atau k=2, untuk menjaga komputasi tetap rendah.
- Aktivasi sparse — untuk token tertentu, hanya pakar yang dipilih yang berjalan; sisanya dilewati. Inilah sumber efisiensi: parameter yang disimpan total >> parameter aktif yang dihitung per token.
Mistral menyebut desainnya granular MoE untuk menekankan bahwa model memiliki banyak pakar kecil/terspesialisasi dan skema perutean yang dioptimalkan untuk skala lintas banyak GPU dan konteks panjang. Hasilnya: kapasitas representasional yang sangat besar sambil menjaga komputasi per token mendekati model dense yang jauh lebih kecil,Total Parameter:
- Total Parameters: 675 miliar; jumlah seluruh parameter yang disimpan di semua pakar dan komponen transformer lainnya. Angka ini menunjukkan kapasitas bruto model (seberapa banyak pengetahuan dan spesialisasi yang dapat ditampung).
- Active Parameters: 41 miliar; subset parameter yang benar-benar digunakan/dihitung untuk forward pass khas, karena router hanya mengaktifkan beberapa pakar per token. Ini adalah metrik yang lebih berkaitan dengan komputasi inferensi dan penggunaan memori per permintaan. Materi publik Mistral mencantumkan ~41B parameter aktif; beberapa halaman model menunjukkan jumlah sedikit berbeda untuk varian tertentu (mis., 39B) — ini dapat mencerminkan versi varian/instruct atau pembulatan.
Konfigurasi Pelatihan:
- Dilatih dari awal menggunakan 3000 GPU NVIDIA H200;
- Data mencakup banyak bahasa, banyak tugas, dan banyak modalitas;
- Mendukung masukan gambar dan inferensi lintas bahasa.
Tabel fitur Mistral Large 3
| Kategori | Deskripsi Kapabilitas Teknis |
|---|---|
| Pemahaman multimodal | Mendukung masukan gambar dan analisis, memungkinkan pemahaman konten visual selama percakapan. |
| Dukungan multibahasa | Secara native mendukung 10+ bahasa utama (Inggris, Prancis, Spanyol, Jerman, Italia, Portugis, Belanda, Tionghoa, Jepang, Korea, Arab, dll.). |
| Dukungan prompt sistem | Sangat konsisten dengan instruksi sistem dan prompt kontekstual, cocok untuk alur kerja kompleks. |
| Kapabilitas agen | Mendukung pemanggilan fungsi native dan output JSON terstruktur, memungkinkan pemanggilan alat langsung atau integrasi sistem eksternal. |
| Jendela konteks | Mendukung jendela konteks ultra panjang 256K token, salah satu yang terpanjang di model open-source. |
| Posisi kinerja | Kinerja kelas produksi dengan pemahaman konteks panjang yang kuat dan output yang stabil. |
| Lisensi sumber terbuka | Lisensi Apache 2.0, bebas digunakan untuk modifikasi komersial. |
Ikhtisar:
- Performa sebanding dengan model sumber tertutup arus utama;
- Kinerja luar biasa dalam tugas multibahasa (terutama pada skenario non-Inggris dan non-Tionghoa);
- Memiliki kemampuan pemahaman gambar dan mengikuti instruksi;
- Menyediakan versi dasar (Base) dan versi yang dioptimalkan untuk instruksi (Instruct), dengan versi yang dioptimalkan untuk inferensi (Reasoning) segera hadir.
Bagaimana performa Mistral Large 3 pada tolok ukur?
Tolok ukur publik awal dan papan peringkat menunjukkan Mistral Large 3 menempati posisi tinggi di antara model open-source: penempatan LMArena #2 untuk model OSS non-reasoning dan penyebutan posisi papan peringkat papan atas pada berbagai tugas standar (mis., GPQA, MMLU dan suite penalaran/pengetahuan umum lainnya).
![Mistral Large 3 adalah keluarga model “frontier” terbaru yang dirilis oleh Mistral AI pada awal Desember 2025. Ini adalah model fondasi multimodal open-weight yang berorientasi produksi, dibangun di atas desain Mixture-of-Experts (MoE) granular yang jarang, dan ditujukan untuk menghadirkan kemampuan penalaran “frontier”, pemahaman konteks panjang, serta kemampuan visi + teks sambil menjaga inferensi tetap praktis melalui sparsitas dan kuantisasi modern. Mistral Large 3 memiliki 675 miliar parameter total dengan ~41 miliar parameter aktif saat inferensi dan jendela konteks 256k token dalam konfigurasi default — kombinasi yang dirancang untuk mendorong kapabilitas dan skala tanpa memaksa setiap inferensi menyentuh semua parameter.
Apa itu Mistral Large 3? Bagaimana cara kerjanya?
Apa itu Mistral Large 3?
Mistral Large 3 adalah model frontier unggulan Mistral AI dalam keluarga Mistral 3 — sebuah model Mixture-of-Experts (MoE) besar, open-weight, multimodal yang dirilis di bawah lisensi Apache-2.0. Model ini dirancang untuk menghadirkan kapabilitas “frontier” (penalaran, pengodean, pemahaman konteks panjang, tugas multimodal) sambil menjaga komputasi inferensi tetap sparse dengan hanya mengaktifkan sebagian pakar model untuk setiap token.
Mistral Large 3 mengadopsi pendekatan Mixture-of-Experts (MoE): alih-alih mengaktifkan setiap parameter untuk setiap token, model merutekan pemrosesan token ke subset sub-jaringan pakar. Jumlah yang dipublikasikan untuk Large 3 adalah sekitar 41 miliar parameter aktif (parameter yang biasanya berpartisipasi untuk sebuah token) dan 675 miliar parameter total di semua pakar — desain besar namun sparse yang bertujuan mencapai titik ideal antara efisiensi komputasi dan kapasitas model. Model ini juga mendukung jendela konteks yang sangat panjang (terdokumentasi hingga 256k token) dan masukan multimodal (teks + gambar).
Singkatnya: ini adalah model MoE yang mengemas kapasitas total yang sangat besar (agar dapat menyimpan beragam spesialisasi) tetapi hanya menghitung pada subset aktif yang jauh lebih kecil saat inferensi — bertujuan memberikan performa frontier secara lebih efisien dibandingkan model dense dengan ukuran total yang sebanding.
Arsitektur inti: Mixture-of-Experts (MoE) granular
Secara garis besar, Mistral Large 3 menggantikan beberapa (atau banyak) sublayer feed-forward dari transformer dengan lapisan MoE. Setiap lapisan MoE berisi:
- Banyak pakar (experts) — sub-jaringan independen (biasanya blok FFN). Secara agregat, mereka menghasilkan jumlah parameter total model yang sangat besar (misalnya ratusan miliar).
- Router / jaringan gating — jaringan kecil yang melihat representasi token dan memutuskan pakar mana yang harus memproses token tersebut. Router MoE modern biasanya hanya memilih top-k pakar (sparse gating), sering kali k=1 atau k=2, untuk menjaga komputasi tetap rendah.
- Aktivasi sparse — untuk token tertentu, hanya pakar yang dipilih yang berjalan; sisanya dilewati. Inilah sumber efisiensi: parameter yang disimpan total >> parameter aktif yang dihitung per token.
Mistral menyebut desainnya granular MoE untuk menekankan bahwa model memiliki banyak pakar kecil/terspesialisasi dan skema perutean yang dioptimalkan untuk skala lintas banyak GPU dan konteks panjang. Hasilnya: kapasitas representasional yang sangat besar sambil menjaga komputasi per token mendekati model dense yang jauh lebih kecil,Total Parameter:
- Total Parameters: 675 miliar; jumlah seluruh parameter yang disimpan di semua pakar dan komponen transformer lainnya. Angka ini menunjukkan kapasitas bruto model (seberapa banyak pengetahuan dan spesialisasi yang dapat ditampung).
- Active Parameters: 41 miliar. subset parameter yang benar-benar digunakan/dihitung untuk forward pass khas, karena router hanya mengaktifkan beberapa pakar per token. Ini adalah metrik yang lebih berkaitan dengan komputasi inferensi dan penggunaan memori per permintaan. Materi publik Mistral mencantumkan ~41B parameter aktif; beberapa halaman model menunjukkan jumlah sedikit berbeda untuk varian tertentu (mis., 39B) — ini dapat mencerminkan versi varian/instruct atau pembulatan.
Konfigurasi Pelatihan:
- Dilatih dari awal menggunakan 3000 GPU NVIDIA H200;
- Data mencakup banyak bahasa, banyak tugas, dan banyak modalitas;
- Mendukung masukan gambar dan inferensi lintas bahasa.
Tabel fitur Mistral Large 3
| Kategori | Deskripsi Kapabilitas Teknis |
|---|---|
| Pemahaman multimodal | Mendukung masukan gambar dan analisis, memungkinkan pemahaman konten visual selama percakapan. |
| Dukungan multibahasa | Secara native mendukung 10+ bahasa utama (Inggris, Prancis, Spanyol, Jerman, Italia, Portugis, Belanda, Tionghoa, Jepang, Korea, Arab, dll.). |
| Dukungan prompt sistem | Sangat konsisten dengan instruksi sistem dan prompt kontekstual, cocok untuk alur kerja kompleks. |
| Kapabilitas agen | Mendukung pemanggilan fungsi native dan output JSON terstruktur, memungkinkan pemanggilan alat langsung atau integrasi sistem eksternal. |
| Jendela konteks | Mendukung jendela konteks ultra panjang 256K token, salah satu yang terpanjang di model open-source. |
| Posisi kinerja | Kinerja kelas produksi dengan pemahaman konteks panjang yang kuat dan output yang stabil. |
| Lisensi sumber terbuka | Lisensi Apache 2.0, bebas digunakan untuk modifikasi komersial. |
Ikhtisar:
- Performa sebanding dengan model sumber tertutup arus utama;
- Kinerja luar biasa dalam tugas multibahasa (terutama pada skenario non-Inggris dan non-Tionghoa);
- Memiliki kemampuan pemahaman gambar dan mengikuti instruksi;
- Menyediakan versi dasar (Base) dan versi yang dioptimalkan untuk instruksi (Instruct), dengan versi yang dioptimalkan untuk inferensi (Reasoning) segera hadir.
Bagaimana performa Mistral Large 3 pada tolok ukur?
Tolok ukur publik awal dan papan peringkat menunjukkan Mistral Large 3 menempati posisi tinggi di antara model open-source: penempatan LMArena #2 untuk model OSS non-reasoning dan penyebutan posisi papan peringkat papan atas pada berbagai tugas standar (mis., GPQA, MMLU dan suite penalaran/pengetahuan umum lainnya).]()

Kekuatan yang ditunjukkan sejauh ini
- Pemahaman dokumen panjang dan tugas berbasis pengambilan (retrieval): Kombinasi konteks panjang dan kapasitas sparse memberi Mistral Large 3 keunggulan pada tugas konteks panjang (tanya jawab dokumen, peringkasan lintas dokumen besar).
- Pengetahuan umum dan mengikuti instruksi: Dalam varian yang disetel instruksi, Mistral Large 3 kuat pada banyak tugas “asisten umum” dan kepatuhan terhadap prompt sistem.
- Energi dan throughput (pada perangkat keras yang dioptimalkan): Analisis NVIDIA menunjukkan efisiensi energi dan peningkatan throughput yang mengesankan saat Mistral Large 3 dijalankan di GB200 NVL72 dengan optimisasi khusus MoE — angka-angka yang langsung diterjemahkan ke biaya per token dan skalabilitas bagi perusahaan.
Bagaimana cara mengakses dan menggunakan Mistral Large 3?
Akses cloud terkelola (cara cepat)
Mistral Large 3 tersedia melalui berbagai mitra cloud dan platform:
- Hugging Face meng-host kartu model dan artefak inferensi (paket model termasuk varian instruct dan artefak NVFP4 yang dioptimalkan). Anda dapat memanggil model melalui Hugging Face Inference API atau mengunduh artefak yang kompatibel.
- Azure / Microsoft Foundry mengumumkan ketersediaan Mistral Large 3 untuk beban kerja perusahaan.
- NVIDIA memublikasikan runtime yang dipercepat dan catatan optimisasi untuk keluarga GB200/H200 dan mitra seperti Red Hat memublikasikan instruksi vLLM.
Rute terkelola ini memungkinkan Anda memulai dengan cepat tanpa harus berkutat dengan rekayasa runtime MoE.
Menjalankan secara lokal atau di infrastruktur Anda (lanjutan)
Menjalankan Mistral Large 3 secara lokal atau di infrastruktur privat dapat dilakukan tetapi tidak sederhana:
Opsi:
- Artefak Hugging Face + accelerate/transformers — dapat digunakan untuk varian yang lebih kecil atau jika Anda memiliki farm GPU dan alat sharding yang sesuai. Kartu model mencantumkan kendala spesifik platform dan format yang direkomendasikan (mis., NVFP4).
- vLLM — server inferensi berperforma tinggi yang dioptimalkan untuk LLM besar dan konteks panjang; Red Hat dan mitra lain memublikasikan panduan untuk menjalankan Mistral Large 3 di vLLM guna memperoleh throughput dan latensi yang efisien.
- Stack khusus (NVIDIA Triton / NVL72 / kernel kustom) — diperlukan untuk latensi/efisiensi terbaik pada skala; NVIDIA memublikasikan blog tentang mempercepat Mistral 3 dengan GB200/H200 dan runtime NVL72.
- Ollama / pengelola VM lokal — panduan komunitas menunjukkan penyiapan lokal (Ollama, Docker) untuk eksperimen; harapkan jejak RAM/GPU besar dan kebutuhan menggunakan varian model atau checkpoint terkuantisasi.
Contoh: inferensi Hugging Face (python)
Ini adalah contoh sederhana menggunakan Hugging Face Inference API (cocok untuk varian instruct). Ganti HF_API_KEY dan MODEL dengan nilai dari kartu model:
# Example: call Mistral Large 3 via Hugging Face Inference APIimport requests, json, osHF_API_KEY = os.environ.get("HF_API_KEY")MODEL = "mistralai/Mistral-Large-3-675B-Instruct-2512"headers = {"Authorization": f"Bearer {HF_API_KEY}", "Content-Type": "application/json"}payload = { "inputs": "Summarize the following document in 3 bullet points: <paste your long text here>", "parameters": {"max_new_tokens": 256, "temperature": 0.0}}r = requests.post(f"https://api-inference.huggingface.co/models/{MODEL}", headers=headers, data=json.dumps(payload))print(r.json())
Catatan: Untuk konteks yang sangat panjang (puluhan ribu token), periksa rekomendasi streaming/pemecahan (chunking) dari penyedia dan panjang konteks yang didukung oleh varian model.
Contoh: memulai server vLLM (konseptual)
vLLM adalah server inferensi berkinerja tinggi yang digunakan oleh perusahaan. Di bawah ini adalah start konseptual (periksa dokumentasi vLLM untuk flag, path model, dan dukungan MoE):
# conceptual example — adjust to your environment and model pathvllm --model-path /models/mistral-large-3-instruct \ --num-gpus 4 \ --max-batch-size 8 \ --max-seq-len 65536 \ --log-level info
Kemudian gunakan klien Python vLLM atau API HTTP untuk mengirim permintaan. Untuk model MoE Anda harus memastikan build dan runtime vLLM mendukung kernel pakar sparse dan format checkpoint model (NVFP4/FP8/BF16).
Praktik terbaik praktis untuk menerapkan Mistral Large 3
Pilih varian dan presisi yang tepat
- Mulai dengan checkpoint yang disetel instruksi untuk alur kerja asisten (keluarga model ini menyertakan varian Instruct). Gunakan model base hanya saat Anda berencana melakukan fine-tuning atau menerapkan penyetelan instruksi sendiri.
- Gunakan varian presisi rendah yang dioptimalkan (NVFP4, FP8, BF16) jika tersedia untuk perangkat keras Anda; ini memberikan efisiensi besar dengan degradasi kualitas minimal jika checkpoint diproduksi dan divalidasi oleh vendor model.
Memori, sharding, dan perangkat keras
- Jangan berharap dapat menjalankan checkpoint 675B parameter total pada satu GPU komoditas — meskipun hanya ~41B yang aktif per token, checkpoint penuh sangat besar dan memerlukan strategi sharding plus akselerator memori tinggi (kelas GB200/H200) atau orkestrasi offload CPU+GPU.
- Gunakan paralelisme model + penempatan pakar: model MoE diuntungkan dari penempatan pakar lintas perangkat untuk menyeimbangkan trafik perutean. Ikuti panduan vendor tentang penugasan pakar.
Rekayasa konteks panjang
- Bagi menjadi chunk dan lakukan retrieval: Untuk banyak tugas dokumen panjang, gabungkan komponen retrieval dengan konteks 256k untuk menjaga latensi dan biaya tetap terkendali — yakni, ambil potongan yang relevan, lalu berikan konteks terfokus ke model.
- Streaming dan windowing: Untuk aliran berkelanjutan, pertahankan jendela geser dan rangkum konteks lama menjadi catatan yang dipadatkan agar anggaran perhatian model tetap efektif.
Rekayasa prompt untuk model MoE
- Lebih suka instruksi eksplisit: checkpoint yang disetel instruksi merespons lebih baik pada tugas yang jelas dan contoh. Gunakan contoh few-shot dalam prompt untuk output terstruktur yang kompleks.
- Chain-of-thought dan pesan sistem: Untuk tugas penalaran, strukturkan prompt yang mendorong penalaran bertahap dan verifikasi hasil antara. Namun waspadai: memancing chain-of-thought meningkatkan konsumsi token dan latensi.
Kesimpulan
Mistral Large 3 adalah tonggak penting dalam lanskap model open-weight: model 675B total / ~41B aktif MoE dengan konteks 256k, kemampuan multimodal, dan resep penerapan yang dioptimalkan bersama mitra infrastruktur besar. Model ini menawarkan profil performa-untuk-biaya yang menarik bagi perusahaan yang dapat mengadopsi runtime dan stack perangkat keras MoE, sambil tetap memerlukan evaluasi cermat untuk tugas penalaran khusus dan kesiapan operasional.
Untuk memulai, jelajahi lebih banyak model AI (seperti Gemini 3 Pro) beserta kemampuannya di Playground dan baca panduan API untuk instruksi terperinci. Sebelum mengakses, pastikan Anda sudah masuk ke CometAPI dan memperoleh kunci API. CometAPI menawarkan harga yang jauh lebih rendah daripada harga resmi untuk membantu Anda melakukan integrasi.
Siap mulai?→ Daftar CometAPI hari ini !


