Mistral Large 3 ialah keluarga model “frontier” terbaharu yang dikeluarkan oleh Mistral AI pada awal Disember 2025. Ia merupakan model asas multimodal berorientasikan produksi dengan open-weight, dibina berasaskan reka bentuk Mixture-of-Experts (MoE) jarang yang granular dan bertujuan untuk menyampaikan penaakulan “frontier”, pemahaman konteks panjang, serta keupayaan visi + teks sambil mengekalkan inferens yang praktikal melalui kejarangan dan pengkuantitian moden. Mistral Large 3 mempunyai 675 bilion jumlah parameter dengan ~41 bilion parameter aktif semasa inferens dan tetingkap konteks 256k token dalam konfigurasi lalai — gabungan yang direka untuk memacu keupayaan dan skala tanpa memaksa setiap inferens menyentuh semua parameter.
Apakah Mistral Large 3? Bagaimana ia berfungsi?
Apakah Mistral Large 3?
Mistral Large 3 ialah model “frontier” utama Mistral AI dalam keluarga Mistral 3 — sebuah model Mixture-of-Experts (MoE) multimodal berskala besar dengan open-weight yang dikeluarkan di bawah lesen Apache-2.0. Ia direka untuk menyampaikan keupayaan “frontier” (penaakulan, pengekodan, pemahaman konteks panjang, tugasan multimodal) sambil mengekalkan pengiraan inferens yang jarang dengan hanya mengaktifkan subset pakar model bagi setiap token. Bahan rasmi Mistral menerangkan Large 3 sebagai model dengan ~675 bilion jumlah parameter dan kira-kira 40–41 bilion parameter aktif digunakan bagi setiap laluan hadapan; ia juga termasuk pengekod visi dan direka untuk menangani tetingkap konteks yang sangat panjang (Mistral dan rakan menyatakan sehingga 256k token).
Ringkasnya: ia ialah model MoE yang menempatkan kapasiti besar secara keseluruhan (supaya boleh menyimpan pelbagai kepakaran) tetapi hanya mengira subset aktif yang jauh lebih kecil semasa inferens — bertujuan memberi prestasi “frontier” dengan lebih cekap berbanding model padat yang bersaiz jumlah setara.
Seni bina teras: Mixture-of-Experts (MoE) granular
Secara umum, Mistral Large 3 menggantikan sebahagian (atau banyak) sublapis suap-maju transformer dengan lapisan MoE. Setiap lapisan MoE mengandungi:
- Ramai pakar — rangkaian kecil bebas (kebiasaannya blok FFN). Secara agregat, mereka menghasilkan jumlah parameter model yang sangat besar (cth., ratusan bilion).
- Penghala / rangkaian gating — rangkaian kecil yang melihat representasi token dan menentukan pakar mana yang patut memproses token tersebut. Penghala MoE moden lazimnya hanya memilih top-k pakar (gating jarang), selalunya k=1 atau k=2, untuk mengekalkan kos pengiraan yang rendah.
- Pengaktifan jarang — bagi mana-mana token, hanya pakar terpilih dijalankan; yang lain dilangkau. Di sinilah kecekapan muncul: jumlah parameter tersimpan >> parameter aktif yang dikira per token.
Mistral menyebut reka bentuknya sebagai MoE granular untuk menekankan bahawa model ini mempunyai banyak pakar kecil/khusus dan skema penghalaan yang dioptimumkan untuk penskalaan merentas banyak GPU dan konteks panjang. Hasilnya: kapasiti perwakilan yang sangat besar sambil mengekalkan pengiraan per token yang lebih hampir kepada model padat yang jauh lebih kecil, Jumlah Parameter:
- Jumlah Parameter: 675 bilion; jumlah semua parameter yang disimpan merentas setiap pakar dan selebihnya komponen transformer. Angka ini menunjukkan kapasiti kasar model (seberapa banyak pengetahuan dan pengkhususan yang boleh ditampung).
- Parameter Aktif: 41 bilion — subset parameter yang sebenarnya digunakan/dikira bagi laluan hadapan tipikal, kerana penghala hanya mengaktifkan beberapa pakar per token. Inilah metrik yang lebih berkait dengan pengiraan inferens dan penggunaan memori per permintaan. Bahan umum Mistral menyenaraikan ~41B parameter aktif; sesetengah halaman model menunjukkan kiraan sedikit berbeza untuk varian tertentu (cth., 39B) — ini boleh mencerminkan varian/versi instruksi atau pembundaran.
Konfigurasi Latihan:
- Dilatih dari awal menggunakan 3000 GPU NVIDIA H200;
- Data merangkumi pelbagai bahasa, pelbagai tugasan dan pelbagai modaliti;
- Menyokong input imej dan inferens merentas bahasa.
Jadual ciri Mistral Large 3
| Kategori | Huraian Keupayaan Teknikal |
|---|---|
| Pemahaman Multimodal | Menyokong input dan analisis imej, membolehkan kefahaman kandungan visual semasa dialog. |
| Sokongan Berbilang Bahasa | Menyokong secara asli 10+ bahasa utama (English, French, Spanish, German, Italian, Portuguese, Dutch, Chinese, Japanese, Korean, Arabic, dll.). |
| Sokongan Prompt Sistem | Sangat konsisten dengan arahan sistem dan prompt konteks, sesuai untuk aliran kerja yang kompleks. |
| Keupayaan Agen | Menyokong pemanggilan fungsi asli dan output JSON berstruktur, membolehkan pelancaran alat terus atau integrasi sistem luaran. |
| Tetingkap Konteks | Menyokong tetingkap konteks ultra panjang 256K token, antara yang terpanjang bagi model sumber terbuka. |
| Kedudukan Prestasi | Prestasi bertaraf produksi dengan pemahaman konteks panjang yang kukuh dan output yang stabil. |
| Lesen Sumber Terbuka | Apache 2.0 License, boleh digunakan bebas untuk pengubahsuaian komersial. |
Gambaran keseluruhan:
- Prestasi setanding dengan model tertutup arus perdana;
- Prestasi cemerlang dalam tugasan berbilang bahasa (terutamanya dalam senario bukan English dan bukan Chinese);
- Mempunyai keupayaan memahami imej dan mematuhi arahan;
- Menyediakan versi asas (Base) dan versi dioptimumkan arahan (Instruct), dengan versi dioptimumkan inferens (Reasoning) akan datang.
Bagaimana prestasi Mistral Large 3 dalam penanda aras?
Penanda aras awam awal dan papan pendahulu menunjukkan Mistral Large 3 berada di kedudukan tinggi dalam kalangan model sumber terbuka: penempatan LMArena #2 dalam model OSS bukan penaakulan dan disebut berada dalam kedudukan teratas di pelbagai tugasan piawai (cth., GPQA, MMLU dan suite penaakulan/pengetahuan umum lain).
![Mistral Large 3 ialah keluarga model “frontier” terbaharu yang dikeluarkan oleh Mistral AI pada awal Disember 2025. Ia merupakan model asas multimodal berorientasikan produksi dengan open-weight, dibina berasaskan reka bentuk Mixture-of-Experts (MoE) jarang yang granular dan bertujuan untuk menyampaikan penaakulan “frontier”, pemahaman konteks panjang, serta keupayaan visi + teks sambil mengekalkan inferens yang praktikal melalui kejarangan dan pengkuantitian moden. Mistral Large 3 mempunyai 675 bilion jumlah parameter dengan ~41 bilion parameter aktif semasa inferens dan tetingkap konteks 256k token dalam konfigurasi lalai — gabungan yang direka untuk memacu keupayaan dan skala tanpa memaksa setiap inferens menyentuh semua parameter.
Apakah Mistral Large 3? Bagaimana ia berfungsi?
Apakah Mistral Large 3?
Mistral Large 3 ialah model “frontier” utama Mistral AI dalam keluarga Mistral 3 — sebuah model Mixture-of-Experts (MoE) multimodal berskala besar dengan open-weight yang dikeluarkan di bawah lesen Apache-2.0. Ia direka untuk menyampaikan keupayaan “frontier” (penaakulan, pengekodan, pemahaman konteks panjang, tugasan multimodal) sambil mengekalkan pengiraan inferens yang jarang dengan hanya mengaktifkan subset pakar model bagi setiap token.
Mistral Large 3 mengguna pakai pendekatan Mixture-of-Experts (MoE): daripada mengaktifkan setiap parameter untuk setiap token, model menghala pemprosesan token kepada subset subrangkaian pakar. Angka diterbitkan untuk Large 3 adalah kira-kira 41 bilion parameter aktif (parameter yang lazimnya menyertai bagi sesuatu token) dan 675 bilion jumlah parameter merentas semua pakar — reka bentuk jarang tetapi besar yang mensasarkan titik manis antara kecekapan pengiraan dan kapasiti model. Model ini juga menyokong tetingkap konteks yang amat panjang (didokumenkan pada 256k token) dan input multimodal (teks + imej).
Ringkasnya: ia ialah model MoE yang menempatkan kapasiti sangat besar secara keseluruhan (supaya boleh menyimpan pelbagai kepakaran) tetapi hanya mengira subset aktif yang jauh lebih kecil semasa inferens — bertujuan memberi prestasi “frontier” dengan lebih cekap berbanding model padat yang bersaiz jumlah setara.
Seni bina teras: Mixture-of-Experts (MoE) granular
Secara umum, Mistral Large 3 menggantikan sebahagian (atau banyak) sublapis suap-maju transformer dengan lapisan MoE. Setiap lapisan MoE mengandungi:
- Ramai pakar — rangkaian kecil bebas (kebiasaannya blok FFN). Secara agregat, mereka menghasilkan jumlah parameter model yang sangat besar (cth., ratusan bilion).
- Penghala / rangkaian gating — rangkaian kecil yang melihat representasi token dan menentukan pakar mana yang patut memproses token tersebut. Penghala MoE moden lazimnya hanya memilih top-k pakar (gating jarang), selalunya k=1 atau k=2, untuk mengekalkan kos pengiraan yang rendah.
- Pengaktifan jarang — bagi mana-mana token, hanya pakar terpilih dijalankan; yang lain dilangkau. Di sinilah kecekapan muncul: jumlah parameter tersimpan >> parameter aktif yang dikira per token.
Mistral menyebut reka bentuknya sebagai MoE granular untuk menekankan bahawa model ini mempunyai banyak pakar kecil/khusus dan skema penghalaan yang dioptimumkan untuk penskalaan merentas banyak GPU dan konteks panjang. Hasilnya: kapasiti perwakilan yang sangat besar sambil mengekalkan pengiraan per token yang lebih hampir kepada model padat yang jauh lebih kecil, Jumlah Parameter:
- Jumlah Parameter: 675 bilion; jumlah semua parameter yang disimpan merentas setiap pakar dan selebihnya komponen transformer. Angka ini menunjukkan kapasiti kasar model (seberapa banyak pengetahuan dan pengkhususan yang boleh ditampung).
- Parameter Aktif: 41 bilion — subset parameter yang sebenarnya digunakan/dikira bagi laluan hadapan tipikal, kerana penghala hanya mengaktifkan beberapa pakar per token. Inilah metrik yang lebih berkait dengan pengiraan inferens dan penggunaan memori per permintaan. Bahan umum Mistral menyenaraikan ~41B parameter aktif; sesetengah halaman model menunjukkan kiraan sedikit berbeza untuk varian tertentu (cth., 39B) — ini boleh mencerminkan varian/versi instruksi atau pembundaran.
Konfigurasi Latihan:
- Dilatih dari awal menggunakan 3000 GPU NVIDIA H200;
- Data merangkumi pelbagai bahasa, pelbagai tugasan dan pelbagai modaliti;
- Menyokong input imej dan inferens merentas bahasa.
Jadual ciri Mistral Large 3
| Kategori | Huraian Keupayaan Teknikal |
|---|---|
| Pemahaman Multimodal | Menyokong input dan analisis imej, membolehkan kefahaman kandungan visual semasa dialog. |
| Sokongan Berbilang Bahasa | Menyokong secara asli 10+ bahasa utama (English, French, Spanish, German, Italian, Portuguese, Dutch, Chinese, Japanese, Korean, Arabic, dll.). |
| Sokongan Prompt Sistem | Sangat konsisten dengan arahan sistem dan prompt konteks, sesuai untuk aliran kerja yang kompleks. |
| Keupayaan Agen | Menyokong pemanggilan fungsi asli dan output JSON berstruktur, membolehkan pelancaran alat terus atau integrasi sistem luaran. |
| Tetingkap Konteks | Menyokong tetingkap konteks ultra panjang 256K token, antara yang terpanjang bagi model sumber terbuka. |
| Kedudukan Prestasi | Prestasi bertaraf produksi dengan pemahaman konteks panjang yang kukuh dan output yang stabil. |
| Lesen Sumber Terbuka | Apache 2.0 License, boleh digunakan bebas untuk pengubahsuaian komersial. |
Gambaran keseluruhan:
- Prestasi setanding dengan model tertutup arus perdana;
- Prestasi cemerlang dalam tugasan berbilang bahasa (terutamanya dalam senario bukan English dan bukan Chinese);
- Mempunyai keupayaan memahami imej dan mematuhi arahan;
- Menyediakan versi asas (Base) dan versi dioptimumkan arahan (Instruct), dengan versi dioptimumkan inferens (Reasoning) akan datang.
Bagaimana prestasi Mistral Large 3 dalam penanda aras?
Penanda aras awam awal dan papan pendahulu menunjukkan Mistral Large 3 berada di kedudukan tinggi dalam kalangan model sumber terbuka: penempatan LMArena #2 dalam model OSS bukan penaakulan dan disebut berada dalam kedudukan teratas di pelbagai tugasan piawai (cth., GPQA, MMLU dan suite penaakulan/pengetahuan umum lain).]()

Kekuatan yang ditunjukkan setakat ini
- Kefahaman dokumen panjang dan tugasan diperkaya dengan pencarian (retrieval): Gabungan konteks panjang dan kapasiti jarang memberikan Mistral Large 3 kelebihan dalam tugasan konteks panjang (QA dokumen, pemerkes di merentas dokumen besar).
- Pengetahuan umum dan pematuhan arahan: Dalam varian dihalus arahan, Mistral Large 3 adalah kukuh pada banyak tugasan “pembantu umum” dan pematuhan prompt sistem.
- Tenaga dan throughput (pada perkakasan dioptimumkan): Analisis NVIDIA menunjukkan kecekapan tenaga dan throughput yang mengagumkan apabila Mistral Large 3 dijalankan pada GB200 NVL72 dengan pengoptimuman khusus MoE — angka yang diterjemahkan secara langsung kepada kos per token dan kebolehskalaan untuk perusahaan.
Bagaimana untuk mengakses dan menggunakan Mistral Large 3?
Akses awan dihoskan (laluan pantas)
Mistral Large 3 tersedia melalui pelbagai rakan awan dan platform:
- Hugging Face menempatkan kad model dan artifak inferens (bundle model termasuk varian instruct dan artifak NVFP4 yang dioptimumkan). Anda boleh memanggil model melalui Hugging Face Inference API atau memuat turun artifak serasi.
- Azure / Microsoft Foundry mengumumkan ketersediaan Mistral Large 3 untuk beban kerja perusahaan.
- NVIDIA menerbitkan runtime dipercepat dan nota pengoptimuman untuk keluarga GB200/H200 dan rakan seperti Red Hat menerbitkan arahan vLLM.
Laluan dihoskan ini membolehkan anda bermula dengan cepat tanpa berdepan kejuruteraan runtime MoE.
Menjalankan secara lokal atau pada infra anda (lanjutan)
Menjalankan Mistral Large 3 secara lokal atau pada infra peribadi adalah boleh dilakukan tetapi tidak remeh:
Pilihan:
- Artifak Hugging Face + accelerate/transformers — boleh digunakan untuk varian lebih kecil atau jika anda mempunyai kelompok GPU dan alat sharding yang sesuai. Kad model menyenaraikan kekangan khusus platform dan format yang disyorkan (cth., NVFP4).
- vLLM — pelayan inferens berprestasi tinggi untuk LLM besar dan konteks panjang; Red Hat dan rakan lain menerbitkan panduan untuk menjalankan Mistral Large 3 pada vLLM bagi mendapatkan throughput dan latensi yang cekap.
- Timbunan khusus (NVIDIA Triton / NVL72 / kernel tersuai) — diperlukan untuk latensi/kecekapan terbaik pada skala; NVIDIA menerbitkan blog tentang mempercepat Mistral 3 dengan GB200/H200 dan runtime NVL72.
- Ollama / pengurus VM lokal — panduan komuniti menunjukkan tetapan lokal (Ollama, Docker) untuk eksperimen; jangkakan jejak RAM/GPU yang besar dan keperluan menggunakan varian model atau checkpoint terkuantit.
Contoh: inferens Hugging Face (python)
Ini ialah contoh ringkas menggunakan Hugging Face Inference API (sesuai untuk varian arahan). Gantikan HF_API_KEY dan MODEL dengan nilai daripada kad model:
# Example: call Mistral Large 3 via Hugging Face Inference APIimport requests, json, osHF_API_KEY = os.environ.get("HF_API_KEY")MODEL = "mistralai/Mistral-Large-3-675B-Instruct-2512"headers = {"Authorization": f"Bearer {HF_API_KEY}", "Content-Type": "application/json"}payload = { "inputs": "Summarize the following document in 3 bullet points: <paste your long text here>", "parameters": {"max_new_tokens": 256, "temperature": 0.0}}r = requests.post(f"https://api-inference.huggingface.co/models/{MODEL}", headers=headers, data=json.dumps(payload))print(r.json())
Nota: Untuk konteks yang sangat panjang (puluhan ribu token), semak cadangan penstriman / pemecahan pembekal dan panjang konteks yang disokong varian model.
Contoh: memulakan pelayan vLLM (konseptual)
vLLM ialah pelayan inferens berprestasi tinggi yang digunakan oleh perusahaan. Di bawah ialah permulaan konseptual (semak dokumentasi vLLM untuk flag, laluan model, dan sokongan MoE):
# conceptual example — adjust to your environment and model pathvllm --model-path /models/mistral-large-3-instruct \ --num-gpus 4 \ --max-batch-size 8 \ --max-seq-len 65536 \ --log-level info
Kemudian gunakan klien Python vLLM atau API HTTP untuk menghantar permintaan. Bagi model MoE, anda mesti memastikan binaan dan runtime vLLM menyokong kernel pakar jarang dan format checkpoint model (NVFP4/FP8/BF16).
Amalan terbaik praktikal untuk menggelar Mistral Large 3
Pilih varian dan ketepatan yang betul
- Mulakan dengan checkpoint dihalus arahan untuk aliran kerja pembantu (keluarga model ini menampilkan varian Instruct). Gunakan model asas hanya apabila anda bercadang untuk penalaan halus atau menerapkan penalaan arahan anda sendiri.
- Gunakan varian ketepatan rendah yang dioptimumkan (NVFP4, FP8, BF16) apabila tersedia untuk perkakasan anda; ini memberikan peningkatan kecekapan besar dengan degradasi kualiti minimum jika checkpoint dihasilkan dan disahkan oleh vendor model.
Memori, sharding dan perkakasan
- Jangan jangka untuk menjalankan checkpoint 675B jumlah parameter pada satu GPU komoditi — walaupun hanya ~41B aktif per token, keseluruhan checkpoint sangat besar dan memerlukan strategi sharding serta pemecut memori tinggi (kelas GB200/H200) atau offload CPU+GPU yang diorkestrasikan.
- Gunakan paralelisme model + penempatan pakar: Model MoE mendapat manfaat daripada meletakkan pakar merentas peranti untuk mengimbangi trafik penghalaan. Ikuti panduan vendor tentang pengagihan pakar.
Kejuruteraan konteks panjang
- Pemecahan dan pencarian (retrieve): Untuk banyak tugasan dokumen panjang, gabungkan komponen pencarian dengan konteks 256k bagi mengekalkan latensi dan kos yang terkawal — iaitu, dapati cebisan yang relevan, kemudian hantarkan konteks terfokus kepada model.
- Penstriman dan pempetaan tetingkap: Untuk aliran berterusan, kekalkan tetingkap gelongsor dan ringkaskan konteks lama kepada nota padat bagi memastikan bajet perhatian model kekal efektif.
Kejuruteraan prompt untuk model MoE
- Utamakan arahan yang jelas: Checkpoint dihalus arahan memberi respons lebih baik kepada tugasan dan contoh yang jelas. Gunakan contoh few-shot dalam prompt untuk output berstruktur yang kompleks.
- Rantaian pemikiran dan mesej sistem: Untuk tugasan penaakulan, susun prompt yang menggalakkan penaakulan langkah demi langkah dan sahkan hasil perantaraan. Tetapi awas: mendorong rantaian pemikiran meningkatkan penggunaan token dan latensi.
Kesimpulan
Mistral Large 3 ialah pencapaian penting dalam landskap model open-weight: model MoE 675B jumlah / ~41B aktif dengan konteks 256k, keupayaan multimodal, dan resipi penggunaan yang telah dioptimumkan bersama rakan infrastruktur utama. Ia menawarkan profil prestasi berbanding kos yang menarik untuk perusahaan yang boleh menerima runtime dan timbunan perkakasan MoE, sambil masih memerlukan penilaian teliti untuk tugasan penaakulan khusus dan kesiapsiagaan operasi.
Untuk bermula, terokai lebih banyak model AI (seperti Gemini 3 Pro) dan keupayaannya dalam Playground serta rujuk API guide untuk arahan terperinci. Sebelum mengakses, pastikan anda telah log masuk ke CometAPI dan memperoleh kunci API. CometAPI menawarkan harga yang jauh lebih rendah daripada harga rasmi untuk membantu anda berintegrasi.
Sedia untuk bermula?→ Sign up for CometAPI today !


