Mistral 3: Model Ailesi, Mimari, Kıyaslama Testleri ve Daha Fazlası

Mistral 3, Mistral AI’nin en yeni, iddialı sürümüdür — aynı anda birden fazla cephede ilerleyen açık ağırlıklı modellerin tam bir ailesi: amiral gemisi ölçekte seyrek-uzman (sparse-expert) ölçekleme, uç ve yerel dağıtım için kompakt yoğun (dense) varyantlar, uzun bağlamlı çok kipli (multimodal) yetenekler ve gerçek dünyada kullanım ile araştırmayı teşvik eden esnek açık lisanslama.

Mistral 3 nedir?

Mistral 3, Mistral AI tarafından 2025’in sonlarında yayımlanan açık ağırlıklı çok kipli dil modelleri bir AİLEsidir. Aile, üç yoğun (seyrek olmayan) kompakt modeli — 3B, 8B ve 14B parametreli Ministral 3 — ve bir amiral gemisi olan, yaklaşık 675B toplam parametreli ve çıkarım sırasında yaklaşık 41B etkin parametre kullanan seyrek uzman karışımı (MoE) model Mistral Large 3’ü içerir. Tüm modeller Apache 2.0 lisansı altında yayımlandı ve geniş dağıtım ile yerel kurulumu desteklemek için sıkıştırılmış biçimlerde sunuldu. Mistral’ın vurguladığı başlıca özellikler arasında çok kipli yetenekler, çok uzun bağlam pencereleri (Large: 256K tokene kadar) ve modern hızlandırıcılara yönelik optimizasyonlar yer alır.

Mistral 3 üç nedenle önemlidir:

KAPSAM — aile, küçükten sınır ölçeklerine kadar uzanır (3B / 8B / 14B yoğun Ministral varyantları ve 675B parametreli bir MoE) ve maliyet/performans ödünleşimleri boyunca tutarlı araştırma ve üretim iş akışlarını mümkün kılar.
AÇIKLIK — Mistral, modelleri ve ağırlıkları Apache-2.0 lisansı altında yayımladı ve benimsemeyi hızlandırmak için Hugging Face gibi platformlarda dağıtılabilir yapıtlar sundu.
MÜHENDİSLİK ODAĞI — Large 3 modeli, çok büyük toplam parametre sayısına sahip ancak çıkarım sırasında çok daha küçük bir etkin parametre kümesi kullanan ayrıntılı (granüler) bir MoE mimarisini benimsiyor; bu da belirli iş yüklerinde üst düzey yetenek, daha yüksek çıktı hızı ve maliyet verimliliği sağlamayı amaçlıyor.

Mistral 3 Ailesine Genel Bakış

Ministral 3 — 14B (Ministral 3 14B)

Nedir: Kompakt/uç “Ministral” serisindeki en büyük yoğun (MoE olmayan) model: Base / Instruct / Reasoning varyantları bulunan, metin + görsel anlama ve yönerge izleme için ayarlanmış, 14 milyar parametreli yüksek kaliteli bir çok kipli model.

Ne zaman seçilmeli: MoE karmaşıklığı olmadan yoğun bir modelden üst düzeye yakın performans, tek modelde güçlü yönerge/sohbet performansı ve görsel yetenekler istediğinizde. Sohbet ajanları, çok kipli asistanlar, kod üretimi ve daha yüksek kaynak gerektiren cihaz üstü/kenar iş yükleri için uygundur.

Ministral 3 — 8B (Ministral 3 8B)

Nedir: Ministral 3 ailesinde dengeli ve verimli, 8 milyar parametreli yoğun bir model. Base / Instruct / Reasoning varyantlarıyla sunulur ve çok kipli girdileri destekler. Birçok üretim kullanım durumu için “tatlı nokta” olarak konumlandırılır.

Ne zaman seçilmeli: 14B’ye kıyasla çok daha düşük gecikme ve VRAM ayak iziyle iyi üretim kalitesi ve akıl yürütme kabiliyeti istediğinizde. Sohbet botları, cihaz üstü asistanlar, GPU bütçesi kısıtlı web hizmetleri ve niceleme ile gömülü kullanım için idealdir.

Ministral 3 — 3B (Ministral 3 3B)

Nedir: Ministral 3 ailesinin en küçük yoğun üyesi: Base / Instruct / Reasoning varyantları olan, modern çok kipli özellikleri koruyarak son derece düşük bellek/gecikme senaryoları için tasarlanmış 3 milyar parametreli bir model.

Ne zaman seçilmeli: Cihaz üstü çıkarım, çok düşük gecikme veya düşük maliyetle çok sayıda hafif ajanı eşzamanlı çalıştırma gerektiğinde — ör. mobil uygulamalar, robotlar, dronlar veya yerel mahremiyet duyarlı dağıtımlar. Sohbet, özetleme, hafif kod görevleri ve hızlı görsel+metin görevleri için uygundur.

Mistral Small 3 — 24B(Mistral Small 3)

Nedir: Mistral 3 ailesinin parçası olarak yayımlanan, GECİKMEYE optimize edilmiş 24 milyar parametreli yoğun bir model. MoE karmaşıklığı olmadan yüksek tek GPU çıktısı ve güçlü üretim kalitesi sunmak üzere tasarlanmıştır.

Ne zaman seçilmeli: En iyi tek GPU (veya tek düğüm) ödünleşimini istediğinizde: bir çok ölçütte 14B/8B’den belirgin derecede daha yüksek kalite sunarken dağıtımı hâlâ görece basittir. Üretim sohbet sistemleri, daha yüksek sadakatli asistanlar ve MoE sunum karmaşıklığı olmadan daha güçlü akıl yürütme isteyen uygulamalar için iyi bir seçimdir.

Mistral Large 3 — MoE (Mixture-of-Experts)

Nedir: Mistral 3 ailesinin amiral gemisi SEYREK Uzman Karışımı (MoE) modeli: yaklaşık 675B toplam parametre ve her token başına yaklaşık 41B etkin parametre (yani her token için yalnızca bir alt uzman kümesi etkinleştirilir). Üst seviye akıl yürütme, çok uzun bağlamlar ve alanlar arası en iyi performans için tasarlanmıştır. Açık ağırlıklıdır (Apache-2.0).

Ne zaman seçilmeli: En iyi olası akıl yürütmeye, çok uzun bağlam anlama yeteneğine (Large 3 uzun bağlam kullanımında 256k tokene kadar pencereler sunar) ya da MoE sunum karmaşıklığı ve altyapısını haklı çıkarabilecek yüksek değerli kurumsal sistemler inşa ettiğinizde.

Karşılaştırma tablosu

Model	Güçlü yönler	Sınırlamalar ve notlar
Ministral 3 14B	Kompakt aile içinde kalite → model boyutu açısından en iyi denge; optimize yığınlarda sıklıkla 24B düzeyi tek GPU gecikmesine yaklaşır veya eşleşir. Instruct / Reasoning varyantları kullanıldığında güçlü akıl yürütme ve çok kipli anlama.	8B/3B’ye göre daha büyük bellek ayak izi — tek GPU tüketici dağıtımı için niceleme veya optimize çekirdekler gerekebilir. Mutlak en küçük gecikme ayak izine ihtiyacınız varsa 8B veya 3B alternatiflerini düşünün.
Ministral 3 8B	Güçlü maliyet/gecikme ödünleşimi: 14B’ye göre çok daha düşük bellek ve hesaplama gereksinimleri, buna karşın güçlü çok kipli ve akıl yürütme performansı (özellikle Reasoning varyantında). Optimize çalışma zamanları ve niceleme ile çalıştırması kolay.	14B veya 24B Small model kadar en zor akıl yürütme ya da en uzun bağlam görevlerinde güçlü değildir; ancak çok daha düşük maliyetle üretimde sıklıkla “yeterince iyi”dir. Matematik/kodlama/STEM görevleri için Reasoning varyantını kullanın.
Ministral 3 3B	En küçük ayak izi, kısıtlı donanımda en hızlı çalışma, yerelde nicelemek ve dağıtmak en kolay. Ayarlı varyantlarında görsel anlama ve yönerge izlemeyi hâlâ destekler.	8B/14B/24B/ büyük MoE’ye kıyasla çok uzun veya çok karmaşık akıl yürütme görevlerinde daha düşük ham üretim kalitesi. Ölçeklenmiş veya uç senaryolar için mükemmel; en yüksek doğruluk için daha büyük bir model seçin.
Mistral Small 3	Sınıfı için yüksek MMLU tarzı ölçüt performansı, gecikmeye optimize mimari ve çekirdekler; doğrudan kullanım için Apache-2.0 ile yayımlandı. Bulut sağlayıcıları ve optimize çalışma zamanları (NVIDIA vb.) tarafından geniş biçimde desteklenir.	Ministral 14B/8B/3B modellere göre daha büyük VRAM/hesaplama — büyük bağlam pencereleri veya yüksek eşzamanlılık hedefliyorsanız daha güçlü tek GPU’lar veya çoklu GPU kurulumları gerekebilir. Ancak amiral MoE’den barındırması daha basittir.
Mistral Large 3	Benzer çıkarım maliyetinde yoğun bir modele kıyasla token başına çok daha yüksek etkin kapasite (çünkü yalnızca etkin uzmanlar kullanılır), üstün akıl yürütme ve uzun bağlam davranışı sağlar.	Sunum karmaşıklığı: MoE; uzman bölüştürme, yönlendirme, ek bellek ve ağ G/Ç’si gerektirir — yoğun bir modele kıyasla ölçekli çalıştırmak daha karmaşık ve maliyetlidir.

Mistral 3 ölçütleri — nasıl performans gösteriyor?

Ölçütler kusursuz değildir ama faydalı bir kıstastır. Lansmandan bu yana birden fazla bağımsız ve üçüncü taraf değerlendirme yayımlandı; tablo nüanslı: Mistral Large 3, birçok standart lider tabloda (özellikle akıl yürütme dışı ve çok kipli görevlerde) en iyi açık modelleri zorluyor veya yakalıyor; Ministral serisi ise daha küçük ölçekli görevler için güçlü fiyat-performans sunuyor.

Genel NLP ve akıl yürütme

Akıl yürütme ve uzun bağlam görevlerinde güçlü: Mistral Large 3, akıl yürütme veri kümelerinde (AIME, gelişmiş matematik/kod akıl yürütme paketleri) ve topluluk karşılaştırmalarında MMLU gibi genel bilgi ölçütlerinde rekabetçi (çoğunlukla en iyi açık kaynak) skorlar bildiriyor. Large 3’ü içeren bağımsız çok görevli makaleler ve lider tablolar, onu açık ağırlıklı modeller arasında en üstte veya zirveye yakın gösteriyor.

Kod ve yazılım mühendisliği

Açık kaynak kodlama lider tabloları: erken LMArena ve SWE-Bench paylaşımları, Mistral Large 3’ün kodlama görevlerinde açık modeller arasında en iyi performans gösterenlerden biri olduğunu gösteriyor — bazı topluluk sıralamaları belirli kodlama lider tablolarında onu açık kaynakta #1’e yerleştiriyor. Bununla birlikte, kapalı modeller (OpenAI, xAI, Google) mülkiyet lider tablolarında mutlak tepe kod yeteneklerinde genellikle önde.

LMArena lider tablosunda, Mistral Large 3 şu sıradadır:

açık kaynak non-inference modeller arasında 2.;
açık kaynak genel modeller arasında 6..

Öğe	Mistral 3 14B Instruct	Mistral 3 8B Instruct	Mistral 3 3B Instruct
Konumlandırma	Yüksek performanslı uç amiral (kurumsal düzey)	Dengeli ve enerji verimli ana akım model	Ultra hafif yerel/uç model
Toplam Parametre	≈ 14B (13.5B LM + 0.4B Vision)	≈ 8.8B (8.4B LM + 0.4B Vision)	≈ 3.8B (3.4B LM + 0.4B Vision)
Görsel Yetenek	Yüksek çözünürlüklü görsel anlama, belge analizi	Orta çözünürlüklü görsel S&Y	Hafif görsel betimleme
Ajan Yetenekleri	Function Calling + JSON çıktısı	Function Calling + JSON çıktısı	Function Calling + JSON çıktısı
Bağlam İçi Akıl Yürütme	⭐⭐⭐⭐⭐ (Güçlü)	⭐⭐⭐⭐ (Orta-güçlü)	⭐⭐⭐ (Hafif)
Matematik Akıl Yürütme (AIME25)	0.850	0.787	0.721
Çok Kipli Performans (MMMBench)	8.49	8.08	7.83
Yönerge İzleme (WildBench)	68.5	66.8	56.8
Bellek Gereksinimi (FP8)	≈ 24 GB	≈ 12 GB	≈ 8 GB

Mistral 3’e nasıl erişilir / denenir (adım adım)

1) Hugging Face üzerinden indirin ve çalıştırın (ağırlıklar + model kartları)

Mistral organizasyonunu ve belirli model sayfasını ziyaret edin (ör. mistralai/Mistral-Large-3-675B-Instruct-2512 veya Ministral 3 model sayfaları) ve önerilen biçimler için “Files & versions” / model kartını izleyin (NVFP4/FP8/FP16).
Tipik iş akışı:
1. pip install transformers accelerate torch (veya vLLM gibi bir çalışma zamanı kullanın).
2. Hugging Face’ten tam model kimliğini kopyalayın (model sayfalarında resmi kimlik ve önerilen biçimler yer alır).
3. Örnek (KOMPAKT bir Ministral model için — gerçek çalıştırmalarda KESİN HF kimliğini kullanın):

from transformers import AutoTokenizer, AutoModelForCausalLM  
tokenizer = AutoTokenizer.from_pretrained("mistralai/<model-id>")  
model = AutoModelForCausalLM.from_pretrained("mistralai/<model-id>",  
                                             device_map="auto",  
                                             torch_dtype="auto")

Large 3 (MoE) için, satıcı çalışma zamanlarını veya HF-inference uç noktalarını tercih edin — doğrudan transformers ile yükleme MoE dağıtımı için optimal olmayabilir.

2) Yönetilen bir bulut uç noktası kullanın (en hızlı, altyapı yok)

Amazon Bedrock: Mistral Large 3 ve Ministral 3, Bedrock’a eklendi — Bedrock üzerinden sunucusuz uç noktalar oluşturabilir ve Bedrock API/SDK’sı ile çağırabilirsiniz. Altyapı operasyonları olmadan üretim uygulamaları için iyi.
IBM watsonx ve Azure Foundry: lansman ortakları olarak duyuruldu — kurumsal düzey barındırma erişimi ve uyumluluk özellikleri.
Mistral AI Studio: Mistral’ın modelleriyle denemeler yapmak için kendi barındırılan ürünü.

3) Sağlayıcıya optimize edilmiş yığınları kullanın (kendiniz barındırıyorsanız)

NVIDIA: daha iyi çıktı hızı ve maliyet için NVIDIA’nın optimize çalışma zamanlarını ve FP8/NVFP4 varyantlarını kullanın (NVIDIA, Mistral 3 için optimizasyonlar içeren bir geliştirici blogu yayımladı). Large 3’ü barındırmayı planlıyorsanız GB200/H200 sınıfı donanım kullanın ve NVIDIA yönergelerini izleyin.
vLLM / MoE’ye duyarlı çalışma zamanları: daha düşük gecikme ve daha iyi yığınlama için birçok grup vLLM veya MoE farkındalıklı çıkarım yığınlarını kullanıyor.

4) Üçüncü taraf barındırma / API’ler

Modal, CometAPI ve diğer sağlayıcılar modeli daha basit API’ler veya kullandıkça öde uç noktaları üzerinden çağırmanıza olanak tanır — bulut satıcısına kilitlenmeden prototipleme için kullanışlıdır.

sınırlamalar, riskler ve en iyi uygulamalar

Bilinen sınırlamalar ve hata biçimleri

Ölçütler her şeyi anlatmaz: bildirilen lider tablo sıraları değişkenlik gösterebilir; görev özelinde değerlendirme kritiktir.
Yönerge ayarı çeşitliliği: farklı yönergeyle ayarlanmış varyantlar (base / instruct / reasoning) farklı davranışlar üretebilir; doğru olanı seçin.
MoE için dağıtım karmaşıklığı: uzman karışımı modeller, dağıtım ve ayarlamada daha karmaşık olabilir (yönlendirme, bellek düzeni, yığınlama). Mümkün olduğunda satıcı tarafından önerilen çalışma zamanlarını ve niceleme biçimlerini kullanın.

Maliyet ve verimlilik hususları

Ministral 3 (3–14B): Token başına düşük maliyet, ucuz GPU’lar veya çok sayıda kurum içi örnekle mümkün. İstemci uygulamalarına, mobil arka uçlarına veya katı gecikme bütçeleri olan hizmetlere gömmek için iyi.
Mistral Large 3: Mutlak kaynak gereksinimleri daha yüksek; ancak seyrek etkinleştirme, 675B yoğun bir modelle karşılaştırıldığında token başına etkin hesaplamayı azaltır; satıcı optimize yığınları (NVIDIA) gecikme ve maliyeti maddi ölçüde düşürebilir. Akıl yürütme/uzun bağlam avantajlarına ihtiyacınız varsa, Large 3 benzer yeteneği eşleştirmek için çok daha fazla çıkarım hesaplaması gerektirecek yoğun modellere göre maliyet-etkin hale gelir.

Güvenlik ve yönetişim

Açık lisanslama + kurumsal denetimler: Apache 2.0 ağırlıklar geniş kullanım sağlar; işletmeler yine de güvenlik katmanları (filtreler, insan denetimi, köken), kırmızı ekip çalışmaları ve alan-özel kötüye kullanım senaryoları için testler eklemelidir. Ortaklıklar ve haberler, Mistral’ın sorumlu yaygınlaştırma konusunda iş ortaklarıyla çalıştığını gösteriyor.

En iyi uygulamalar

Kendi verinizde ölçün: istemleriniz, sıcaklık ayarlarınız ve son işlemeyle değerlendirmeleri yineleyin.
Çok katmanlı çıkarım kullanın: ucuz/hızlı görevleri yoğun Ministral modellere yönlendirin, ağır işleri Large 3’e ayırın.
Optimize biçimlerden yararlanın: daha iyi gecikme ve daha düşük bellek ayak izi için satıcı tarafından sağlanan biçimleri ve çekirdekleri (NVFP4/Triton) kullanın.

Nihai karar: Mistral 3, 2025’te nerede konumlanıyor?

Mistral 3, açık kaynak ve kurumsal yapay zekâ ekosistemleri için STRATEJİK öneme sahip bir sürümdür. Esnek lisanslı, dağıtıma uygun kompakt bir aileyi (Ministral 3) yüksek kapasiteli seyrek bir amiralle (Mistral Large 3) birleştirerek, Mistral hobicilerin yerel geliştirmesinden en zorlu kurumsal ajan iş yüklerine kadar uzanan bir araç seti sundu. Satıcı optimizasyonları (özellikle NVIDIA ile) ve açık biçimler, hem performansın hem de maliyetin iş yüküne göre ayarlanabilmesi anlamına geliyor. Erken ölçütler, Mistral Large 3’ün açık model lider tablolarının zirvesinde yarıştığını, Ministral varyantlarının ise pratik görevlerde maliyet etkinliğiyle öne çıktığını gösteriyor.

Öncelikleriniz açık lisanslama, modelleri yerelde/çevrimdışı çalıştırabilme ve rekabetçi akıl yürütme performansı bot

Başlamak için, Gemini 3 Pro gibi daha fazla modelin yeteneklerini Playground içinde keşfedin ve ayrıntılı talimatlar için API kılavuzuna bakın. Erişimden önce, lütfen CometAPI’ye giriş yaptığınızdan ve API anahtarını edindiğinizden emin olun. CometAPI entegrasyona yardımcı olmak için resmi fiyattan çok daha düşük bir fiyat sunar.

Hazır mısınız?→ Bugün CometAPI’ye kaydolun!