Mistral 3'ü Yerel Olarak Nasıl Çalıştırılır

CometAPI
AnnaDec 10, 2025
Mistral 3'ü Yerel Olarak Nasıl Çalıştırılır

Mistral 3, Mistral AI’nin 2025 sonu model ailesinin manşet niteliğindeki sürümüdür. Yerel/edge dağıtım için tasarlanmış kompakt, hızlı modeller ile en ileri ölçek ve bağlam uzunluğunu zorlayan çok büyük, seyrek amiral bir modeli bir araya getirir. Bu makale Mistral 3’ün ne olduğunu, nasıl inşa edildiğini, neden yerelde çalıştırmak isteyebileceğinizi ve makinenizde veya özel sunucunuzda çalıştırmanın üç pratik yolunu açıklar — Ollama’nın “tıkla-çalıştır” rahatlığından vLLM/TGI ile üretim GPU sunumuna, GGUF + llama.cpp kullanarak küçük cihazlarda CPU çıkarımına kadar.

Mistral 3 nedir?

Mistral 3, Mistral AI’nin en yeni nesil açık ağırlıklı modelleridir. Aile, (seyrek Mixture-of-Experts — MoE — model) devasa Mistral Large 3’ü ve talimat izleme ile çok modlu (metin+görsel) görevlere yönelik ayarlanmış çeşitli edge/“ministral” varyantları (3B, 8B, 14B) içerir. Mistral, sürümü geniş ölçekte kullanılabilir olacak şekilde konumlandırdı: özel optimize edilmiş checkpoint’lerle yüksek performanslı veri merkezi çıkarımından, kuantize formatlar ve daha küçük varyantlar aracılığıyla edge ve dizüstü kullanımına kadar.

Öne çıkan pratik özellikler :

  • Large 3 varyantında Mixture-of-Experts (MoE) mimarisi; bu, çok büyük bir “toplam” parametre sayısı sunarken her token için yalnızca bir uzman alt kümesini etkinleştirir — ölçek verimliliğini iyileştirir.
  • Edge ve yerel kullanım için tasarlanmış Ministral 3 modelleri (3B / 8B / 14B); talimata ince ayarlı ve çok modlu varyantlar bulunur.
  • vLLM ve NVIDIA platformları gibi hızlandırılmış çalışma ortamları için resmi checkpoint’ler ve optimize edilmiş checkpoint setleri (NVFP4/FP8).
  • Çok modlu + çok dilli + uzun bağlam — ministral ve büyük varyantlar görüntü+metin anlayışını ve geniş dil kapsamını vurgular. Görüntüleri + uzun belgeleri karıştıran uygulamalar için bu önemlidir.

GPQA Diamond veri setinde (katı bir bilimsel akıl yürütme testi), Miniral 3’ün çeşitli varyantları, çıktı token sayısı artarken bile yüksek doğruluğu korur. Örneğin, Miniral 3B Instruct modeli, 20.000 tokene kadar işlerken %35–40 doğruluğu korur; daha az kaynak kullanırken Gemma 2 9B gibi daha büyük modellerle karşılaştırılabilir.

Mistral 3'ü Yerel Olarak Nasıl Çalıştırılır

Mistral 3’ün mimarisi nedir?

Mistral 3 tek bir mimari değil, bir aile; ancak anlamanız gereken iki mimari desen şunlardır:

Yoğun küçük modeller (Ministral 3)

  • Verimlilik ve edge çıkarım için optimize edilmiş standart transformer yığınları.
  • Birden çok boyutta sunulur (3B/8B/14B) ve farklı ince ayarlı varyantlarda: base, instruct ve reasoning; birçok varyant yerel çok modlu (görüş + metin) desteği ve uzun bağlam çalışmasını içerir. Minstral modelleri, bazı dağıtımlarda kompaktlık için optimize edilmiş FP8 ağırlıklarla yayımlanır.

Seyrek Mixture-of-Experts (Mistral Large 3)

  • MoE mimarisi: modelde çok sayıda uzman vardır (muazzam toplam parametre sayısı), ancak her token için yalnızca yönlendirme ile seçilen bir uzman alt kümesi değerlendirilir — bu, ölçek/hesaplama dengelerini iyileştirir.
  • Mistral Large 3, ~675B toplam parametre ve çıkarım sırasında ~41B etkin parametre bildirerek bu MoE tasarımını yansıtır. Model modern NVIDIA donanımı üzerinde eğitildi ve verimli düşük hassasiyetli yürütme (NVFP4/TensorRT/Büyük çekirdek optimizasyonları) için optimize edildi.

Yerelde çalıştırırken önemli teknik özellikler:

  • Uzun bağlam: bazı Mistral 3 varyantları çok uzun bağlamları destekler (vLLM dokümanları ve Mistral dokümanları, belirli varyantlar için devasa bağlam pencerelerinden bahseder; örn. bazı Ministral varyantlarında 256k). Bu, bellek ve sunum kalıplarını etkiler.
  • Ağırlık biçimleri ve kuantizasyon: Mistral, sıkıştırılmış/optimize edilmiş biçimlerde (FP8, NVFP4) ağırlıklar sağlar ve pratik yerel çıkarım için modern kuantizasyon araç zincirleriyle (BitsAndBytes, GPTQ, satıcı araç zincirleri) çalışır.

Mistral 3’ü yerelde neden çalıştırırsınız?

Yerel LLM çalıştırmak artık niş bir hobi değil — aşağıdakilere önem veren ekipler ve bireyler için pratik bir seçenek:

  • Veri gizliliği ve uyumluluk. Yerel barındırma, hassas girdileri altyapınız içinde tutar (finans, sağlık, hukuk için önemlidir). Reuters, Mistral modellerini kendi kendine barındırmayı tercih eden üst düzey müşterileri bildirdi.
  • Gecikme ve maliyet kontrolü. Sıkı gecikme SLO’ları ve öngörülebilir maliyetler için, yerel veya özel küme çıkarımı bulut API fatura şokunu yenebilir. Daha küçük ministral varyantlar ve kuantize biçimler bunu pratik hale getirir.
  • Özelleştirme ve ince ayar. Özel davranış, fonksiyon çağırma veya yeni modaliteler gerektiğinde, yerel kontrol özel ince ayar ve veri işlemesine olanak verir. Hugging Face ve vLLM entegrasyonu bunu daha da hazır hale getirir.

Bu nedenler önceliklerinizle — gizlilik, kontrol, maliyet öngörülebilirliği veya araştırma — örtüşüyorsa, yerel dağıtımı düşünmeye değer.

Mistral 3’ü yerelde nasıl çalıştırabilirsiniz (üç pratik yöntem)?

Mistral 3’ü yerelde çalıştırmanın birçok yolu var. En yaygın kullanıcı senaryolarını kapsayan üç yaklaşımı ele alacağım:

  1. Ollama (sıfır yapılandırmalı masaüstü / yerel sunucu, çoğu kullanıcı için en kolay)
  2. Hugging Face Transformers + PyTorch / vLLM (tam kontrol, GPU kümeleri)
  3. llama.cpp / ggml / GGUF kuantize CPU çıkarımı (hafif, dizüstü/CPU’da çalışır)

Her yöntem için ne zaman mantıklı olduğu, önkoşullar, adım adım komutlar ve küçük kod örneklerini listeleyeceğim.


1) Mistral 3’ü Ollama ile nasıl çalıştırırsınız (en hızlı yol)?

Ne zaman kullanmalı: zahmetsiz bir yerel deneyim (macOS/Linux/Windows), erişilebilir bir CLI veya GUI ve mevcut olduğunda otomatik indirmeler/kuantize artefaktlar istiyorsunuz. Ollama, Ministral 3 ve Mistral ailesinin diğer üyeleri için model girişlerine sahiptir.

Önkoşullar

  • Ollama kurulu (ollama.com’daki yükleyiciyi takip edin). Ollama kitaplığı, bazı ministral sürümleri için belirli asgari sürümleri belirtir.
  • Model artefaktlarını depolamak için yeterli disk alanı (model boyutları farklıdır — ministral 3B kuantize sürümler birkaç GB olabilir; daha büyük BF16 varyantları onlarca GB’dir).

Adımlar (örnek)

  1. Ollama’yı kurun (macOS örneği — platforma göre değiştirin):
# macOS (Homebrew) example — see ollama.com for platform-specific installersbrew install ollama
  1. Bir ministral modeli çalıştırın:
# Pull and run the model interactivelyollama run ministral-3
  1. Yerelde (API) sunun ve koddan çağırın:
# Run Ollama server (default port shown in docs)ollama serve​# Then curl against it (example)curl -s -X POST "http://localhost:11434/api/v1/generate" \  -H "Content-Type: application/json" \  -d '{"model":"ministral-3","prompt":"Summarize Mistral 3 in one sentence."}'

Notlar ve ipuçları

  • Ollama, model indirmelerini ve (mevcut olduğunda) yerel kuantize varyantları yönetir — modelleri hızla denemek için çok kullanışlıdır.
  • Modeli çok eşzamanlı istekle üretimde kullanmayı planlıyorsanız, Ollama prototipleme için harikadır; ancak sürekli yük için ölçekleme ve kaynak orkestrasyonunu değerlendirin.

2) Mistral 3’ü Hugging Face Transformers ile nasıl çalıştırırsınız (GPU / vLLM entegrasyonu)?

Ne zaman kullanmalı: araştırma veya üretim için programatik kontrol, ince ayar yapmak ya da GPU kümelerinde vLLM gibi hızlandırılmış çıkarım yığınlarını kullanmak istiyorsunuz. Hugging Face Transformers desteği sağlar ve Mistral, vLLM/NVIDIA için optimize edilmiş checkpoint’ler sunar.

Önkoşullar

  • Yeterli belleğe sahip GPU (model ve hassasiyete göre değişir). Ministral 3 küçükleri (3B/8B) kuantize edildiğinde tek bir orta seviye GPU’da çalışabilir; daha büyük varyantlar genellikle birden çok H100/A100 veya vLLM için optimize edilmiş NVFP4 checkpoint’leri gerektirir. NVIDIA ve Mistral dokümantasyonu, büyük modeller için belirli düğüm boyutlarını önerir.
  • Python, PyTorch, transformers, accelerate (veya sunucu olarak vLLM).

Python örneği — temel Hugging Face pipeline’ı (3B instruct varyantı, GPU):

# Example: CPU/GPU inference with transformers pipeline# Assumes you have CUDA and a compatible PyTorch build.import torchfrom transformers import pipeline​model_name = "mistralai/Ministral-3-3B-Instruct-2512-BF16"  # example HF model id​generator = pipeline(    "text-generation",    model=model_name,    device_map="auto",    torch_dtype=torch.bfloat16,  # use bfloat16 if your hardware supports it)​prompt = "Explain how attention helps transformers, in 3 sentences."out = generator(prompt, max_new_tokens=120, do_sample=False)print(out[0]["generated_text"])

Üretim GPU çıkarımı için vLLM kullanma

vLLM, büyük modelleri verimli bir şekilde sunmak üzere tasarlanmıştır; Mistral 3 ailesini destekler ve Mistral, vLLM/NVIDIA donanımı için optimize edilmiş (NVFP4/FP8) checkpoint’ler yayımlamıştır; bu da bellek ayak izini azaltır ve hız sağlar. Bir vLLM sunucusu başlatmak, düşük gecikmeli, paketlenmiş bir çıkarım uç noktası sunar. Model yolları ve önerilen bayraklar için vLLM reçetelerine ve Mistral kılavuzuna bakın.

Notlar ve ipuçları

  • Üretim için optimize edilmiş checkpoint’leri (NVFP4/FP8) tercih edin ve önerilen GPU’larda çalıştırın (örn. H100/A100) veya tensör/model paralelleştirmesini destekleyen bir orkestrasyon katmanı kullanın. Mistral ve NVIDIA’nın optimize çalışma süreleri hakkında dokümanları ve blog yazıları vardır.
  • Her zaman disk üzerinde tam modeli (ya da tekrarlanabilir bir HF snapshot’ını) sabitleyin; böylece sonuçlar tekrarlanabilir olur ve sessiz model güncellemelerinden kaçınırsınız.

3) Mistral 3’ü CPU’da llama.cpp / GGUF kuantize modellerle nasıl çalıştırırsınız?

Ne zaman kullanmalı: CPU’da yerel, çevrimdışı çıkarıma (örn. geliştirici dizüstü, güvenli air-gapped ortam) ihtiyacınız var ve çalışma süresi ile bellek verimliliği karşılığında biraz kalite kaybını göze alıyorsunuz. Bu yöntem ggml/llama.cpp ve GGUF kuantize ağırlıkları (q4/q5/vb.) kullanır.

Önkoşullar

  • Bir Ministral modelinin GGUF kuantize derlemesi (çok sayıda topluluk üyesi Hugging Face’te kuantize GGUF’ler yayımlar veya BF16 ağırlıkları yerelde GGUF’a dönüştürür). Ministral-3-3B-Instruct GGUF varyantlarını arayın.
  • Derlenmiş llama.cpp ikili dosyası (proje README’sini takip edin).

Kuantize etme (orijinal ağırlıklar sizdeyse) — örnek (kavramsal)

# Example: quantize from an FP16/BF16 model to a GGUF q4_K_M (syntax depends on llama.cpp version)./quantize /path/to/original/model.bin /path/to/out.gguf q4_k_m

llama.cpp ile bir GGUF çalıştırın

# run interactive inference with a quantized GGUF model./main -m /path/to/ministral-3-3b-instruct.gguf -t 8 -c 2048 --interactive# -t sets threads, -c sets context (tokens) if supported

Python istemci örneği (yerel llama.cpp sunucusu veya alt süreç)

llama.cpp’yi bir alt süreç olarak başlatıp istem gönderebilir veya küçük bir sarmalayıcı istemci kullanabilirsiniz. Birçok topluluk projesi, yerel uygulama entegrasyonu için llama.cpp etrafında basit bir HTTP sunucu sarmalayıcısı sunar.

Notlar ve ödünleşimler

  • Kuantizasyon, VRAM’i azaltır ve CPU çıkarımını mümkün kılar ancak kaliteyi düşürebilir (kuant biçimine bağlı olarak hafif ila orta düzeyde). q4_K_M veya q5 varyantları gibi biçimler, CPU kullanımı için yaygın uzlaşıdır. Japonca ve teknik yazılar Q4/Q5 türlerini ve GGUF dönüşümlerini ayrıntılı olarak açıklar.
  • Küçük ve orta iş yükleri için GGUF + llama.cpp genellikle yerel LLM çalıştırmanın en ucuz ve en taşınabilir yoludur.

Hangi donanım ve bellek hususları önemlidir?

Kısa, pratik rehberlik:

  • 3B modeller: çoğu zaman kuantize edilip iyi bir dizüstü CPU’da veya tek bir GPU’da 8–16 GB VRAM ile (hassasiyet/kuantizasyona bağlı olarak) çalıştırılabilir. GGUF q4 varyantları birçok modern CPU’da çalışır.
  • 8B ve 14B ministraller: tipik olarak orta seviye bir GPU’ya ihtiyaç duyar (örn. hassasiyet ve aktivasyon önbelleklemesine bağlı olarak 24–80 GB) veya birden çok cihazda kuantizasyon.
  • Mistral Large 3 (675B toplam, 41B etkin): veri merkezi dağıtımı için tasarlanmıştır ve genellikle çoklu GPU düğümleriyle (örn. 8×A100 veya H100) ve vLLM için uzmanlaşmış biçimlerle (NVFP4/FP8) en iyi şekilde çalışır. Mistral, bu tür dağıtımları mümkün kılmak için açıkça optimize edilmiş checkpoint’ler yayımladı.

Önceliğiniz yerel dizüstü kullanımı ise, hedefiniz ministral 3B kuantize GGUF + llama.cpp olmalıdır. Önceliğiniz üretim throughput’u ise, GPU’larda vLLM + NVFP4 checkpoint’lerine bakın. Deney kolaylığı istiyorsanız, Ollama başlamak için en hızlı yoldur.


Kuantizasyon ve hassasiyeti nasıl seçmelisiniz?

Kuantizasyon bir ödündür: bellek ve hız vs. ham model kalitesi. Yaygın seçenekler:

  • q4_0 / q4_1 / q4_K_M: CPU çıkarımı için kullanılan popüler 4-bit seçenekler; q4_K_M (k-means varyantı) genellikle daha iyi kalite/performans dengesi sunar.
  • q5 / q8 / imatrix varyantları: daha fazla sadakati boyut maliyeti karşılığında koruyabilecek ara biçimler.
  • FP16 / BF16 / FP8 / NVFP4: GPU hassasiyetleri — BF16 ve FP16, modern GPU’larda eğitim/çıkarım için yaygındır; FP8 / NVFP4, çok büyük modeller için belleği tasarruf eden ve optimize çalışma zamanları ile Mistral’in checkpoint sürümleri tarafından desteklenen yükselen biçimlerdir.

Kural olarak: yerel CPU çalıştırmaları için q4_K_M veya benzerini seçin; yüksek sadakatli GPU çıkarımı için donanımınız ve çalışma zamanınız destekliyorsa BF16/FP16 veya satıcıya özgü FP8/NVFP4 kullanın.

Sonuç — Mistral 3’ü yerelde çalıştırmalı mısınız?

Eğer gizlilik, düşük gecikme veya özelleştirme gerektiriyorsanız, evet: Mistral 3 ailesi size geniş bir palet sunar — edge CPU için küçük modeller, tek bir GPU veya mütevazı bir küme için orta boy modeller ve veri merkezi ölçeği için MoE lezzeti — ve ekosistem (Ollama, Hugging Face, vLLM, llama.cpp) zaten pratik yerel ve özel dağıtım kalıplarını destekliyor. Mistral ayrıca NVIDIA ve vLLM ile birlikte yüksek throughput ve azaltılmış bellek ayak izi için optimize edilmiş checkpoint’ler sağladı; bu da üretimde kendi kendine barındırmayı her zamankinden daha gerçekçi hale getiriyor.

Başlamak için, Gemini 3 Pro gibi daha fazla modelin yeteneklerini Playground’da keşfedin ve ayrıntılı talimatlar için API guide’a başvurun. Erişmeden önce, lütfen CometAPI’ye giriş yaptığınızdan ve API anahtarını edindiğinizden emin olun. CometAPI entegrasyonunuza yardımcı olmak için resmi fiyattan çok daha düşük bir fiyat sunar.

Hazır mısınız?→ Bugün CometAPI’ye kaydolun !

SHARE THIS BLOG

Devamını Oku

500+ Model Tek Bir API'de

%20'ye Varan İndirim