Mistral Small 4 Yerel Olarak Nasıl Çalıştırılır

Mistral Small 4, çıkarım, akıl yürütme, kodlama ve çok modlu yetenekleri tek bir mimaride birleştiren, Mistral AI’nin (Mart 2026) yeni yayınladığı çok modlu bir yapay zeka modelidir. 256K bağlam penceresi, Uzman Karışımı (MoE) tasarımı (~119B toplam parametre, token başına ~6.5B etkin) sunar ve benzer açık modeller (ör. GPT-OSS 120B) karşısında kıyaslamalarda daha iyi sonuçlar üretirken daha hızlı çıkarım (gecikmede %40’a kadar azalma) sağlar.

Yerelde çalıştırmak için yüksek bellekli GPU’lar (≥48GB VRAM önerilir) veya kuantize dağıtımlar ile Transformers, vLLM veya Ollama gibi çerçevelere ihtiyaç vardır.

Mistral Small 4 nedir?

Birçok işi tek modelle yapın

Mistral Small 4, en iyi “çok yönlü” olarak anlaşılır: Mistral’ın önceki yönergeli, akıl yürütme ve kodlama ailelerinin güçlü yönlerini tek bir modelde bir araya getirir. Şirketin kendi lansman dilinde, Small 4; akıl yürütme için Magistral, çok modlu görevler için Pixtral ve ajanik kodlama için Devstral yeteneklerini birleştiren ilk Mistral modelidir. Metin ve görsel girdi kabul eder, metin çıktı üretir ve sohbet, kodlama, ajanik iş akışları, belge anlama, araştırma ve görsel analiz için tasarlanmıştır.

Bu sürüm neden önemli?

Pratik açıdan bakıldığında Mistral Small 4, model değiştirme yükünü azaltır. Bir istemi hızlı bir instruct modele, ikincisini bir akıl yürütme modeline, üçüncüsünü bir görsel modele yönlendirmek yerine tek bir uç nokta kullanabilir ve gerektiğinde reasoning_effort ayarını değiştirebilirsiniz. Mistral açıkça, reasoning_effort="none" ayarının Small 3.2 tarzı sohbetle karşılaştırılabilir hızlı, hafif yanıtlar verdiğini; reasoning_effort="high" ayarının ise önceki Magistral modellere benzer şekilde daha derin ve daha ayrıntılı akıl yürütme ürettiğini söylüyor.

Mistral Small 4’ün Performans Kıyasları

Temel Performans Öne Çıkanlar

Mistral Small 4 Yerel Olarak Nasıl Çalıştırılır

Metric	Mistral Small 4
Architecture	MoE
Context Window	256K
Latency	↓ up to 40%
Coding Benchmarks	Beats GPT-OSS 120B
Output Efficiency	20% fewer tokens

👉 Bu, onu üretim düzeyinde yapay zeka sistemleri için ideal kılar.

Mimari (Temel Teknik İçgörü)

Model Tipi: Uzman Karışımı (MoE)
Toplam Parametre: ~119B
Token Başına Etkin Parametre: ~6.5B
Uzmanlar: ~128 (her ileri geçişte 4 etkin)

👉 Bu mimari, küçük model maliyetinde büyük model zekâsı sağlar ve yoğun modellere kıyasla yerel dağıtım için idealdir.

Mistral Small 4 için planlamanız gereken dağıtım gereksinimleri

Resmî asgari ve önerilen altyapı

Mistral bu konuda alışılmadık derecede nettir. Asgari altyapı: 4x NVIDIA HGX H100, 2x NVIDIA HGX H200 veya 1x NVIDIA DGX B200. En iyi performans için önerilen kurulum: 4x HGX H100, 4x HGX H200 veya 2x DGX B200. Bu, tamamen resmî yolun tek bir tüketici GPU'sundan ziyade veri merkezi sınıfı makinelere yönelik olduğuna dair güçlü bir işarettir.

Pratikte bunun anlamı

Mistral Small 4, boyutu için açık ağırlıklı ve verimli olsa da yine de 256k bağlam penceresine sahip 119B’lik bir MoE sistemidir. Gerçek dağıtımlarda bu kombinasyon, bağlam uzunluğu arttıkça bellek baskısının hızla yükselmesi anlamına gelir ve sürdürülebilir performans genellikle çoklu GPU tensör paralelliğine ve verimli sunum yazılımına bağlıdır. Bu nedenle birincil öz barındırma motoru olarak vLLM’i önermekte ve tek makine “hemen çalışır” varsayılanları yerine OpenAI uyumlu sunum kalıplarını sergilemekteyiz.

Önerilen Kurulum (Profesyonel)

Component	Recommendation
GPU	48GB–80GB VRAM (A100 / H100)
CPU	16–32 cores
RAM	128GB
Storage	NVMe SSD

Donanım Neden Önemli?

Çünkü:

119B parametreli model (MoE bile olsa)
Büyük bağlam (256K token)
Çok modlu işleme

👉 Optimizasyon olmadan, tüketici GPU’ları için fazla ağırdır

Mistral Small 4’ü Yerelde Nasıl Çalıştırırsınız (Adım Adım)

Adım 1) Ağırlıkları edinin ve erişim koşullarını kabul edin

vLLM, varsayılan olarak ağırlıkları Hugging Face’ten kaynaklandırır; bu nedenle READ iznine sahip bir Hugging Face erişim jetonuna ihtiyacınız vardır ve model kartındaki koşulları kabul etmelisiniz. Pratik bir yerel kurulum için, NVIDIA sürücüleri, CUDA uyumlu çalışma zamanı desteği, Python ve seçilen kontrol noktası için yeterli GPU belleğine sahip bir Linux makine hazırlayın. Yapılar zaten kendi depolamanızda ise Hugging Face kurulumunu atlayıp vLLM’i yerel yola işaret edebilirsiniz.

Adım 2) Resmî olarak önerilen sunucu yığınını kullanın

Öz barındırma için vLLM önerilir; bu, OpenAI uyumlu bir API sunabilen yüksek düzeyde optimize edilmiş bir sunum çerçevesi olarak tanımlanır. Öz barındırma dokümanlarında alternatif olarak TensorRT-LLM ve TGI de anılır, ancak bu model ailesi için vLLM önerilen yoldur.

Adım 3) Mistral tarafından önerilen Docker imajını çekin veya vLLM’i elle kurun

Mistral Small 4, gerekli araç çağırma ve akıl yürütme ayrıştırma düzeltmeleriyle birlikte özel bir Docker imajının kullanılmasını veya yamalı bir vLLM yapısının manuel kurulmasını önerir. Kart, özel bir imaj sağlar ve Mistral’ın değişiklikleri vLLM ekibiyle birlikte üst akışa taşımak için çalıştığını not eder.

Başlamak için pratik bir nokta:

docker pull mistralllm/vllm-ms4:latestdocker run -it mistralllm/vllm-ms4:latest

Adım 4) Modeli sunun

Mistral’ın önerdiği sunucu komutu:

vllm serve mistralai/Mistral-Small-4-119B-2603-NVFP4 \  --max-model-len 262144 \  --tensor-parallel-size 2 \  --attention-backend TRITON_MLA \  --tool-call-parser mistral \  --enable-auto-tool-choice \  --reasoning-parser mistral \  --max_num_batched_tokens 16384 \  --max_num_seqs 128 \  --gpu_memory_utilization 0.8

Bu komut, yerel kullanım hikâyesindeki en önemli pratik ipucunu verir: modelin ciddi bir GPU arka ucu, uzun bir bağlam penceresi ve Mistral’e özgü araç ve akıl yürütme ayrıştırıcılarının etkin olduğu şekilde çalıştırılmasının amaçlandığını söyler.

Adım 5) Uygulamanızı yerel uç noktaya bağlayın

vLLM, OpenAI uyumlu bir REST API sunduğundan, mevcut OpenAI SDK kodunu genellikle http://localhost:8000/v1 adresine işaret edebilir ve uygulama mantığınızın çoğunu değiştirmeden koruyabilirsiniz. Mistral’ın örneği base_url="http://localhost:8000/v1" ve boş bir API anahtarı kullanır; bu, yerel geliştirmede yaygın bir kalıptır.

from openai import OpenAIclient = OpenAI(api_key="EMPTY", base_url="http://localhost:8000/v1")resp = client.chat.completions.create(    model="mistralai/Mistral-Small-4-119B-2603-NVFP4",    messages=[{"role": "user", "content": "Summarize the document in five bullets."}],    temperature=0.7,    reasoning_effort="none",)print(resp.choices[0].message.content)

Adım 6) Hız veya kalite için ayarlayın

Modeli yerelde test ediyorsanız, karmaşık istemler için reasoning_effort="high" ve bu modda temperature=0.7 önerilir; akıl yürütme kapalıyken daha düşük sıcaklıklar daha uygundur. Aynı kart, en iyi doğruluk için FP8 kontrol noktasını; verim ve daha düşük bellek kullanımı için NVFP4 kontrol noktasını ayırır. Bu nedenle doğru yapılandırma, kaliteye, hıza veya donanım ayak izine göre optimize edip etmediğinize bağlıdır.

Adım 7: İsteğe bağlı – Ollama ile çalıştırın (Basitleştirilmiş)

ollama run mistral-small-4

👉 En uygun:

Yerel geliştirme
Hızlı kurulum

Mistral Small 4 vs GPT-OSS vs Qwen 3.5 (Tam Karşılaştırma)

Mistral Small 4: aşırı verimli MoE

119B toplam parametre
Token başına ~6.5B etkin
128 uzman (4 etkin)
Çok modlu (metin + görsel)

👉 Ana fikir: çok büyük kapasite, token başına düşük hesaplama

Bunun getirileri:

Yüksek performans
Düşük gecikme
Düşük çıkarım maliyeti

GPT-OSS: dağıtım için pratik MoE

120B sürüm: ~117B toplam / 5.1B etkin
20B sürüm: ~21B toplam / 3.6B etkin
Yalnızca metin

👉 Ana fikir: güçlü modelleri asgari donanıma sığdırmak

Tek bir H100 GPU üzerinde çalışabilir
Güçlü araç kullanımı / yapılandırılmış çıktı desteği

Qwen 3.5: yüksek yetenek ölçeklemesi

122B parametreye kadar
Daha yüksek etkin parametre sayısı (~20B+)
Çok modlu + güçlü çokdilli

👉 Ana fikir: hesaplama maliyeti artsa da yeteneği en üst düzeye çıkarmak

Performans Kıyas Karşılaştırması

Category	Mistral Small 4	GPT-OSS (120B / 20B)	Qwen 3.5 (Plus / MoE)
Input / Output	Metin + Görsel giriş → Metin çıktıBağlam: 256K token	Metin girişi → Metin çıktıBağlam: ~128K token	Metin + Görsel + Video → Metin çıktıBağlam: 1M token’a kadar
Price (API)	$0.15 /M input$0.60 /M output	Resmî API fiyatı yok (öz barındırma)→ Altyapı bağımlı maliyet	$0.40–0.50 /M input$2.40–3.00 /M output
Architecture	MoE (Uzman Karışımı)119B toplam / 6.5B etkin128 uzman (4 etkin)	MoE Transformer120B: 117B / 5.1B etkin20B: 21B / 3.6B etkin	Hibrit MoE + gelişmiş katmanlar397B toplam’a kadar (A17B etkin)
Multimodal	✅ Görsel desteği	❌ Yalnızca metin	✅ Görsel + Video
Reasoning Control	✅ (reasoning_effort)	✅ (düşük/orta/yüksek modlar)	✅ Uyarlamalı akıl yürütme
Context Efficiency	⭐⭐⭐⭐⭐ (kısa çıktılar)	⭐⭐⭐⭐	⭐⭐⭐ (uzun çıktılar)
Tool / Agent Support	✅ Yerel araçlar, ajanlar, yapılandırılmış çıktılar	✅ Güçlü araç kullanımı, yapılandırılmış çıktılar	✅ Gelişmiş ajan ekosistemi
Coding Ability	⭐⭐⭐⭐⭐ (Devstral düzeyinde)	⭐⭐⭐⭐	⭐⭐⭐⭐⭐
Deployment	Ağır (çoklu GPU önerilir)	Esnek (tek GPU mümkün)	Ağır (bulut ölçeği tercih edilir)

Akıl yürütme etkinleştirildiğinde, Small 4; LCR, LiveCodeBench ve AIME 2025’te GPT-OSS 120B ile eşleşir veya onu geçer ve daha kısa çıktılar üretir. Mistral, Small 4’ün yalnızca 1.6K karakterle AA LCR’de 0.72 puan aldığı, karşılaştırılabilir Qwen sonuçlarının ise 5.8K–6.1K karakter gerektirdiği bir örnekten bahseder ve Small 4’ün GPT-OSS 120B’yi LiveCodeBench’te geride bırakırken %20 daha az çıktı ürettiğini söyler.

Mistral Small 4 Yerel Olarak Nasıl Çalıştırılır

Yerel kullanım için hangisi en iyi seçim?

Benim görüşüm: Mistral Small 4, güçlü genel sohbet, kodlama, ajanik çalışma ve çok modlu destekle dengeli bir yerel veya özel dağıtım istiyorsanız en iyi “tek model” seçeneğidir. GPT-OSS, özellikle daha küçük 20B sürümüyle, çok net yerel sunum kılavuzuna sahip, açıkça erişilebilir bir OpenAI modeli istiyorsanız en net seçimdir. Qwen3.5, en geniş aile olup; çokdilli kapsama, birden çok boyut kademesine ve esnek yerel sunum seçeneklerine en çok önem veriyorsanız bakmanız gereken modeldir.

Bu üst düzey açık kaynak modellerine API üzerinden erişmek ve tedarikçi değiştirmek istemiyorsanız, CometAPI öneririm; GPT-oss-120B ve Qwen 3.5 plus API vb. sunar.

Başka bir deyişle, Small 4’e barındırılan bir model olarak erişebilir veya ağırlıkları çekip kendi altyapınızda öz barındırabilirsiniz.

Sonuç

Small 4, açık ağırlıklı, çok modlu, akıl yürütme yetenekli, öz barındırılabilir, ince ayar yapılabilir ve mevcut OpenAI tarzı uygulama yığınlarına entegre edilebilir bir modele ihtiyaç duyduğunuzda çok güçlü bir seçenektir. Dağıtım kontrolü, veri yerleşimi ve daha düşük marjinal token maliyetlerine önem veren, aynı zamanda modern genel amaçlı bir model isteyen ekipler için özellikle caziptir.

Mistral Small 4’e erişmeye hazır mısınız? O hâlde CometAPI adresine gelin!

Mistral Small 4 nedir?

Birçok işi tek modelle yapın

Bu sürüm neden önemli?

Mistral Small 4’ün Performans Kıyasları

Temel Performans Öne Çıkanlar

Mimari (Temel Teknik İçgörü)

Mistral Small 4 için planlamanız gereken dağıtım gereksinimleri

Resmî asgari ve önerilen altyapı

Pratikte bunun anlamı

Önerilen Kurulum (Profesyonel)

Donanım Neden Önemli?

Mistral Small 4’ü Yerelde Nasıl Çalıştırırsınız (Adım Adım)

Adım 1) Ağırlıkları edinin ve erişim koşullarını kabul edin

Adım 2) Resmî olarak önerilen sunucu yığınını kullanın

Adım 3) Mistral tarafından önerilen Docker imajını çekin veya vLLM’i elle kurun

Adım 4) Modeli sunun

Adım 5) Uygulamanızı yerel uç noktaya bağlayın

Adım 6) Hız veya kalite için ayarlayın

Adım 7: İsteğe bağlı – Ollama ile çalıştırın (Basitleştirilmiş)

Mistral Small 4 vs GPT-OSS vs Qwen 3.5 (Tam Karşılaştırma)

Mistral Small 4: aşırı verimli MoE

GPT-OSS: dağıtım için pratik MoE

Qwen 3.5: yüksek yetenek ölçeklemesi

Performans Kıyas Karşılaştırması

Yerel kullanım için hangisi en iyi seçim?

Sonuç

En İyi Modellere Düşük Maliyetle Erişim

Devamını Oku