Mistral Small 4, çıkarım, akıl yürütme, kodlama ve çok modlu yetenekleri tek bir mimaride birleştiren, Mistral AI’nin (Mart 2026) yeni yayınladığı çok modlu bir yapay zeka modelidir. 256K bağlam penceresi, Uzman Karışımı (MoE) tasarımı (~119B toplam parametre, token başına ~6.5B etkin) sunar ve benzer açık modeller (ör. GPT-OSS 120B) karşısında kıyaslamalarda daha iyi sonuçlar üretirken daha hızlı çıkarım (gecikmede %40’a kadar azalma) sağlar.
Yerelde çalıştırmak için yüksek bellekli GPU’lar (≥48GB VRAM önerilir) veya kuantize dağıtımlar ile Transformers, vLLM veya Ollama gibi çerçevelere ihtiyaç vardır.
Mistral Small 4 nedir?
Birçok işi tek modelle yapın
Mistral Small 4, en iyi “çok yönlü” olarak anlaşılır: Mistral’ın önceki yönergeli, akıl yürütme ve kodlama ailelerinin güçlü yönlerini tek bir modelde bir araya getirir. Şirketin kendi lansman dilinde, Small 4; akıl yürütme için Magistral, çok modlu görevler için Pixtral ve ajanik kodlama için Devstral yeteneklerini birleştiren ilk Mistral modelidir. Metin ve görsel girdi kabul eder, metin çıktı üretir ve sohbet, kodlama, ajanik iş akışları, belge anlama, araştırma ve görsel analiz için tasarlanmıştır.
Bu sürüm neden önemli?
Pratik açıdan bakıldığında Mistral Small 4, model değiştirme yükünü azaltır. Bir istemi hızlı bir instruct modele, ikincisini bir akıl yürütme modeline, üçüncüsünü bir görsel modele yönlendirmek yerine tek bir uç nokta kullanabilir ve gerektiğinde reasoning_effort ayarını değiştirebilirsiniz. Mistral açıkça, reasoning_effort="none" ayarının Small 3.2 tarzı sohbetle karşılaştırılabilir hızlı, hafif yanıtlar verdiğini; reasoning_effort="high" ayarının ise önceki Magistral modellere benzer şekilde daha derin ve daha ayrıntılı akıl yürütme ürettiğini söylüyor.
Mistral Small 4’ün Performans Kıyasları
Temel Performans Öne Çıkanlar

| Metric | Mistral Small 4 |
|---|---|
| Architecture | MoE |
| Context Window | 256K |
| Latency | ↓ up to 40% |
| Coding Benchmarks | Beats GPT-OSS 120B |
| Output Efficiency | 20% fewer tokens |
👉 Bu, onu üretim düzeyinde yapay zeka sistemleri için ideal kılar.
Mimari (Temel Teknik İçgörü)
- Model Tipi: Uzman Karışımı (MoE)
- Toplam Parametre: ~119B
- Token Başına Etkin Parametre: ~6.5B
- Uzmanlar: ~128 (her ileri geçişte 4 etkin)
👉 Bu mimari, küçük model maliyetinde büyük model zekâsı sağlar ve yoğun modellere kıyasla yerel dağıtım için idealdir.
Mistral Small 4 için planlamanız gereken dağıtım gereksinimleri
Resmî asgari ve önerilen altyapı
Mistral bu konuda alışılmadık derecede nettir. Asgari altyapı: 4x NVIDIA HGX H100, 2x NVIDIA HGX H200 veya 1x NVIDIA DGX B200. En iyi performans için önerilen kurulum: 4x HGX H100, 4x HGX H200 veya 2x DGX B200. Bu, tamamen resmî yolun tek bir tüketici GPU'sundan ziyade veri merkezi sınıfı makinelere yönelik olduğuna dair güçlü bir işarettir.
Pratikte bunun anlamı
Mistral Small 4, boyutu için açık ağırlıklı ve verimli olsa da yine de 256k bağlam penceresine sahip 119B’lik bir MoE sistemidir. Gerçek dağıtımlarda bu kombinasyon, bağlam uzunluğu arttıkça bellek baskısının hızla yükselmesi anlamına gelir ve sürdürülebilir performans genellikle çoklu GPU tensör paralelliğine ve verimli sunum yazılımına bağlıdır. Bu nedenle birincil öz barındırma motoru olarak vLLM’i önermekte ve tek makine “hemen çalışır” varsayılanları yerine OpenAI uyumlu sunum kalıplarını sergilemekteyiz.
Önerilen Kurulum (Profesyonel)
| Component | Recommendation |
|---|---|
| GPU | 48GB–80GB VRAM (A100 / H100) |
| CPU | 16–32 cores |
| RAM | 128GB |
| Storage | NVMe SSD |
Donanım Neden Önemli?
Çünkü:
- 119B parametreli model (MoE bile olsa)
- Büyük bağlam (256K token)
- Çok modlu işleme
👉 Optimizasyon olmadan, tüketici GPU’ları için fazla ağırdır
Mistral Small 4’ü Yerelde Nasıl Çalıştırırsınız (Adım Adım)
Adım 1) Ağırlıkları edinin ve erişim koşullarını kabul edin
vLLM, varsayılan olarak ağırlıkları Hugging Face’ten kaynaklandırır; bu nedenle READ iznine sahip bir Hugging Face erişim jetonuna ihtiyacınız vardır ve model kartındaki koşulları kabul etmelisiniz. Pratik bir yerel kurulum için, NVIDIA sürücüleri, CUDA uyumlu çalışma zamanı desteği, Python ve seçilen kontrol noktası için yeterli GPU belleğine sahip bir Linux makine hazırlayın. Yapılar zaten kendi depolamanızda ise Hugging Face kurulumunu atlayıp vLLM’i yerel yola işaret edebilirsiniz.
Adım 2) Resmî olarak önerilen sunucu yığınını kullanın
Öz barındırma için vLLM önerilir; bu, OpenAI uyumlu bir API sunabilen yüksek düzeyde optimize edilmiş bir sunum çerçevesi olarak tanımlanır. Öz barındırma dokümanlarında alternatif olarak TensorRT-LLM ve TGI de anılır, ancak bu model ailesi için vLLM önerilen yoldur.
Adım 3) Mistral tarafından önerilen Docker imajını çekin veya vLLM’i elle kurun
Mistral Small 4, gerekli araç çağırma ve akıl yürütme ayrıştırma düzeltmeleriyle birlikte özel bir Docker imajının kullanılmasını veya yamalı bir vLLM yapısının manuel kurulmasını önerir. Kart, özel bir imaj sağlar ve Mistral’ın değişiklikleri vLLM ekibiyle birlikte üst akışa taşımak için çalıştığını not eder.
Başlamak için pratik bir nokta:
docker pull mistralllm/vllm-ms4:latestdocker run -it mistralllm/vllm-ms4:latest
Adım 4) Modeli sunun
Mistral’ın önerdiği sunucu komutu:
vllm serve mistralai/Mistral-Small-4-119B-2603-NVFP4 \ --max-model-len 262144 \ --tensor-parallel-size 2 \ --attention-backend TRITON_MLA \ --tool-call-parser mistral \ --enable-auto-tool-choice \ --reasoning-parser mistral \ --max_num_batched_tokens 16384 \ --max_num_seqs 128 \ --gpu_memory_utilization 0.8
Bu komut, yerel kullanım hikâyesindeki en önemli pratik ipucunu verir: modelin ciddi bir GPU arka ucu, uzun bir bağlam penceresi ve Mistral’e özgü araç ve akıl yürütme ayrıştırıcılarının etkin olduğu şekilde çalıştırılmasının amaçlandığını söyler.
Adım 5) Uygulamanızı yerel uç noktaya bağlayın
vLLM, OpenAI uyumlu bir REST API sunduğundan, mevcut OpenAI SDK kodunu genellikle http://localhost:8000/v1 adresine işaret edebilir ve uygulama mantığınızın çoğunu değiştirmeden koruyabilirsiniz. Mistral’ın örneği base_url="http://localhost:8000/v1" ve boş bir API anahtarı kullanır; bu, yerel geliştirmede yaygın bir kalıptır.
from openai import OpenAIclient = OpenAI(api_key="EMPTY", base_url="http://localhost:8000/v1")resp = client.chat.completions.create( model="mistralai/Mistral-Small-4-119B-2603-NVFP4", messages=[{"role": "user", "content": "Summarize the document in five bullets."}], temperature=0.7, reasoning_effort="none",)print(resp.choices[0].message.content)
Adım 6) Hız veya kalite için ayarlayın
Modeli yerelde test ediyorsanız, karmaşık istemler için reasoning_effort="high" ve bu modda temperature=0.7 önerilir; akıl yürütme kapalıyken daha düşük sıcaklıklar daha uygundur. Aynı kart, en iyi doğruluk için FP8 kontrol noktasını; verim ve daha düşük bellek kullanımı için NVFP4 kontrol noktasını ayırır. Bu nedenle doğru yapılandırma, kaliteye, hıza veya donanım ayak izine göre optimize edip etmediğinize bağlıdır.
Adım 7: İsteğe bağlı – Ollama ile çalıştırın (Basitleştirilmiş)
ollama run mistral-small-4
👉 En uygun:
- Yerel geliştirme
- Hızlı kurulum
Mistral Small 4 vs GPT-OSS vs Qwen 3.5 (Tam Karşılaştırma)
Mistral Small 4: aşırı verimli MoE
- 119B toplam parametre
- Token başına ~6.5B etkin
- 128 uzman (4 etkin)
- Çok modlu (metin + görsel)
👉 Ana fikir: çok büyük kapasite, token başına düşük hesaplama
Bunun getirileri:
- Yüksek performans
- Düşük gecikme
- Düşük çıkarım maliyeti
GPT-OSS: dağıtım için pratik MoE
- 120B sürüm: ~117B toplam / 5.1B etkin
- 20B sürüm: ~21B toplam / 3.6B etkin
- Yalnızca metin
👉 Ana fikir: güçlü modelleri asgari donanıma sığdırmak
- Tek bir H100 GPU üzerinde çalışabilir
- Güçlü araç kullanımı / yapılandırılmış çıktı desteği
Qwen 3.5: yüksek yetenek ölçeklemesi
- 122B parametreye kadar
- Daha yüksek etkin parametre sayısı (~20B+)
- Çok modlu + güçlü çokdilli
👉 Ana fikir: hesaplama maliyeti artsa da yeteneği en üst düzeye çıkarmak
Performans Kıyas Karşılaştırması
| Category | Mistral Small 4 | GPT-OSS (120B / 20B) | Qwen 3.5 (Plus / MoE) |
|---|---|---|---|
| Input / Output | Metin + Görsel giriş → Metin çıktıBağlam: 256K token | Metin girişi → Metin çıktıBağlam: ~128K token | Metin + Görsel + Video → Metin çıktıBağlam: 1M token’a kadar |
| Price (API) | $0.15 /M input$0.60 /M output | Resmî API fiyatı yok (öz barındırma)→ Altyapı bağımlı maliyet | $0.40–0.50 /M input$2.40–3.00 /M output |
| Architecture | MoE (Uzman Karışımı)119B toplam / 6.5B etkin128 uzman (4 etkin) | MoE Transformer120B: 117B / 5.1B etkin20B: 21B / 3.6B etkin | Hibrit MoE + gelişmiş katmanlar397B toplam’a kadar (A17B etkin) |
| Multimodal | ✅ Görsel desteği | ❌ Yalnızca metin | ✅ Görsel + Video |
| Reasoning Control | ✅ (reasoning_effort) | ✅ (düşük/orta/yüksek modlar) | ✅ Uyarlamalı akıl yürütme |
| Context Efficiency | ⭐⭐⭐⭐⭐ (kısa çıktılar) | ⭐⭐⭐⭐ | ⭐⭐⭐ (uzun çıktılar) |
| Tool / Agent Support | ✅ Yerel araçlar, ajanlar, yapılandırılmış çıktılar | ✅ Güçlü araç kullanımı, yapılandırılmış çıktılar | ✅ Gelişmiş ajan ekosistemi |
| Coding Ability | ⭐⭐⭐⭐⭐ (Devstral düzeyinde) | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| Deployment | Ağır (çoklu GPU önerilir) | Esnek (tek GPU mümkün) | Ağır (bulut ölçeği tercih edilir) |
Akıl yürütme etkinleştirildiğinde, Small 4; LCR, LiveCodeBench ve AIME 2025’te GPT-OSS 120B ile eşleşir veya onu geçer ve daha kısa çıktılar üretir. Mistral, Small 4’ün yalnızca 1.6K karakterle AA LCR’de 0.72 puan aldığı, karşılaştırılabilir Qwen sonuçlarının ise 5.8K–6.1K karakter gerektirdiği bir örnekten bahseder ve Small 4’ün GPT-OSS 120B’yi LiveCodeBench’te geride bırakırken %20 daha az çıktı ürettiğini söyler.


Yerel kullanım için hangisi en iyi seçim?
Benim görüşüm: Mistral Small 4, güçlü genel sohbet, kodlama, ajanik çalışma ve çok modlu destekle dengeli bir yerel veya özel dağıtım istiyorsanız en iyi “tek model” seçeneğidir. GPT-OSS, özellikle daha küçük 20B sürümüyle, çok net yerel sunum kılavuzuna sahip, açıkça erişilebilir bir OpenAI modeli istiyorsanız en net seçimdir. Qwen3.5, en geniş aile olup; çokdilli kapsama, birden çok boyut kademesine ve esnek yerel sunum seçeneklerine en çok önem veriyorsanız bakmanız gereken modeldir.
Bu üst düzey açık kaynak modellerine API üzerinden erişmek ve tedarikçi değiştirmek istemiyorsanız, CometAPI öneririm; GPT-oss-120B ve Qwen 3.5 plus API vb. sunar.
Başka bir deyişle, Small 4’e barındırılan bir model olarak erişebilir veya ağırlıkları çekip kendi altyapınızda öz barındırabilirsiniz.
Sonuç
Small 4, açık ağırlıklı, çok modlu, akıl yürütme yetenekli, öz barındırılabilir, ince ayar yapılabilir ve mevcut OpenAI tarzı uygulama yığınlarına entegre edilebilir bir modele ihtiyaç duyduğunuzda çok güçlü bir seçenektir. Dağıtım kontrolü, veri yerleşimi ve daha düşük marjinal token maliyetlerine önem veren, aynı zamanda modern genel amaçlı bir model isteyen ekipler için özellikle caziptir.
Mistral Small 4’e erişmeye hazır mısınız? O hâlde CometAPI adresine gelin!
