Mistral Small 4 کو مقامی طور پر کیسے چلائیں

Mistral Small 4 ایک نیا جاری کردہ ملٹی موڈل AI ماڈل ہے (Mistral AI، مارچ 2026) جو اِنفرنس، استدلال، کوڈنگ اور ملٹی موڈل صلاحیتوں کو ایک واحد آرکیٹیکچر میں یکجا کرتا ہے۔ اس میں 256K کانٹیکسٹ ونڈو، Mixture-of-Experts (MoE) ڈیزائن (~119B کُل پیرا میٹرز، ~6.5B فی ٹوکن فعال) شامل ہے، اور یہ تیز تر اِنفرنس (لیٹنسی میں 40% تک کمی) فراہم کرتا ہے جبکہ بینچ مارکس میں GPT-OSS 120B جیسے موازنہ کھلے ماڈلز سے بہتر کارکردگی دکھاتا ہے۔

اسے مقامی طور پر چلانے کے لیے آپ کو ہائی میموری GPUs (≥48GB VRAM تجویز کردہ) یا کوائنٹائزڈ ڈپلائمنٹس کی ضرورت ہوگی، ساتھ ہی Transformers، vLLM، یا Ollama جیسے فریم ورکس۔

Mistral Small 4 کیا ہے؟

متعدد کاموں کے لیے ایک ہی ماڈل

Mistral Small 4 کو ایک “آل راؤنڈر” کے طور پر سمجھا جا سکتا ہے: یہ Mistral کے سابقہ انسٹرکشن، ریزننگ، اور کوڈنگ فیملیز کی مضبوطیوں کو ایک ماڈل میں جوڑتا ہے۔ کمپنی کی جاری کردہ زبان میں، Small 4 وہ پہلا Mistral ماڈل ہے جو Magistral (ریزننگ)، Pixtral (ملٹی موڈل ٹاسکس)، اور Devstral (ایجینٹک کوڈنگ) کی صلاحیتوں کو یکجا کرتا ہے۔ یہ متن اور تصویر بطور ان پٹ قبول کرتا ہے، متن بطور آؤٹ پٹ دیتا ہے، اور چیٹ، کوڈنگ، ایجینٹک ورک فلو، ڈاکیومنٹ سمجھ، تحقیق، اور بصری تجزیے کے لیے تیار کیا گیا ہے۔

یہ ریلیز کیوں اہم ہے

عملی اہمیت یہ ہے کہ Mistral Small 4 ماڈل سوئچنگ کے جھنجھٹ کو کم کرتا ہے۔ بجائے اس کے کہ ایک پرامپٹ تیز انسٹرکٹ ماڈل کو، دوسرا ریزننگ ماڈل کو، اور تیسرا وِژن ماڈل کو بھیجا جائے، آپ ایک ہی اینڈ پوائنٹ استعمال کر سکتے ہیں اور ضرورت کے مطابق reasoning_effort سیٹنگ ایڈجسٹ کر سکتے ہیں۔ Mistral واضح طور پر کہتا ہے کہ reasoning_effort="none" تیز، ہلکے جوابات دیتا ہے جو Small 3.2 طرز چیٹ کے مشابہ ہیں، جبکہ reasoning_effort="high" گہرے، نسبتاً مفصل استدلال پیدا کرتا ہے جو اس کے سابقہ Magistral ماڈلز جیسا ہے۔

Mistral Small 4 کے کارکردگی بینچ مارکس

کلیدی کارکردگی کی جھلکیاں

Mistral Small 4 کو مقامی طور پر کیسے چلائیں

میٹرک	Mistral Small 4
آرکیٹیکچر	MoE
کانٹیکسٹ ونڈو	256K
لیٹنسی	↓ 40% تک
کوڈنگ بینچ مارکس	GPT-OSS 120B سے بہتر
آؤٹ پٹ ایفیشینسی	20% کم ٹوکنز

👉 یہی اسے پروڈکشن گریڈ AI سسٹمز کے لیے مثالی بناتا ہے۔

آرکیٹیکچر (اہم تکنیکی بصیرت)

Model Type: Mixture-of-Experts (MoE)
Total Parameters: ~119B
Active Parameters per Token: ~6.5B
Experts: ~128 (ہر فورورڈ پاس میں 4 فعال)

👉 یہ آرکیٹیکچر بڑے ماڈل جیسی ذہانت کم لاگت پر ممکن بناتا ہے، جس سے گھنے ماڈلز کے مقابلے میں مقامی ڈپلائمنٹ کے لیے یہ زیادہ موزوں ہو جاتا ہے۔

اگر آپ Mistral Small 4 کی ڈپلائمنٹ کا منصوبہ بناتے ہیں تو تقاضے

سرکاری کم سے کم اور تجویز کردہ انفراسٹرکچر

Mistral اس بارے میں غیر معمولی طور پر واضح ہے۔ کم از کم انفراسٹرکچر: 4x NVIDIA HGX H100، 2x NVIDIA HGX H200، یا 1x NVIDIA DGX B200۔ بہترین کارکردگی کے لیے اس کی تجویز کردہ ترتیب: 4x HGX H100، 4x HGX H200، یا 2x DGX B200۔ یہ مضبوط اشارہ ہے کہ مکمل طور پر سرکاری راستہ ڈیٹا سینٹر کلاس مشینوں کی طرف ہے نہ کہ ایک واحد کنزیومر GPU کی طرف۔

عملی طور پر اس کا مطلب کیا ہے

Mistral Small 4 اوپن ویٹ اور اپنے سائز کے لحاظ سے مؤثر ہے، لیکن یہ پھر بھی 256k کانٹیکسٹ ونڈو کے ساتھ 119B کا MoE سسٹم ہے۔ حقیقی ڈپلائمنٹس میں، اس امتزاج کا مطلب ہے کہ کانٹیکسٹ لمبائی بڑھنے کے ساتھ میموری پریشر تیزی سے بڑھتا ہے، اور پائیدار کارکردگی عموماً ملٹی-GPU ٹینسر پیراللزم اور مؤثر سرونگ سافٹ ویئر پر منحصر ہوتی ہے۔ اسی لیے ہم vLLM کو بنیادی سیلف ڈپلائمنٹ انجن کے طور پر تجویز کرتے ہیں اور سنگل مشین “بس چل پڑے” کے بجائے OpenAI-کمپیٹیبل سرونگ پیٹرنز فراہم کرنے کو ترجیح دیتے ہیں۔

تجویز کردہ سیٹ اپ (پروفیشنل)

کمپوننٹ	سفارش
GPU	48GB–80GB VRAM (A100 / H100)
CPU	16–32 کورز
RAM	128GB
اسٹوریج	NVMe SSD

ہارڈویئر کیوں اہم ہے

کیونکہ:

119B پیرا میٹر ماڈل (MoE ہونے کے باوجود)
بڑا کانٹیکسٹ (256K ٹوکنز)
ملٹی موڈل پروسیسنگ

👉 بنا آپٹیمائزیشن کے، یہ کنزیومر GPUs کے لیے بہت بھاری ہے۔

Mistral Small 4 کو مقامی طور پر کیسے چلائیں (مرحلہ وار)

Step 1) ویٹس حاصل کریں اور ایکسس شرائط قبول کریں

vLLM ڈیفالٹ طور پر ویٹس Hugging Face سے حاصل کرتا ہے، لہٰذا آپ کو Hugging Face ایکسس ٹوکن جس میں READ پرمیشن ہو درکار ہے اور آپ کو ماڈل کارڈ پر شرائط قبول کرنا ہوں گی۔ ایک عملی مقامی سیٹ اپ کے لیے، NVIDIA ڈرائیورز، CUDA-کمپیٹیبل رن ٹائم سپورٹ، Python، اور منتخب چیک پوائنٹ کے لیے کافی GPU میموری کے ساتھ ایک لینکس مشین تیار کریں۔ اگر آپ کے پاس پہلے سے اپنے اسٹوریج پر آرٹیفیکٹس موجود ہیں، تو آپ Hugging Face سیٹ اپ کو چھوڑ سکتے ہیں اور vLLM کو لوکل پاتھ کی طرف پوائنٹ کر سکتے ہیں۔

Step 2) آفیشل تجویز کردہ سرور اسٹیک استعمال کریں

سیلف ڈپلائمنٹ کے لیے vLLM کی سفارش کی جاتی ہے، جسے ایک انتہائی آپٹیمائزڈ سرونگ فریم ورک کے طور پر بیان کیا گیا ہے جو OpenAI-کمپیٹیبل API مہیا کر سکتا ہے۔ اس کی سیلف ڈپلائمنٹ ڈاکس میں TensorRT-LLM اور TGI بطور متبادل بھی مذکور ہیں، مگر اس ماڈل فیملی کے لیے vLLM تجویز کردہ راستہ ہے۔

Step 3) Mistral-سفارش کردہ Docker امیج پل کریں یا vLLM دستی طور پر انسٹال کریں

Mistral Small 4 ایک کسٹم Docker امیج استعمال کرنے کی سفارش کرتا ہے جس میں ضروری ٹول کالنگ اور ریزننگ پارسنگ فکسز شامل ہوں، یا ایک پیچیڈ vLLM بلڈ کو دستی طور پر انسٹال کریں۔ کارڈ ایک کسٹم امیج فراہم کرتا ہے اور نوٹ کرتا ہے کہ Mistral vLLM ٹیم کے ساتھ تبدیلیاں اپ سٹریم کرنے پر کام کر رہا ہے۔

ایک عملی نقطۂ آغاز یہ ہے:

docker pull mistralllm/vllm-ms4:latestdocker run -it mistralllm/vllm-ms4:latest

Step 4) ماڈل کو سرؤ کریں

Mistral کا تجویز کردہ سرور کمانڈ یہ ہے:

vllm serve mistralai/Mistral-Small-4-119B-2603-NVFP4 \  --max-model-len 262144 \  --tensor-parallel-size 2 \  --attention-backend TRITON_MLA \  --tool-call-parser mistral \  --enable-auto-tool-choice \  --reasoning-parser mistral \  --max_num_batched_tokens 16384 \  --max_num_seqs 128 \  --gpu_memory_utilization 0.8

یہ کمانڈ پوری مقامی کہانی میں سب سے اہم عملی سراغ دیتا ہے: یہ بتاتا ہے کہ ماڈل کو سنجیدہ GPU بیک اینڈ، طویل کانٹیکسٹ ونڈو، اور Mistral-مخصوص ٹول اور ریزننگ پارسرز کے ساتھ چلانے کا ارادہ ہے۔

Step 5) اپنی ایپلیکیشن کو مقامی اینڈ پوائنٹ سے جوڑیں

چونکہ vLLM ایک OpenAI-کمپیٹیبل REST API فراہم کرتا ہے، آپ عموماً موجودہ OpenAI SDK کوڈ کو http://localhost:8000/v1 پر پوائنٹ کر سکتے ہیں اور اپنی زیادہ تر ایپلیکیشن لاجک کو بغیر تبدیلی برقرار رکھ سکتے ہیں۔ Mistral کی مثال میں base_url="http://localhost:8000/v1" اور خالی API کی استعمال ہوتی ہے، جو مقامی ڈویلپمنٹ کا عام پیٹرن ہے۔

from openai import OpenAIclient = OpenAI(api_key="EMPTY", base_url="http://localhost:8000/v1")resp = client.chat.completions.create(    model="mistralai/Mistral-Small-4-119B-2603-NVFP4",    messages=[{"role": "user", "content": "Summarize the document in five bullets."}],    temperature=0.7,    reasoning_effort="none",)print(resp.choices[0].message.content)

Step 6) رفتار یا معیار کے لیے ٹیون کریں

اگر آپ ماڈل کو مقامی طور پر ٹیسٹ کر رہے ہیں، تو پیچیدہ پرامپٹس کے لیے reasoning_effort="high" اور اس موڈ میں temperature=0.7 تجویز کیا جاتا ہے، جبکہ جب ریزننگ بند ہو تو کم درجۂ حرارت مناسب ہوتا ہے۔ اسی کارڈ میں بہترین درستگی کے لیے الگ FP8 چیک پوائنٹ اور تھروپُٹ و کم میموری استعمال کے لیے NVFP4 چیک پوائنٹ کا بھی ذکر ہے، لہٰذا صحیح کنفیگریشن اس بات پر منحصر ہے کہ آپ معیار، رفتار، یا ہارڈویئر فٹ پرنٹ میں سے کس کو ترجیح دیتے ہیں۔

Step 7: اختیاری – Ollama کے ذریعے چلائیں (سادہ طریقہ)

ollama run mistral-small-4

👉 موزوں برائے:

مقامی ڈویلپمنٹ
تیز سیٹ اپ

Mistral Small 4 بمقابلہ GPT-OSS بمقابلہ Qwen 3.5 (مکمل موازنہ)

Mistral Small 4: انتہائی مؤثر MoE

119B کُل پیرا میٹرز
~6.5B فی ٹوکن فعال
128 ایکسپرٹس (4 فعال)
ملٹی موڈل (متن + تصویر)

👉 کلیدی خیال: انتہائی بڑی گنجائش مگر فی ٹوکن کم کمپیوٹ

اس سے حاصل ہوتا ہے:

اعلیٰ کارکردگی
کم لیٹنسی
فی اِنفرنس کم لاگت

GPT-OSS: ڈپلائمنٹ کے لیے عملی MoE

120B ورژن: ~117B کُل / 5.1B فعال
20B ورژن: ~21B کُل / 3.6B فعال
صرف متن

👉 کلیدی خیال: طاقتور ماڈلز کو کم سے کم ہارڈویئر پر فٹ کرنا

سنگل H100 GPU پر چل سکتا ہے
مضبوط ٹول یوز / اسٹرکچرڈ آؤٹ پٹ سپورٹ

Qwen 3.5: اعلیٰ صلاحیت کا اسکیلنگ

زیادہ سے زیادہ 122B پیرا میٹرز
زیادہ فعال پیرا میٹر کاؤنٹ (~20B+)
ملٹی موڈل + مضبوط ملٹی لِنگول

👉 کلیدی خیال: کمپیوٹ لاگت بڑھنے کے باوجود قابلیت کو زیادہ سے زیادہ کرنا

کارکردگی بینچ مارک موازنہ

زمرہ	Mistral Small 4	GPT-OSS (120B / 20B)	Qwen 3.5 (Plus / MoE)
اِن پُٹ / آؤٹ پُٹ	متن + تصویر اِن پُٹ → متن آؤٹ پُٹکانٹیکسٹ: 256K ٹوکنز	متن اِن پُٹ → متن آؤٹ پُٹکانٹیکسٹ: ~128K ٹوکنز	متن + تصویر + ویڈیو → متن آؤٹ پُٹکانٹیکسٹ: 1M ٹوکنز تک
قیمت (API)	$0.15 /M input$0.60 /M output	آفیشل API پرائسنگ نہیں (سیلف ہوسٹڈ)→ اِنفرا پر منحصر لاگت	$0.40–0.50 /M input$2.40–3.00 /M output
آرکیٹیکچر	MoE (Mixture-of-Experts)119B کُل / 6.5B فعال128 ایکسپرٹس (4 فعال)	MoE Transformer120B: 117B / 5.1B فعال20B: 21B / 3.6B فعال	Hybrid MoE + advanced layersUp to 397B total (A17B active)
ملٹی موڈل	✅ تصویر سپورٹ	❌ صرف متن	✅ تصویر + ویڈیو
ریزننگ کنٹرول	✅ (reasoning_effort)	✅ (low/med/high modes)	✅ Adaptive reasoning
کانٹیکسٹ ایفیشینسی	⭐⭐⭐⭐⭐ (مختصر آؤٹ پُٹس)	⭐⭐⭐⭐	⭐⭐⭐ (طویل آؤٹ پُٹس)
ٹول / ایجنٹ سپورٹ	✅ نیٹو ٹولز، ایجنٹس، اسٹرکچرڈ آؤٹ پُٹس	✅ مضبوط ٹول یوز، اسٹرکچرڈ آؤٹ پُٹس	✅ ایڈوانسڈ ایجنٹ ایکو سسٹم
کوڈنگ صلاحیت	⭐⭐⭐⭐⭐ (Devstral-سطح)	⭐⭐⭐⭐	⭐⭐⭐⭐⭐
ڈپلائمنٹ	بھاری (ملٹی-GPU تجویز کردہ)	لچکدار (سنگل GPU ممکن)	بھاری (کلاؤڈ اسکیل ترجیحی)

ریزنگ فعال ہونے پر، Small 4 لائیو کوڈ بینچ اور AIME 2025 سمیت LCR پر GPT-OSS 120B کا ہم پلہ یا اس سے آگے ہے، جبکہ چھوٹے آؤٹ پُٹس پیدا کرتا ہے۔ Mistral ایک مثال دیتا ہے جہاں Small 4 نے AA LCR پر 0.72 اسکور کیا محض 1.6K کریکٹرز کے ساتھ، جبکہ موازنہ Qwen کے نتائج کے لیے 5.8K–6.1K کریکٹرز درکار تھے، اور کہتا ہے کہ Small 4 LiveCodeBench پر GPT-OSS 120B سے بہتر ہے جبکہ 20% کم آؤٹ پُٹ پیدا کرتا ہے۔

Mistral Small 4 کو مقامی طور پر کیسے چلائیں

کون سا مقامی انتخاب بہترین ہے؟

میری رائے: اگر آپ مضبوط جنرل چیٹ، کوڈنگ، ایجینٹک ورک، اور ملٹی موڈل سپورٹ کے ساتھ متوازن مقامی یا پرائیویٹ ڈپلائمنٹ چاہتے ہیں تو Mistral Small 4 بہترین “سنگل ماڈل” انتخاب ہے۔ اگر آپ ایک کھلا OpenAI ماڈل چاہتے ہیں جس کے لیے مقامی سرونگ پر بہت واضح رہنمائی ہو—خصوصاً چھوٹا 20B ورژن—تو GPT-OSS واضح ترین انتخاب ہے۔ Qwen3.5 سب سے وسیع فیملی ہے، اور اگر آپ کے لیے ملٹی لنگول کوریج، متعدد سائز ٹئیرز، اور لچکدار مقامی سرونگ آپشنز اہم ہیں تو اسے دیکھنا چاہیے۔

اگر آپ ان اعلیٰ اوپن سورس ماڈلز کو APIs کے ذریعے ایک ہی وینڈر کے ساتھ استعمال کرنا چاہتے ہیں، تو میں CometAPI کی سفارش کرتا ہوں؛ یہ GPT-oss-120B اور Qwen 3.5 plus API وغیرہ فراہم کرتا ہے۔

دوسرے لفظوں میں، آپ Small 4 کو بطور ہوسٹڈ ماڈل استعمال کر سکتے ہیں، یا ویٹس کھینچ کر اپنی انفراسٹرکچر پر خود ہوسٹ کر سکتے ہیں۔

نتیجہ

Small 4 ایک بہت مضبوط انتخاب ہے جب آپ کو ایک اوپن ویٹ، ملٹی موڈل، ریزننگ-قابل ماڈل درکار ہو جو سیلف ہوسٹ، فائن ٹیون، اور موجودہ OpenAI-اسٹائل ایپلی کیشن اسٹیکس میں ضم ہو سکے۔ یہ خاص طور پر اُن ٹیموں کے لیے موزوں ہے جو ڈپلائمنٹ کنٹرول، ڈیٹا ریزیڈنسی، اور کم مارجنل ٹوکن لاگت کی پرواہ کرتی ہیں، جبکہ ایک جدید جنرل پرپز ماڈل بھی چاہتی ہیں۔

Mistral Small 4 تک رسائی کے لیے تیار ہیں؟ تو پھر آئیں CometAPI پر!

Mistral Small 4 کیا ہے؟

متعدد کاموں کے لیے ایک ہی ماڈل

یہ ریلیز کیوں اہم ہے

Mistral Small 4 کے کارکردگی بینچ مارکس

کلیدی کارکردگی کی جھلکیاں

آرکیٹیکچر (اہم تکنیکی بصیرت)

اگر آپ Mistral Small 4 کی ڈپلائمنٹ کا منصوبہ بناتے ہیں تو تقاضے

سرکاری کم سے کم اور تجویز کردہ انفراسٹرکچر

عملی طور پر اس کا مطلب کیا ہے

تجویز کردہ سیٹ اپ (پروفیشنل)

ہارڈویئر کیوں اہم ہے

Mistral Small 4 کو مقامی طور پر کیسے چلائیں (مرحلہ وار)

Step 1) ویٹس حاصل کریں اور ایکسس شرائط قبول کریں

Step 2) آفیشل تجویز کردہ سرور اسٹیک استعمال کریں

Step 3) Mistral-سفارش کردہ Docker امیج پل کریں یا vLLM دستی طور پر انسٹال کریں

Step 4) ماڈل کو سرؤ کریں

Step 5) اپنی ایپلیکیشن کو مقامی اینڈ پوائنٹ سے جوڑیں

Step 6) رفتار یا معیار کے لیے ٹیون کریں

Step 7: اختیاری – Ollama کے ذریعے چلائیں (سادہ طریقہ)

Mistral Small 4 بمقابلہ GPT-OSS بمقابلہ Qwen 3.5 (مکمل موازنہ)

Mistral Small 4: انتہائی مؤثر MoE

GPT-OSS: ڈپلائمنٹ کے لیے عملی MoE

Qwen 3.5: اعلیٰ صلاحیت کا اسکیلنگ

کارکردگی بینچ مارک موازنہ

کون سا مقامی انتخاب بہترین ہے؟

نتیجہ

کم لاگت میں اعلیٰ ماڈلز تک رسائی

مزید پڑھیں