Mistral Small 4 هو نموذج ذكاء اصطناعي متعدد الوسائط صدر حديثًا من Mistral AI (مارس 2026) يوحّد الاستدلال، والتعليل، والبرمجة، والقدرات متعددة الوسائط ضمن بنية واحدة. يتميز بـ نافذة سياق 256K، وتصميم Mixture-of-Experts (MoE) (~119B من المعاملات الإجمالية، ~6.5B نشطة لكل رمز)، ويوفر استدلالًا أسرع (خفضًا لزمن الاستجابة يصل إلى 40%) مع التفوق على نماذج مفتوحة مماثلة مثل GPT-OSS 120B في الاختبارات المعيارية.
لتشغيله محليًا، تحتاج إلى بطاقات رسومية عالية الذاكرة (يوصى بـ ≥48GB VRAM) أو نشرات مُكمّمة، إلى جانب أطر تشغيل مثل Transformers، vLLM، أو Ollama.
ما هو Mistral Small 4؟
نموذج واحد لعدة مهام
يمكن فهم Mistral Small 4 على أنه "شامل المهام": فهو يجمع نقاط قوة عائلات Mistral السابقة الخاصة بالتوجيه، والتعليل، والبرمجة في نموذج واحد. ووفق لغة الإطلاق الرسمية للشركة، فإن Small 4 هو أول نموذج من Mistral يوحّد قدرات Magistral للتعليل، وPixtral للمهام متعددة الوسائط، وDevstral للبرمجة الوكيلية. يستقبل مدخلات نصوص وصور، ويُخرج نصًا، ومُعدّ للدردشة، والبرمجة، وسير العمل الوكيلية، وفهم المستندات، والبحث، والتحليل البصري.
لماذا يهم هذا الإصدار
الأهمية العملية أن Mistral Small 4 يقلّل عناء التبديل بين النماذج. بدلًا من توجيه مطالبة إلى نموذج توجيهي سريع، وأخرى إلى نموذج تعليل، وثالثة إلى نموذج رؤية، يمكنك استخدام نقطة نهاية واحدة وضبط إعداد reasoning_effort حسب الحاجة. ذكرت Mistral صراحة أن reasoning_effort="none" يعطي استجابات سريعة وخفيفة تماثل دردشة Small 3.2، بينما reasoning_effort="high" ينتج تعليلًا أعمق وأكثر تفصيلًا شبيهًا بنماذج Magistral السابقة.
مؤشرات الأداء لـ Mistral Small 4
أبرز مؤشرات الأداء

| المؤشر | Mistral Small 4 |
|---|---|
| البنية | MoE |
| نافذة السياق | 256K |
| زمن الاستجابة | ↓ حتى 40% |
| اختبارات البرمجة | يتفوق على GPT-OSS 120B |
| كفاءة المخرجات | رموز أقل بنسبة 20% |
👉 هذا يجعله مثاليًا لـ أنظمة الذكاء الاصطناعي الإنتاجية.
البنية (رؤية تقنية أساسية)
- نوع النموذج: Mixture-of-Experts (MoE)
- إجمالي المعاملات: ~119B
- المعاملات النشطة لكل رمز: ~6.5B
- عدد الخبراء: ~128 (4 نشطة في كل مرور أمامي)
👉 تتيح هذه البنية ذكاء النماذج الكبيرة بتكلفة النماذج الصغيرة، ما يجعلها مثالية للنشر المحلي مقارنة بالنماذج الكثيفة.
متطلبات النشر التي ينبغي التخطيط لها لـ Mistral Small 4
الحد الأدنى الرسمي والبنية التحتية الموصى بها
تبدو Mistral غير معتادة في الوضوح هنا. الحد الأدنى للبنية التحتية هو 4x NVIDIA HGX H100 أو 2x NVIDIA HGX H200 أو 1x NVIDIA DGX B200. أما الإعداد الموصى به للحصول على الأداء الأمثل فهو 4x HGX H100 أو 4x HGX H200 أو 2x DGX B200. هذه إشارة قوية إلى أن المسار الرسمي بالكامل موجّه لآلات من فئة مراكز البيانات وليس لوحدة GPU استهلاكية واحدة.
ماذا يعني ذلك عمليًا
Mistral Small 4 مفتوح الأوزان وفعال بالنسبة لحجمه، لكنه يظل نظام MoE بسعة 119B مع نافذة سياق 256K. في النشرات الواقعية، يعني هذا المزيج أن ضغط الذاكرة يرتفع بسرعة مع نمو طول السياق، وأن الأداء المستدام يعتمد غالبًا على توازي الموتر عبر عدة وحدات GPU وبرمجيات تقديم فعّالة. لهذا السبب نوصي بـ vLLM كمحرّك النشر الذاتي الأساسي واعتماد أنماط تقديم متوافقة مع OpenAI بدلًا من افتراضات "يعمل على آلة واحدة" الافتراضية.
الإعداد الموصى به (احترافي)
| المكوّن | التوصية |
|---|---|
| GPU | 48GB–80GB VRAM (A100 / H100) |
| CPU | 16–32 نواة |
| RAM | 128GB |
| التخزين | NVMe SSD |
لماذا يهم العتاد
لأن:
- نموذج بـ 119B معلمة (حتى مع MoE)
- سياق كبير (256K رموز)
- معالجة متعددة الوسائط
👉 بدون تحسينات، فإنه ثقيل جدًا على وحدات GPU الاستهلاكية
كيفية تشغيل Mistral Small 4 محليًا (خطوة بخطوة)
الخطوة 1) احصل على الأوزان واقبل شروط الوصول
يحصل vLLM على الأوزان من Hugging Face افتراضيًا، لذا تحتاج إلى رمز وصول Hugging Face بصلاحية READ ويجب قبول الشروط على بطاقة النموذج. لإعداد محلي عملي، حضّر آلة Linux مع تعريفات NVIDIA، ودعم وقت تشغيل متوافق مع CUDA، وPython، وذاكرة GPU كافية لنسخة نقطة التثبيت المختارة. إذا كانت لديك الملفات بالفعل على تخزينك، يمكنك تخطي إعداد Hugging Face والإشارة إلى المسار المحلي في vLLM.
الخطوة 2) استخدم حزمة الخادم الرسمية الموصى بها
يوصي بالنشر الذاتي عبر vLLM، والذي يصفه بأنه إطار تقديم عالي التحسين يمكنه كشف واجهة API متوافقة مع OpenAI. تذكر وثائق النشر الذاتي أيضًا TensorRT-LLM وTGI كبدائل، لكن vLLM هو المسار الموصى به لهذه العائلة من النماذج.
الخطوة 3) اسحب صورة Docker الموصى بها من Mistral أو ثبّت vLLM يدويًا
يوصي Mistral Small 4 باستخدام صورة Docker مخصّصة تحتوي على إصلاحات لاستدعاء الأدوات وتحليل التعليل، أو تثبيت نسخة vLLM مرقّعة يدويًا. توفّر البطاقة صورة مخصّصة وتذكر أن Mistral تعمل مع فريق vLLM لدمج التغييرات في المصدر.
نقطة بداية عملية:
docker pull mistralllm/vllm-ms4:latestdocker run -it mistralllm/vllm-ms4:latest
الخطوة 4) تقديم النموذج
أمر الخادم الموصى به من Mistral هو:
vllm serve mistralai/Mistral-Small-4-119B-2603-NVFP4 \ --max-model-len 262144 \ --tensor-parallel-size 2 \ --attention-backend TRITON_MLA \ --tool-call-parser mistral \ --enable-auto-tool-choice \ --reasoning-parser mistral \ --max_num_batched_tokens 16384 \ --max_num_seqs 128 \ --gpu_memory_utilization 0.8
هذا الأمر هو أهم إشارة عملية في قصة النشر المحلي بأكملها: يخبرك أن النموذج معدّ للعمل مع خلفية GPU جادة، ونافذة سياق طويلة، ومحللات أدوات وتعليل مخصّصة من Mistral مفعّلة.
الخطوة 5) وصّل تطبيقك بنقطة النهاية المحلية
بما أن vLLM يوفّر واجهة REST API متوافقة مع OpenAI، يمكنك عادة توجيه شيفرة SDK الحالية لـ OpenAI إلى http://localhost:8000/v1 والاحتفاظ بمعظم منطق تطبيقك دون تغيير. تستخدم Mistral المثال base_url="http://localhost:8000/v1" ومفتاح API فارغًا، وهو نمط شائع للتطوير المحلي.
from openai import OpenAIclient = OpenAI(api_key="EMPTY", base_url="http://localhost:8000/v1")resp = client.chat.completions.create( model="mistralai/Mistral-Small-4-119B-2603-NVFP4", messages=[{"role": "user", "content": "لخّص المستند في خمس نقاط."}], temperature=0.7, reasoning_effort="none",)print(resp.choices[0].message.content)
الخطوة 6) اضبط السرعة أو الجودة
إذا كنت تختبر النموذج محليًا، فاقترح reasoning_effort="high" للمطالبات المعقدة وtemperature=0.7 في هذا النمط، بينما تكون درجات حرارة أقل أنسب عندما يكون التعليل متوقفًا. تفصل البطاقة أيضًا بين نقطة تثبيت FP8 لأفضل دقة ونقطة NVFP4 لأعلى إنتاجية واستخدام ذاكرة أقل، لذا يعتمد الإعداد الصحيح على ما إذا كنت تحسّن للجودة أو السرعة أو البصمة العتادية.
الخطوة 7: اختياري – التشغيل عبر Ollama (مبسّط)
ollama run mistral-small-4
👉 الأفضل لـ:
- التطوير المحلي
- إعداد سريع
Mistral Small 4 مقابل GPT-OSS مقابل Qwen 3.5 (مقارنة كاملة)
Mistral Small 4: كفاءة قصوى بـ MoE
- 119B معاملات إجمالية
- ~6.5B نشطة لكل رمز
- 128 خبيرًا (4 نشطة)
- متعدد الوسائط (نص + صورة)
👉 الفكرة الأساسية: سعة كبيرة جدًا مع تكلفة حوسبة منخفضة لكل رمز
هذا يحقق:
- أداءً عاليًا
- كمونًا منخفضًا
- تكلفة أقل لكل استدلال
GPT-OSS: MoE عملي للنشر
- إصدار 120B: ~117B إجمالي / 5.1B نشطة
- إصدار 20B: ~21B إجمالي / 3.6B نشطة
- نصي فقط
👉 الفكرة الأساسية: تكييف النماذج القوية على عتاد حدّه الأدنى
- يمكن تشغيله على وحدة H100 GPU واحدة
- دعم قوي للأدوات / المخرجات المنظّمة
Qwen 3.5: تحجيم عالي القابلية
- حتى 122B معاملات
- عدد معاملات نشطة أعلى (~20B+)
- متعدد الوسائط + قوي متعدد اللغات
👉 الفكرة الأساسية: تعظيم القابلية حتى لو ارتفعت تكلفة الحوسبة
مقارنة مؤشرات الأداء
| الفئة | Mistral Small 4 | GPT-OSS (120B / 20B) | Qwen 3.5 (Plus / MoE) |
|---|---|---|---|
| الإدخال / الإخراج | إدخال نص + صورة → إخراج نصسياق: 256K رموز | إدخال نص → إخراج نصسياق: ~128K رموز | إدخال نص + صورة + فيديو → إخراج نصسياق: حتى 1M رموز |
| السعر (API) | $0.15 /M المدخلات$0.60 /M المخرجات | لا توجد تسعير رسمي لـ API (استضافة ذاتية)→ تكلفة تعتمد على البنية | $0.40–0.50 /M المدخلات$2.40–3.00 /M المخرجات |
| البنية | MoE (خليط الخبراء)119B إجمالي / 6.5B نشطة128 خبيرًا (4 نشطة) | محوّل MoE120B: 117B / 5.1B نشطة20B: 21B / 3.6B نشطة | MoE هجين + طبقات متقدمةحتى 397B إجمالي (A17B نشطة) |
| متعدد الوسائط | ✅ دعم الصور | ❌ نصي فقط | ✅ صور + فيديو |
| التحكم بالتعليل | ✅ (reasoning_effort) | ✅ (أنماط منخفض/متوسط/مرتفع) | ✅ تعليل تكيّفي |
| كفاءة السياق | ⭐⭐⭐⭐⭐ (مخرجات قصيرة) | ⭐⭐⭐⭐ | ⭐⭐⭐ (مخرجات طويلة) |
| دعم الأدوات/الوكلاء | ✅ أدوات أصلية، ووكلاء، ومخرجات منظّمة | ✅ استخدام أدوات قوي، مخرجات منظّمة | ✅ منظومة وكلاء متقدمة |
| القدرة على البرمجة | ⭐⭐⭐⭐⭐ (مستوى Devstral) | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| النشر | ثقيل (يُوصى بتعدد وحدات GPU) | مرن (يمكن بوحدة GPU واحدة) | ثقيل (أفضلية للنشر السحابي) |
مع تفعيل التعليل، يضاهي Small 4 أو يتفوق على GPT-OSS 120B في LCR وLiveCodeBench وAIME 2025، بينما يُنتج مخرجات أقصر. تذكر Mistral مثالًا يسجل فيه Small 4 نسبة 0.72 على AA LCR بـ 1.6K حرف فقط، في حين تطلبت نتائج Qwen المماثلة 5.8K–6.1K حرفًا، وتقول إن Small 4 يتفوق على GPT-OSS 120B في LiveCodeBench مع إنتاج 20% مخرجات أقل.


أيها أفضل خيار محليًا؟
رأيي: Mistral Small 4 هو أفضل "نموذج واحد" إذا أردت نشرًا محليًا أو خاصًا متوازنًا بقدرات دردشة قوية، وبرمجة، وعمل وكيل، ودعم متعدد الوسائط. GPT-OSS هو الخيار الأوضح إذا رغبت في نموذج OpenAI متاح علنًا مع إرشادات واضحة جدًا للتقديم المحلي، خصوصًا نسخة 20B الأصغر. Qwen 3.5 هي العائلة الأوسع، وهي الأنسب إذا كنت تهتم بالتغطية متعددة اللغات، وتعدد أحجام النماذج، وخيارات تقديم محلية مرنة.
إذا أردت الوصول إلى أفضل النماذج مفتوحة المصدر عبر واجهات API دون تبديل المزوّدين، فأوصي بـ CometAPI، حيث يوفر GPT-oss-120B وQwen 3.5 plus API وغيرها.
بعبارة أخرى، يمكنك استهلاك Small 4 كنموذج مُستضاف، أو سحب الأوزان واستضافته ذاتيًا على بُنيتك.
الخلاصة
Small 4 ملائم جدًا عندما تحتاج إلى نموذج مفتوح الأوزان، متعدد الوسائط، قادر على التعليل، ويمكن استضافته ذاتيًا، وتخصيصه، ودمجه في حِزَم تطبيقات بنمط OpenAI الحديثة. وهو جذّاب خصوصًا للفرق التي تهتم بالتحكّم في النشر، وإقامة البيانات، وتخفيض التكلفة الحدّية للرموز، مع الرغبة في نموذج عام حديث.
هل أنت مستعد للوصول إلى Mistral Small 4؟ إذًا تفضل إلى CometAPI!
