Mistral Small 4 est un nouveau modèle d’IA multimodal publié par Mistral AI (mars 2026) qui unifie l’inférence, le raisonnement, le codage et les capacités multimodales dans une architecture unique. Il dispose d’une fenêtre de contexte de 256K, d’une conception Mixture-of-Experts (MoE) (~119B de paramètres au total, ~6.5B actifs par token), et offre une inférence plus rapide (jusqu’à 40 % de réduction de latence) tout en surpassant des modèles ouverts comparables comme GPT-OSS 120B dans les benchmarks.
Pour l’exécuter en local, vous avez besoin de GPU à grande mémoire (≥48GB de VRAM recommandés) ou de déploiements quantifiés, ainsi que de frameworks comme Transformers, vLLM ou Ollama.
Qu’est-ce que Mistral Small 4 ?
Un seul modèle pour plusieurs usages
Mistral Small 4 se comprend le mieux comme un « polyvalent » : il combine les points forts des précédentes familles de modèles d’instruction, de raisonnement et de codage de Mistral en un seul modèle. Dans les termes mêmes de l’annonce de l’entreprise, Small 4 est le premier modèle Mistral à unifier les capacités de Magistral pour le raisonnement, de Pixtral pour les tâches multimodales, et de Devstral pour le codage agentique. Il accepte des entrées texte et image, produit du texte, et est destiné au chat, au codage, aux workflows agentiques, à la compréhension de documents, à la recherche et à l’analyse visuelle.
Pourquoi cette sortie est importante
L’intérêt pratique est que Mistral Small 4 réduit la surcharge liée au changement de modèle. Au lieu d’envoyer une invite à un modèle d’instruction rapide, une deuxième à un modèle de raisonnement, et une troisième à un modèle de vision, vous pouvez utiliser un point d’accès unique et ajuster le paramètre reasoning_effort selon les besoins. Mistral indique explicitement que reasoning_effort="none" fournit des réponses rapides et légères comparables à un chat de type Small 3.2, tandis que reasoning_effort="high" produit un raisonnement plus profond et plus verbeux, similaire à ses précédents modèles Magistral.
Benchmarks de performance de Mistral Small 4
Points forts en performance

| Metric | Mistral Small 4 |
|---|---|
| Architecture | MoE |
| Context Window | 256K |
| Latency | ↓ up to 40% |
| Coding Benchmarks | Beats GPT-OSS 120B |
| Output Efficiency | 20% fewer tokens |
👉 Cela en fait un excellent choix pour des systèmes d’IA de niveau production.
Architecture (point technique clé)
- Type de modèle : Mixture-of-Experts (MoE)
- Paramètres totaux : ~119B
- Paramètres actifs par token : ~6.5B
- Experts : ~128 (4 actifs par passage avant)
👉 Cette architecture permet une intelligence de grand modèle au coût d’un petit modèle, ce qui la rend idéale pour un déploiement local par rapport aux modèles denses.
Exigences de déploiement à prévoir pour Mistral Small 4
Infrastructure minimale et recommandée officielle
Mistral est ici inhabituellement explicite. Infrastructure minimale : 4x NVIDIA HGX H100, 2x NVIDIA HGX H200, ou 1x NVIDIA DGX B200. Sa configuration recommandée pour des performances optimales est de 4x HGX H100, 4x HGX H200, ou 2x DGX B200. C’est un signal fort indiquant que la voie officiellement prise en charge vise des machines de classe datacenter plutôt qu’un seul GPU grand public.
Ce que cela signifie en pratique
Mistral Small 4 est open-weight et efficace pour sa taille, mais il s’agit tout de même d’un système MoE de 119B avec une fenêtre de contexte de 256k. Dans les déploiements réels, cette combinaison signifie que la pression mémoire augmente rapidement à mesure que la longueur du contexte grandit, et que les performances soutenues dépendent généralement du parallélisme tensoriel multi-GPU et d’un logiciel de serving efficace. C’est pourquoi recommend vLLM comme moteur principal d’auto-déploiement et expose des schémas de serving compatibles OpenAI plutôt que des configurations par défaut de type « ça marche tout seul » sur une seule machine.
Configuration recommandée (professionnelle)
| Component | Recommendation |
|---|---|
| GPU | 48GB–80GB VRAM (A100 / H100) |
| CPU | 16–32 cores |
| RAM | 128GB |
| Storage | NVMe SSD |
Pourquoi le matériel est important
Parce que :
- Modèle de 119B de paramètres (même en MoE)
- Grand contexte (256K tokens)
- Traitement multimodal
👉 Sans optimisation, il est trop lourd pour des GPU grand public
Comment exécuter Mistral Small 4 en local (étape par étape)
Étape 1) Obtenez les poids et acceptez les conditions d’accès
vLLM récupère par défaut les poids depuis Hugging Face, vous avez donc besoin d’un token d’accès Hugging Face avec permission READ et vous devez accepter les conditions figurant sur la carte du modèle. Pour une configuration locale pratique, préparez une machine Linux avec les pilotes NVIDIA, un environnement d’exécution compatible CUDA, Python, et suffisamment de mémoire GPU pour le checkpoint sélectionné. Si vous avez déjà les artefacts sur votre propre stockage, vous pouvez ignorer la configuration Hugging Face et pointer vLLM vers le chemin local à la place.
Étape 2) Utilisez la pile serveur officiellement recommandée
Recommande l’auto-déploiement via vLLM, qu’il décrit comme un framework de serving hautement optimisé pouvant exposer une API compatible OpenAI. Sa documentation d’auto-déploiement mentionne également TensorRT-LLM et TGI comme alternatives, mais vLLM est la voie recommandée pour cette famille de modèles.
Étape 3) Récupérez l’image Docker recommandée par Mistral ou installez vLLM manuellement
Mistral Small 4 recommande d’utiliser une image Docker personnalisée avec les correctifs nécessaires pour l’appel d’outils et l’analyse du raisonnement, ou d’installer manuellement une version patchée de vLLM. La carte fournit une image personnalisée et indique que Mistral travaille avec l’équipe vLLM pour intégrer ces modifications en amont.
Un point de départ pratique est :
docker pull mistralllm/vllm-ms4:latestdocker run -it mistralllm/vllm-ms4:latest
Étape 4) Servez le modèle
La commande serveur recommandée par Mistral est :
vllm serve mistralai/Mistral-Small-4-119B-2603-NVFP4 \ --max-model-len 262144 \ --tensor-parallel-size 2 \ --attention-backend TRITON_MLA \ --tool-call-parser mistral \ --enable-auto-tool-choice \ --reasoning-parser mistral \ --max_num_batched_tokens 16384 \ --max_num_seqs 128 \ --gpu_memory_utilization 0.8
Cette commande est l’indice pratique le plus important de toute l’histoire du déploiement local : elle vous indique que le modèle est destiné à être exécuté avec un backend GPU sérieux, une longue fenêtre de contexte, ainsi que les parseurs d’outils et de raisonnement spécifiques à Mistral activés.
Étape 5) Connectez votre application au point d’accès local
Comme vLLM expose une API REST compatible OpenAI, vous pouvez généralement faire pointer le code existant utilisant le SDK OpenAI vers http://localhost:8000/v1 et conserver l’essentiel de votre logique applicative inchangée. L’exemple de Mistral utilise base_url="http://localhost:8000/v1" et une clé API vide, ce qui est un schéma courant en développement local.
from openai import OpenAIclient = OpenAI(api_key="EMPTY", base_url="http://localhost:8000/v1")resp = client.chat.completions.create( model="mistralai/Mistral-Small-4-119B-2603-NVFP4", messages=[{"role": "user", "content": "Summarize the document in five bullets."}], temperature=0.7, reasoning_effort="none",)print(resp.choices[0].message.content)
Étape 6) Ajustez pour la vitesse ou la qualité
Si vous testez le modèle en local, suggère reasoning_effort="high" pour les invites complexes et temperature=0.7 dans ce mode, tandis que des températures plus basses sont plus appropriées lorsque le raisonnement est désactivé. La même carte distingue également le checkpoint FP8 pour la meilleure précision du checkpoint NVFP4 pour le débit et une utilisation mémoire plus faible ; la bonne configuration dépend donc de ce que vous optimisez : qualité, vitesse ou empreinte matérielle.
Étape 7 : Optionnel – Exécution via Ollama (simplifiée)
ollama run mistral-small-4
👉 Idéal pour :
- Développement local
- Mise en place rapide
Mistral Small 4 vs GPT-OSS vs Qwen 3.5 (comparaison complète)
Mistral Small 4 : une efficacité MoE extrême
- 119B de paramètres au total
- ~6.5B actifs par token
- 128 experts (4 actifs)
- Multimodal (texte + image)
👉 Idée clé : très grande capacité mais faible calcul par token
Cela apporte :
- Hautes performances
- Faible latence
- Coût d’inférence plus faible
GPT-OSS : un MoE pratique pour le déploiement
- Version 120B : ~117B au total / 5.1B actifs
- Version 20B : ~21B au total / 3.6B actifs
- Texte uniquement
👉 Idée clé : faire tenir des modèles puissants sur un matériel minimal
- Peut fonctionner sur un seul GPU H100
- Bon support des outils / sorties structurées
Qwen 3.5 : montée en capacité élevée
- Jusqu’à 122B de paramètres
- Nombre de paramètres actifs plus élevé (~20B+)
- Multimodal + fort multilingue
👉 Idée clé : maximiser les capacités même si le coût de calcul augmente
Comparaison des benchmarks de performance
| Category | Mistral Small 4 | GPT-OSS (120B / 20B) | Qwen 3.5 (Plus / MoE) |
|---|---|---|---|
| Input / Output | Text + Image input → Text outputContext: 256K tokens | Text input → Text outputContext: ~128K tokens | Text + Image + Video → Text outputContext: up to 1M tokens |
| Price (API) | $0.15 /M input$0.60 /M output | No official API pricing (self-hosted)→ Infra-dependent cost | $0.40–0.50 /M input$2.40–3.00 /M output |
| Architecture | MoE (Mixture-of-Experts)119B total / 6.5B active128 experts (4 active) | MoE Transformer120B: 117B / 5.1B active20B: 21B / 3.6B active | Hybrid MoE + advanced layersUp to 397B total (A17B active) |
| Multimodal | ✅ Image support | ❌ Text-only | ✅ Image + Video |
| Reasoning Control | ✅ (reasoning_effort) | ✅ (low/med/high modes) | ✅ Adaptive reasoning |
| Context Efficiency | ⭐⭐⭐⭐⭐ (short outputs) | ⭐⭐⭐⭐ | ⭐⭐⭐ (long outputs) |
| Tool / Agent Support | ✅ Native tools, agents, structured outputs | ✅ Strong tool use, structured outputs | ✅ Advanced agent ecosystem |
| Coding Ability | ⭐⭐⭐⭐⭐ (Devstral-level) | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| Deployment | Heavy (multi-GPU recommended) | Flexible (single GPU possible) | Heavy (cloud-scale preferred) |
Avec le raisonnement activé, Small 4 égale ou dépasse GPT-OSS 120B sur LCR, LiveCodeBench et AIME 2025, tout en générant des sorties plus courtes. Mistral cite un exemple où Small 4 obtient 0.72 sur AA LCR avec seulement 1.6K caractères, alors que des résultats Qwen comparables nécessitaient 5.8K–6.1K caractères, et indique que Small 4 surpasse GPT-OSS 120B sur LiveCodeBench tout en produisant 20 % de sortie en moins.


Quel est le meilleur choix local ?
Mon avis : Mistral Small 4 est le meilleur choix « modèle unique » si vous voulez un déploiement local ou privé équilibré avec un chat généraliste solide, du codage, du travail agentique et un support multimodal. GPT-OSS est le choix le plus clair si vous voulez un modèle OpenAI ouvertement disponible avec des indications de serving local très explicites, en particulier la version 20B plus petite. Qwen3.5 est la famille la plus large, et c’est celle à examiner si vous accordez avant tout de l’importance à la couverture multilingue, à plusieurs tailles de modèles et à des options flexibles de serving local.
Si vous souhaitez accéder à ces meilleurs modèles open source via des API et ne voulez pas changer de fournisseur, alors je recommande CometAPI, qui propose GPT-oss-120B et Qwen 3.5 plus API etc.
En d’autres termes, vous pouvez consommer Small 4 comme modèle hébergé, ou récupérer les poids et l’auto-héberger sur votre propre infrastructure.
Conclusion
Small 4 convient très bien lorsque vous avez besoin d’un modèle open-weight, multimodal, capable de raisonnement et pouvant être auto-hébergé, affiné et intégré à des piles applicatives existantes de type OpenAI. Il est particulièrement convaincant pour les équipes qui accordent de l’importance au contrôle du déploiement, à la résidence des données et à des coûts marginaux par token plus faibles, tout en voulant un modèle généraliste moderne.
Prêt à accéder à Mistral Small 4 ? Alors rendez-vous sur CometAPI !
