Comment exécuter Mistral Small 4 en local

Mistral Small 4 est un nouveau modèle d’IA multimodal publié par Mistral AI (mars 2026) qui unifie l’inférence, le raisonnement, le codage et les capacités multimodales dans une architecture unique. Il dispose d’une fenêtre de contexte de 256K, d’une conception Mixture-of-Experts (MoE) (~119B de paramètres au total, ~6.5B actifs par token), et offre une inférence plus rapide (jusqu’à 40 % de réduction de latence) tout en surpassant des modèles ouverts comparables comme GPT-OSS 120B dans les benchmarks.

Pour l’exécuter en local, vous avez besoin de GPU à grande mémoire (≥48GB de VRAM recommandés) ou de déploiements quantifiés, ainsi que de frameworks comme Transformers, vLLM ou Ollama.

Qu’est-ce que Mistral Small 4 ?

Un seul modèle pour plusieurs usages

Mistral Small 4 se comprend le mieux comme un « polyvalent » : il combine les points forts des précédentes familles de modèles d’instruction, de raisonnement et de codage de Mistral en un seul modèle. Dans les termes mêmes de l’annonce de l’entreprise, Small 4 est le premier modèle Mistral à unifier les capacités de Magistral pour le raisonnement, de Pixtral pour les tâches multimodales, et de Devstral pour le codage agentique. Il accepte des entrées texte et image, produit du texte, et est destiné au chat, au codage, aux workflows agentiques, à la compréhension de documents, à la recherche et à l’analyse visuelle.

Pourquoi cette sortie est importante

L’intérêt pratique est que Mistral Small 4 réduit la surcharge liée au changement de modèle. Au lieu d’envoyer une invite à un modèle d’instruction rapide, une deuxième à un modèle de raisonnement, et une troisième à un modèle de vision, vous pouvez utiliser un point d’accès unique et ajuster le paramètre reasoning_effort selon les besoins. Mistral indique explicitement que reasoning_effort="none" fournit des réponses rapides et légères comparables à un chat de type Small 3.2, tandis que reasoning_effort="high" produit un raisonnement plus profond et plus verbeux, similaire à ses précédents modèles Magistral.

Benchmarks de performance de Mistral Small 4

Points forts en performance

Comment exécuter Mistral Small 4 en local

Metric	Mistral Small 4
Architecture	MoE
Context Window	256K
Latency	↓ up to 40%
Coding Benchmarks	Beats GPT-OSS 120B
Output Efficiency	20% fewer tokens

👉 Cela en fait un excellent choix pour des systèmes d’IA de niveau production.

Architecture (point technique clé)

Type de modèle : Mixture-of-Experts (MoE)
Paramètres totaux : ~119B
Paramètres actifs par token : ~6.5B
Experts : ~128 (4 actifs par passage avant)

👉 Cette architecture permet une intelligence de grand modèle au coût d’un petit modèle, ce qui la rend idéale pour un déploiement local par rapport aux modèles denses.

Exigences de déploiement à prévoir pour Mistral Small 4

Infrastructure minimale et recommandée officielle

Mistral est ici inhabituellement explicite. Infrastructure minimale : 4x NVIDIA HGX H100, 2x NVIDIA HGX H200, ou 1x NVIDIA DGX B200. Sa configuration recommandée pour des performances optimales est de 4x HGX H100, 4x HGX H200, ou 2x DGX B200. C’est un signal fort indiquant que la voie officiellement prise en charge vise des machines de classe datacenter plutôt qu’un seul GPU grand public.

Ce que cela signifie en pratique

Mistral Small 4 est open-weight et efficace pour sa taille, mais il s’agit tout de même d’un système MoE de 119B avec une fenêtre de contexte de 256k. Dans les déploiements réels, cette combinaison signifie que la pression mémoire augmente rapidement à mesure que la longueur du contexte grandit, et que les performances soutenues dépendent généralement du parallélisme tensoriel multi-GPU et d’un logiciel de serving efficace. C’est pourquoi recommend vLLM comme moteur principal d’auto-déploiement et expose des schémas de serving compatibles OpenAI plutôt que des configurations par défaut de type « ça marche tout seul » sur une seule machine.

Configuration recommandée (professionnelle)

Component	Recommendation
GPU	48GB–80GB VRAM (A100 / H100)
CPU	16–32 cores
RAM	128GB
Storage	NVMe SSD

Pourquoi le matériel est important

Parce que :

Modèle de 119B de paramètres (même en MoE)
Grand contexte (256K tokens)
Traitement multimodal

👉 Sans optimisation, il est trop lourd pour des GPU grand public

Comment exécuter Mistral Small 4 en local (étape par étape)

Étape 1) Obtenez les poids et acceptez les conditions d’accès

vLLM récupère par défaut les poids depuis Hugging Face, vous avez donc besoin d’un token d’accès Hugging Face avec permission READ et vous devez accepter les conditions figurant sur la carte du modèle. Pour une configuration locale pratique, préparez une machine Linux avec les pilotes NVIDIA, un environnement d’exécution compatible CUDA, Python, et suffisamment de mémoire GPU pour le checkpoint sélectionné. Si vous avez déjà les artefacts sur votre propre stockage, vous pouvez ignorer la configuration Hugging Face et pointer vLLM vers le chemin local à la place.

Étape 2) Utilisez la pile serveur officiellement recommandée

Recommande l’auto-déploiement via vLLM, qu’il décrit comme un framework de serving hautement optimisé pouvant exposer une API compatible OpenAI. Sa documentation d’auto-déploiement mentionne également TensorRT-LLM et TGI comme alternatives, mais vLLM est la voie recommandée pour cette famille de modèles.

Étape 3) Récupérez l’image Docker recommandée par Mistral ou installez vLLM manuellement

Mistral Small 4 recommande d’utiliser une image Docker personnalisée avec les correctifs nécessaires pour l’appel d’outils et l’analyse du raisonnement, ou d’installer manuellement une version patchée de vLLM. La carte fournit une image personnalisée et indique que Mistral travaille avec l’équipe vLLM pour intégrer ces modifications en amont.

Un point de départ pratique est :

docker pull mistralllm/vllm-ms4:latestdocker run -it mistralllm/vllm-ms4:latest

Étape 4) Servez le modèle

La commande serveur recommandée par Mistral est :

vllm serve mistralai/Mistral-Small-4-119B-2603-NVFP4 \  --max-model-len 262144 \  --tensor-parallel-size 2 \  --attention-backend TRITON_MLA \  --tool-call-parser mistral \  --enable-auto-tool-choice \  --reasoning-parser mistral \  --max_num_batched_tokens 16384 \  --max_num_seqs 128 \  --gpu_memory_utilization 0.8

Cette commande est l’indice pratique le plus important de toute l’histoire du déploiement local : elle vous indique que le modèle est destiné à être exécuté avec un backend GPU sérieux, une longue fenêtre de contexte, ainsi que les parseurs d’outils et de raisonnement spécifiques à Mistral activés.

Étape 5) Connectez votre application au point d’accès local

Comme vLLM expose une API REST compatible OpenAI, vous pouvez généralement faire pointer le code existant utilisant le SDK OpenAI vers http://localhost:8000/v1 et conserver l’essentiel de votre logique applicative inchangée. L’exemple de Mistral utilise base_url="http://localhost:8000/v1" et une clé API vide, ce qui est un schéma courant en développement local.

from openai import OpenAIclient = OpenAI(api_key="EMPTY", base_url="http://localhost:8000/v1")resp = client.chat.completions.create(    model="mistralai/Mistral-Small-4-119B-2603-NVFP4",    messages=[{"role": "user", "content": "Summarize the document in five bullets."}],    temperature=0.7,    reasoning_effort="none",)print(resp.choices[0].message.content)

Étape 6) Ajustez pour la vitesse ou la qualité

Si vous testez le modèle en local, suggère reasoning_effort="high" pour les invites complexes et temperature=0.7 dans ce mode, tandis que des températures plus basses sont plus appropriées lorsque le raisonnement est désactivé. La même carte distingue également le checkpoint FP8 pour la meilleure précision du checkpoint NVFP4 pour le débit et une utilisation mémoire plus faible ; la bonne configuration dépend donc de ce que vous optimisez : qualité, vitesse ou empreinte matérielle.

Étape 7 : Optionnel – Exécution via Ollama (simplifiée)

ollama run mistral-small-4

👉 Idéal pour :

Développement local
Mise en place rapide

Mistral Small 4 vs GPT-OSS vs Qwen 3.5 (comparaison complète)

Mistral Small 4 : une efficacité MoE extrême

119B de paramètres au total
~6.5B actifs par token
128 experts (4 actifs)
Multimodal (texte + image)

👉 Idée clé : très grande capacité mais faible calcul par token

Cela apporte :

Hautes performances
Faible latence
Coût d’inférence plus faible

GPT-OSS : un MoE pratique pour le déploiement

Version 120B : ~117B au total / 5.1B actifs
Version 20B : ~21B au total / 3.6B actifs
Texte uniquement

👉 Idée clé : faire tenir des modèles puissants sur un matériel minimal

Peut fonctionner sur un seul GPU H100
Bon support des outils / sorties structurées

Qwen 3.5 : montée en capacité élevée

Jusqu’à 122B de paramètres
Nombre de paramètres actifs plus élevé (~20B+)
Multimodal + fort multilingue

👉 Idée clé : maximiser les capacités même si le coût de calcul augmente

Comparaison des benchmarks de performance

Category	Mistral Small 4	GPT-OSS (120B / 20B)	Qwen 3.5 (Plus / MoE)
Input / Output	Text + Image input → Text outputContext: 256K tokens	Text input → Text outputContext: ~128K tokens	Text + Image + Video → Text outputContext: up to 1M tokens
Price (API)	$0.15 /M input$0.60 /M output	No official API pricing (self-hosted)→ Infra-dependent cost	$0.40–0.50 /M input$2.40–3.00 /M output
Architecture	MoE (Mixture-of-Experts)119B total / 6.5B active128 experts (4 active)	MoE Transformer120B: 117B / 5.1B active20B: 21B / 3.6B active	Hybrid MoE + advanced layersUp to 397B total (A17B active)
Multimodal	✅ Image support	❌ Text-only	✅ Image + Video
Reasoning Control	✅ (reasoning_effort)	✅ (low/med/high modes)	✅ Adaptive reasoning
Context Efficiency	⭐⭐⭐⭐⭐ (short outputs)	⭐⭐⭐⭐	⭐⭐⭐ (long outputs)
Tool / Agent Support	✅ Native tools, agents, structured outputs	✅ Strong tool use, structured outputs	✅ Advanced agent ecosystem
Coding Ability	⭐⭐⭐⭐⭐ (Devstral-level)	⭐⭐⭐⭐	⭐⭐⭐⭐⭐
Deployment	Heavy (multi-GPU recommended)	Flexible (single GPU possible)	Heavy (cloud-scale preferred)

Avec le raisonnement activé, Small 4 égale ou dépasse GPT-OSS 120B sur LCR, LiveCodeBench et AIME 2025, tout en générant des sorties plus courtes. Mistral cite un exemple où Small 4 obtient 0.72 sur AA LCR avec seulement 1.6K caractères, alors que des résultats Qwen comparables nécessitaient 5.8K–6.1K caractères, et indique que Small 4 surpasse GPT-OSS 120B sur LiveCodeBench tout en produisant 20 % de sortie en moins.

Comment exécuter Mistral Small 4 en local

Quel est le meilleur choix local ?

Mon avis : Mistral Small 4 est le meilleur choix « modèle unique » si vous voulez un déploiement local ou privé équilibré avec un chat généraliste solide, du codage, du travail agentique et un support multimodal. GPT-OSS est le choix le plus clair si vous voulez un modèle OpenAI ouvertement disponible avec des indications de serving local très explicites, en particulier la version 20B plus petite. Qwen3.5 est la famille la plus large, et c’est celle à examiner si vous accordez avant tout de l’importance à la couverture multilingue, à plusieurs tailles de modèles et à des options flexibles de serving local.

Si vous souhaitez accéder à ces meilleurs modèles open source via des API et ne voulez pas changer de fournisseur, alors je recommande CometAPI, qui propose GPT-oss-120B et Qwen 3.5 plus API etc.

En d’autres termes, vous pouvez consommer Small 4 comme modèle hébergé, ou récupérer les poids et l’auto-héberger sur votre propre infrastructure.

Conclusion

Small 4 convient très bien lorsque vous avez besoin d’un modèle open-weight, multimodal, capable de raisonnement et pouvant être auto-hébergé, affiné et intégré à des piles applicatives existantes de type OpenAI. Il est particulièrement convaincant pour les équipes qui accordent de l’importance au contrôle du déploiement, à la résidence des données et à des coûts marginaux par token plus faibles, tout en voulant un modèle généraliste moderne.

Prêt à accéder à Mistral Small 4 ? Alors rendez-vous sur CometAPI !

Qu’est-ce que Mistral Small 4 ?

Un seul modèle pour plusieurs usages

Pourquoi cette sortie est importante

Benchmarks de performance de Mistral Small 4

Points forts en performance

Architecture (point technique clé)

Exigences de déploiement à prévoir pour Mistral Small 4

Infrastructure minimale et recommandée officielle

Ce que cela signifie en pratique

Configuration recommandée (professionnelle)

Pourquoi le matériel est important

Comment exécuter Mistral Small 4 en local (étape par étape)

Étape 1) Obtenez les poids et acceptez les conditions d’accès

Étape 2) Utilisez la pile serveur officiellement recommandée

Étape 3) Récupérez l’image Docker recommandée par Mistral ou installez vLLM manuellement

Étape 4) Servez le modèle

Étape 5) Connectez votre application au point d’accès local

Étape 6) Ajustez pour la vitesse ou la qualité

Étape 7 : Optionnel – Exécution via Ollama (simplifiée)

Mistral Small 4 vs GPT-OSS vs Qwen 3.5 (comparaison complète)

Mistral Small 4 : une efficacité MoE extrême

GPT-OSS : un MoE pratique pour le déploiement

Qwen 3.5 : montée en capacité élevée

Comparaison des benchmarks de performance

Quel est le meilleur choix local ?

Conclusion

Accédez aux meilleurs modèles à moindre coût

En savoir plus