Mistral Small 4 è un modello di IA multimodale di nuova uscita di Mistral AI (marzo 2026) che unifica inferenza, ragionamento, coding e capacità multimodali in un’unica architettura. Offre una finestra di contesto da 256K, un design Mixture-of-Experts (MoE) (~119B parametri totali, ~6.5B attivi per token) e garantisce un’inferenza più rapida (fino al 40% di riduzione della latenza), superando nei benchmark modelli open comparabili come GPT-OSS 120B.
Per eseguirlo in locale, servono GPU con molta memoria (consigliati ≥48GB di VRAM) oppure deploy quantizzati, insieme a framework come Transformers, vLLM o Ollama.
Che cos’è Mistral Small 4?
Un singolo modello per più lavori
Mistral Small 4 si può descrivere al meglio come un “tuttofare”: combina i punti di forza delle precedenti famiglie Mistral dedicate a instruction, ragionamento e coding in un solo modello. Nella terminologia usata dall’azienda al lancio, Small 4 è il primo modello Mistral a unificare le capacità di Magistral per il ragionamento, Pixtral per i compiti multimodali e Devstral per il coding agentico. Accetta input testuali e immagini, produce testo, ed è pensato per chat, coding, workflow agentici, comprensione di documenti, ricerca e analisi visiva.
Perché questo rilascio è importante
Il significato pratico è che Mistral Small 4 riduce il sovraccarico dovuto al cambio di modello. Invece di instradare un prompt verso un modello instruct veloce, un secondo prompt verso un modello di ragionamento e un terzo verso un modello vision, puoi usare un unico endpoint e regolare l’impostazione reasoning_effort secondo necessità. Mistral afferma esplicitamente che reasoning_effort="none" fornisce risposte rapide e leggere, comparabili a una chat nello stile di Small 3.2, mentre reasoning_effort="high" produce un ragionamento più profondo e verboso, simile ai precedenti modelli Magistral.
Benchmark prestazionali di Mistral Small 4
Punti salienti delle prestazioni

| Metrica | Mistral Small 4 |
|---|---|
| Architettura | MoE |
| Finestra contesto | 256K |
| Latenza | ↓ fino al 40% |
| Benchmark coding | Supera GPT-OSS 120B |
| Efficienza output | 20% di token in meno |
👉 Questo lo rende ideale per sistemi di IA di livello production.
Architettura (principale insight tecnico)
- Tipo di modello: Mixture-of-Experts (MoE)
- Parametri totali: ~119B
- Parametri attivi per token: ~6.5B
- Esperti: ~128 (4 attivi per ogni forward pass)
👉 Questa architettura consente l’intelligenza di un grande modello al costo di un piccolo modello, rendendolo ideale per il deployment locale rispetto ai modelli densi.
Requisiti di deployment da prevedere per Mistral Small 4
Infrastruttura minima e consigliata ufficiale
Qui Mistral è insolitamente esplicita. L’infrastruttura minima è 4x NVIDIA HGX H100, 2x NVIDIA HGX H200 oppure 1x NVIDIA DGX B200. La configurazione consigliata per prestazioni ottimali è 4x HGX H100, 4x HGX H200 oppure 2x DGX B200. Questo è un segnale forte del fatto che il percorso pienamente ufficiale è pensato per macchine di classe datacenter piuttosto che per una singola GPU consumer.
Cosa significa nella pratica
Mistral Small 4 è open-weight ed efficiente per la sua dimensione, ma resta comunque un sistema MoE da 119B con una finestra di contesto da 256k. Nei deployment reali, questa combinazione comporta che la pressione sulla memoria aumenti rapidamente con la crescita della lunghezza del contesto, e che le prestazioni sostenute dipendano di solito dal parallelismo tensoriale multi-GPU e da software di serving efficienti. Per questo si raccomanda vLLM come motore principale per il self-deployment, esponendo pattern di serving compatibili con OpenAI invece di affidarsi ai default “funziona e basta” su singola macchina.
Configurazione consigliata (professionale)
| Componente | Raccomandazione |
|---|---|
| GPU | 48GB–80GB VRAM (A100 / H100) |
| CPU | 16–32 core |
| RAM | 128GB |
| Storage | NVMe SSD |
Perché l’hardware conta
Perché:
- modello da 119B parametri (anche se MoE)
- contesto ampio (256K token)
- elaborazione multimodale
👉 Senza ottimizzazione, è troppo pesante per le GPU consumer
Come eseguire Mistral Small 4 in locale (passo dopo passo)
Passo 1) Ottieni i pesi e accetta le condizioni di accesso
vLLM recupera i pesi da Hugging Face per impostazione predefinita, quindi ti serve un token di accesso Hugging Face con permesso READ e devi accettare le condizioni presenti nella model card. Per una configurazione locale pratica, prepara una macchina Linux con driver NVIDIA, supporto runtime compatibile con CUDA, Python e memoria GPU sufficiente per il checkpoint selezionato. Se hai già gli artifact nel tuo storage, puoi saltare la configurazione di Hugging Face e puntare invece vLLM al percorso locale.
Passo 2) Usa lo stack server ufficialmente raccomandato
Si raccomanda il self-deployment tramite vLLM, descritto come un framework di serving altamente ottimizzato che può esporre una API compatibile con OpenAI. La documentazione per il self-deployment menziona anche TensorRT-LLM e TGI come alternative, ma vLLM è il percorso consigliato per questa famiglia di modelli.
Passo 3) Scarica l’immagine Docker raccomandata da Mistral oppure installa vLLM manualmente
Mistral Small 4 consiglia l’uso di un’immagine Docker personalizzata con le correzioni necessarie per tool-calling e parsing del ragionamento, oppure l’installazione manuale di una build patchata di vLLM. La card fornisce un’immagine personalizzata e osserva che Mistral sta collaborando con il team vLLM per integrare le modifiche upstream.
Un punto di partenza pratico è:
docker pull mistralllm/vllm-ms4:latestdocker run -it mistralllm/vllm-ms4:latest
Passo 4) Avvia il modello
Il comando server raccomandato da Mistral è:
vllm serve mistralai/Mistral-Small-4-119B-2603-NVFP4 \ --max-model-len 262144 \ --tensor-parallel-size 2 \ --attention-backend TRITON_MLA \ --tool-call-parser mistral \ --enable-auto-tool-choice \ --reasoning-parser mistral \ --max_num_batched_tokens 16384 \ --max_num_seqs 128 \ --gpu_memory_utilization 0.8
Questo comando è l’indizio pratico più importante di tutta la parte locale: indica che il modello è pensato per essere eseguito con un backend GPU serio, una lunga finestra di contesto e parser specifici Mistral abilitati per strumenti e ragionamento.
Passo 5) Collega la tua applicazione all’endpoint locale
Poiché vLLM espone una REST API compatibile con OpenAI, in genere puoi puntare il codice esistente basato sugli SDK OpenAI a http://localhost:8000/v1 e mantenere invariata la maggior parte della logica applicativa. L’esempio di Mistral usa base_url="http://localhost:8000/v1" e una API key vuota, un pattern comune nello sviluppo locale.
from openai import OpenAIclient = OpenAI(api_key="EMPTY", base_url="http://localhost:8000/v1")resp = client.chat.completions.create( model="mistralai/Mistral-Small-4-119B-2603-NVFP4", messages=[{"role": "user", "content": "Summarize the document in five bullets."}], temperature=0.7, reasoning_effort="none",)print(resp.choices[0].message.content)
Passo 6) Regola velocità o qualità
Se stai testando il modello in locale, si suggerisce reasoning_effort="high" per prompt complessi e temperature=0.7 in quella modalità, mentre temperature più basse sono più appropriate quando il ragionamento è disattivato. La stessa card distingue inoltre il checkpoint FP8, pensato per la migliore accuratezza, dal checkpoint NVFP4, orientato a throughput e minore uso di memoria, quindi la configurazione giusta dipende dal fatto che tu stia ottimizzando qualità, velocità o footprint hardware.
Passo 7: Opzionale – Eseguilo tramite Ollama (semplificato)
ollama run mistral-small-4
👉 Ideale per:
- sviluppo locale
- configurazione rapida
Mistral Small 4 vs GPT-OSS vs Qwen 3.5 (confronto completo)
Mistral Small 4: MoE a efficienza estrema
- 119B parametri totali
- ~6.5B attivi per token
- 128 esperti (4 attivi)
- Multimodale (testo + immagine)
👉 Idea chiave: capacità molto elevata ma basso calcolo per token
Questo offre:
- prestazioni elevate
- bassa latenza
- costo inferiore per inferenza
GPT-OSS: MoE pratico per il deployment
- Versione 120B: ~117B totali / 5.1B attivi
- Versione 20B: ~21B totali / 3.6B attivi
- Solo testo
👉 Idea chiave: far girare modelli potenti su hardware minimo
- Può funzionare su una singola GPU H100
- Ottimo supporto per tool use / output strutturato
Qwen 3.5: scaling ad alta capacità
- Fino a 122B parametri
- Conteggio di parametri attivi più alto (~20B+)
- Multimodale + forte supporto multilingue
👉 Idea chiave: massimizzare la capacità anche se il costo computazionale aumenta
Confronto dei benchmark prestazionali
| Categoria | Mistral Small 4 | GPT-OSS (120B / 20B) | Qwen 3.5 (Plus / MoE) |
|---|---|---|---|
| Input / Output | Input testo + immagine → output testoContesto: 256K token | Input testo → output testoContesto: ~128K token | Input testo + immagine + video → output testoContesto: fino a 1M token |
| Prezzo (API) | $0.15 /M input$0.60 /M output | Nessun prezzo API ufficiale (self-hosted)→ costo dipendente dall’infrastruttura | $0.40–0.50 /M input$2.40–3.00 /M output |
| Architettura | MoE (Mixture-of-Experts)119B totali / 6.5B attivi128 esperti (4 attivi) | MoE Transformer120B: 117B / 5.1B attivi20B: 21B / 3.6B attivi | MoE ibrido + layer avanzatiFino a 397B totali (A17B attivi) |
| Multimodalità | ✅ Supporto immagini | ❌ Solo testo | ✅ Immagine + video |
| Controllo ragionamento | ✅ (reasoning_effort) | ✅ (modalità low/med/high) | ✅ Ragionamento adattivo |
| Efficienza contesto | ⭐⭐⭐⭐⭐ (output brevi) | ⭐⭐⭐⭐ | ⭐⭐⭐ (output lunghi) |
| Supporto tool / agenti | ✅ Tool nativi, agenti, output strutturati | ✅ Forte uso di tool, output strutturati | ✅ Ecosistema agentico avanzato |
| Capacità di coding | ⭐⭐⭐⭐⭐ (livello Devstral) | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| Deployment | Pesante (consigliato multi-GPU) | Flessibile (possibile single GPU) | Pesante (preferibile scala cloud) |
Con il ragionamento abilitato, Small 4 eguaglia o supera GPT-OSS 120B su LCR, LiveCodeBench e AIME 2025, generando al tempo stesso output più brevi. Mistral cita un esempio in cui Small 4 ottiene 0.72 su AA LCR con soli 1.6K caratteri, mentre risultati Qwen comparabili richiedevano 5.8K–6.1K caratteri, e afferma che Small 4 supera GPT-OSS 120B su LiveCodeBench producendo il 20% di output in meno.


Qual è la scelta migliore in locale?
La mia opinione: Mistral Small 4 è la migliore scelta “single-model” se vuoi un deployment locale o privato bilanciato, con chat generale solida, coding, lavoro agentico e supporto multimodale. GPT-OSS è la scelta più chiara se vuoi un modello OpenAI apertamente disponibile con linee guida molto esplicite per il serving locale, soprattutto nella versione più piccola da 20B. Qwen3.5 è la famiglia più ampia, ed è quella da considerare se ti interessano soprattutto copertura multilingue, più taglie di modello e opzioni flessibili di serving locale.
Se vuoi accedere a questi migliori modelli open-source tramite API e non vuoi cambiare vendor, allora consiglio CometAPI, che offre GPT-oss-120B e Qwen 3.5 plus API ecc.
In altre parole, puoi usare Small 4 come modello hosted, oppure scaricare i pesi e self-hos tarlo sulla tua infrastruttura.
Conclusione
Small 4 è una soluzione molto valida quando ti serve un modello open-weight, multimodale, capace di ragionare e self-hostable, che possa essere fine-tuned e integrato in stack applicativi esistenti in stile OpenAI. È particolarmente interessante per i team che tengono al controllo del deployment, alla residenza dei dati e a costi marginali per token più bassi, pur volendo un moderno modello general-purpose.
Pronto ad accedere a Mistral Small 4? Allora vieni su CometAPI!
