Come eseguire Mistral Small 4 in locale

CometAPI
AnnaMar 23, 2026
Come eseguire Mistral Small 4 in locale

Mistral Small 4 è un modello di IA multimodale di nuova uscita di Mistral AI (marzo 2026) che unifica inferenza, ragionamento, coding e capacità multimodali in un’unica architettura. Offre una finestra di contesto da 256K, un design Mixture-of-Experts (MoE) (~119B parametri totali, ~6.5B attivi per token) e garantisce un’inferenza più rapida (fino al 40% di riduzione della latenza), superando nei benchmark modelli open comparabili come GPT-OSS 120B.

Per eseguirlo in locale, servono GPU con molta memoria (consigliati ≥48GB di VRAM) oppure deploy quantizzati, insieme a framework come Transformers, vLLM o Ollama.

Che cos’è Mistral Small 4?

Un singolo modello per più lavori

Mistral Small 4 si può descrivere al meglio come un “tuttofare”: combina i punti di forza delle precedenti famiglie Mistral dedicate a instruction, ragionamento e coding in un solo modello. Nella terminologia usata dall’azienda al lancio, Small 4 è il primo modello Mistral a unificare le capacità di Magistral per il ragionamento, Pixtral per i compiti multimodali e Devstral per il coding agentico. Accetta input testuali e immagini, produce testo, ed è pensato per chat, coding, workflow agentici, comprensione di documenti, ricerca e analisi visiva.

Perché questo rilascio è importante

Il significato pratico è che Mistral Small 4 riduce il sovraccarico dovuto al cambio di modello. Invece di instradare un prompt verso un modello instruct veloce, un secondo prompt verso un modello di ragionamento e un terzo verso un modello vision, puoi usare un unico endpoint e regolare l’impostazione reasoning_effort secondo necessità. Mistral afferma esplicitamente che reasoning_effort="none" fornisce risposte rapide e leggere, comparabili a una chat nello stile di Small 3.2, mentre reasoning_effort="high" produce un ragionamento più profondo e verboso, simile ai precedenti modelli Magistral.

Benchmark prestazionali di Mistral Small 4

Punti salienti delle prestazioni

Come eseguire Mistral Small 4 in locale

MetricaMistral Small 4
ArchitetturaMoE
Finestra contesto256K
Latenza↓ fino al 40%
Benchmark codingSupera GPT-OSS 120B
Efficienza output20% di token in meno

👉 Questo lo rende ideale per sistemi di IA di livello production.

Architettura (principale insight tecnico)

  • Tipo di modello: Mixture-of-Experts (MoE)
  • Parametri totali: ~119B
  • Parametri attivi per token: ~6.5B
  • Esperti: ~128 (4 attivi per ogni forward pass)

👉 Questa architettura consente l’intelligenza di un grande modello al costo di un piccolo modello, rendendolo ideale per il deployment locale rispetto ai modelli densi.

Requisiti di deployment da prevedere per Mistral Small 4

Infrastruttura minima e consigliata ufficiale

Qui Mistral è insolitamente esplicita. L’infrastruttura minima è 4x NVIDIA HGX H100, 2x NVIDIA HGX H200 oppure 1x NVIDIA DGX B200. La configurazione consigliata per prestazioni ottimali è 4x HGX H100, 4x HGX H200 oppure 2x DGX B200. Questo è un segnale forte del fatto che il percorso pienamente ufficiale è pensato per macchine di classe datacenter piuttosto che per una singola GPU consumer.

Cosa significa nella pratica

Mistral Small 4 è open-weight ed efficiente per la sua dimensione, ma resta comunque un sistema MoE da 119B con una finestra di contesto da 256k. Nei deployment reali, questa combinazione comporta che la pressione sulla memoria aumenti rapidamente con la crescita della lunghezza del contesto, e che le prestazioni sostenute dipendano di solito dal parallelismo tensoriale multi-GPU e da software di serving efficienti. Per questo si raccomanda vLLM come motore principale per il self-deployment, esponendo pattern di serving compatibili con OpenAI invece di affidarsi ai default “funziona e basta” su singola macchina.

Configurazione consigliata (professionale)

ComponenteRaccomandazione
GPU48GB–80GB VRAM (A100 / H100)
CPU16–32 core
RAM128GB
StorageNVMe SSD

Perché l’hardware conta

Perché:

  • modello da 119B parametri (anche se MoE)
  • contesto ampio (256K token)
  • elaborazione multimodale

👉 Senza ottimizzazione, è troppo pesante per le GPU consumer

Come eseguire Mistral Small 4 in locale (passo dopo passo)

Passo 1) Ottieni i pesi e accetta le condizioni di accesso

vLLM recupera i pesi da Hugging Face per impostazione predefinita, quindi ti serve un token di accesso Hugging Face con permesso READ e devi accettare le condizioni presenti nella model card. Per una configurazione locale pratica, prepara una macchina Linux con driver NVIDIA, supporto runtime compatibile con CUDA, Python e memoria GPU sufficiente per il checkpoint selezionato. Se hai già gli artifact nel tuo storage, puoi saltare la configurazione di Hugging Face e puntare invece vLLM al percorso locale.

Passo 2) Usa lo stack server ufficialmente raccomandato

Si raccomanda il self-deployment tramite vLLM, descritto come un framework di serving altamente ottimizzato che può esporre una API compatibile con OpenAI. La documentazione per il self-deployment menziona anche TensorRT-LLM e TGI come alternative, ma vLLM è il percorso consigliato per questa famiglia di modelli.

Passo 3) Scarica l’immagine Docker raccomandata da Mistral oppure installa vLLM manualmente

Mistral Small 4 consiglia l’uso di un’immagine Docker personalizzata con le correzioni necessarie per tool-calling e parsing del ragionamento, oppure l’installazione manuale di una build patchata di vLLM. La card fornisce un’immagine personalizzata e osserva che Mistral sta collaborando con il team vLLM per integrare le modifiche upstream.

Un punto di partenza pratico è:

docker pull mistralllm/vllm-ms4:latestdocker run -it mistralllm/vllm-ms4:latest

Passo 4) Avvia il modello

Il comando server raccomandato da Mistral è:

vllm serve mistralai/Mistral-Small-4-119B-2603-NVFP4 \  --max-model-len 262144 \  --tensor-parallel-size 2 \  --attention-backend TRITON_MLA \  --tool-call-parser mistral \  --enable-auto-tool-choice \  --reasoning-parser mistral \  --max_num_batched_tokens 16384 \  --max_num_seqs 128 \  --gpu_memory_utilization 0.8

Questo comando è l’indizio pratico più importante di tutta la parte locale: indica che il modello è pensato per essere eseguito con un backend GPU serio, una lunga finestra di contesto e parser specifici Mistral abilitati per strumenti e ragionamento.

Passo 5) Collega la tua applicazione all’endpoint locale

Poiché vLLM espone una REST API compatibile con OpenAI, in genere puoi puntare il codice esistente basato sugli SDK OpenAI a http://localhost:8000/v1 e mantenere invariata la maggior parte della logica applicativa. L’esempio di Mistral usa base_url="http://localhost:8000/v1" e una API key vuota, un pattern comune nello sviluppo locale.

from openai import OpenAIclient = OpenAI(api_key="EMPTY", base_url="http://localhost:8000/v1")resp = client.chat.completions.create(    model="mistralai/Mistral-Small-4-119B-2603-NVFP4",    messages=[{"role": "user", "content": "Summarize the document in five bullets."}],    temperature=0.7,    reasoning_effort="none",)print(resp.choices[0].message.content)

Passo 6) Regola velocità o qualità

Se stai testando il modello in locale, si suggerisce reasoning_effort="high" per prompt complessi e temperature=0.7 in quella modalità, mentre temperature più basse sono più appropriate quando il ragionamento è disattivato. La stessa card distingue inoltre il checkpoint FP8, pensato per la migliore accuratezza, dal checkpoint NVFP4, orientato a throughput e minore uso di memoria, quindi la configurazione giusta dipende dal fatto che tu stia ottimizzando qualità, velocità o footprint hardware.

Passo 7: Opzionale – Eseguilo tramite Ollama (semplificato)

ollama run mistral-small-4

👉 Ideale per:

  • sviluppo locale
  • configurazione rapida

Mistral Small 4 vs GPT-OSS vs Qwen 3.5 (confronto completo)

Mistral Small 4: MoE a efficienza estrema

  • 119B parametri totali
  • ~6.5B attivi per token
  • 128 esperti (4 attivi)
  • Multimodale (testo + immagine)

👉 Idea chiave: capacità molto elevata ma basso calcolo per token

Questo offre:

  • prestazioni elevate
  • bassa latenza
  • costo inferiore per inferenza

GPT-OSS: MoE pratico per il deployment

  • Versione 120B: ~117B totali / 5.1B attivi
  • Versione 20B: ~21B totali / 3.6B attivi
  • Solo testo

👉 Idea chiave: far girare modelli potenti su hardware minimo

  • Può funzionare su una singola GPU H100
  • Ottimo supporto per tool use / output strutturato

Qwen 3.5: scaling ad alta capacità

  • Fino a 122B parametri
  • Conteggio di parametri attivi più alto (~20B+)
  • Multimodale + forte supporto multilingue

👉 Idea chiave: massimizzare la capacità anche se il costo computazionale aumenta

Confronto dei benchmark prestazionali

CategoriaMistral Small 4GPT-OSS (120B / 20B)Qwen 3.5 (Plus / MoE)
Input / OutputInput testo + immagine → output testoContesto: 256K tokenInput testo → output testoContesto: ~128K tokenInput testo + immagine + video → output testoContesto: fino a 1M token
Prezzo (API)$0.15 /M input$0.60 /M outputNessun prezzo API ufficiale (self-hosted)→ costo dipendente dall’infrastruttura$0.40–0.50 /M input$2.40–3.00 /M output
ArchitetturaMoE (Mixture-of-Experts)119B totali / 6.5B attivi128 esperti (4 attivi)MoE Transformer120B: 117B / 5.1B attivi20B: 21B / 3.6B attiviMoE ibrido + layer avanzatiFino a 397B totali (A17B attivi)
Multimodalità✅ Supporto immagini❌ Solo testo✅ Immagine + video
Controllo ragionamento✅ (reasoning_effort)✅ (modalità low/med/high)✅ Ragionamento adattivo
Efficienza contesto⭐⭐⭐⭐⭐ (output brevi)⭐⭐⭐⭐⭐⭐⭐ (output lunghi)
Supporto tool / agenti✅ Tool nativi, agenti, output strutturati✅ Forte uso di tool, output strutturati✅ Ecosistema agentico avanzato
Capacità di coding⭐⭐⭐⭐⭐ (livello Devstral)⭐⭐⭐⭐⭐⭐⭐⭐⭐
DeploymentPesante (consigliato multi-GPU)Flessibile (possibile single GPU)Pesante (preferibile scala cloud)

Con il ragionamento abilitato, Small 4 eguaglia o supera GPT-OSS 120B su LCR, LiveCodeBench e AIME 2025, generando al tempo stesso output più brevi. Mistral cita un esempio in cui Small 4 ottiene 0.72 su AA LCR con soli 1.6K caratteri, mentre risultati Qwen comparabili richiedevano 5.8K–6.1K caratteri, e afferma che Small 4 supera GPT-OSS 120B su LiveCodeBench producendo il 20% di output in meno.

Come eseguire Mistral Small 4 in locale

Come eseguire Mistral Small 4 in locale

Qual è la scelta migliore in locale?

La mia opinione: Mistral Small 4 è la migliore scelta “single-model” se vuoi un deployment locale o privato bilanciato, con chat generale solida, coding, lavoro agentico e supporto multimodale. GPT-OSS è la scelta più chiara se vuoi un modello OpenAI apertamente disponibile con linee guida molto esplicite per il serving locale, soprattutto nella versione più piccola da 20B. Qwen3.5 è la famiglia più ampia, ed è quella da considerare se ti interessano soprattutto copertura multilingue, più taglie di modello e opzioni flessibili di serving locale.

Se vuoi accedere a questi migliori modelli open-source tramite API e non vuoi cambiare vendor, allora consiglio CometAPI, che offre GPT-oss-120B e Qwen 3.5 plus API ecc.

In altre parole, puoi usare Small 4 come modello hosted, oppure scaricare i pesi e self-hos tarlo sulla tua infrastruttura.

Conclusione

Small 4 è una soluzione molto valida quando ti serve un modello open-weight, multimodale, capace di ragionare e self-hostable, che possa essere fine-tuned e integrato in stack applicativi esistenti in stile OpenAI. È particolarmente interessante per i team che tengono al controllo del deployment, alla residenza dei dati e a costi marginali per token più bassi, pur volendo un moderno modello general-purpose.

Pronto ad accedere a Mistral Small 4? Allora vieni su CometAPI!

Accesso ai Migliori Modelli a Basso Costo

Leggi di più