Kort antwoord:
- Mistral Small 4 is een gehost, gesloten model. De gewichten zijn niet publiek, dus je kunt het niet volledig offline/lokaal draaien. Je kunt het wel lokaal aanroepen via de Mistral API.
- Wil je echt lokaal/offline draaien, gebruik dan een open‑weights alternatief uit de Mistral‑familie (bijv. Mistral‑7B‑Instruct v0.3, Mixtral 8x7B/8x22B, Mistral‑Nemo, Ministral‑3B/8B).
Optie A — Lokaal aanroepen via de Mistral API (niet offline):
1) Installeer SDK
- Python: pip install mistralai
2) Stel je API‑sleutel in
- macOS/Linux: export MISTRAL_API_KEY=...
- Windows (Powershell): setx MISTRAL_API_KEY "...”
3) Roep het model aan
- Modelnaam: mistral-small-latest (Small 4 achter deze alias)
- Voorbeeld (Python, schets): from mistralai import Mistral; client = Mistral(api_key=...); client.chat.complete(model="mistral-small-latest", messages=[{"role":"user","content":"..."}])
Optie B — Volledig lokaal (open gewichten) met vergelijkbare Mistral‑modellen:
1) Snel en eenvoudig: Ollama
- Installeer Ollama
- Trek een model:
- Mistral‑7B‑Instruct: ollama pull mistral
- Mixtral 8x7B‑Instruct: ollama pull mixtral
- Start inferentie:
- ollama run mistral
- of met prompt: ollama run mistral "Schrijf een samenvatting..."
- Opmerking: Ollama gebruikt geoptimaliseerde quantized builds; draait op CPU of GPU.
2) Prestaties/serving: vLLM (OpenAI‑compatible server)
- Installatie: pip install vllm
- Start server (voorbeeld Mistral‑7B‑Instruct v0.3):
- python -m vllm.entrypoints.openai.api_server --model mistralai/Mistral-7B-Instruct-v0.3 --dtype float16
- Gebruik via OpenAI‑compatibele clients (endpoint: http://localhost:8000/v1, modelnaam gelijk aan je geladen model).
3) Productiegericht: Text Generation Inference (Hugging Face TGI)
- Start met Docker:
- docker run --gpus all -p 8080:80 -e MODEL_ID=mistralai/Mistral-7B-Instruct-v0.3 ghcr.io/huggingface/text-generation-inference:latest
- Aanroepen:
- curl -X POST http://localhost:8080/generate -d '{"inputs":"Hallo","parameters":{"max_new_tokens":128}}' -H "Content-Type: application/json"
4) Lichtgewicht/CPU‑vriendelijk: llama.cpp (GGUF)
- Download een GGUF‑quant van het gewenste open model (bijv. Mistral‑7B‑Instruct Q4_K_M)
- Run:
- ./main -m ./models/mistral-7b-instruct.Q4_K_M.gguf -p "Schrijf een korte samenvatting..."
Hardwareindicaties (ruw, afhankelijk van quantisatie en contextlengte):
- Mistral‑7B:
- FP16 op GPU: ~12–16 GB VRAM
- 4‑bit quant (GGUF/GPTQ/AWQ): 4–8 GB VRAM of 8–16 GB RAM op CPU
- Mixtral 8x7B:
- Meer geheugen (24–48 GB VRAM); quantisatie of CPU mogelijk maar trager
Fijnslijpen/fine‑tuning (alleen open gewichten):
- Gebruik LoRA/QLoRA (PEFT) op open Mistral‑modellen; houd contextlengte en dtype/quantisatie in de gaten.
Belangrijk:
- Wil je specifiek Mistral Small 4 on‑prem/offline draaien, dan is dat alleen mogelijk via een zakelijke on‑prem/BYOC‑licentie bij Mistral. Zonder die licentie zijn de gewichten niet beschikbaar.
- Voor vergelijkbare latency/kosten lokaal kun je vaak met Mistral‑7B‑Instruct of Ministral‑8B beginnen en later opschalen naar Mixtral als je meer capaciteit nodig hebt.
Mistral Small 4 is een nieuw uitgebracht open-weight multimodaal AI-model van Mistral AI (maart 2026) dat redeneervermogen, programmeercapaciteiten en visuele mogelijkheden in één enkele architectuur combineert. Het kan lokaal worden ingezet met frameworks zoals Ollama, vLLM of llama.cpp (gekwantiseerd), waarvoor GPU’s (≥24GB VRAM aanbevolen) of high-end CPU’s met kwantisatie vereist zijn. Het belangrijkste voordeel is de hoge prestaties tegen aanzienlijk lagere inferentiekosten en latentie, waardoor het ideaal is voor on-device AI-toepassingen.