Hvordan kjøre Mistral Small 4 lokalt

CometAPI
AnnaMar 23, 2026
Hvordan kjøre Mistral Small 4 lokalt

Mistral Small 4 er en nylig lansert multimodal AI-modell fra Mistral AI (mars 2026) som forener inferens, resonnering, koding og multimodale evner i én arkitektur. Den har et 256K kontekstvindu, Mixture-of-Experts (MoE)-design (~119B totale parametere, ~6.5B aktive per token), og leverer raskere inferens (opptil 40% lavere latens) samtidig som den overgår sammenlignbare åpne modeller som GPT-OSS 120B i benchmarker.

For å kjøre den lokalt trenger du GPU-er med mye minne (≥48GB VRAM anbefales) eller kvantiserte utrullinger, sammen med rammeverk som Transformers, vLLM eller Ollama.

Hva er Mistral Small 4?

Én modell for flere oppgaver

Mistral Small 4 kan best forstås som en “allrounder”: den kombinerer styrkene fra Mistrals tidligere instruksjons-, resonnerings- og kodingfamilier i én modell. I selskapets egen lanseringsspråk er Small 4 den første Mistral-modellen som forener kapasitetene til Magistral for resonnering, Pixtral for multimodale oppgaver og Devstral for agentisk koding. Den tar imot tekst- og bildeinput, leverer tekstutdata, og er ment for chat, koding, agentiske arbeidsflyter, dokumentforståelse, forskning og visuell analyse.

Hvorfor denne lanseringen betyr noe

Den praktiske betydningen er at Mistral Small 4 reduserer overhead ved modellbytte. I stedet for å rute én prompt til en rask instruksjonsmodell, en annen til en resonneringsmodell og en tredje til en visjonsmodell, kan du bruke ett endepunkt og justere reasoning_effort etter behov. Mistral sier eksplisitt at reasoning_effort="none" gir raske, lette svar sammenlignbare med Small 3.2-stil chat, mens reasoning_effort="high" gir dypere, mer verbose resonnementer i stil med tidligere Magistral-modeller.

Ytelsesbenchmark for Mistral Small 4

Viktige ytelseshøydepunkter

Hvordan kjøre Mistral Small 4 lokalt

MetrikkMistral Small 4
ArkitekturMoE
Kontekstvindu256K
Latens↓ opptil 40%
KodingstesterSlår GPT-OSS 120B
Utdatateffektivitet20% færre tokens

👉 Dette gjør den ideell for AI-systemer i produksjon.

Arkitektur (viktig teknisk innsikt)

  • Modelltype: Mixture-of-Experts (MoE)
  • Totale parametere: ~119B
  • Aktive parametere per token: ~6.5B
  • Eksperter: ~128 (4 aktive per fremoverpass)

👉 Denne arkitekturen gir stor-modell-intelligens til små-modell-kostnad, noe som gjør den ideell for lokal utrulling sammenlignet med tette modeller.

Krav til utrulling hvis du planlegger for Mistral Small 4

Offisielt minimum og anbefalt infrastruktur

Mistral er uvanlig tydelig her. Minimumsinfrastrukturen er 4x NVIDIA HGX H100, 2x NVIDIA HGX H200, eller 1x NVIDIA DGX B200. Det anbefalte oppsettet for optimal ytelse er 4x HGX H100, 4x HGX H200, eller 2x DGX B200. Det er et sterkt signal om at den fullt offisielle veien er rettet mot datasenter-klassemaskiner snarere enn en enkelt forbruker-GPU.

Hva det betyr i praksis

Mistral Small 4 har åpne vekter og er effektiv for størrelsen, men er fortsatt et 119B MoE-system med et 256k kontekstvindu. I reelle utrullinger betyr den kombinasjonen at minnepresset øker raskt når konteksten vokser, og vedvarende ytelse avhenger vanligvis av multi-GPU tensorparallellisme og effektiv serverprogramvare. Derfor anbefales vLLM som primær motor for egen utrulling og å eksponere OpenAI-kompatible tjenestemønstre fremfor «én maskin – det bare funker»-standarder.

Anbefalt oppsett (profesjonelt)

KomponentAnbefaling
GPU48GB–80GB VRAM (A100 / H100)
CPU16–32 kjerner
RAM128GB
LagringNVMe SSD

Hvorfor maskinvaren betyr noe

Fordi:

  • 119B-parameter-modell (selv om MoE)
  • Stort kontekstvindu (256K tokens)
  • Multimodal prosessering

👉 Uten optimalisering er den for tung for forbruker-GPU-er

Hvordan kjøre Mistral Small 4 lokalt (steg for steg)

Trinn 1) Hent vektene og godta tilgangsbetingelsene

vLLM henter vekter fra Hugging Face som standard, så du trenger et Hugging Face-tilgangstoken med READ-tillatelse og du må godta betingelsene på modellkortet. For et praktisk lokalt oppsett, forbered en Linux-maskin med NVIDIA-drivere, CUDA-kompatibelt runtime-miljø, Python og nok GPU-minne for valgt sjekkpunkt. Hvis du allerede har artefaktene på egen lagring, kan du hoppe over Hugging Face-oppsettet og peke vLLM til lokal sti i stedet.

Trinn 2) Bruk den offisielt anbefalte serverstakken

Anbefaler egenutrulling gjennom vLLM, som beskrives som et høyt optimalisert serveringsrammeverk som kan eksponere en OpenAI-kompatibel API. Dokumentasjonen for egenutrulling nevner også TensorRT-LLM og TGI som alternativer, men vLLM er den anbefalte veien for denne modellfamilien.

Trinn 3) Hent Mistral-anbefalt Docker-image eller installer vLLM manuelt

Mistral Small 4 anbefaler å bruke et tilpasset Docker-image med nødvendige verktøy-kall- og resonnement-parseringsfikser, eller å installere en patch-et vLLM-bygg manuelt. Kortet tilbyr et eget image og bemerker at Mistral samarbeider med vLLM-teamet for å upstream-e endringene.

Et praktisk utgangspunkt er:

docker pull mistralllm/vllm-ms4:latestdocker run -it mistralllm/vllm-ms4:latest

Trinn 4) Kjør modellen som en tjeneste

Mistrals anbefalte serverkommando er:

vllm serve mistralai/Mistral-Small-4-119B-2603-NVFP4 \  --max-model-len 262144 \  --tensor-parallel-size 2 \  --attention-backend TRITON_MLA \  --tool-call-parser mistral \  --enable-auto-tool-choice \  --reasoning-parser mistral \  --max_num_batched_tokens 16384 \  --max_num_seqs 128 \  --gpu_memory_utilization 0.8

Den kommandoen er det viktigste praktiske sporet i hele lokalhistorien: den forteller at modellen er ment å kjøres med en seriøs GPU-backend, et langt kontekstvindu, og Mistral-spesifikke verktøy- og resonnementparsere aktivert.

Trinn 5) Koble applikasjonen din til det lokale endepunktet

Siden vLLM eksponerer en OpenAI-kompatibel REST API, kan du som regel peke eksisterende OpenAI SDK-kode til http://localhost:8000/v1 og beholde det meste av applikasjonslogikken uendret. Mistrals eksempel bruker base_url="http://localhost:8000/v1" og en tom API-nøkkel, som er et vanlig lokalt utviklingsmønster.

from openai import OpenAIclient = OpenAI(api_key="EMPTY", base_url="http://localhost:8000/v1")resp = client.chat.completions.create(    model="mistralai/Mistral-Small-4-119B-2603-NVFP4",    messages=[{"role": "user", "content": "Summarize the document in five bullets."}],    temperature=0.7,    reasoning_effort="none",)print(resp.choices[0].message.content)

Trinn 6) Juster for hastighet eller kvalitet

Hvis du tester modellen lokalt, foreslås reasoning_effort="high" for komplekse prompt-er og temperature=0.7 i den modusen, mens lavere temperaturer er mer passende når resonnering er av. Det samme kortet skiller også FP8-sjekkpunktet for best nøyaktighet fra NVFP4-sjekkpunktet for throughput og lavere minnebruk, så riktig konfigurasjon avhenger av om du optimaliserer for kvalitet, hastighet eller maskinvarefotavtrykk.

Trinn 7: Valgfritt – Kjør via Ollama (forenklet)

ollama run mistral-small-4

👉 Best egnet for:

  • Lokal utvikling
  • Raskt oppsett

Mistral Small 4 vs GPT-OSS vs Qwen 3.5 (full sammenligning)

Mistral Small 4: ekstremt effektiv MoE

  • 119B totale parametere
  • ~6.5B aktive per token
  • 128 eksperter (4 aktive)
  • Multimodal (tekst + bilde)

👉 Hovedidé: svært stor kapasitet men lav beregning per token

Dette gir:

  • Høy ytelse
  • Lav latens
  • Lavere kostnad per inferens

GPT-OSS: praktisk MoE for utrulling

  • 120B-versjon: ~117B total / 5.1B aktiv
  • 20B-versjon: ~21B total / 3.6B aktiv
  • Kun tekst

👉 Hovedidé: få kraftige modeller til å passe på minimal maskinvare

  • Kan kjøres på én H100-GPU
  • Sterk verktøybruk / støtte for strukturerte utdata

Qwen 3.5: skalering med høy kapasitet

  • Opptil 122B parametere
  • Høyere aktiv parameterantall (~20B+)
  • Multimodal + sterk flerspråklig

👉 Hovedidé: maksimere kapasitet selv om beregningskostnaden øker

Sammenligning av ytelsesbenchmark

KategoriMistral Small 4GPT-OSS (120B / 20B)Qwen 3.5 (Plus / MoE)
Inndata / UtdataTekst + bilde inn → tekst utKontekst: 256K tokensTekst inn → tekst utKontekst: ~128K tokensTekst + bilde + video → tekst utKontekst: opptil 1M tokens
Pris (API)$0.15 /M input$0.60 /M outputIngen offisiell API-prising (selvhostet)→ Infrastrukturavhengig kostnad$0.40–0.50 /M input$2.40–3.00 /M output
ArkitekturMoE (Mixture-of-Experts)119B total / 6.5B aktiv128 eksperter (4 aktive)MoE Transformer120B: 117B / 5.1B aktiv20B: 21B / 3.6B aktivHybrid MoE + avanserte lagOpptil 397B total (A17B aktiv)
Multimodal✅ Bildestøtte❌ Kun tekst✅ Bilde + video
Kontroll over resonnering✅ (reasoning_effort)✅ (lav/medium/høy-modus)✅ Adaptiv resonnering
Konteksteffektivitet⭐⭐⭐⭐⭐ (korte utdata)⭐⭐⭐⭐⭐⭐⭐ (lange utdata)
Verktøy-/agentstøtte✅ Native verktøy, agenter, strukturerte utdata✅ Sterk verktøybruk, strukturerte utdata✅ Avansert agent-økosystem
Kodingsevne⭐⭐⭐⭐⭐ (Devstral-nivå)⭐⭐⭐⭐⭐⭐⭐⭐⭐
UtrullingTung (multi-GPU anbefales)Fleksibel (én enkelt GPU mulig)Tung (skyskala foretrukket)

Med resonnering aktivert matcher eller overgår Small 4 GPT-OSS 120B på LCR, LiveCodeBench og AIME 2025, samtidig som den genererer kortere utdata. Mistral viser et eksempel der Small 4 scorer 0.72 på AA LCR med bare 1.6K tegn, mens sammenlignbare Qwen-resultater trengte 5.8K–6.1K tegn, og sier at Small 4 overgår GPT-OSS 120B på LiveCodeBench samtidig som den produserer 20% mindre utdata.

Hvordan kjøre Mistral Small 4 lokalt

Hvordan kjøre Mistral Small 4 lokalt

Hvilken er det beste lokale valget?

Min vurdering: Mistral Small 4 er det beste «én-modell»-valget hvis du vil ha en balansert lokal eller privat utrulling med sterk generell chat, koding, agentisk arbeid og multimodal støtte. GPT-OSS er det tydeligste valget hvis du vil ha en åpent tilgjengelig OpenAI-modell med svært eksplisitt veiledning for lokal servering, spesielt den mindre 20B-versjonen. Qwen3.5 er den bredeste familien, og det er den å se på hvis du bryr deg mest om flerspråklig dekning, flere størrelsesnivåer og fleksible alternativer for lokal servering.

Hvis du vil få tilgang til disse ledende åpne modellene via API-er og ikke vil bytte leverandører, anbefaler jeg CometAPI, som tilbyr GPT-oss-120B og Qwen 3.5 plus API m.m.

Med andre ord kan du bruke Small 4 som en hostet modell, eller hente vektene og selvhoste den på din egen infrastruktur.

Konklusjon

Small 4 passer svært godt når du trenger en åpne-vekter, multimodal, resonneringsdyktig modell som kan selvhostes, finjusteres og integreres i eksisterende applikasjonsstakker i OpenAI-stil. Den er spesielt overbevisende for team som er opptatt av utrullingskontroll, dataresidens og lavere marginale token-kostnader, samtidig som de ønsker en moderne general-purpose-modell.

Klar til å få tilgang til Mistral Small 4? Kom til CometAPI!

Tilgang til toppmodeller til lav kostnad

Les mer