Hvordan kjøre Mistral Small 4 lokalt

Mistral Small 4 er en nylig lansert multimodal AI-modell fra Mistral AI (mars 2026) som forener inferens, resonnering, koding og multimodale evner i én arkitektur. Den har et 256K kontekstvindu, Mixture-of-Experts (MoE)-design (~119B totale parametere, ~6.5B aktive per token), og leverer raskere inferens (opptil 40% lavere latens) samtidig som den overgår sammenlignbare åpne modeller som GPT-OSS 120B i benchmarker.

For å kjøre den lokalt trenger du GPU-er med mye minne (≥48GB VRAM anbefales) eller kvantiserte utrullinger, sammen med rammeverk som Transformers, vLLM eller Ollama.

Hva er Mistral Small 4?

Én modell for flere oppgaver

Mistral Small 4 kan best forstås som en “allrounder”: den kombinerer styrkene fra Mistrals tidligere instruksjons-, resonnerings- og kodingfamilier i én modell. I selskapets egen lanseringsspråk er Small 4 den første Mistral-modellen som forener kapasitetene til Magistral for resonnering, Pixtral for multimodale oppgaver og Devstral for agentisk koding. Den tar imot tekst- og bildeinput, leverer tekstutdata, og er ment for chat, koding, agentiske arbeidsflyter, dokumentforståelse, forskning og visuell analyse.

Hvorfor denne lanseringen betyr noe

Den praktiske betydningen er at Mistral Small 4 reduserer overhead ved modellbytte. I stedet for å rute én prompt til en rask instruksjonsmodell, en annen til en resonneringsmodell og en tredje til en visjonsmodell, kan du bruke ett endepunkt og justere reasoning_effort etter behov. Mistral sier eksplisitt at reasoning_effort="none" gir raske, lette svar sammenlignbare med Small 3.2-stil chat, mens reasoning_effort="high" gir dypere, mer verbose resonnementer i stil med tidligere Magistral-modeller.

Ytelsesbenchmark for Mistral Small 4

Viktige ytelseshøydepunkter

Hvordan kjøre Mistral Small 4 lokalt

Metrikk	Mistral Small 4
Arkitektur	MoE
Kontekstvindu	256K
Latens	↓ opptil 40%
Kodingstester	Slår GPT-OSS 120B
Utdatateffektivitet	20% færre tokens

👉 Dette gjør den ideell for AI-systemer i produksjon.

Arkitektur (viktig teknisk innsikt)

Modelltype: Mixture-of-Experts (MoE)
Totale parametere: ~119B
Aktive parametere per token: ~6.5B
Eksperter: ~128 (4 aktive per fremoverpass)

👉 Denne arkitekturen gir stor-modell-intelligens til små-modell-kostnad, noe som gjør den ideell for lokal utrulling sammenlignet med tette modeller.

Krav til utrulling hvis du planlegger for Mistral Small 4

Offisielt minimum og anbefalt infrastruktur

Mistral er uvanlig tydelig her. Minimumsinfrastrukturen er 4x NVIDIA HGX H100, 2x NVIDIA HGX H200, eller 1x NVIDIA DGX B200. Det anbefalte oppsettet for optimal ytelse er 4x HGX H100, 4x HGX H200, eller 2x DGX B200. Det er et sterkt signal om at den fullt offisielle veien er rettet mot datasenter-klassemaskiner snarere enn en enkelt forbruker-GPU.

Hva det betyr i praksis

Mistral Small 4 har åpne vekter og er effektiv for størrelsen, men er fortsatt et 119B MoE-system med et 256k kontekstvindu. I reelle utrullinger betyr den kombinasjonen at minnepresset øker raskt når konteksten vokser, og vedvarende ytelse avhenger vanligvis av multi-GPU tensorparallellisme og effektiv serverprogramvare. Derfor anbefales vLLM som primær motor for egen utrulling og å eksponere OpenAI-kompatible tjenestemønstre fremfor «én maskin – det bare funker»-standarder.

Anbefalt oppsett (profesjonelt)

Komponent	Anbefaling
GPU	48GB–80GB VRAM (A100 / H100)
CPU	16–32 kjerner
RAM	128GB
Lagring	NVMe SSD

Hvorfor maskinvaren betyr noe

Fordi:

119B-parameter-modell (selv om MoE)
Stort kontekstvindu (256K tokens)
Multimodal prosessering

👉 Uten optimalisering er den for tung for forbruker-GPU-er

Hvordan kjøre Mistral Small 4 lokalt (steg for steg)

Trinn 1) Hent vektene og godta tilgangsbetingelsene

vLLM henter vekter fra Hugging Face som standard, så du trenger et Hugging Face-tilgangstoken med READ-tillatelse og du må godta betingelsene på modellkortet. For et praktisk lokalt oppsett, forbered en Linux-maskin med NVIDIA-drivere, CUDA-kompatibelt runtime-miljø, Python og nok GPU-minne for valgt sjekkpunkt. Hvis du allerede har artefaktene på egen lagring, kan du hoppe over Hugging Face-oppsettet og peke vLLM til lokal sti i stedet.

Trinn 2) Bruk den offisielt anbefalte serverstakken

Anbefaler egenutrulling gjennom vLLM, som beskrives som et høyt optimalisert serveringsrammeverk som kan eksponere en OpenAI-kompatibel API. Dokumentasjonen for egenutrulling nevner også TensorRT-LLM og TGI som alternativer, men vLLM er den anbefalte veien for denne modellfamilien.

Trinn 3) Hent Mistral-anbefalt Docker-image eller installer vLLM manuelt

Mistral Small 4 anbefaler å bruke et tilpasset Docker-image med nødvendige verktøy-kall- og resonnement-parseringsfikser, eller å installere en patch-et vLLM-bygg manuelt. Kortet tilbyr et eget image og bemerker at Mistral samarbeider med vLLM-teamet for å upstream-e endringene.

Et praktisk utgangspunkt er:

docker pull mistralllm/vllm-ms4:latestdocker run -it mistralllm/vllm-ms4:latest

Trinn 4) Kjør modellen som en tjeneste

Mistrals anbefalte serverkommando er:

vllm serve mistralai/Mistral-Small-4-119B-2603-NVFP4 \  --max-model-len 262144 \  --tensor-parallel-size 2 \  --attention-backend TRITON_MLA \  --tool-call-parser mistral \  --enable-auto-tool-choice \  --reasoning-parser mistral \  --max_num_batched_tokens 16384 \  --max_num_seqs 128 \  --gpu_memory_utilization 0.8

Den kommandoen er det viktigste praktiske sporet i hele lokalhistorien: den forteller at modellen er ment å kjøres med en seriøs GPU-backend, et langt kontekstvindu, og Mistral-spesifikke verktøy- og resonnementparsere aktivert.

Trinn 5) Koble applikasjonen din til det lokale endepunktet

Siden vLLM eksponerer en OpenAI-kompatibel REST API, kan du som regel peke eksisterende OpenAI SDK-kode til http://localhost:8000/v1 og beholde det meste av applikasjonslogikken uendret. Mistrals eksempel bruker base_url="http://localhost:8000/v1" og en tom API-nøkkel, som er et vanlig lokalt utviklingsmønster.

from openai import OpenAIclient = OpenAI(api_key="EMPTY", base_url="http://localhost:8000/v1")resp = client.chat.completions.create(    model="mistralai/Mistral-Small-4-119B-2603-NVFP4",    messages=[{"role": "user", "content": "Summarize the document in five bullets."}],    temperature=0.7,    reasoning_effort="none",)print(resp.choices[0].message.content)

Trinn 6) Juster for hastighet eller kvalitet

Hvis du tester modellen lokalt, foreslås reasoning_effort="high" for komplekse prompt-er og temperature=0.7 i den modusen, mens lavere temperaturer er mer passende når resonnering er av. Det samme kortet skiller også FP8-sjekkpunktet for best nøyaktighet fra NVFP4-sjekkpunktet for throughput og lavere minnebruk, så riktig konfigurasjon avhenger av om du optimaliserer for kvalitet, hastighet eller maskinvarefotavtrykk.

Trinn 7: Valgfritt – Kjør via Ollama (forenklet)

ollama run mistral-small-4

👉 Best egnet for:

Lokal utvikling
Raskt oppsett

Mistral Small 4 vs GPT-OSS vs Qwen 3.5 (full sammenligning)

Mistral Small 4: ekstremt effektiv MoE

119B totale parametere
~6.5B aktive per token
128 eksperter (4 aktive)
Multimodal (tekst + bilde)

👉 Hovedidé: svært stor kapasitet men lav beregning per token

Dette gir:

Høy ytelse
Lav latens
Lavere kostnad per inferens

GPT-OSS: praktisk MoE for utrulling

120B-versjon: ~117B total / 5.1B aktiv
20B-versjon: ~21B total / 3.6B aktiv
Kun tekst

👉 Hovedidé: få kraftige modeller til å passe på minimal maskinvare

Kan kjøres på én H100-GPU
Sterk verktøybruk / støtte for strukturerte utdata

Qwen 3.5: skalering med høy kapasitet

Opptil 122B parametere
Høyere aktiv parameterantall (~20B+)
Multimodal + sterk flerspråklig

👉 Hovedidé: maksimere kapasitet selv om beregningskostnaden øker

Sammenligning av ytelsesbenchmark

Kategori	Mistral Small 4	GPT-OSS (120B / 20B)	Qwen 3.5 (Plus / MoE)
Inndata / Utdata	Tekst + bilde inn → tekst utKontekst: 256K tokens	Tekst inn → tekst utKontekst: ~128K tokens	Tekst + bilde + video → tekst utKontekst: opptil 1M tokens
Pris (API)	$0.15 /M input$0.60 /M output	Ingen offisiell API-prising (selvhostet)→ Infrastrukturavhengig kostnad	$0.40–0.50 /M input$2.40–3.00 /M output
Arkitektur	MoE (Mixture-of-Experts)119B total / 6.5B aktiv128 eksperter (4 aktive)	MoE Transformer120B: 117B / 5.1B aktiv20B: 21B / 3.6B aktiv	Hybrid MoE + avanserte lagOpptil 397B total (A17B aktiv)
Multimodal	✅ Bildestøtte	❌ Kun tekst	✅ Bilde + video
Kontroll over resonnering	✅ (`reasoning_effort`)	✅ (lav/medium/høy-modus)	✅ Adaptiv resonnering
Konteksteffektivitet	⭐⭐⭐⭐⭐ (korte utdata)	⭐⭐⭐⭐	⭐⭐⭐ (lange utdata)
Verktøy-/agentstøtte	✅ Native verktøy, agenter, strukturerte utdata	✅ Sterk verktøybruk, strukturerte utdata	✅ Avansert agent-økosystem
Kodingsevne	⭐⭐⭐⭐⭐ (Devstral-nivå)	⭐⭐⭐⭐	⭐⭐⭐⭐⭐
Utrulling	Tung (multi-GPU anbefales)	Fleksibel (én enkelt GPU mulig)	Tung (skyskala foretrukket)

Med resonnering aktivert matcher eller overgår Small 4 GPT-OSS 120B på LCR, LiveCodeBench og AIME 2025, samtidig som den genererer kortere utdata. Mistral viser et eksempel der Small 4 scorer 0.72 på AA LCR med bare 1.6K tegn, mens sammenlignbare Qwen-resultater trengte 5.8K–6.1K tegn, og sier at Small 4 overgår GPT-OSS 120B på LiveCodeBench samtidig som den produserer 20% mindre utdata.

Hvordan kjøre Mistral Small 4 lokalt

Hvilken er det beste lokale valget?

Min vurdering: Mistral Small 4 er det beste «én-modell»-valget hvis du vil ha en balansert lokal eller privat utrulling med sterk generell chat, koding, agentisk arbeid og multimodal støtte. GPT-OSS er det tydeligste valget hvis du vil ha en åpent tilgjengelig OpenAI-modell med svært eksplisitt veiledning for lokal servering, spesielt den mindre 20B-versjonen. Qwen3.5 er den bredeste familien, og det er den å se på hvis du bryr deg mest om flerspråklig dekning, flere størrelsesnivåer og fleksible alternativer for lokal servering.

Hvis du vil få tilgang til disse ledende åpne modellene via API-er og ikke vil bytte leverandører, anbefaler jeg CometAPI, som tilbyr GPT-oss-120B og Qwen 3.5 plus API m.m.

Med andre ord kan du bruke Small 4 som en hostet modell, eller hente vektene og selvhoste den på din egen infrastruktur.

Konklusjon

Small 4 passer svært godt når du trenger en åpne-vekter, multimodal, resonneringsdyktig modell som kan selvhostes, finjusteres og integreres i eksisterende applikasjonsstakker i OpenAI-stil. Den er spesielt overbevisende for team som er opptatt av utrullingskontroll, dataresidens og lavere marginale token-kostnader, samtidig som de ønsker en moderne general-purpose-modell.

Klar til å få tilgang til Mistral Small 4? Kom til CometAPI!

Hva er Mistral Small 4?

Én modell for flere oppgaver

Hvorfor denne lanseringen betyr noe

Ytelsesbenchmark for Mistral Small 4

Viktige ytelseshøydepunkter

Arkitektur (viktig teknisk innsikt)

Krav til utrulling hvis du planlegger for Mistral Small 4

Offisielt minimum og anbefalt infrastruktur

Hva det betyr i praksis

Anbefalt oppsett (profesjonelt)

Hvorfor maskinvaren betyr noe

Hvordan kjøre Mistral Small 4 lokalt (steg for steg)

Trinn 1) Hent vektene og godta tilgangsbetingelsene

Trinn 2) Bruk den offisielt anbefalte serverstakken

Trinn 3) Hent Mistral-anbefalt Docker-image eller installer vLLM manuelt

Trinn 4) Kjør modellen som en tjeneste

Trinn 5) Koble applikasjonen din til det lokale endepunktet

Trinn 6) Juster for hastighet eller kvalitet

Trinn 7: Valgfritt – Kjør via Ollama (forenklet)

Mistral Small 4 vs GPT-OSS vs Qwen 3.5 (full sammenligning)

Mistral Small 4: ekstremt effektiv MoE

GPT-OSS: praktisk MoE for utrulling

Qwen 3.5: skalering med høy kapasitet

Sammenligning av ytelsesbenchmark

Hvilken er det beste lokale valget?

Konklusjon

Tilgang til toppmodeller til lav kostnad

Les mer