Sådan kører du Mistral Small 4 lokalt

CometAPI
AnnaMar 23, 2026
Sådan kører du Mistral Small 4 lokalt

Mistral Small 4 er en nyudgivet multimodal AI-model fra Mistral AI (marts 2026), der forener inference, ræsonnering, kodning og multimodale kapabiliteter i én arkitektur. Den har et 256K kontekstvindue, Mixture-of-Experts (MoE)-design (~119B samlede parametre, ~6,5B aktive pr. token) og leverer hurtigere inference (op til 40% lavere latens), samtidig med at den overgår sammenlignelige åbne modeller som GPT-OSS 120B i benchmarks.

For at køre den lokalt kræves GPU’er med høj hukommelse (≥48GB VRAM anbefalet) eller kvantiserede deployment, sammen med frameworks som Transformers, vLLM eller Ollama.

Hvad er Mistral Small 4?

En enkelt model til flere opgaver

Mistral Small 4 er bedst forstået som en “allrounder”: den kombinerer styrkerne fra Mistrals tidligere instruktion-, ræsonnerings- og kodningsfamilier i én model. I virksomhedens egen udgivelsesterminologi er Small 4 den første Mistral-model, som forener kapabiliteterne fra Magistral til ræsonnering, Pixtral til multimodale opgaver og Devstral til agentisk kodning. Den accepterer tekst- og billedinput, producerer tekstoutput og er tiltænkt chat, kodning, agent-baserede arbejdsgange, dokumentforståelse, research og visuel analyse.

Hvorfor denne udgivelse er vigtig

Den praktiske betydning er, at Mistral Small 4 reducerer overhead ved modelswitching. I stedet for at route én prompt til en hurtig instruktionsmodel, en anden til en ræsonneringsmodel og en tredje til en visionmodel, kan du bruge et enkelt endpoint og justere reasoning_effort efter behov. Mistral angiver eksplicit, at reasoning_effort="none" giver hurtige, letvægts-svar på niveau med chat i Small 3.2-stil, mens reasoning_effort="high" giver dybere, mere verbose ræsonnering i stil med de tidligere Magistral-modeller.

Ydelsesbenchmarks for Mistral Small 4

Centrale ydelseshøjdepunkter

Sådan kører du Mistral Small 4 lokalt

MetrikMistral Small 4
ArkitekturMoE
Kontekstvindue256K
Latens↓ op til 40%
KodningsbenchmarksSlår GPT-OSS 120B
Outputeffektivitet20% færre tokens

👉 Dette gør den ideel til produktionsklare AI-systemer.

Arkitektur (vigtig teknisk indsigt)

  • Modeltype: Mixture-of-Experts (MoE)
  • Samlede parametre: ~119B
  • Aktive parametre pr. token: ~6,5B
  • Eksperter: ~128 (4 aktive pr. forward pass)

👉 Denne arkitektur muliggør intelligens på stor skala til små-model omkostning, hvilket gør den ideel til lokal deployment sammenlignet med tætte modeller.

Implementeringskrav, hvis du planlægger for Mistral Small 4

Officiel minimums- og anbefalet infrastruktur

Mistral er usædvanligt tydelig her. Minimumsinfrastruktur: 4x NVIDIA HGX H100, 2x NVIDIA HGX H200 eller 1x NVIDIA DGX B200. Den anbefalede opsætning for optimal performance er 4x HGX H100, 4x HGX H200 eller 2x DGX B200. Det er et stærkt signal om, at den fuldt officielle vej er målrettet maskiner i datacenterklassen fremfor et enkelt forbruger-GPU.

Hvad betyder det i praksis

Mistral Small 4 har åbne vægte og er effektiv for sin størrelse, men den er stadig et 119B MoE-system med et 256K kontekstvindue. I reelle deployment betyder den kombination, at memory-presset stiger hurtigt i takt med kontekstlængden, og vedvarende performance afhænger ofte af multi-GPU tensor-parallelisme og effektiv serving-software. Derfor anbefales vLLM som primær selv-deployment-motor og at eksponere OpenAI-kompatible serving-mønstre fremfor single-maskine “det virker bare”-standarder.

Anbefalet opsætning (professionel)

KomponentAnbefaling
GPU48GB–80GB VRAM (A100 / H100)
CPU16–32 kerner
RAM128GB
StorageNVMe SSD

Hvorfor hardware betyder noget

Fordi:

  • 119B-parameter model (selv som MoE)
  • Stor kontekst (256K tokens)
  • Multimodal behandling

👉 Uden optimering er den for tung til forbrugergrafikkort

Sådan kører du Mistral Small 4 lokalt (trin-for-trin)

Trin 1) Hent vægtene og accepter adgangsbetingelserne

vLLM henter vægte fra Hugging Face som standard, så du skal bruge et Hugging Face adgangstoken med READ-tilladelse, og du skal acceptere betingelserne på modelkortet. Til en praktisk lokal opsætning skal du forberede en Linux-maskine med NVIDIA-drivere, CUDA-kompatibel runtime, Python og nok GPU-hukommelse til det valgte checkpoint. Hvis du allerede har artefakterne i egen storage, kan du springe Hugging Face-opsætningen over og pege vLLM mod den lokale sti i stedet.

Trin 2) Brug den officielt anbefalede serverstack

Der anbefales selv-deployment via vLLM, som beskrives som et højt optimeret serving-framework, der kan eksponere en OpenAI-kompatibel API. De tilhørende selv-deployment-dokumenter nævner også TensorRT-LLM og TGI som alternativer, men vLLM er den anbefalede vej for denne modelfamilie.

Trin 3) Hent det Mistral-anbefalede Docker-image eller installer vLLM manuelt

Mistral Small 4 anbefaler at bruge et tilpasset Docker-image med de nødvendige værktøjs-kald og ræsonnerings-parserrettelser, eller at installere en patchet vLLM-build manuelt. Kortet leverer et specialimage og bemærker, at Mistral arbejder med vLLM-teamet for at upstream’e ændringerne.

Et praktisk udgangspunkt er:

docker pull mistralllm/vllm-ms4:latestdocker run -it mistralllm/vllm-ms4:latest

Trin 4) Servér modellen

Mistrals anbefalede server-kommando er:

vllm serve mistralai/Mistral-Small-4-119B-2603-NVFP4 \  --max-model-len 262144 \  --tensor-parallel-size 2 \  --attention-backend TRITON_MLA \  --tool-call-parser mistral \  --enable-auto-tool-choice \  --reasoning-parser mistral \  --max_num_batched_tokens 16384 \  --max_num_seqs 128 \  --gpu_memory_utilization 0.8

Denne kommando er den vigtigste praktiske ledetråd i hele den lokale historie: den fortæller, at modellen er tiltænkt drift med en seriøs GPU-backend, et langt kontekstvindue og Mistral-specifikke værktøjs- og ræsonneringsparsers slået til.

Trin 5) Forbind din applikation til det lokale endpoint

Fordi vLLM eksponerer en OpenAI-kompatibel REST API, kan du som regel pege eksisterende OpenAI SDK-kode mod http://localhost:8000/v1 og beholde det meste af din applikationslogik uændret. Mistrals eksempel bruger base_url="http://localhost:8000/v1" og en tom API-nøgle, hvilket er et almindeligt lokalt udviklingsmønster.

from openai import OpenAIclient = OpenAI(api_key="EMPTY", base_url="http://localhost:8000/v1")resp = client.chat.completions.create(    model="mistralai/Mistral-Small-4-119B-2603-NVFP4",    messages=[{"role": "user", "content": "Summarize the document in five bullets."}],    temperature=0.7,    reasoning_effort="none",)print(resp.choices[0].message.content)

Trin 6) Tuning for hastighed eller kvalitet

Hvis du tester modellen lokalt, foreslås reasoning_effort="high" til komplekse prompts og temperature=0.7 i den tilstand, mens lavere temperaturer er mere passende, når ræsonnering er slået fra. Samme kort adskiller også FP8-checkpointet for bedste nøjagtighed fra NVFP4-checkpointet for throughput og lavere hukommelsesforbrug, så den rigtige konfiguration afhænger af, om du optimerer for kvalitet, hastighed eller hardware-fodaftryk.

Trin 7: Valgfrit – Kør via Ollama (forenklet)

ollama run mistral-small-4

👉 Bedst til:

  • Lokal udvikling
  • Hurtig opsætning

Mistral Small 4 vs GPT-OSS vs Qwen 3.5 (fuld sammenligning)

Mistral Small 4: ekstremt effektiv MoE

  • 119B samlede parametre
  • ~6,5B aktive pr. token
  • 128 eksperter (4 aktive)
  • Multimodal (tekst + billede)

👉 Kerneidé: meget stor kapacitet men lav beregning pr. token

Dette giver:

  • Høj performance
  • Lav latens
  • Lavere omkostning pr. inference

GPT-OSS: praktisk MoE til implementering

  • 120B-version: ~117B samlet / 5,1B aktiv
  • 20B-version: ~21B samlet / 3,6B aktiv
  • Kun tekst

👉 Kerneidé: få kraftige modeller til at passe på minimal hardware

  • Kan køre på en enkelt H100 GPU
  • Stærk værktøjsbrug / understøttelse af struktureret output

Qwen 3.5: skalering med høj kapabilitet

  • Op til 122B parametre
  • Højere aktivt parameterantal (~20B+)
  • Multimodal + stærk flersprogethed

👉 Kerneidé: maksimér kapabilitet, selv hvis beregningsomkostningen stiger

Performance Benchmark-sammenligning

KategoriMistral Small 4GPT-OSS (120B / 20B)Qwen 3.5 (Plus / MoE)
Input / OutputTekst + billede input → tekst outputKontekst: 256K tokensTekst input → tekst outputKontekst: ~128K tokensTekst + billede + video → tekst outputKontekst: op til 1M tokens
Pris (API)$0.15 /M input$0.60 /M outputIngen officiel API-pris (self-hosted)→ infrastrukturafhængig omkostning$0.40–0.50 /M input$2.40–3.00 /M output
ArkitekturMoE (Mixture-of-Experts)119B total / 6.5B aktive128 eksperter (4 aktive)MoE Transformer120B: 117B / 5.1B aktive20B: 21B / 3.6B aktiveHybrid MoE + avancerede lagOp til 397B total (A17B aktive)
Multimodal✅ Billedunderstøttelse❌ Kun tekst✅ Billede + video
Ræsonneringskontrol✅ (reasoning_effort)✅ (low/med/high modes)✅ Adaptivt ræsonnement
Konteksteffektivitet⭐⭐⭐⭐⭐ (korte outputs)⭐⭐⭐⭐⭐⭐⭐ (lange outputs)
Værktøj/agent-støtte✅ Native værktøjer, agents, strukturerede outputs✅ Stærk værktøjsbrug, strukturerede outputs✅ Avanceret agent-økosystem
Kodningsevner⭐⭐⭐⭐⭐ (Devstral-niveau)⭐⭐⭐⭐⭐⭐⭐⭐⭐
ImplementeringTung (multi-GPU anbefales)Fleksibel (enkel GPU mulig)Tung (cloud-skala foretrækkes)

Med ræsonnering slået til matcher eller overgår Small 4 GPT-OSS 120B på LCR, LiveCodeBench og AIME 2025, samtidig med at den genererer kortere output. Mistral citerer et eksempel, hvor Small 4 scorer 0,72 på AA LCR med kun 1,6K tegn, mens sammenlignelige Qwen-resultater krævede 5,8K–6,1K tegn, og siger, at Small 4 overgår GPT-OSS 120B på LiveCodeBench, mens den producerer 20% mindre output.

Sådan kører du Mistral Small 4 lokalt

Sådan kører du Mistral Small 4 lokalt

Hvilken er det bedste lokale valg?

Mit synspunkt: Mistral Small 4 er det bedste “single-model”-valg, hvis du vil have en balanceret lokal eller privat deployment med stærk generel chat, kodning, agentisk arbejde og multimodal understøttelse. GPT-OSS er det klareste valg, hvis du vil have en frit tilgængelig OpenAI-model med meget eksplicit lokal-serving-vejledning, især den mindre 20B-version. Qwen3.5 er den bredeste familie og den, du skal kigge på, hvis du vægter flersproget dækning, flere størrelsestrin og fleksible lokal-serving-muligheder højest.

Hvis du vil tilgå disse top open-source-modeller via API’er og ikke ønsker at skifte leverandør, anbefaler jeg CometAPI, som tilbyder GPT-oss-120B og Qwen 3.5 plus API m.m.

Med andre ord kan du forbruge Small 4 som en hosted model eller hente vægtene og selv hoste den på din egen infrastruktur.

Konklusion

Small 4 er et meget stærkt match, når du har brug for en open-weight, multimodal, ræsonneringsdygtig model, der kan self-hostes, finjusteres og integreres i eksisterende OpenAI-lignende applikationsstakke. Den er særligt attraktiv for teams, der vægter deploymentskontrol, dataresidens og lavere marginale token-omkostninger, samtidig med at de ønsker en moderne, generel formålsmodel.

Klar til at få adgang til Mistral Small 4? Så kom til CometAPI!

Adgang til topmodeller til lav pris

Læs mere