Mistral 3 er den seneste og mest ambitiøse udgivelse fra Mistral AI — en hel familie af modeller med åbne vægte, der skubber på flere fronter samtidig: sparse-ekspert-skalering i flagskibsstørrelse, kompakte tætte varianter til edge og lokal udrulning, langkontekst-multimodalitet og permissiv åben licensering, som opmuntrer til brug i virkeligheden og forskning.
Hvad er Mistral 3?
Mistral 3 er en familie af multimodale sprogmodeller med åbne vægte udgivet af Mistral AI i slutningen af 2025. Familien omfatter tre tætte (ikke-sparse) kompakte modeller — Ministral 3 med 3B, 8B og 14B parametre — og et flagskib, Mistral Large 3, en sparse Mixture-of-Experts (MoE)-model med 675B samlede parametre og omkring 41B aktive parametre under inferens. Alle modeller blev udgivet under Apache 2.0-licensen og er tilgængelige i komprimerede formater for at understøtte bred distribution og lokal udrulning. Vigtigste funktioner fremhævet af Mistral omfatter multimodale kapabiliteter, meget lange kontekstvinduer (Large: op til 256K tokens) og optimeringer til moderne acceleratorer.
Mistral 3 er vigtig af tre grunde:
- Range — familien dækker spekteret fra meget små til frontier-skalaer (3B / 8B / 14B tætte Ministral-varianter og en 675B-parameter MoE), hvilket muliggør konsistente forsknings- og produktionsarbejdsgange på tværs af pris-/ydelsesafvejninger.
- Openness — Mistral udgav modeller og vægte under Apache-2.0-licens og leverede deployerbare artefakter på platforme som Hugging Face for at accelerere adoption.
- Engineering focus — Large 3-modellen anvender en granulær MoE-arkitektur med meget høje samlede parametertal, men et langt mindre aktivt parametersæt under inferens, som har til formål at levere frontier-kapabilitet med forbedret gennemløb og omkostningseffektivitet for visse arbejdsbelastninger.
Oversigt over Mistral 3-familien
Ministral 3 — 14B (Ministral 3 14B)
Hvad det er: Den største tætte (ikke-MoE) model i den kompakte/edge “Ministral”-linje: en høj-kvalitets, 14-milliarder-parameter multimodal model, der tilbydes i Base / Instruct / Reasoning-varianter og er tunet til tekst + billedforståelse og instruktionsfølgning.
Hvornår du skal vælge den: Du ønsker tæt på topydelse fra en tæt model uden MoE-kompleksitet og vil have stærk instruktions/chat-ydelse og vision-kapabiliteter i én model. God til chat-agenter, multimodale assistenter, kodegenerering og mere krævende on-device/edge-arbejdsbelastninger, der kan rumme en større model.
Ministral 3 — 8B (Ministral 3 8B)
Hvad det er: En afbalanceret, effektiv 8-milliarder-parameter tæt model i Ministral 3-familien. Findes i Base / Instruct / Reasoning-varianter og understøtter multimodale input. Den positioneres som “sweet spot” til mange produktionsbrugsscenarier.
Hvornår du skal vælge den: Du har brug for god genereringskvalitet og ræsonneringsevne, men ønsker meget lavere latenstid og VRAM-aftryk end 14B. Fremragende til chatbots, on-device assistenter, webtjenester med begrænsede GPU-budgetter og indlejret brug med kvantisering.
Ministral 3 — 3B (Ministral 3 3B)
Hvad det er: Det mindste tætte medlem af Ministral 3-familien: en 3-milliarder-parameter multimodal model (Base / Instruct / Reasoning). Designet til ekstremt lav hukommelse/latenstidsscenarier med moderne multimodale funktioner bevaret.
Hvornår du skal vælge den: Når du har brug for inferens på enheden, meget lav latenstid eller at køre mange samtidige letvægtsagenter til lav pris — f.eks. mobilapps, robotter, droner eller lokale, privatlivsfølsomme udrulninger. God til chat, opsummering, lette kodeopgaver og hurtige vision+tekst-opgaver.
Mistral Small 3 — 24B(Mistral Small 3)
Hvad det er: En latenstidsoptimeret 24-milliarder-parameter tæt model udgivet af Mistral som en del af Mistral 3-familien. Den er designet til at levere høj throughput på én GPU og stærk genereringskvalitet, samtidig med at den er enkel at serve (ingen MoE-kompleksitet).
Hvornår du skal vælge den: Du ønsker den bedste enkelt-GPU (eller enkelt-node) afvejning: betydeligt højere kvalitet end 14B/8B i mange benchmarks, men stadig rimelig enkel at udrulle. God til produktions-konversationssystemer, assistenter med højere fidelitet og applikationer, der har brug for stærkere ræsonnering uden MoE-servingskompleksitet.
Mistral Large 3 — MoE (Mixture-of-Experts)
Hvad det er: Flagskibet, en sparse Mixture-of-Experts (MoE)-model i Mistral 3-familien: ≈675B samlede parametre med ~41B aktive parametre pr. token (dvs. kun et delmængde af eksperter aktiveres for hvert token). Designet til frontier-ræsonnering, meget lange kontekstlængder og top præstation på tværs af domæner. Den har åbne vægte (Apache-2.0).
Hvornår du skal vælge den: Brug den, når du har brug for den bedst mulige ræsonnering, meget lang-kontekstforståelse (Large 3 understøtter meget lange vinduer — leverandørsider rapporterer op til 256k tokens for langkontekstbrug), eller når du bygger højværdi-virksomhedssystemer, der kan retfærdiggøre MoE-servingskompleksitet og -infrastruktur.
Sammenligningstabel
| Model | Styrker | Begrænsninger og noter |
|---|---|---|
| Ministral 3 14B | Bedste balance mellem kvalitet → modelstørrelse i den kompakte familie; matcher ofte eller nærmer sig 24B-niveau enkelt-GPU-latenstid i optimerede stakke. Stærk ræsonnering og multimodal forståelse (ved brug af Instruct-/Reasoning-varianterne). | Større hukommelsesaftryk end 8B/3B — kan kræve kvantisering eller optimerede kerner til enkelt-GPU-forbrugerudrulning. Hvis du har brug for det absolut mindste latenstidsaftryk, så overvej 8B- eller 3B-alternativerne. |
| Ministral 3 8B | Stærk pris-/latenstidsafvejning: meget lavere hukommelses- og beregningskrav end 14B, samtidig med at den bevarer stærk multimodal og ræsonneringspræstation (især i Reasoning-varianten). Let at køre med optimerede runtimes og kvantisering. | Ikke lige så stærk på de allersværeste ræsonnerings- eller længste kontekstopgaver som 14B eller 24B Small-modellen, men ofte “god nok” til produktion til langt lavere omkostning. Brug Reasoning-varianten til matematik/kodning/STEM-opgaver. |
| Ministral 3 3B | Mindste aftryk, hurtigst at køre på begrænset hardware, lettest at kvantisere og udrulle lokalt. Understøtter stadig billedforståelse og instruktionsfølgning i sine tunede varianter. | Lavere rå genereringskvalitet på meget lange eller meget komplekse ræsonneringsopgaver sammenlignet med 8B/14B/24B/large MoE. Fremragende til skalering ud/edge, men vælg en større model for højeste nøjagtighed. |
| Mistral Small 3 | Høj MMLU-lignende benchmarkpræstation i sin klasse, latenstidsoptimeret arkitektur og kerner, og udgivet under Apache-2.0 til direkte brug. Bredt understøttet af cloud-udbydere og optimerede runtimes (NVIDIA m.fl.). | Større VRAM/beregning end Ministral 14B/8B/3B-modellerne — kan kræve kraftigere enkelt-GPU’er eller multi-GPU-opsætninger, hvis du sigter efter store kontekstvinduer eller høj samtidighed. Men den er enklere at hoste end MoE-flagskibet. |
| Mistral Large 3 | Meget højere effektiv kapacitet pr. token end en tæt model til sammenlignelig inferensomkostning (fordi kun aktive eksperter bruges), hvilket muliggør overlegen ræsonnering og langkontekst-adfærd. | Serving-kompleksitet: MoE kræver ekspert-sharding, routing, ekstra hukommelse og netværks-IO — mere komplekst og dyrere at køre i skala end en tæt model. |
Mistral 3-benchmarks — hvordan klarer den sig?
Benchmarks er uperfekte men nyttige pejlemærker. Flere uafhængige og tredjepartsevalueringer er dukket op siden lanceringen; billedet er nuanceret: Mistral Large 3 skubber eller matcher top-åbne modeller på mange standardranglister (især ikke-ræsonnerings- og multimodale opgaver), mens Ministral-serien viser stærk pris/ydelse for mindre skalaopgaver.
Generel NLP og ræsonnering
Stærk på tværs af ræsonnerings- og langkontekst-opgaver: Mistral Large 3 rapporterer konkurrencedygtige (ofte førende blandt open source) scorer på ræsonneringssæt (AIME, avancerede matematik-/kode-ræsonneringssuiter) og generelle vidensbenchmarks som MMLU i community-sammenligninger. Uafhængige tværsopgave-papirer og ranglister, der inkluderede Large 3, viser, at den præsterer i top eller tæt på toppen blandt modeller med åbne vægte.
Kode og software engineering
Open-source kode-ranglister: tidlige LMArena- og SWE-Bench-opslag indikerer, at Mistral Large 3 er en top-performer blandt åbne modeller til kodeopgaver — nogle community-rangeringer placerer den som nr. 1 open source på visse kode-ranglister. Når det er sagt, fører lukkede modeller (OpenAI, xAI, Google) ofte stadig de absolut bedste kodekapabiliteter på proprietære ranglister.
På LMArena-ranglisten ligger Mistral Large 3:
- Nr. 2 blandt open-source ikke-inferensmodeller;
- Nr. 6 blandt open-source modeller samlet set.
| Punkt | Mistral 3 14B Instruct | Mistral 3 8B Instruct | Mistral 3 3B Instruct |
|---|---|---|---|
| Modelpositionering | Edge-flagskib med høj ydeevne (enterprise-grade) | Afbalanceret og energieffektiv mainstream-model | Ultralet lokal/edge-model |
| Samlede parametre | ≈ 14B (13.5B LM + 0.4B Vision) | ≈ 8.8B (8.4B LM + 0.4B Vision) | ≈ 3.8B (3.4B LM + 0.4B Vision) |
| Vision-kapacitet | Højopløsnings billedforståelse, dokumentanalyse | Mellemopløsnings billed-Q&A | Letvægts billedbeskrivelse |
| Agent-kapabiliteter | Funktionskald + JSON-output | Funktionskald + JSON-output | Funktionskald + JSON-output |
| Kontekst-ræsonneringsevne | ⭐⭐⭐⭐⭐ (Stærk) | ⭐⭐⭐⭐ (Mellem-stærk) | ⭐⭐⭐ (Letvægts) |
| Matematik-ræsonnering (AIME25) | 0.850 | 0.787 | 0.721 |
| Multimodal præstation (MMMBench) | 8.49 | 8.08 | 7.83 |
| Instruktionsfølgning (WildBench) | 68.5 | 66.8 | 56.8 |
| Vidensforståelse (MMLU) | 0.794 | 0.761 | 0.652 |
| Hukommelseskrav (FP8) | ≈ 24 GB | ≈ 12 GB | ≈ 8 GB |
Sådan får du adgang/prøver Mistral 3 (trin for trin)
1)Download og kør fra Hugging Face (vægte + modelkort)
- Besøg Mistral-organisationen og den specifikke modelside (f.eks.
mistralai/Mistral-Large-3-675B-Instruct-2512eller Ministral 3-modelsiderne) og følg “Files & versions”/modelkortet for anbefalede formater (NVFP4/FP8/FP16). - Typisk workflow:
pip install transformers accelerate torch(eller brug en runtime som vLLM).- Kopiér den præcise model-ID fra Hugging Face (modelsider indeholder den officielle ID og anbefalede formater).
- Eksempel (for en kompakt Ministral-model — brug den præcise HF-id til reelle kørsler):
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("mistralai/<model-id>")
model = AutoModelForCausalLM.from_pretrained("mistralai/<model-id>",
device_map="auto",
torch_dtype="auto")
- For Large 3 (MoE), foretræk leverandør-runtimes eller HF-inference-endpoints — direkte indlæsning via
transformerser muligvis ikke optimal til MoE-distribution.
2) Brug et managed cloud-endpoint (hurtigst, ingen infrastruktur)
- Amazon Bedrock: Mistral Large 3 og Ministral 3 blev tilføjet til Bedrock — du kan oprette serverløse endpoints via Bedrock og kalde dem via Bedrock API/SDK. Godt til produktionsapps uden infra-drift.
- IBM watsonx og Azure Foundry: annonceret som launchpartnere — enterprise-grade hostet adgang og compliance-funktioner.
- Mistral AI Studio: Mistrals egen hostede løsning til at eksperimentere med deres modeller.
3) Brug leverandøroptimerede stakke (hvis du selv hoster)
- NVIDIA: brug NVIDIAs optimerede runtimes og FP8/NVFP4-varianter for bedre gennemløb og omkostninger (NVIDIA udgav et dev-blogindlæg med optimeringer til Mistral 3). Hvis du planlægger at hoste Large 3, brug hardware i GB200/H200-klassen og følg NVIDIAs vejledning.
- vLLM / specialiserede MoE-runtimes: mange grupper bruger vLLM eller MoE-bevidste inferensstakke for lavere latenstid og bedre batching.
4) Tredjeparts hosts / API’er
Udbydere som Modal, CometAPI og andre lader dig kalde modellen gennem enklere API’er eller pay-as-you-go endpoints — nyttige til prototyper uden cloud-leverandørlåse.
begrænsninger, risici og bedste praksis
Kendte begrænsninger og fejlfunktioner
- Benchmarks er ikke alt: rapporterede placeringer på ranglister varierer; opgavespecifik evaluering er kritisk.
- Varians i instruktions-tuning: forskellige instruktions-tunede varianter (base / instruct / reasoning) kan give forskellige adfærd; vælg den rigtige.
- Deploy-kompleksitet for MoE: mixture-of-experts-modeller kan være mere komplekse at udrulle og tune (routing, hukommelseslayout, batching). Brug leverandør-anbefalede runtimes og kvantiserede formater, hvor det er muligt.
Omkostnings- og effektivitetsovervejelser
- Ministral 3 (3–14B): Lav omkostning pr. token, mulig med billige GPU’er eller mange on-prem-instanser. God til indlejring i klientapps, mobil-backends eller tjenester med stramme latenstidsbudgetter.
- Mistral Large 3: Højere absolutte ressourcebehov, men sparse aktivering reducerer aktiv beregning pr. token sammenlignet med en tæt 675B-model; leverandøroptimerede stakke (NVIDIA) kan materielt reducere latenstid og omkostninger. Hvis du har brug for ræsonnerings-/langkontekst-fordelene, bliver Large 3 omkostningseffektiv i forhold til tilsvarende tætte modeller, der ville kræve langt mere inferensberegning for at matche kapabilitet.
Sikkerhed og styring
Åben licensering + enterprise-kontroller: Apache 2.0-vægte tillader bred anvendelse; virksomheder bør stadig lægge sikkerhedslag (filtre, human-in-the-loop-kontrol, ophav) og udføre red-teaming for domænespecifikke misbrugsscenarier. Partnerskaber og nyheder viser, at Mistral engagerer sig med partnere omkring ansvarlige udrulninger.
Bedste praksis
- Benchmark på dine data: replikér evalueringer med dine prompts, temperaturindstillinger og efterbehandling.
- Brug flerniveaus-inferens: rout billige/hurtige opgaver til tætte Ministral-modeller og reserver Large 3 til tungere opgaver.
- Udnyt optimerede formater: brug leverandørleverede formater og kerner (NVFP4/Triton) for forbedret latenstid og reduceret hukommelsesaftryk.
Endelig vurdering: hvor passer Mistral 3 ind i 2025?
Mistral 3 er en strategisk vigtig udgivelse for open source- og enterprise-AI-økosystemerne. Ved at kombinere en permissivt licenseret, udrulningsvenlig kompakt familie (Ministral 3) med et højkapacitets sparse-flagskib (Mistral Large 3) har Mistral leveret et værktøjssæt, der spænder fra hobbyist-lokal udvikling helt op til krævende enterprise-agent-arbejdsbelastninger. Leverandøroptimeringer (særligt med NVIDIA) og åbne formater betyder, at både ydeevne og omkostninger kan tunes pr. arbejdsbelastning. Tidlige benchmarks viser, at Mistral Large 3 konkurrerer i toppen af ranglisterne for åbne modeller, mens Ministral-varianterne skiller sig ud for deres omkostningseffektivitet i praktiske opgaver.
Hvis dine prioriteter er åben licensering, mulighed for at køre modeller lokalt/offline og konkurrencedygtig ræsonneringsydelse ved bot
For at komme i gang kan du udforske flere modeller (såsom Gemini 3 Pro)s kapabiliteter i Playground og konsultere API-guiden for detaljerede instruktioner. Før adgang skal du sikre, at du er logget ind på CometAPI og har fået API-nøglen. CometAPI tilbyder en pris, der er langt lavere end den officielle pris, for at hjælpe dig med integration.
Klar til at komme i gang?→ Tilmeld dig CometAPI i dag !
