Hvad er Mistral Large 3? En dybdegående gennemgang

Mistral Large 3 er den nyeste “frontier”-modelfamilie udgivet af Mistral AI i begyndelsen af december 2025. Det er en open-weight, produktionsorienteret, multimodal grundmodel bygget omkring en granulær, sparsom Mixture-of-Experts (MoE)-arkitektur og designet til at levere “frontier”-ræsonnering, lang-kontekstforståelse og vision + tekst-kapaciteter, samtidig med at inferens holdes praktisk via sparsitet og moderne kvantisering. Mistral Large 3 beskrives som havende 675 milliarder samlede parametre med ~41 milliarder aktive parametre ved inferens og et 256k token kontekstvindue i standardkonfiguration — en kombination, der er designet til at skubbe både kapacitet og skala uden at tvinge hver inferens til at berøre alle parametre.

Hvad er Mistral Large 3? Hvordan fungerer det?

Hvad er Mistral Large 3?

Mistral Large 3 er Mistral AI’s flagskibs-frontiermodel i Mistral 3-familien — en stor, open-weight, multimodal Mixture-of-Experts (MoE)-model udgivet under Apache 2.0 License. Den er designet til at levere “frontier”-kapabilitet (ræsonnering, kodning, lang-kontekstforståelse, multimodale opgaver), samtidig med at beregning under inferens holdes sparsom ved kun at aktivere en delmængde af modellens eksperter for hver token.

Mistral Large 3 anvender en Mixture-of-Experts (MoE)-tilgang: i stedet for at aktivere hver parameter for hver token, ruter modellen tokenprocessering til en delmængde af ekspert-delnetværk. De offentliggjorte tal for Large 3 er cirka 41 milliarder aktive parametre (de parametre, der typisk deltager for en token) og 675 milliarder samlede parametre på tværs af alle eksperter — et sparsomt men massivt design, der sigter mod at ramme det optimale punkt mellem beregningseffektivitet og modelkapacitet. Modellen inkluderer også en vision-encoder og er konstrueret til at håndtere meget lange kontekstvinduer (Mistral og partnere nævner op til 256k tokens).

Kort fortalt: det er en MoE-model med enorm samlet kapacitet (så den kan rumme diverse specialer), men som kun beregner på en langt mindre aktiv delmængde ved inferens — med målet om at levere frontier-ydeevne mere effektivt end en tæt model af tilsvarende samlet størrelse.

Kernearkitektur: Granulær Mixture-of-Experts (MoE)

På et overordnet niveau erstatter Mistral Large 3 nogle (eller mange) feedforward-underlag i en transformer med MoE-lag. Hvert MoE-lag indeholder:

Mange eksperter — uafhængige delnetværk (normalt FFN-blokke). I aggregat udgør de modellens meget store samlede parametertal (f.eks. hundreder af milliarder).
En router/gate-netværk — et lille netværk, der kigger på tokenrepræsentationen og afgør, hvilke ekspert(er) der skal behandle den token. Moderne MoE-routere vælger typisk kun top-k-eksperter (sparsom gating), ofte k=1 eller k=2, for at holde beregning lav.
Sparsom aktivering — for en given token kører kun de valgte eksperter; resten springes over. Det er her effektiviteten kommer fra: samlede lagrede parametre >> aktive parametre beregnet pr. token.

Mistral kalder sit design granulær MoE for at understrege, at modellen har mange små/specialiserede eksperter og en ruteordning optimeret til at skalere på tværs af mange GPU’er og lange kontekster. Resultatet: meget stor repræsentationskapacitet, mens beregning pr. token ligger tættere på en langt mindre tæt model,
Samlede parametre:

Samlede parametre: 675 milliarder; summen af alle parametre lagret på tværs af hver ekspert og resten af transformeren. Dette tal angiver modellens brutto kapacitet (hvor meget viden og specialisering den kan rumme).
Aktive parametre: 41 milliarder. den delmængde af parametre, der faktisk bruges/beregnes for et typisk fremadrettet pass, fordi routeren kun aktiverer få eksperter pr. token. Dette er det mål, der tættere relaterer til inferens-beregning og hukommelsesbrug pr. forespørgsel. Mistrals offentlige materialer angiver ~41B aktive parametre; nogle modelsider viser lidt forskellige tal for specifikke varianter (f.eks. 39B) — det kan afspejle variant-/instruct-versioner eller afrunding.

Træningskonfiguration:

Trænet fra bunden med 3000 NVIDIA H200 GPU’er;
Data dækker flere sprog, mange opgaver og flere modaliteter;
Understøtter billedinput og tværsproglig inferens.

Funktionstabel for Mistral Large 3

Kategori	Beskrivelse af tekniske kapabiliteter
Multimodal forståelse	Understøtter billedinput og analyse, hvilket muliggør forståelse af visuelt indhold under dialog.
Flersproglig understøttelse	Understøtter nativt 10+ store sprog (English, French, Spanish, German, Italian, Portuguese, Dutch, Chinese, Japanese, Korean, Arabic, etc.).
Understøttelse af systeminstruktioner	Høj konsistens med systeminstruktioner og kontekstuelle prompts, egnet til komplekse arbejdsgange.
Agentfunktioner	Understøtter native funktionskald og struktureret JSON-output, muliggør direkte værktøjsinvokation eller integration med eksterne systemer.
Kontekstvindue	Understøtter et ultralangt kontekstvindue på 256K tokens, blandt de længste for open-source-modeller.
Ydelsespositionering	Ydelse i produktionskvalitet med stærk lang-kontekstforståelse og stabil output.
Open-source-licens	Apache 2.0 License, frit anvendelig til kommerciel modifikation.

Oversigt:

Ydeevne på niveau med mainstream lukkede modeller;
Fremragende præstation i flersprogede opgaver (især i ikke-engelske og ikke-kinesiske scenarier);
Besidder billedforståelse og evne til at følge instruktioner;
Leverer en basisversion (Base) og en instruktionsoptimeret version (Instruct), med en inferensoptimeret version (Reasoning) på vej.

Hvordan klarer Mistral Large 3 sig på benchmarks?

Tidlige offentlige benchmarks og leaderboards viser, at Mistral Large 3 placerer sig højt blandt open-source-modeller: LMArena placering som #2 i OSS non-reasoning-modeller og omtale af topplaceringer på en række standardopgaver (f.eks. GPQA, MMLU og andre ræsonnerings-/generel videns-suites).

![Mistral Large 3 er den nyeste “frontier”-modelfamilie udgivet af Mistral AI i begyndelsen af december 2025. Det er en open-weight, produktionsorienteret, multimodal grundmodel bygget omkring en granulær, sparsom Mixture-of-Experts (MoE)-arkitektur og designet til at levere “frontier”-ræsonnering, lang-kontekstforståelse og vision + tekst-kapaciteter, samtidig med at inferens holdes praktisk via sparsitet og moderne kvantisering. Mistral Large 3 beskrives som havende 675 milliarder samlede parametre med ~41 milliarder aktive parametre ved inferens og et 256k token kontekstvindue i standardkonfiguration — en kombination, der er designet til at skubbe både kapacitet og skala uden at tvinge hver inferens til at berøre alle parametre.

Hvad er Mistral Large 3? Hvordan fungerer det?

Hvad er Mistral Large 3?

Mistral Large 3 anvender en Mixture-of-Experts (MoE)-tilgang: i stedet for at aktivere hver parameter for hver token, ruter modellen tokenprocessering til en delmængde af ekspert-delnetværk. De offentliggjorte tal for Large 3 er cirka 41 milliarder aktive parametre (de parametre, der typisk deltager for en token) og 675 milliarder samlede parametre på tværs af alle eksperter — et sparsomt men massivt design, der sigter mod at ramme det optimale punkt mellem beregningseffektivitet og modelkapacitet. Modellen understøtter også et ekstremt langt kontekstvindue (dokumenteret til 256k tokens) og multimodale input (tekst + billede).

Kernearkitektur: Granulær Mixture-of-Experts (MoE)

På et overordnet niveau erstatter Mistral Large 3 nogle (eller mange) feedforward-underlag i en transformer med MoE-lag. Hvert MoE-lag indeholder:

Mange eksperter — uafhængige delnetværk (normalt FFN-blokke). I aggregat udgør de modellens meget store samlede parametertal (f.eks. hundreder af milliarder).
En router/gate-netværk — et lille netværk, der kigger på tokenrepræsentationen og afgør, hvilke ekspert(er) der skal behandle den token. Moderne MoE-routere vælger typisk kun top-k-eksperter (sparsom gating), ofte k=1 eller k=2, for at holde beregning lav.
Sparsom aktivering — for en given token kører kun de valgte eksperter; resten springes over. Det er her effektiviteten kommer fra: samlede lagrede parametre >> aktive parametre beregnet pr. token.

Samlede parametre: 675 milliarder; summen af alle parametre lagret på tværs af hver ekspert og resten af transformeren. Dette tal angiver modellens brutto kapacitet (hvor meget viden og specialisering den kan rumme).
Aktive parametre: 41 milliarder. den delmængde af parametre, der faktisk bruges/beregnes for et typisk fremadrettet pass, fordi routeren kun aktiverer få eksperter pr. token. Dette er det mål, der tættere relaterer til inferens-beregning og hukommelsesbrug pr. forespørgsel. Mistrals offentlige materialer angiver ~41B aktive parametre; nogle modelsider viser lidt forskellige tal for specifikke varianter (f.eks. 39B) — det kan afspejle variant-/instruct-versioner eller afrunding.

Træningskonfiguration:

Trænet fra bunden med 3000 NVIDIA H200 GPU’er;
Data dækker flere sprog, mange opgaver og flere modaliteter;
Understøtter billedinput og tværsproglig inferens.

Funktionstabel for Mistral Large 3

Kategori	Beskrivelse af tekniske kapabiliteter
Multimodal forståelse	Understøtter billedinput og analyse, hvilket muliggør forståelse af visuelt indhold under dialog.
Flersproglig understøttelse	Understøtter nativt 10+ store sprog (English, French, Spanish, German, Italian, Portuguese, Dutch, Chinese, Japanese, Korean, Arabic, etc.).
Understøttelse af systeminstruktioner	Høj konsistens med systeminstruktioner og kontekstuelle prompts, egnet til komplekse arbejdsgange.
Agentfunktioner	Understøtter native funktionskald og struktureret JSON-output, muliggør direkte værktøjsinvokation eller integration med eksterne systemer.
Kontekstvindue	Understøtter et ultralangt kontekstvindue på 256K tokens, blandt de længste for open-source-modeller.
Ydelsespositionering	Ydelse i produktionskvalitet med stærk lang-kontekstforståelse og stabil output.
Open-source-licens	Apache 2.0 License, frit anvendelig til kommerciel modifikation.

Oversigt:

Ydeevne på niveau med mainstream lukkede modeller;
Fremragende præstation i flersprogede opgaver (især i ikke-engelske og ikke-kinesiske scenarier);
Besidder billedforståelse og evne til at følge instruktioner;
Leverer en basisversion (Base) og en instruktionsoptimeret version (Instruct), med en inferensoptimeret version (Reasoning) på vej.

Hvordan klarer Mistral Large 3 sig på benchmarks?

Hvad er Mistral Large 3? Hvordan fungerer det?

Hvad er Mistral Large 3?

Mistral Large 3 anvender en Mixture-of-Experts (MoE)-tilgang: i stedet for at aktivere hver parameter for hver token, ruter modellen tokenprocessering til en delmængde af ekspert-delnetværk. De offentliggjorte tal for Large 3 er cirka 41 milliarder aktive parametre (de parametre, der typisk deltager for en token) og 675 milliarder samlede parametre på tværs af alle eksperter — et sparsomt men massivt design, der sigter mod at ramme det optimale punkt mellem beregningseffektivitet og modelkapacitet. Modellen understøtter også et ekstremt langt kontekstvindue (dokumenteret til 256k tokens) og multimodale input (tekst + billede).

Kernearkitektur: Granulær Mixture-of-Experts (MoE)

På et overordnet niveau erstatter Mistral Large 3 nogle (eller mange) feedforward-underlag i en transformer med MoE-lag. Hvert MoE-lag indeholder:

Mange eksperter — uafhængige delnetværk (normalt FFN-blokke). I aggregat udgør de modellens meget store samlede parametertal (f.eks. hundreder af milliarder).
En router/gate-netværk — et lille netværk, der kigger på tokenrepræsentationen og afgør, hvilke ekspert(er) der skal behandle den token. Moderne MoE-routere vælger typisk kun top-k-eksperter (sparsom gating), ofte k=1 eller k=2, for at holde beregning lav.
Sparsom aktivering — for en given token kører kun de valgte eksperter; resten springes over. Det er her effektiviteten kommer fra: samlede lagrede parametre >> aktive parametre beregnet pr. token.

Samlede parametre: 675 milliarder; summen af alle parametre lagret på tværs af hver ekspert og resten af transformeren. Dette tal angiver modellens brutto kapacitet (hvor meget viden og specialisering den kan rumme).
Aktive parametre: 41 milliarder. den delmængde af parametre, der faktisk bruges/beregnes for et typisk fremadrettet pass, fordi routeren kun aktiverer få eksperter pr. token. Dette er det mål, der tættere relaterer til inferens-beregning og hukommelsesbrug pr. forespørgsel. Mistrals offentlige materialer angiver ~41B aktive parametre; nogle modelsider viser lidt forskellige tal for specifikke varianter (f.eks. 39B) — det kan afspejle variant-/instruct-versioner eller afrunding.

Træningskonfiguration:

Trænet fra bunden med 3000 NVIDIA H200 GPU’er;
Data dækker flere sprog, mange opgaver og flere modaliteter;
Understøtter billedinput og tværsproglig inferens.

Funktionstabel for Mistral Large 3

Kategori	Beskrivelse af tekniske kapabiliteter
Multimodal forståelse	Understøtter billedinput og analyse, hvilket muliggør forståelse af visuelt indhold under dialog.
Flersproglig understøttelse	Understøtter nativt 10+ store sprog (English, French, Spanish, German, Italian, Portuguese, Dutch, Chinese, Japanese, Korean, Arabic, etc.).
Understøttelse af systeminstruktioner	Høj konsistens med systeminstruktioner og kontekstuelle prompts, egnet til komplekse arbejdsgange.
Agentfunktioner	Understøtter native funktionskald og struktureret JSON-output, muliggør direkte værktøjsinvokation eller integration med eksterne systemer.
Kontekstvindue	Understøtter et ultralangt kontekstvindue på 256K tokens, blandt de længste for open-source-modeller.
Ydelsespositionering	Ydelse i produktionskvalitet med stærk lang-kontekstforståelse og stabil output.
Open-source-licens	Apache 2.0 License, frit anvendelig til kommerciel modifikation.

Oversigt:

Ydeevne på niveau med mainstream lukkede modeller;
Fremragende præstation i flersprogede opgaver (især i ikke-engelske og ikke-kinesiske scenarier);
Besidder billedforståelse og evne til at følge instruktioner;
Leverer en basisversion (Base) og en instruktionsoptimeret version (Instruct), med en inferensoptimeret version (Reasoning) på vej.

Hvordan klarer Mistral Large 3 sig på benchmarks?

Hvad er Mistral Large 3? En dybdegående gennemgang

Demonstrerede styrker indtil videre

Forståelse af lange dokumenter og opgaver med retrieval-augmentation: Kombinationen af lang kontekst og sparsom kapacitet giver Mistral Large 3 en fordel på lang-kontekstopgaver (dokument-QA, opsummering på tværs af store dokumenter).
Almen viden og efterlevelse af instruktioner: I instruct-tunede varianter er Mistral Large 3 stærk på mange “generel assistent”-opgaver og overholdelse af systemprompter.
Energi og throughput (på optimeret hardware): NVIDIAs analyse viser imponerende energieffektivitet og throughput-gevinster, når Mistral Large 3 køres på GB200 NVL72 med MoE-specifikke optimeringer — tal der direkte oversættes til per-token-omkostning og skalerbarhed for virksomheder.

Hvordan kan du få adgang til og bruge Mistral Large 3?

Hosted cloud-adgang (hurtig vej)

Mistral Large 3 er tilgængelig via flere cloud- og platformpartnere:

Hugging Face hoster modelkort og inferensartefakter (modelbundter inkl. instruct-varianter og optimerede NVFP4-artefakter). Du kan kalde modellen via Hugging Face Inference API eller downloade kompatible artefakter.
Azure / Microsoft Foundry har annonceret Mistral Large 3-tilgængelighed til virksomhedsworkloads.
NVIDIA har offentliggjort accelererede runtimes og optimeringsnoter for GB200/H200-familier, og partnere som Red Hat har publiceret vLLM-instruktioner.

Disse hosted-ruter lader dig komme hurtigt i gang uden at skulle håndtere MoE-runtime-engineering.

Kørsel lokalt eller på din infrastruktur (avanceret)

At køre Mistral Large 3 lokalt eller på privat infrastruktur er muligt men ikke trivielt:

Muligheder:

Hugging Face-artefakter + accelerate/transformers — kan bruges til mindre varianter eller hvis du har en GPU-farm og passende sharding-værktøjer. Modelkortet angiver platformspecifikke begrænsninger og anbefalede formater (f.eks. NVFP4).
vLLM — en inferensserver optimeret til store LLM’er og lange kontekster; Red Hat og andre partnere har publiceret guider til at køre Mistral Large 3 på vLLM for effektiv throughput og latency.
Specialiserede stakke (NVIDIA Triton / NVL72 / custom kernels) — nødvendige for bedste latency/effektivitet i stor skala; NVIDIA har publiceret en blog om at accelerere Mistral 3 med GB200/H200 og NVL72-runtimes.
Ollama / lokale VM-managere — community-guides viser lokale opsætninger (Ollama, Docker) til eksperimenter; forvent store RAM/GPU-fodaftryk og behovet for at bruge modelvarianter eller kvantiserede checkpoints.

Eksempel: Hugging Face-inferens (Python)

# Example: call Mistral Large 3 via Hugging Face Inference APIimport requests, json, osHF_API_KEY = os.environ.get("HF_API_KEY")MODEL = "mistralai/Mistral-Large-3-675B-Instruct-2512"headers = {"Authorization": f"Bearer {HF_API_KEY}", "Content-Type": "application/json"}payload = {    "inputs": "Summarize the following document in 3 bullet points: <paste your long text here>",    "parameters": {"max_new_tokens": 256, "temperature": 0.0}}r = requests.post(f"https://api-inference.huggingface.co/models/{MODEL}", headers=headers, data=json.dumps(payload))print(r.json())

Bemærk: For meget lange kontekster (titusinder af tokens), tjek udbyderens anbefalinger for streaming/chunking og den pågældende variants understøttede kontekstlængde.

Eksempel: starte en vLLM-server (konceptuelt)

vLLM er en højtydende inferensserver, der bruges af virksomheder. Nedenfor er en konceptuel start (tjek vLLM-dokumentation for flag, modelsti og MoE-understøttelse):

# conceptual example — adjust to your environment and model pathvllm --model-path /models/mistral-large-3-instruct \     --num-gpus 4 \     --max-batch-size 8 \     --max-seq-len 65536 \     --log-level info

Brug derefter vLLM Python-klienten eller HTTP API til at sende forespørgsler. For MoE-modeller skal du sikre, at vLLM-build og runtime understøtter sparse ekspertkerner og modellens checkpoint-format (NVFP4/FP8/BF16).

Praktiske best practices for udrulning af Mistral Large 3

Vælg den rette variant og præcision

Start med et instruction-tunet checkpoint til assistent-workflows (modelfamilien leverer en Instruct-variant). Brug basismodeller kun når du planlægger at finjustere eller anvende din egen instruktionstuning.
Brug optimerede lavpræcisionsvarianter (NVFP4, FP8, BF16) når de er tilgængelige for din hardware; disse giver massiv effektivitetsgevinst med minimal kvalitetsforringelse, hvis checkpointet er produceret og valideret af modeludbyderen.

Hukommelse, sharding og hardware

Forvent ikke at køre checkpointet med 675B samlede parametre på en enkelt almindelig GPU — selv om kun ~41B er aktive pr. token, er det fulde checkpoint enormt og kræver sharding-strategier plus højhukommelses-acceleratorer (GB200/H200-klassen) eller orkestreret CPU+GPU-offload.
Brug modelparallelisme + ekspertplacering: MoE-modeller drager fordel af at placere eksperter på tværs af enheder for at balancere routing-trafik. Følg leverandørens vejledning om ekspertfordeling.

Lang-kontekst-engineering

Opdel og hent: For mange langdokument-opgaver kombiner en retrieval-komponent med 256k-konteksten for at holde latency og omkostning håndterbar — dvs. hent relevante stykker og giv modellen en fokuseret kontekst.
Streaming og vinduehåndtering: For kontinuerlige strømme, vedligehold et glidende vindue og opsummer ældre kontekst i kondenserede noter for at holde modellens opmærksomhedsbudget effektivt.

Prompt-engineering for MoE-modeller

Foretræk eksplicitte instruktioner: Instruction-tunede checkpoints reagerer bedre på klare opgaver og eksempler. Brug few-shot-eksempler i prompten for komplekst struktureret output.
Chain-of-thought og systemmeddelelser: For ræsonneringsopgaver, strukturer prompts der fremmer trinvis ræsonnering og verifikation af mellemresultater. Men vær opmærksom på: prompting af chain-of-thought øger tokenforbrug og latency.

Konklusion

Mistral Large 3 er en vigtig milepæl i open-weight-modellandskabet: en 675B samlet / ~41B aktiv MoE-model med et 256k kontekst-vindue, multimodale evner og udrulningsopskrifter, der er co-optimeret med store infrastrukturpartnere. Den tilbyder en overbevisende ydelse-for-omkostning-profil for virksomheder, der kan adoptere MoE-runtime og hardwarestakken, men kræver stadig omhyggelig evaluering for specialiserede ræsonneringsopgaver og driftsmæssig parathed.

For at komme i gang, udforsk flere AI-modeller (såsom Gemini 3 Pro) og deres kapabiliteter i Playground, og konsulter API-guiden for detaljerede instruktioner. Før adgang, sørg for at du er logget ind på CometAPI og har hentet API-nøglen. CometAPI tilbyder en pris langt under den officielle pris for at hjælpe dig med integration.

Klar til at komme i gang?→ Tilmeld dig CometAPI i dag !

Hvad er Mistral Large 3? Hvordan fungerer det?

Hvad er Mistral Large 3?

Kernearkitektur: Granulær Mixture-of-Experts (MoE)

Træningskonfiguration:

Funktionstabel for Mistral Large 3

Hvordan klarer Mistral Large 3 sig på benchmarks?

Hvad er Mistral Large 3? Hvordan fungerer det?

Hvad er Mistral Large 3?

Kernearkitektur: Granulær Mixture-of-Experts (MoE)

Træningskonfiguration:

Funktionstabel for Mistral Large 3

Hvordan klarer Mistral Large 3 sig på benchmarks?

Hvad er Mistral Large 3? Hvordan fungerer det?

Hvad er Mistral Large 3?

Kernearkitektur: Granulær Mixture-of-Experts (MoE)

Træningskonfiguration:

Funktionstabel for Mistral Large 3

Hvordan klarer Mistral Large 3 sig på benchmarks?

Demonstrerede styrker indtil videre

Hvordan kan du få adgang til og bruge Mistral Large 3?

Hosted cloud-adgang (hurtig vej)

Kørsel lokalt eller på din infrastruktur (avanceret)

Eksempel: Hugging Face-inferens (Python)

Eksempel: starte en vLLM-server (konceptuelt)

Praktiske best practices for udrulning af Mistral Large 3

Vælg den rette variant og præcision

Hukommelse, sharding og hardware

Lang-kontekst-engineering

Prompt-engineering for MoE-modeller

Konklusion

Læs mere

500+ modeller i én API