DeepSeek-V3.1: Funksjoner, arkitektur og referansetester

I august 2025 annonserte den kinesiske AI-oppstartsbedriften DeepSeek lanseringen av DeepSeek-V3.1, en oppgradering midt i generasjonen som selskapet omtaler som sitt første skritt «mot agentæraen». Oppdateringen bringer en hybrid inferensmodus (en enkelt modell som kan kjøre i en «tenkende»- eller «ikke-tenkende»-modus), et betydelig lengre kontekstvindu og målrettede forbedringer etter trening av verktøykall og agentatferd i flere trinn.

Hva er DeepSeek-V3.1, og hvorfor er det viktig?

DeepSeek-V3.1 er den nyeste oppdateringen i produksjonsklassen til DeepSeeks V3-serie. På et overordnet nivå er det en hybrid MoE-språkmodellfamilie (V3-avstamningen) som DeepSeek har ettertrent og utvidet for å støtte to brukersynlige driftsmoduser. Du finner to hovedvarianter: DeepSeek-V3.1-Base og den fullstendige DeepSeek-V3.1:

Ikke-tenkende (deepseek-chat): en standard chat-fullføringsmodus optimalisert for hastighet og samtalebruk.
Tenkning (dypsøkende resonner): en agentisk resonneringsmodus som prioriterer strukturert, flertrinns resonnement og verktøy-/agent-orkestrering.

Utgivelsen fokuserer på tre synlige forbedringer: en hybrid inferensrørledning som balanserer latens og kapasitet, smartere verktøykall/agentorkestrering og et betydelig utvidet kontekstvindu (annonsert som 128K tokens).

Hvorfor det betyr noe: DeepSeek-V3.1 fortsetter den bredere bransjetrenden med å kombinere effektive storskala MoE-arkitekturer med verktøyprimitiver og svært lange kontekstvinduer. Denne kombinasjonen er viktig for bedriftsagenter, søk-pluss-resonnement-arbeidsflyter, oppsummering av lange dokumenter og verktøydrevet automatisering, der både gjennomstrømning og muligheten til å "kalle ut" eksterne verktøy deterministisk er nødvendig.

Hva gjør DeepSeek-V3.1 forskjellig fra tidligere DeepSeek-utgivelser?

Hybrid inferens: én modell, to driftsmoduser

Den viktigste arkitektoniske endringen er hybrid inferensDeepSeek beskriver V3.1 som støttende for både en «tenke»-modus og en «ikke-tenke»-modus innenfor samme modellinstans, som kan velges ved å endre chatmalen eller en UI-veksler (DeepSeeks «DeepThink»-knapp). I praksis betyr dette at modellen kan instrueres til å produsere interne resonnementsspor (nyttig for agentarbeidsflyter i tankekjedestil) eller å svare direkte uten å eksponere mellomliggende resonnementstokener – avhengig av utviklerens behov. DeepSeek presenterer dette som en vei mot mer agentiske arbeidsflyter, samtidig som applikasjoner lar velge avveininger mellom latens/nivåfordeling.

Større kontekstvindu og tokenprimitiver

Offisielle utgivelsesnotater rapporterer en mye større kontekstvindu i V3.1; testing i fellesskapet og bedriftsinnlegg setter den utvidede konteksten på 128k tokens for noen vertsbaserte varianter, noe som muliggjør betydelig lengre samtaler, resonnement på tvers av flere dokumenter eller lange kodebaser som kan mates inn i en enkelt økt. I tillegg til dette introduserer DeepSeek angivelig noen spesielle kontrolltokener (for eksempel <｜search_begin｜>/<｜search_end｜>, <think> / </think>) ment å strukturere verktøykall og avgrense «tenkesegmenter» internt – et designmønster som forenkler koordinering med eksterne verktøy.

Forbedrede agent-/verktøyegenskaper og latensforbedringer

DeepSeek oppgir at V3.1 drar nytte av optimalisering etter trening fokusert på verktøykall og agentoppgaver i flere trinn: modellen sies å komme raskere frem til svar i «tenkemodus» enn tidligere DeepSeek R1-bygg, og å være mer pålitelig når man kaller eksterne API-er eller utfører planer i flere trinn. Denne posisjoneringen – raskere, men mer agentkompatible inferenser – er en klar produktdifferensierer for teambyggingsassistenter, automatiseringer eller agentarbeidsflyter.

Hva er arkitekturen bak DeepSeek-V3.1?

DeepSeek-V3.1 bygger på DeepSeek-V3-familiens kjerneforskning: a Blanding av eksperter (MoE) ryggrad med et sett arkitektoniske innovasjoner designet for effektivitet og skalering. Den offentlige tekniske rapporten for DeepSeek-V3 (den underliggende familien) beskriver:

Et stort MoE-design med hundrevis av milliarder av totale parametere og en mindre aktivert parameterantall per token (modellkortet viser 671 milliarder parametere totalt med omtrent 37 milliarder aktivert per token).
Multi-head Latent Attention (MLA) og tilpassede DeepSeekMoE-ruting- og skaleringsmetoder som reduserer inferenskostnadene samtidig som kapasiteten bevares.
Treningsmål og lastbalanseringsstrategier som fjerner behovet for tilleggslastbalanserende tapsledd og tar i bruk prediksjonsmål for flere tokener for å forbedre gjennomstrømning og sekvensmodellering.

Hvorfor MoE + MLA?

Mixture-of-Experts lar modellen opprettholde et høyt teoretisk parameterantall samtidig som den bare aktiverer et delsett av eksperter per token – dette reduserer beregning per token. MLA er DeepSeeks oppmerksomhetsvariant som hjelper modellen med å skalere oppmerksomhetsoperasjoner effektivt på tvers av mange eksperter og lange kontekster. Disse valgene sammen gjør det mulig å trene og betjene svært store kontrollpunkter samtidig som brukbare slutningskostnader opprettholdes for mange distribusjoner.

Hvordan presterer DeepSeek-V3.1 i benchmarks og tester i den virkelige verden?

Hvordan V3.1 sammenlignes, i ord

Over V3 (0324): V3.1 er en klar oppgradering på tvers av alle områder – spesielt innen koding og agentoppgaver. Eksempel: LiveCodeBench hopper fra 43.0 56.4 → XNUMX XNUMX (ikke-tenkende) og → 74.8. mai XNUMX (tenker); Aider-Polyglot fra 55.1 → 68.4 / 76.3.
Mot R1-0528: R1 er fortsatt et sterkt «resonnementsavstemt» sammenligningspunkt, men V3.1 – Ofte tenkning er lik eller overgår R1-0528 (AIME/HMMT, LiveCodeBench), samtidig som den tilbyr en ikke-tenkende vei for bruk med lav latens.
Generell kunnskap (MMLU-varianter): V3.1 ligger rett under R1-0528 når «tenkning» vurderes, men over eldre V3.

Generell kunnskap og akademisk

Referansepunkt (metrikk)	V3.1-Ikke-tenkende	V3 (0324)	V3.1-Tenkning	R1-0528
MMLU-Redux (Nøyaktig samsvar)	91.8	90.5	93.7	93.4
MMLU-Pro (Nøyaktig samsvar)	83.7	81.2	84.8	85.0
GPQA-Diamant (Passer@1)	74.9	68.4	80.1	81.0

Hva dette innebærer: V3.1 forbedrer seg i forhold til V3 på kunnskaps-/akademiske oppgaver; «tenkning» reduserer gapet til R1 på vanskelige naturfagspørsmål (GPQA-Diamond).

Koding (ikke-agent)

Referansepunkt (metrikk)	V3.1-Ikke-tenkende	V3 (0324)	V3.1-Tenkning	R1-0528
LiveCodeBench (2408–2505) (Passer@1)	56.4	43.0	74.8	73.3
Aider-Polyglot (Nøyaktighet)	68.4	55.1	76.3	71.6
Codeforces-Div1 (Vurdering)	-	-	2091	1930

Merknader:

LiveCodeBench (2408–2505) betegner et aggregert vindu (august 2024 → mai 2025). Høyere Pass@1-score gjenspeiler sterkere korrekthet ved første forsøk på ulike kodeoppgaver.
Aider-Polyglot simulerer assistentlignende koderedigering på tvers av mange språk; V3.1-Thinking leder an, V3.1-NonThinking er et betydelig sprang over V3 (0324).
Modellkortet viser V3 (0324) ved 55.1 % på Aider – i samsvar med Aiders offentlige resultatliste for den årgangen. (V3.1s høyere poengsummer er nye på modellkortet.)

Koding (agentoppgaver)

Referansepunkt (metrikk)	V3.1-Ikke-tenkende	V3 (0324)	V3.1-Tenkning	R1-0528
SWE-verifisert (Agentmodus)	66.0	45.4	-	44.6
SWE-benk Flerspråklig (Agentmodus)	54.5	29.3	-	30.5
Terminalbenk (Terminus 1-rammeverk)	31.3	13.3	-	5.7

Viktig advarsel: Disse er agentevalueringer ved bruk av DeepSeeks interne rammeverk (verktøy, flertrinnsutførelse), ikke rene neste-token-dekodingstester. De fanger opp «LLM + orkestrerings»-kapasitet. Behandle disse som system resultater (reproduserbarheten kan avhenge av den nøyaktige agentstakken og innstillingene).

Matematikk og konkurranseresonnement

Referansepunkt (metrikk)	V3.1-Ikke-tenkende	V3 (0324)	V3.1-Tenkning	R1-0528
TID 2024 (Passer@1)	66.3	59.4	93.1	91.4
TID 2025 (Passer@1)	49.8	51.3	88.4	87.5
HMMT 2025 (Passer@1)	33.5	29.2	84.2	79.4

Ta bort: «Tenkemodus» driver veldig stor løft på mattekonkurransesett – V3.1 – Thinking slår R1-0528 på AIME/HMMT i de rapporterte poengene.

Søkeutvidet / «agentisk» QA

Referansepunkt (metrikk)	V3.1-Ikke-tenkende	V3 (0324)	V3.1-Tenkning	R1-0528
BrowseComp	-	-	30.0	8.9
BrowseComp_zh	-	-	49.2	35.7
Menneskehetens siste eksamen (Python + Søk)	-	-	29.8	24.8
SimpleQA	-	-	93.4	92.3
Menneskehetens siste eksamen (kun tekst)	-	-	15.9	17.7

OBS: DeepSeek oppgir at søkeagentresultater bruker deres interne søkerammeverk (kommersielt søke-API + sidefiltrering, 128K kontekst). Metodikk er viktig her; reproduksjon krever lignende verktøy.

Hva er begrensningene og veien videre?

DeepSeek-V3.1 er et viktig ingeniør- og produktsteg: det setter sammen langkonteksttrening, hybridmaler og MoE-arkitektur til et bredt brukbart kontrollpunkt. Imidlertid gjenstår det begrensninger:

Agentsikkerhet i den virkelige verden, hallusinasjoner i lange kontekstoppsummeringer og kontradiktorisk prompt-atferd krever fortsatt tiltak på systemnivå.
Referanseverdiene er oppmuntrende, men ikke ensartede: ytelsen varierer etter domene, språk og evalueringssuite; uavhengig validering er nødvendig.
Geopolitiske faktorer og faktorer i forsyningskjeden – maskinvaretilgjengelighet og brikkompatibilitet – har tidligere påvirket DeepSeeks tidsplan og kan påvirke hvordan kunder distribuerer i stor skala.

Komme i gang via CometAPI

CometAPI er en enhetlig API-plattform som samler over 500 AI-modeller fra ledende leverandører – som OpenAIs GPT-serie, Googles Gemini, Anthropics Claude, Midjourney, Suno og flere – i ett enkelt, utviklervennlig grensesnitt. Ved å tilby konsistent autentisering, forespørselsformatering og svarhåndtering, forenkler CometAPI dramatisk integreringen av AI-funksjoner i applikasjonene dine. Enten du bygger chatboter, bildegeneratorer, musikkomponister eller datadrevne analysepipeliner, lar CometAPI deg iterere raskere, kontrollere kostnader og forbli leverandøruavhengig – alt samtidig som du utnytter de nyeste gjennombruddene på tvers av AI-økosystemet.

Utviklere har tilgang DeepSeek R1(deepseek-r1-0528) og DeepSeek-V3.1 til og med CometAPI, de nyeste modellversjonene som er oppført er per artikkelens publiseringsdato. For å begynne, utforsk modellens muligheter i lekeplass og konsulter API-veiledning for detaljerte instruksjoner. Før du får tilgang, må du sørge for at du har logget inn på CometAPI og fått API-nøkkelen. CometAPI tilby en pris som er langt lavere enn den offisielle prisen for å hjelpe deg med å integrere.

Konklusjon

DeepSeek-V3.1 representerer en pragmatisk, ingeniørmessig fremadrettet oppdatering: et større kontekstvindu, hybrid tenkning/ikke-tenkning-inferens, forbedrede verktøyinteraksjoner og et OpenAI-kompatibelt API gjør det til et attraktivt alternativ for teambygging. agentassistenter, applikasjoner med lang kontekst og rimelige kodeorienterte arbeidsflyter.