DeepSeek-V3.1: Funktioner, arkitektur og benchmarks

CometAPI
AnnaAug 20, 2025
DeepSeek-V3.1: Funktioner, arkitektur og benchmarks

I august 2025 annoncerede den kinesiske AI-startup DeepSeek udgivelsen af DeepSeek-V3.1, en opgradering midt i generationen, som virksomheden betegner som sit første skridt "mod agentæraen". Opdateringen bringer en hybrid inferenstilstand (en enkelt model, der kan køre i en "tænkende" eller "ikke-tænkende" tilstand), et væsentligt længere kontekstvindue og målrettede forbedringer efter træning af værktøjskald og agentadfærd i flere trin.

Hvad er DeepSeek-V3.1, og hvorfor er det vigtigt?

DeepSeek-V3.1 er den seneste opdatering i produktionsklassen til DeepSeeks V3-serie. På et overordnet niveau er det en hybrid MoE-sprogmodelfamilie (V3-afstamningen), som DeepSeek har eftertrænet og udvidet til at understøtte to brugersynlige driftstilstande. Du finder to hovedvarianter: DeepSeek-V3.1-Base og den fulde DeepSeek-V3.1:

  • Ikke-tænkende (deepseek-chat): en standard chat-afslutningstilstand optimeret til hastighed og samtalebrug.
  • Tænkning (dybdegående ræsonnør): en agentisk ræsonnementstilstand, der prioriterer struktureret, flertrinsræsonnement og værktøjs-/agent-orkestrering.

Udgivelsen fokuserer på tre synlige forbedringer: en hybrid inferens pipeline, der balancerer latenstid og kapacitet, smartere værktøjskald/agentorestrering og et væsentligt udvidet kontekstvindue (annonceret som 128K tokens).

Hvorfor det er vigtigt: DeepSeek-V3.1 fortsætter den bredere branchetendens med at kombinere effektive storskala MoE-arkitekturer med værktøjsprimitiver og meget lange kontekstvinduer. Denne kombination er vigtig for virksomhedsagenter, søgning-plus-ræsonnement-workflows, opsummering af lange dokumenter og værktøjsdrevet automatisering, hvor både gennemløb og evnen til at "kalde" til eksterne værktøjer deterministisk er nødvendig.

Hvad gør DeepSeek-V3.1 anderledes end tidligere DeepSeek-udgivelser?

Hybrid inferens: én model, to operationelle tilstande

Den vigtigste arkitektoniske ændring er hybrid inferensDeepSeek beskriver V3.1 som understøttende for både en "tænke"-tilstand og en "ikke-tænke"-tilstand i den samme modelinstans, som kan vælges ved at ændre chatskabelonen eller en UI-knap (DeepSeeks "DeepThink"-knap). I praksis betyder det, at modellen kan instrueres til at producere interne ræsonnementsspor (nyttigt til agent-workflows i tankekædestil) eller til at reagere direkte uden at eksponere mellemliggende ræsonnementstokens - afhængigt af udviklerens behov. DeepSeek præsenterer dette som en vej mod mere agentiske workflows, samtidig med at applikationer kan vælge afvejninger mellem latenstid/verbositet.

Større kontekstvindue og tokenprimitiver

Officielle udgivelsesnoter rapporterer en meget større kontekstvindue i V3.1; test af fællesskabet og virksomhedsindlæg sætter den udvidede kontekst på 128 tokens For nogle hostede varianter, hvilket muliggør væsentligt længere samtaler, ræsonnement på tværs af flere dokumenter eller lange kodebaser, der kan indføres i en enkelt session. Som supplement til dette introducerer DeepSeek angiveligt et par specielle kontroltokens (f.eks. <|search_begin|>/<|search_end|>, <think> / </think>) har til formål at strukturere værktøjskald og afgrænse "tænkende" segmenter internt — et designmønster, der forenkler koordineringen med eksterne værktøjer.

Forbedrede agent-/værktøjsegenskaber og latenstid

DeepSeek angiver, at V3.1 drager fordel af optimering efter træning fokuseret på værktøjskald og agentopgaver i flere trin: modellen siges at nå frem til svar hurtigere i "tænke"-tilstand end tidligere DeepSeek R1-builds og at være mere pålidelig, når eksterne API'er kaldes eller flertrinsplaner udføres. Denne positionering - hurtigere, men mere agent-kompatibel inferens - er en klar produktdifferentiator for teambuildingassistenter, automatiseringer eller agentworkflows.

Hvad er arkitekturen bag DeepSeek-V3.1?

DeepSeek-V3.1 bygger videre på DeepSeek-V3-familiens kerneforskning: a Blanding af eksperter (MoE) rygrad med et sæt arkitektoniske innovationer designet til effektivitet og skalering. Den offentlige tekniske rapport for DeepSeek-V3 (den underliggende familie) beskriver:

  • Et stort MoE-design med hundredvis af milliarder af samlede parametre og en mindre aktiveret parameterantal pr. token (modelkortet viser 671 mia. parametre i alt med cirka 37 mia. aktiverede pr. token).
  • Multi-head Latent Attention (MLA) og de brugerdefinerede DeepSeekMoE-routing- og skaleringsmetoder, der reducerer inferensomkostningerne, samtidig med at kapaciteten bevares.
  • Træningsmål og load-balancing-strategier, der fjerner behovet for ekstra load-balancing-tabstermer og anvender multi-token-forudsigelsesmål for at forbedre gennemløbs- og sekvensmodellering.

Hvorfor MoE + MLA?

Mixture-of-Experts lader modellen opretholde et højt teoretisk parameterantal, mens den kun aktiverer en delmængde af eksperter pr. token – dette reducerer beregning pr. token. MLA er DeepSeeks opmærksomhedsvariant, der hjælper modellen med at skalere opmærksomhedsoperationer effektivt på tværs af mange eksperter og lange kontekster. Disse valg tilsammen gør det muligt at træne og betjene meget store kontrolpunkter, samtidig med at brugbare inferensomkostninger opretholdes for mange implementeringer.

Hvordan klarer DeepSeek-V3.1 sig i benchmarks og tests i den virkelige verden?

Hvordan V3.1 er i sammenligning, med ord

  • Over V3 (0324): V3.1 er en klar opgradering på tværs af alle områder – især inden for kodning og agentopgaver. Eksempel: LiveCodeBench hopper fra 43.0 → 56.4 (ikke-tænkende) og → 74.8 (tænker); Aider-Polyglot fra 55.1 → 68.4 / 76.3.
  • Modsat R1-0528: R1 forbliver et stærkt "ræsonnementsafstemt" sammenligningspunkt, men V3.1 - Tænkning er ofte lig med eller overstiger R1-0528 (AIME/HMMT, LiveCodeBench), samtidig med at den tilbyder en ikke-tænkende vej til brug med lav latenstid.
  • Generel viden (MMLU-varianter): V3.1 ligger lige under R1-0528, når "tænkning" tages i betragtning, men over den ældre V3.

Almen viden og akademisk viden

Benchmark (metrik)V3.1-Ikke-tænkendeV3 (0324)V3.1-TænkningR1-0528
MMLU-Redux (Præcis match)91.890.593.793.4
MMLU-Pro (Præcis match)83.781.284.885.0
GPQA-Diamant (Bestået@1)74.968.480.181.0

Hvad dette indebærer: V3.1 forbedrer V3 på viden/akademiske opgaver; "tænkning" mindsker forskellen til R1 på vanskelige naturvidenskabelige spørgsmål (GPQA-Diamond).

Kodning (ikke-agent)

Benchmark (metrik)V3.1-Ikke-tænkendeV3 (0324)V3.1-TænkningR1-0528
LiveCodeBench (2408–2505) (Bestået@1)56.443.074.873.3
Aider-Polyglot (Nøjagtighed)68.455.176.371.6
Codeforces-Div1 (Bedømmelse)20911930

Bemærkninger:

  • LiveCodeBench (2408–2505) betegner et aggregeret vindue (aug. 2024 → maj 2025). Højere Pass@1 afspejler stærkere korrekthed i første forsøg på forskellige kodningsopgaver.
  • Aider-Polyglot simulerer assistentlignende koderedigering på tværs af mange sprog; V3.1-Thinking fører an, V3.1-NonThinking er et betydeligt spring i forhold til V3 (0324).
  • Modelkortet viser V3 (0324) ved 55.1% på Aider—i overensstemmelse med Aiders offentlige rangliste for den årgang. (V3.1's højere scorer er nye på modelkortet.)

Kodning (agentopgaver)

Benchmark (metrik)V3.1-Ikke-tænkendeV3 (0324)V3.1-TænkningR1-0528
SWE-verificeret (Agenttilstand)66.045.444.6
SWE-bænk Flersproget (Agenttilstand)54.529.330.5
Terminalbænk (Terminus 1-rammeværk)31.313.35.7

Vigtig advarsel: Disse er agentevalueringer ved hjælp af DeepSeeks interne rammeværk (værktøjer, flertrinsudførelse), ikke rene next-token-dekodningstests. De indfanger "LLM + orkestrerings"-kapacitet. Behandl disse som systemet resultater (reproducerbarheden kan afhænge af den nøjagtige agentstak og indstillinger).

Matematik og konkurrenceræsonnement

Benchmark (metrik)V3.1-Ikke-tænkendeV3 (0324)V3.1-TænkningR1-0528
FORMÅL 2024 (Bestået@1)66.359.493.191.4
FORMÅL 2025 (Bestået@1)49.851.388.487.5
HMMT 2025 (Bestået@1)33.529.284.279.4

Tag væk: "Tænke"-tilstand driver meget store stigninger i matematikkonkurrencesæt - V3.1-Thinking slår R1-0528 på AIME/HMMT i de rapporterede runs.

Søgeforstærket / "agentisk" QA

Benchmark (metrik)V3.1-Ikke-tænkendeV3 (0324)V3.1-TænkningR1-0528
BrowseComp30.08.9
BrowseComp_zh49.235.7
Menneskehedens sidste eksamen (Python + Search)29.824.8
SimpleQA93.492.3
Menneskehedens sidste eksamen (kun tekst)15.917.7

Bemærk: DeepSeek angiver, at søgeagentresultater bruger deres interne søgerammeværk (kommerciel søge-API + sidefiltrering, 128K kontekst). Metodologi er vigtig her; reproduktion kræver lignende værktøjer.

Hvad er begrænsningerne, og hvad er vejen frem?

DeepSeek-V3.1 er et vigtigt ingeniør- og produkttrin: det samler langkonteksttræning, hybridskabeloner og MoE-arkitektur i et bredt brugbart checkpoint. Der er dog stadig begrænsninger:

  • Agentsikkerhed i den virkelige verden, hallucinationer i lange kontekstopsummeringer og adversarial prompt-adfærd kræver stadig afhjælpning på systemniveau.
  • Benchmarks er opmuntrende, men ikke ensartede: præstationen varierer efter domæne, sprog og evalueringssuite; uafhængig validering er nødvendig.
  • Geopolitiske og forsyningskædefaktorer — hardwaretilgængelighed og chipkompatibilitet — har tidligere påvirket DeepSeeks tidsplan og kan påvirke, hvordan kunder implementerer i stor skala.

Kom godt i gang via CometAPI

CometAPI er en samlet API-platform, der samler over 500 AI-modeller fra førende udbydere – såsom OpenAIs GPT-serie, Googles Gemini, Anthropics Claude, Midjourney, Suno og flere – i en enkelt, udviklervenlig grænseflade. Ved at tilbyde ensartet godkendelse, formatering af anmodninger og svarhåndtering forenkler CometAPI dramatisk integrationen af ​​AI-funktioner i dine applikationer. Uanset om du bygger chatbots, billedgeneratorer, musikkomponister eller datadrevne analysepipelines, giver CometAPI dig mulighed for at iterere hurtigere, kontrollere omkostninger og forblive leverandøruafhængig – alt imens du udnytter de seneste gennembrud på tværs af AI-økosystemet.

Udviklere kan få adgang DeepSeek R1(deepseek-r1-0528) og DeepSeek-V3.1 til og med CometAPI, de seneste modelversioner, der er anført, er fra artiklens udgivelsesdato. For at begynde med, skal du udforske modellens muligheder i Legeplads og konsulter API guide for detaljerede instruktioner. Før du får adgang, skal du sørge for at være logget ind på CometAPI og have fået API-nøglen. CometAPI tilbyde en pris, der er langt lavere end den officielle pris, for at hjælpe dig med at integrere.

Konklusion

DeepSeek-V3.1 repræsenterer en pragmatisk, ingeniørmæssigt fremadrettet opdatering: et større kontekstvindue, hybrid tænk/ikke-tænk-inferens, forbedrede værktøjsinteraktioner og en OpenAI-kompatibel API gør det til en attraktiv mulighed for teambuilding. agentassistenter, applikationer med lang kontekst og billige kodeorienterede arbejdsgange.

Læs mere

500+ modeller i én API

Op til 20% rabat