DeepSeek-V3.2

DeepSeek
deepseek-v3.2
Invoer:$0.22/M
Uitvoer:$0.35/M
Context:128K
Max Uitvoer:4K
DeepSeek v3.2 is de nieuwste productierelease in de DeepSeek V3-familie: een grootschalige, reasoning-first open-weight familie van taalmodellen, ontworpen voor het begrijpen van lange contexten, robuust gebruik van agents/tools, geavanceerd redeneren, programmeren en wiskunde.

Wat is DeepSeek v3.2?

DeepSeek v3.2 is de nieuwste productierelease in de DeepSeek V3-familie: een grote, redeneer-eerst open-weight taalmodelfamilie, ontworpen voor begrip van lange contexten, robuust agent-/toolgebruik, geavanceerd redeneren, coderen en wiskunde. De release bundelt meerdere varianten (productie V3.2 en een high-performance V3.2-Speciale). Het project legt de nadruk op kostenefficiënte inferentie voor lange contexten via een nieuw mechanisme voor spaarzame aandacht genaamd DeepSeek Sparse Attention (DSA) en agent-/‘denk’-workflows (“Denken bij toolgebruik”).

Belangrijkste functies (hoog niveau)

  • DeepSeek Sparse Attention (DSA): een mechanisme voor spaarzame aandacht bedoeld om de rekenlast in long-context-scenario's drastisch te verlagen, terwijl langeafstandsredeneren behouden blijft. (Kernonderzoeksclaim; gebruikt in V3.2-Exp.)
  • Agentisch denken + integratie van toolgebruik: V3.2 legt de nadruk op het inbedden van ‘denken’ in toolgebruik: het model kan werken in redenerende-denkmodi en in niet-denkende (normale) modi bij het aanroepen van tools, wat de besluitvorming in meerstapstaken en de orkestratie van tools verbetert.
  • Grootschalige pijplijn voor agentsynthetische data: DeepSeek rapporteert een trainingscorpus en een agent-synthesepijplijn die zich uitstrekt over duizenden omgevingen en tienduizenden complexe instructies om de robuustheid voor interactieve taken te verbeteren.
  • DeepSeek Sparse Attention (DSA): DSA is een fijnmazige methode voor spaarzame aandacht, geïntroduceerd in de V3.2-lijn (eerst in V3.2-Exp), die de aandachtcomplexiteit reduceert (van naïef O(L²) naar een O(L·k)-stijl met k ≪ L), door per querytoken een kleinere set sleutel-/waardetokens te selecteren. Het resultaat is aanzienlijk lagere geheugen-/rekenbelasting voor zeer lange contexten (128K), waardoor long-context-inferentie materieel goedkoper wordt.
  • Mixture-of-Experts (MoE)-backbone en Multi-head Latent Attention (MLA): de V3-familie gebruikt MoE om de capaciteit efficiënt te verhogen (grote nominale parametergetallen met beperkte per-tokenactivatie) samen met MLA-methoden om de kwaliteit te behouden en de compute te beheersen.

Technische specificaties (beknopte tabel)

  • Nominaal parameterbereik: ~671B – 685B (afhankelijk van variant).
  • Contextvenster (gedocumenteerde referentie): 128,000 tokens (128K) in vLLM/referentieconfiguraties.
  • Aandacht: DeepSeek Sparse Attention (DSA) + MLA; verminderde aandachtcomplexiteit voor lange contexten.
  • Numerieke en trainingsprecisie: BF16 / F32 en gecomprimeerde gequantiseerde formaten (F8_E4M3 enz.) beschikbaar voor distributie.
  • Architectuurfamilie: MoE (mixture-of-experts)-backbone met per-token activatie-economie.
  • Invoer / uitvoer: standaard getokeniseerde tekstinvoer (chat-/berichtformaten ondersteund); ondersteunt toolaanroepen (API-primitieven voor toolgebruik) en zowel interactieve chat-achtige aanroepen als programmatische completions via API.
  • Aangeboden varianten: v3.2, v3.2-Exp (experimenteel, DSA-debuut), v3.2-Speciale (redeneer-eerst, alleen via API op korte termijn).

Benchmarkprestaties

De variant met hoge rekencapaciteit V3.2-Speciale bereikt pariteit of overtreft hedendaagse high-end modellen op diverse redeneer-/wiskunde-/codeerbenchmarks en behaalt topprestaties op geselecteerde elite wiskunde-opgaven. De preprint benadrukt pariteit met modellen zoals GPT-5 / Kimi K2 op geselecteerde redeneerbenchmarks, met specifieke verbeteringen ten opzichte van eerdere DeepSeek R1/V3-baselines:

  • AIME: verbeterd van 70.0 naar 87.5 (Δ +17.5).
  • GPQA: 71.5 → 81.0 (Δ +9.5).
  • LCB_v6: 63.5 → 73.3 (Δ +9.8).
  • Aider: 57.0 → 71.6 (Δ +14.6).

Vergelijking met andere modellen (hoog niveau)

  • Tegenover GPT-5 / Gemini 3 Pro (publieke claims): auteurs van DeepSeek en verschillende perskanalen claimen pariteit of superioriteit op geselecteerde redeneer- en coderingstaken voor de variant Speciale, terwijl ze kostenefficiëntie en open licenties als onderscheidende factoren benadrukken.
  • Tegenover open modellen (Olmo, Nemotron, Moonshot, enz.): DeepSeek benadrukt agentische training en DSA als belangrijke onderscheiders voor efficiëntie bij lange contexten.

Representatieve toepassingen

  • Agentsystemen / orkestratie: multitool-agents (API's, webscrapers, connectors voor code-uitvoering) die profiteren van ‘denken’ op modelniveau + expliciete toolaanroep-primitieven.
  • Redeneren/analyse over lange documenten: juridische documenten, grote onderzoekscorpora, vergadertranscripten — long-context-varianten (128k tokens) laten u zeer grote contexten in één call behouden.
  • Hulp bij complexe wiskunde en coderen: V3.2-Speciale wordt gepromoot voor geavanceerd wiskundig redeneren en uitgebreide code-debuggingtaken volgens leveranciersbenchmarks.
  • Kostengevoelige productie-implementaties: DSA + prijswijzigingen zijn erop gericht de inferentiekosten voor workloads met hoge context te verlagen.

Aan de slag met de DeepSeek v3.2-API

Prijzen voor DeepSeek v3.2-API in CometAPI, 20% korting op de officiële prijs:

Invoertokens$0.22
Uitvoertokens$0.35

Vereiste stappen

  • Log in op cometapi.com. Als u nog geen gebruiker bent, registreer dan eerst
  • Haal de toegangsreferentie-API-sleutel van de interface op. Klik op ‘Add Token’ bij de API-token in het persoonlijk centrum, verkrijg de tokensleutel: sk-xxxxx en dien in.
  • Haal de URL van deze site op: https://api.cometapi.com/

Gebruiksmethode

  1. Selecteer het “deepseek-v3.2”-endpoint om het API-verzoek te verzenden en stel de request body in. De verzoekmethode en request body zijn te vinden in de API-documentatie op onze website. Onze website biedt ook een Apifox-test voor uw gemak.
  2. Vervang <YOUR_API_KEY> door uw daadwerkelijke CometAPI-sleutel uit uw account.
  3. Selecteer het Chat-formaat: plaats uw vraag of verzoek in het inhoudsveld—dit is waarop het model zal reageren.
  4. Verwerk de API-respons om het gegenereerde antwoord te verkrijgen.

Meer modellen