Hvordan bruke Deepseek V4 API

DeepSeek V4 er ikke lenger bare et rykte eller en teaser. Per 24. april 2026 sier DeepSeeks offisielle dokumentasjon at V4-previewen er live, åpen-kildekode og tilgjengelig i API-et, med to varianter: DeepSeek-V4-Pro og DeepSeek-V4-Flash. Den offisielle lanseringen fremhever et kontekstvindu på 1M tokens, to resoneringsmoduser, og API-kompatibilitet med både OpenAI ChatCompletions og Anthropic-formater. DeepSeek sier også at de eldre modellnavnene deepseek-chat og deepseek-reasoner blir avviklet 24. juli 2026.

For utviklere betyr den kombinasjonen én enkel ting: den reduserer migrasjonsfriksjon samtidig som den øker taket for hva du kan bygge. Du lærer ikke en helt ny API-form. Du oppdaterer modellnavnet, beholder base-URL-en, og bygger mot et større kontekstvindu med nyere resoneringsatferd. DeepSeeks offisielle dokumentasjon sier eksplisitt å beholde base-URL-en og endre model-parameteren til deepseek-v4-pro eller deepseek-v4-flash.

På produktsiden er V4-Pro den sterkere modellen for agentbasert koding, verdenskunskap og krevende resonnering, mens V4-Flash er raskere og mer økonomisk og presterer godt på enklere agentoppgaver. CometAPI gir tilgang til begge modeller til svært lav kostnad.

DeepSeek V4-ytelsesbenchmark

DeepSeeks preview beskriver V4-Pro som en modell med 1,6T totalt / 49B aktive parametere og V4-Flash som 284B totalt / 13B aktive parametere. I samme kunngjøring sier DeepSeek at V4-Pro leverer open-source SOTA-resultater i agentiske kodebenchmarker, leder blant åpne modeller i verdenskunskap med unntak av Gemini 3.1 Pro, og slår dagens åpne modeller i matematikk, STEM og koding, samtidig som den rivaliserer topp lukkede modeller. V4-Flash beskrives som å nærme seg V4-Pros resonneringskvalitet og matche den på enkle agentoppgaver, samtidig som den er mindre, raskere og billigere å kjøre.

V4-Pro forbedrer seg over V3.2-Base på flere representative oppgaver, inkludert MMLU-Pro, FACTS Parametric, HumanEval og LongBench-V2. Det gjør utgivelsen spesielt relevant for team som bygger lang-kontekst-assistenter, kodeintensive arbeidsflyter og kunnskapsintensive apper.

Benchmark-tabell: V3.2 vs V4-Flash vs V4-Pro

Benchmark	V3.2-Base	V4-Flash-Base	V4-Pro-Base
AGIEval (EM)	80.1	82.6	83.1
MMLU (EM)	87.8	88.7	90.1
MMLU-Pro (EM)	65.5	68.3	73.5
HumanEval (Pass@1)	62.8	69.5	76.8
LongBench-V2 (EM)	40.2	44.7	51.5

Hva tallene betyr i praksis

Hvis du bygger en chatbot, kan benchmark-forskjellen føles abstrakt. Hvis du bygger en kodeassistent i repo-skala, et verktøy for kontraktanalyse, eller en intern agent som må holde styr på en lang oppgave med flere verktøykall, blir benchmark-profilen svært konkret. Høyere lang-kontekst-score kan gi færre tapte detaljer, bedre resonnering på tvers av dokumenter, og færre “kan du gjenta det”–feil i en reell arbeidsflyt. Nettopp derfor fremhever DeepSeeks lansering lang-konteksteffektivitet og agentatferd i stedet for bare ren chatkvalitet.

Her er den enkleste måten å tenke på integrasjonen:

DeepSeek V4 bruker samme API-overflate som tidligere DeepSeek chat-modeller, men du bytter til det nye V4-modellnavnet, beholder base-URL-en, og velger om du vil ha V4-Pro eller V4-Flash. CometAPI bekrefter også støtte for både OpenAI-stil og Anthropic-stil grensesnitt.

Trinn 1 — Få API-tilgang

DeepSeeks dokumentasjon for første kall sier at du trenger en API-nøkkel fra DeepSeek-plattformen før du kan kalle modellen. De offisielle dokumentene viser chat-endepunktet, bearer-token-mønsteret, og de nåværende V4-modellnavnene.

Trinn 2 — Sett base-URL og modellnavn

For det offisielle DeepSeek API-et er de dokumenterte base-URL-ene:

Modellnavnene er deepseek-v4-flash og deepseek-v4-pro. DeepSeek bemerker også at deepseek-chat og deepseek-reasoner er eldre navn som mapper til V4-Flash-atferd i overgangsperioden og blir avviklet 2026-07-24.

Trinn 3 — Send din første forespørsel

En minimal OpenAI-kompatibel forespørsel ser slik ut:

curl https://api.deepseek.com/chat/completions \  -H "Content-Type: application/json" \  -H "Authorization: Bearer $DEEPSEEK_API_KEY" \  -d '{    "model": "deepseek-v4-pro",    "messages": [      {"role": "system", "content": "You are a helpful assistant."},      {"role": "user", "content": "Explain the difference between V4-Pro and V4-Flash."}    ],    "stream": false  }'

DeepSeeks offisielle dokumentasjon viser samme forespørselspattern og bekrefter at strømming kan aktiveres ved å sette stream til true.

Trinn 4 — Aktiver tenkemodus, verktøykall og strømming

V4-modellene støtter tenking/ikke-tenking-moduser, JSON-utdata, verktøykall og chat-prefiksfullføring. Modellene støtter også opptil 1M kontekst og en maksimal utdata på 384K tokens.

Et praktisk Python-eksempel:

from openai import OpenAIclient = OpenAI(
    base_url="https://api.cometapi.com",
    api_key="YOUR_DEEPSEEK_API_KEY",
)response = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[
        {"role": "system", "content": "You are a senior coding assistant."},
        {"role": "user", "content": "Review this architecture for bottlenecks."}
    ],
    stream=False,
    extra_body={
        "thinking": {"type": "enabled"},
        "reasoning_effort": "high"
    }
)print(response.choices[0].message.content)

Mønsteret gjenspeiler DeepSeeks dokumenterte støtte for styring av resonnering og tenkemodus.

Trinn 5 — Test og sett i produksjon

Før du flytter dette til produksjon, valider tre ting:

Om arbeidsmengden din faktisk drar nytte av det større kontekstvinduet.
Om modellen bør tenke som standard eller svare raskt i ikke-tenkemodus.
Om verktøykall er essensielt for arbeidsflyten, spesielt for agenter og kodeassistenter.

V4 er designet for agent-brukstilfeller og integreres allerede med verktøy som Claude Code og OpenCode.

DeepSeek V4-Pro vs V4-Flash vs V3.2

For de fleste team er det riktige valget ikke “Hvilken modell er best?” men “Hvilken modell er best for denne arbeidsmengden?”. Svaret avhenger av latens, kostnad, resonneringsdybde og kontekstlengde. DeepSeeks lansering posisjonerer V4-Pro som flaggskipet for krevende resonnering og agentbasert koding, mens V4-Flash er det effektive valget for høy-gjennomstrømming som fortsatt trenger sterk lang-kontekstadferd. V3.2 er den eldre baselinen for sammenligning og migrasjonsplanlegging.

Modell	Best for	Styrker	Avveining
DeepSeek V4-Pro	Tung resonnering, koding, agenter, research	Sterkest total kapasitet i V4; best for harde oppgaver	Høyere kostnad og tyngre beregningsfotavtrykk
DeepSeek V4-Flash	Raske assistenter, lange dokumenter, høy gjennomstrømming	Raskere svar; økonomisk; støtter fortsatt 1M kontekst	Litt svakere på de mest kunnskapskrevende oppgavene
DeepSeek V3.2	Baseline-sammenligninger, overgangsplaner	Nyttig som referansepunkt	Eldre generasjon; ikke måltilstanden for nye bygg

Dette er det praktiske perspektivet jeg ville brukt for produktteam:
Hvis arbeidsflyten er kritisk, start med V4-Pro.
Hvis arbeidsflyten er volumbasert og latenssensitiv, start med V4-Flash.
Hvis du migrerer et eksisterende system, bruk V3.2 som benchmark-referanse, ikke som sluttmål.

Hvor DeepSeek V4 passer best

Kodeassistenter

DeepSeeks utgivelse fremhever spesielt agentisk kodeytelse og integrasjon med verktøy som Claude Code og OpenCode. Det gjør V4 særlig attraktiv for kodegjennomgangs-copiloter, refaktoreringsassistenter i repo-skala, og utviklerorienterte agenter som må huske en lang oppgavestatus over flere runder.

Analyse av lange dokumenter

Kontekstvinduet på 1M tokens er hovedoverskriften, men den virkelige gevinsten er hva det låser opp: lange kontrakter, due diligence-pakker, hendelseslogger, support-wikier og interne kunnskapsbaser kan behandles uten å hakke alt opp i små biter. DeepSeeks dokumentasjon rammer eksplisitt utgivelsen inn rundt ultra-høy konteksteffektivitet og redusert beregnings-/minnekostnad.

Agentiske arbeidsflyter

Hvis produktet ditt bruker verktøykall, flerstegsplanlegging eller lenkede handlinger, er V4 mer interessant enn en generisk chat-modell. DeepSeek sier at begge V4-varianter støtter verktøykall og tenkemoduser, og previewen sier at V4 ble optimalisert for agentkapabilitet.

Søke-, forsknings- og supportsystemer

Team som bygger søketunge forskningsverktøy eller kundesupportsystemer trenger ofte både gjenkalling og struktur. DeepSeeks dokumenterte støtte for JSON-utdata og lange utdata gjør V4 til en troverdig match for slike systemer, spesielt når brukeropplevelsen avhenger av stabile, strukturerte svar heller enn korte samtalereplikk.

Beste praksis for bruk av DeepSeek-V4 API i produksjon

For det første: velg modell etter arbeidsmengde, ikke vane. Bruk V4-Flash til parsing av lange dokumenter, assistenter med høy gjennomstrømming og raske agentløkker. Bruk V4-Pro når oppgaven avhenger av hardere resonnering, rikere kunnskap eller mer pålitelig ytelse på komplekse kode- og forskningsarbeidsflyter. DeepSeeks egne preview-notater og tredjeparts modell-sider peker i samme retning.

For det andre: design rundt kontekstvinduet på 1M tokens, men anta ikke at mer kontekst alltid gir bedre svar. Stor kontekst er verdifull for kontrakter, kodebaser, research-pakker og support-kunnskapsbaser, men den drar fortsatt nytte av god gjenfinning, chunking og oppsummeringsdisiplin. DeepSeek rammer eksplisitt V4 inn rundt lang-konteksteffektivitet og sier at 1M kontekst er standard på tvers av deres offisielle tjenester.

For det tredje: hold promptingen strukturert. Siden V4 støtter JSON-utdata og verktøykall, er den en god kandidat for arbeidsflyter som utpakking, klassifisering, dokumenttriage, agentruting og kodeassistanse. Dette er områdene der en modell med lang kontekst og eksplisitt resonnering har en tendens til å skinne mest.

For det fjerde: overvåk migrasjonstiming nøye. Hvis stacken din fortsatt kaller deepseek-chat eller deepseek-reasoner, planlegg oppgraderingsstien nå. DeepSeek oppgir at disse eldre navnene blir avviklet 24. juli 2026, og at de for øyeblikket mapper til V4-Flash-modus for kompatibilitet.

Vanlige feil å unngå

Å behandle V4 som en generisk chat-modell

Den vanligste feilen er å behandle DeepSeek V4 som en vanlig Q&A-bot og stoppe der. Det etterlater ytelse på bordet. Utgivelsen handler eksplisitt om resonnering, koding, verktøy og lang-kontekst-bruk. Hvis du ikke bruker disse kapabilitetene, betaler du i praksis for handlingsrom du aldri utnytter.

Å ignorere kontekstgrenser og resoneringsmoduser

En annen feil er å anta at “1M kontekst” betyr at du kan ignorere prompt-design. Du trenger fortsatt ren struktur, relevansfiltrering og en fornuftig minnestrategi. DeepSeek støtter tenke- og ikke-tenkemodus, så appen din bør bevisst avgjøre når den skal bruke tokens på dypere resonnering og når den skal svare raskt.

Å migrere for sent fra eldre modellnavn

DeepSeek har allerede annonsert at deepseek-chat og deepseek-reasoner blir avviklet 2026-07-24. Hvis produktet ditt fortsatt hardkoder disse navnene, er migrasjonsgjeld ikke lenger teoretisk. Det er en kalenderpost.

Verktøykall, JSON-utdata og agentiske arbeidsflyter

DeepSeek-V4 støtter verktøykall og JSON-utdata, noe som gjør den egnet for strukturert automatisering fremfor bare ren chat, verktøykall i både ikke-tenkemodus og tenkemodus, som betyr at modellen kan resonere, kalle et verktøy, og deretter fortsette svaret med den nye informasjonen.

For agentiske arbeidsflyter er én detalj spesielt viktig: når en tenkerunde inkluderer verktøykall, må reasoning_content sendes fullt tilbake i påfølgende forespørsler. Det er en implementeringsdetalj på produksjonsnivå, ikke en fotnote, fordi agentsystemer ofte feiler når de trunkerer eller håndterer mellomliggende resonneringsstatus feil.

Konklusjon

DeepSeek V4 er en meningsfull oppgradering for team som bryr seg om lang-kontekst-resonnering, kodeassistanse og agentiske arbeidsflyter. Den offisielle utgivelsen legger reell vekt bak lanseringen: to modellvarianter, OpenAI- og Anthropic-kompatibilitet, 1M kontekst, støtte for verktøykall, og en tydelig migrasjonsvei fra eldre DeepSeek-modellnavn.

Hvis bruken din er kompleks, latenssensitiv eller bygget rundt flerstegs-resonnering, er V4-Pro modellen å teste først. Hvis prioriteten din er fart, gjennomstrømming og kostnadsdisiplin, er V4-Flash et bedre startpunkt. Og hvis du vil levere raskere på tvers av flere modellleverandører uten ekstra integrasjonskaos, er CometAPI posisjonert som et praktisk lag for tilgang, observabilitet og modellportabilitet.

Hvordan bruke Deepseek V4 API

DeepSeek V4-ytelsesbenchmark

Benchmark-tabell: V3.2 vs V4-Flash vs V4-Pro

Hva tallene betyr i praksis