Sådan bruger du Deepseek V4 API

DeepSeek V4 er ikke længere blot et rygte eller en teaser. Pr. 24. april 2026 siger DeepSeeks officielle dokumentation, at V4-previewet er live, open source og tilgængeligt i API’et med to varianter: DeepSeek-V4-Pro og DeepSeek-V4-Flash. Den officielle udgivelse fremhæver et 1M-token kontekstvindue, dobbelte ræsonneringstilstande og API-kompatibilitet med både OpenAI ChatCompletions- og Anthropic-formater. DeepSeek siger også, at de gamle modelnavne deepseek-chat og deepseek-reasoner bliver udfaset den 24. juli 2026.

For udviklere betyder den kombination én simpel ting: den sænker friktionen ved migrering og hæver loftet for, hvad du kan bygge. Du skal ikke lære en helt ny API-form. Du opdaterer modelnavnet, beholder base-URL’en og udnytter et større kontekstvindue med nyere ræsonneringsadfærd. DeepSeeks officielle dokumentation siger eksplicit at beholde base-URL’en og ændre modelparameteren til deepseek-v4-pro eller deepseek-v4-flash.

På produktniveau er V4-Pro den stærkere model til agentbaseret kodning, verdensviden og svær ræsonnering, mens V4-Flash er den hurtigere og mere økonomiske mulighed, der stadig leverer godt på enklere agentopgaver. CometAPI giver adgang til begge modeller til en meget lav pris.

DeepSeek V4 Performance Benchmarks

DeepSeeks preview-udgivelse beskriver V4-Pro som en 1.6T total / 49B aktiv parameter-model og V4-Flash som en 284B total / 13B aktiv parameter-model. I samme annonce siger DeepSeek, at V4-Pro leverer open-source SOTA-resultater i benchmarks for agentisk kodning, fører nuværende åbne modeller på verdensviden med undtagelse af Gemini 3.1 Pro, og slår nuværende åbne modeller i matematik, STEM og kodning, samtidig med at den kan måle sig med de bedste lukkede modeller. V4-Flash beskrives samtidig som tæt på V4-Pro’s ræsonneringskvalitet og som matchende den på simple agentopgaver, mens den forbliver mindre, hurtigere og billigere at køre.

V4-Pro forbedrer V3.2-Base på tværs af flere repræsentative opgaver, inklusive MMLU-Pro, FACTS Parametric, HumanEval og LongBench-V2. Det gør udgivelsen særligt relevant for teams, der bygger lang-kontekst assistenter, kode-tunge workflows og videnstunge apps.

Benchmark-tabel: V3.2 vs V4-Flash vs V4-Pro

Benchmark	V3.2-Base	V4-Flash-Base	V4-Pro-Base
AGIEval (EM)	80.1	82.6	83.1
MMLU (EM)	87.8	88.7	90.1
MMLU-Pro (EM)	65.5	68.3	73.5
HumanEval (Pass@1)	62.8	69.5	76.8
LongBench-V2 (EM)	40.2	44.7	51.5

Hvad tallene betyder i praksis

Hvis du bygger en chatbot, kan benchmark-forskellen føles abstrakt. Hvis du bygger en kodeassistent i repository-skala, et kontraktanalyseværktøj eller en intern agent, der skal holde styr på en lang opgave på tværs af flere værktøjskald, bliver benchmark-profilen meget konkret. Højere lang-kontekst-scorer kan omsættes til færre tabte detaljer, bedre tværdokument-ræsonnering og færre “please repeat that”-fejl i en reel arbejdsgang. Det er præcis derfor DeepSeeks udgivelse fremhæver lang-kontekst-effektivitet og agentadfærd frem for blot rå chatkvalitet.

How to Use the DeepSeek V4 API

Her er den reneste måde at tænke integrationen på:

DeepSeek V4 bruger samme API-overflade som tidligere DeepSeek-chatmodeller, men du skifter til det nye V4-modelnavn, beholder base-URL’en og vælger, om du vil have V4-Pro eller V4-Flash. CometAPI bekræfter også støtte til både OpenAI-lignende og Anthropic-lignende grænseflader.

Step 1 — Get API access

DeepSeeks dokumentation for første kald siger, at du skal have en API-nøgle fra DeepSeek-platformen, før du kan kalde modellen. Den officielle dokumentation viser chat-endpointet, bearer-token-mønsteret og de aktuelle V4-modelnavne.

Step 2 — Set the base URL and model name

For den officielle DeepSeek API er de dokumenterede base-URL’er:

Modelnavnene er deepseek-v4-flash og deepseek-v4-pro. DeepSeek bemærker også, at deepseek-chat og deepseek-reasoner er gamle navne, der maps til V4-Flash-adfærd i overgangsperioden og bliver udfaset den 2026-07-24.

Step 3 — Send your first request

En minimal OpenAI-kompatibel anmodning ser sådan ud:

curl https://api.deepseek.com/chat/completions \  -H "Content-Type: application/json" \  -H "Authorization: Bearer $DEEPSEEK_API_KEY" \  -d '{    "model": "deepseek-v4-pro",    "messages": [      {"role": "system", "content": "You are a helpful assistant."},      {"role": "user", "content": "Explain the difference between V4-Pro and V4-Flash."}    ],    "stream": false  }'

DeepSeeks officielle dokumentation viser samme anmodningsmønster og bekræfter, at streaming kan aktiveres ved at sætte stream til true.

Step 4 — Enable thinking mode, tool calls, and streaming

V4-modeller understøtter tænke-/ikke-tænketilstande, JSON-output, værktøjskald og chat-præfiksfuldførelse. Modellerne understøtter også op til 1M kontekst og en maksimal output på 384K tokens.

Et praktisk Python-eksempel:

from openai import OpenAIclient = OpenAI(
    base_url="https://api.cometapi.com",
    api_key="YOUR_DEEPSEEK_API_KEY",
)response = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[
        {"role": "system", "content": "You are a senior coding assistant."},
        {"role": "user", "content": "Review this architecture for bottlenecks."}
    ],
    stream=False,
    extra_body={
        "thinking": {"type": "enabled"},
        "reasoning_effort": "high"
    }
)print(response.choices[0].message.content)

Det mønster afspejler DeepSeeks dokumenterede støtte til ræsonneringskontroller og tænketilstand.

Step 5 — Test and productionize

Før du flytter dette i produktion, skal du validere tre ting:

Om din arbejdsbyrde faktisk drager fordel af det større kontekstvindue.
Om modellen skal tænke som standard eller svare hurtigt i ikke-tænketilstand.
Om værktøjskald er afgørende for arbejdsgangen, især for agent- og kodeassistenter.

V4 er designet til agentbrugssager og integrerer allerede med værktøjer som Claude Code og OpenCode.

DeepSeek V4-Pro vs V4-Flash vs V3.2

For de fleste teams er det rigtige valg ikke “Hvilken model er bedst?” men “Hvilken model er bedst til denne arbejdsbyrde?” Svaret afhænger af latenstid, omkostninger, ræsonneringsdybde og kontekstlængde. DeepSeeks udgivelse positionerer V4-Pro som flagskibet til svær ræsonnering og agentbaseret kodning, mens V4-Flash er det effektive valg til høj-throughput-arbejdsbelastninger, der stadig har brug for stærk lang-kontekst-adfærd. V3.2 forbliver den ældre baseline til sammenligning og migrationsplanlægning.

Model	Bedst til	Styrker	Tradeoff
DeepSeek V4-Pro	Tung ræsonnering, kodning, agenter, research	Største samlede kapacitet i V4; bedst til svære opgaver	Højere omkostning og tungere compute-footprint
DeepSeek V4-Flash	Hurtige assistenter, lang-doc-workflows, høj throughput	Hurtige svar; økonomisk; understøtter stadig 1M kontekst	Lidt svagere på de sværeste videntunge opgaver
DeepSeek V3.2	Baseline-sammenligninger, overgangsplaner	Nyttig som referencepunkt	Ældre generation; ikke målet for nye builds

Dette er den praktiske linse, jeg ville bruge for produktteams:
Hvis arbejdsgangen er mission critical, start med V4-Pro.
Hvis arbejdsgangen er volumenstyret og latenstidsfølsom, start med V4-Flash.
Hvis du migrerer et eksisterende system, brug V3.2 som benchmark-reference, ikke som din endestation.

Where DeepSeek V4 Fits Best

Coding assistants

DeepSeeks udgivelse fremhæver specifikt agentisk kodningsperformance og integration med værktøjer som Claude Code og OpenCode. Det gør V4 særligt attraktiv til kode-review-copilots, refaktoreringsassistenter på repo-skala og udviklerrettede agenter, der skal huske en lang opgavestatus på tværs af flere ture.

Long-document analysis

1M-token kontekstvinduet er overskriften, men den virkelige gevinst er, hvad det åbner for: lange kontrakter, due diligence-pakker, hændelseslogge, support-wikis og interne vidensbaser kan behandles uden at hakke alt i små stykker. DeepSeeks dokumentation indrammer udgivelsen eksplicit omkring ultrahøj konteksteffektivitet og reduceret compute-/hukommelsesomkostning.

Agentic workflows

Hvis dit produkt bruger værktøjskald, flertrinsplanlægning eller kædede handlinger, er V4 mere interessant end en generisk chatmodel. DeepSeek siger, at begge V4-varianter understøtter værktøjskald og tænketilstande, og preview-udgivelsen siger, at V4 er optimeret til agentkapabilitet.

Search, research, and support systems

Teams, der bygger søgetunge research-værktøjer eller kundesupportsystemer, har ofte brug for både recall og struktur. DeepSeeks dokumenterede støtte til JSON-output og lange outputlængder gør V4 troværdig til disse systemer, især når brugeroplevelsen afhænger af stabile, strukturerede svar frem for korte samtalereplikker.

Best practices for using DeepSeek-V4 API in production

For det første: vælg modellen efter arbejdsbyrde i stedet for vane. Brug V4-Flash til langdokument-parsning, høj-throughput-assistenter og hurtige agent-loops. Brug V4-Pro, når opgaven afhænger af hårdere ræsonnering, rigere viden eller mere pålidelig performance på komplekse kodnings- og research-workflows. DeepSeeks egne preview-noter og tredjeparts modelsider peger begge i den retning.

For det andet: design omkring 1M-token kontekstvinduet, men antag ikke, at mere kontekst altid betyder bedre svar. Stor kontekst er værdifuld for kontrakter, kodebaser, research-pakker og support-vidensbaser, men den drager stadig fordel af god retrieval, chunking og opsummeringsdisciplin. DeepSeek indrammer eksplicit V4 omkring lang-kontekst-effektivitet og siger, at 1M kontekst er standard på tværs af deres officielle tjenester.

For det tredje: hold din prompting struktureret. Fordi V4 understøtter JSON-output og værktøjskald, er den en god kandidat til workflows som ekstraktion, klassifikation, dokument-triage, agent-routing og kodeassistance. Det er områderne, hvor en model med lang kontekst og eksplicit ræsonnering typisk skinner mest.

For det fjerde: overvåg migrationstiming nøje. Hvis din stack stadig kalder deepseek-chat eller deepseek-reasoner, så planlæg opgraderingsvejen nu. DeepSeek angiver, at disse gamle navne bliver udfaset den 24. juli 2026, og at de i øjeblikket maps til V4-Flash-tilstande for kompatibilitet.

Common Mistakes to Avoid

Treating V4 like a generic chat model

Den mest almindelige fejl er at behandle DeepSeek V4 som en normal Q&A-bot og stoppe der. Det efterlader performance på bordet. Udgivelsen handler eksplicit om ræsonnering, kodning, værktøjer og lang-kontekst-brug. Hvis du ikke udnytter de kompetencer, betaler du mest for kapacitet, du aldrig bruger.

Ignoring context limits and reasoning modes

En anden fejl er at antage, at “1M kontekst” betyder, at du kan ignorere promptdesign. Du har stadig brug for ren struktur, relevansfiltrering og en fornuftig memory-strategi. DeepSeek understøtter tænke- og ikke-tænketilstande, så din app bør beslutte bevidst, hvornår der skal bruges tokens på dybere ræsonnering, og hvornår der skal svares hurtigt.

Migrating too late from legacy model names

DeepSeek har allerede annonceret, at deepseek-chat og deepseek-reasoner bliver udfaset den 2026-07-24. Hvis dit produkt stadig hardcoder de navne, er migrationsgælden ikke længere teoretisk. Den er en kalenderpost.

Tool calls, JSON output, and agent workflows

DeepSeek-V4 understøtter værktøjskald og JSON-output, hvilket gør den egnet til struktureret automatisering frem for blot chat alene, værktøjskald i både ikke-tænketilstand og tænketilstand, hvilket betyder, at modellen kan ræsonnere, kalde et værktøj og derefter fortsætte svaret med den nye information.

For agent-workflows er én detalje særligt vigtig: når en tænketur inkluderer værktøjskald, skal reasoning_content videresendes fuldt ud i efterfølgende anmodninger. Det er en produktionsklar implementeringsdetalje, ikke en mindre fodnote, fordi agentsystemer ofte fejler, når de trunkerer eller håndterer mellemliggende ræsonneringstilstand forkert.

Conclusion

DeepSeek V4 er en meningsfuld opgradering for teams, der går op i lang-kontekst-ræsonnering, kodeassistance og agentiske workflows. Den officielle udgivelse lægger reel vægt bag lanceringen: to modelvarianter, OpenAI- og Anthropic-kompatibilitet, 1M kontekst, værktøjskald-understøttelse og en klar migrationssti fra ældre DeepSeek-modelnavne.

Hvis din use case er kompleks, latenstidsfølsom eller bygget omkring flertrinsræsonnering, er V4-Pro modellen, du bør teste først. Hvis din prioritet er hastighed, throughput og omkostningsdisciplin, er V4-Flash et bedre startpunkt. Og hvis du vil levere hurtigere på tværs af flere modeludbydere uden at tilføje integrationskaos, er CometAPI positioneret som et praktisk lag for adgang, observabilitet og model-portabilitet.