Yes. Public reports and DeepSeek’s own technical notes indicate its major models (e.g., DeepSeek-V3/R1) were trained primarily on NVIDIA GPUs—especially China-available variants like A100/A800/H800—often via Chinese cloud providers. Availability can vary due to export controls, and they may also use alternatives for some workloads. - CometAPI

I det seneste år er DeepSeek — en kinesisk AI-startup med base i Hangzhou — stormet ind på de globale overskrifter ved at udgive højtydende modeller med åbne vægte, samtidig med at de hævder dramatisk lavere træningsomkostninger end konkurrenter. Det affødte ét enkelt, men betydningsfuldt teknisk spørgsmål: skal DeepSeek bruge NVIDIA-hardware og -software? Kort svar: ja — DeepSeeks modeller og tjenester har klare forbindelser til NVIDIA-hardware og -software på tværs af træning, udrulning og tredjepartsdistribution. Men historien er nuanceret: relationen spænder fra de GPU’er, der rapporteres i træningslogge, til NVIDIAs mikrotjenestepakning og downstream-implementeringsmuligheder, og den ledsages af debatter om algoritmiske teknikker (fx distillation og skalering), der ændrede, hvor mange GPU’er der er nødvendige.

Hvad er DeepSeek, og hvorfor er spørgsmålet om “hvem der driver det” vigtigt?

DeepSeek er en open source‑familie af store sprog-/ræsonneringsmodeller, der hurtigt kom i offentlighedens søgelys på grund af en kombination af arkitektoniske greb (distillation/“inference‑time” beregningseffektivitet) og aggressive performancepåstande. Modellernes offentlige kode og dokumentation har opmuntret til hurtig adoption og eksperimenter blandt tredjepartsudviklere, hvilket har skabt bølger på markeder og i policykredse om, hvorvidt AI-fronten vil forblive tæt koblet til dyre, højtydende GPU’er, eller om den åbner for nye, mindre hardwareintensive tilgange.

Hvorfor er hardwarespørgsmålet vigtigt? For chipproducenter (NVIDIA, AMD, Taiwans støberier), for cloududbydere (AWS, Azure, Google Cloud) og for beslutningstagere afgør DeepSeeks arkitektur og de praktiske sider af udrulning, hvor meget efterspørgsel der fortsat vil flyde ind i GPU-markedet, om eksportkontroller vil bide, og om nye hukommelses- eller beregningsdesign kan rykke de nuværende hardware‑incumbents. Nylige rapporter, der forbinder DeepSeeks effektivitet med reduceret GPU-behov, er delvist ansvarlige for kursudsving hos AI-chipproducenter og har udløst debat om, hvorvidt branchen fortsat skal købe stadig større GPU‑farme.

Kører DeepSeek på NVIDIA‑GPU’er?

Kort svar: Ja — DeepSeek kan og gør det på NVIDIA‑GPU’er, og NVIDIA har selv offentliggjort benchmarks og optimeringer målrettet DeepSeek‑modeller. Beviser omfatter DeepSeeks offentlige repository og nedstrømsrammer, der eksplicit understøtter NVIDIA‑hardware, plus leverandørbenchmarks, der viser rekordhøj inferensthroughput på NVIDIA‑systemer.

Hvordan viser koden og værktøjerne NVIDIA-understøttelse?

DeepSeeks officielle repository og understøttende toolchains indeholder eksplicitte referencer til både NVIDIA- og ikke‑NVIDIA GPU‑backends. Projektets inferensanbefalinger og community‑værktøjer viser kompatibilitet med CUDA‑baserede runtime‑miljøer og understøtter samtidig alternativer (OpenCL/ROCm eller CPU‑fallbacks), hvor det er muligt. Tilstedeværelsen af optimeringsspor og README‑vejledning for CUDA‑enhedsmål er direkte bevis på, at NVIDIA‑GPU’er er et førsteklasses udrulningsmål for praktikere, der kører DeepSeek‑modeller.

Den officielle position: H800‑klyngen

Ifølge DeepSeeks officielle tekniske rapport blev træningen af DeepSeek‑V3 udført på en klynge af 2.048 Nvidia H800‑GPU’er. Dette er en vigtig sondring. H800 er en “sanktionskompatibel” version af den kraftige H100 (Hopper‑arkitektur), specifikt designet af Nvidia for at opfylde det amerikanske handelsministeriums eksportkontroller for Kina.

Selvom H800 bevarer den samme rå beregningskraft (FP8/FP16 tensor‑kerneydelse) som H100, er dens interconnect‑båndbredde (hastigheden som chips kommunikerer med) markant droslet — skåret ned til omtrent 400 GB/s sammenlignet med H100’s 900 GB/s. I massive AI‑træningsklynger er denne båndbredde normalt flaskehalsen, hvilket gør DeepSeeks præstation endnu mere forvirrende og imponerende for vestlige observatører.

Hvordan trænede DeepSeek V3 så effektivt?

Den mest opsigtsvækkende statistik fra DeepSeek‑V3‑udgivelsen er ikke dens benchmarkresultater, men prisskiltet: 5,58 millioner dollars i træningsomkostninger. Til sammenligning anslås træning af GPT‑4 at have kostet over 100 millioner dollars. Hvordan er denne størrelsesordens reduktion mulig på “ringere” H800‑hardware?

Arkitektonisk innovation: Mixture‑of‑Experts (MoE)

DeepSeek anvender en Mixture‑of‑Experts (MoE)‑arkitektur. I modsætning til en tæt (dense) model (som Llama 3), hvor hver parameter er aktiv for hvert genereret token, opdeler en MoE‑model netværket i mindre “eksperter”.

Samlede parametre: 671 milliarder
Aktive parametre: 37 milliarder

For hvert datapunkt skaber modellen en dynamisk rute og aktiverer kun en lille brøkdel af sin samlede “hjernekraft”. Det reducerer drastisk de krævede flydende komma‑operationer (FLOPs) og gør det muligt for H800’erne at behandle data hurtigere på trods af deres båndbreddebegrænsninger.

At overvinde båndbreddeflaskhalsen med MLA

For at modvirke H800’ens begrænsede interconnect‑hastighed introducerede DeepSeek Multi‑head Latent Attention (MLA). Standard attention‑mekanismer (Key‑Value‑caching) forbruger enorme mængder hukommelsesbåndbredde. MLA komprimerer denne Key‑Value (KV)‑cache til en latent vektor, hvilket reducerer markant hukommelsesforbruget og mængden af data, der skal flyttes mellem GPU’er.

Dette arkitektoniske valg “hacker” i praksis hardwarebegrænsningerne. Ved at kræve mindre databevægelse bliver H800’ens langsommere interconnect mindre af en hæmsko.

Dual‑Pipe‑kommunikation og overlap

DeepSeeks ingeniørteam skrev skræddersyede CUDA‑kerner til at styre kommunikationen. De implementerede en Dual‑Pipe‑strategi, der perfekt overlapper beregning med kommunikation. Mens GPU‑kernerne knuser tal (beregning), overføres næste batch data allerede i baggrunden (kommunikation). Det sikrer, at de dyre GPU‑kerner aldrig står stille og venter på data, og udnytter hardwaren maksimalt.

Er DeepSeek påvirket af amerikanske eksportkontroller?

Den geopolitiske dimension af DeepSeeks hardwarebrug er lige så kompleks som ingeniørkunsten.

“Kat og mus”‑legen

USA’s regering, specifikt handelsministeriet, har strammet grebet om AI‑chip‑eksport til Kina. H800, som DeepSeek brugte, var lovlig at købe i 2023, men blev efterfølgende forbudt i opdateringerne til eksportkontrollerne i slutningen af 2023.

Det sætter DeepSeek i en prekær position. Deres nuværende klynge er sandsynligvis et “legacy”‑aktiv, der blev købt før forbuddet. Opskalering til en fremtidig “DeepSeek‑V4” eller “V5” bliver væsentligt sværere, hvis de ikke lovligt kan skaffe mere Nvidia‑silicium. Det har givet næring til rygter om, at de kan kigge på alternative forsyningskæder eller kinesiske, indenlandske chips (som Huaweis Ascend‑serie), selvom Nvidia fortsat er guldstandarden for træningsstabilitet.

Amerikanske regeringsundersøgelser

USA undersøger aktivt, om DeepSeek omgåede kontroller for at erhverve begrænsede chips. Hvis der dukker beviser op for, at de brugte ulovligt erhvervede H100’ere, kan det føre til alvorlige sanktioner mod virksomheden og dens leverandører. Hvis de derimod virkelig opnåede denne performance på kompatible H800’ere, tyder det på, at amerikanske eksportkontroller kan være mindre effektive til at bremse Kinas AI‑fremskridt end håbet — og tvinger til et nyt syn på “hardwareblokade”‑strategien.

Hvad er hardwarekravene for brugere?

For udviklere og API‑aggregeringer (som CometAPI) er træningshardwaren mindre relevant end inferenshardwaren — det du skal bruge for at køre modellen.

DeepSeek API vs. lokal hosting

På grund af den enorme størrelse af DeepSeek‑V3 (671B parametre) er det umuligt for de fleste at køre den fulde model lokalt. Den kræver cirka 1,5 TB VRAM i FP16‑præcision eller omtrent 700 GB i 8‑bit kvantisering. Det nødvendiggør en 8x H100‑ eller A100‑server‑node.

Derimod er DeepSeek‑R1‑Distill‑versionerne (baseret på Llama og Qwen) meget mindre og kan køres på forbrugshardware.

Code: Running DeepSeek Locally

Nedenfor er et professionelt Python‑eksempel, der viser, hvordan man indlæser en kvantiseret version af en DeepSeek‑destilleret model med biblioteket transformers. Dette er optimeret til en maskine med et enkelt Nvidia RTX 3090 eller 4090.

python

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

# Configuration for 4-bit quantization to fit on consumer GPUs
# Requires 'bitsandbytes' and 'accelerate' libraries
model_name = "deepseek-ai/DeepSeek-R1-Distill-Llama-8B"

print(f"Loading {model_name} with 4-bit quantization...")

try:
    tokenizer = AutoTokenizer.from_pretrained(model_name)
    
    model = AutoModelForCausalLM.from_pretrained(
        model_name,
        torch_dtype=torch.float16,
        device_map="auto",
        load_in_4bit=True,  # 4-bit quantization for memory efficiency
        bnb_4bit_compute_dtype=torch.float16
    )
    
    print("Model loaded successfully.")

    # Example Inference Function
    def generate_thought(prompt):
        inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
        
        outputs = model.generate(
            **inputs,
            max_new_tokens=512,
            temperature=0.6,
            top_p=0.9
        )
        
        return tokenizer.decode(outputs[0], skip_special_tokens=True)

    # Test the model
    user_query = "Explain the significance of FP8 training in AI."
    response = generate_thought(user_query)
    
    print("\n--- Model Response ---\n")
    print(response)

except Exception as e:
    print(f"An error occurred: {e}")

Code: Integrating DeepSeek API

For den fulde 671B‑model er brug af API’et den standardmæssige tilgang. DeepSeeks API er fuldt kompatibel med OpenAI SDK, hvilket gør migrering problemfri for udviklere.

Hvis du leder efter en billigere Deepseek‑API, er CometAPI et godt valg.

from openai import OpenAI
import os

# Initialize the client with DeepSeek's base URL and your API key
# Ensure DEEPSEEK_API_KEY is set in your environment variables
client = OpenAI(
    api_key=os.getenv("cometapi_API_KEY"), 
    base_url="https://api.cometapi.com"
)
def query_deepseek_reasoner(prompt):
    """
    Queries the DeepSeek-R1 (Reasoner) model.
    Note: The reasoner model outputs a 'Chain of Thought' before the final answer.
    [...](asc_slot://start-slot-15)"""
    try:
        response = client.chat.completions.create(
            model="deepseek-reasoner",  # Specific model tag for R1
            messages=[
                {"role": "system", "content": "You are a helpful AI expert."},
                {"role": "user", "content": prompt},
            ],
            stream=False
        )
        
        # Extracting the reasoning content (if available) and the final content
        reasoning = response.choices[0].message.reasoning_content
        answer = response.choices[0].message.content
        
        return reasoning, answer

    except Exception as e:
        return None, f"API Error: {e}"

# Example Usage
prompt_text = "Analyze the trade-offs between H100 and H800 GPUs for MoE models."
chain_of_thought, final_answer = query_deepseek_reasoner(prompt_text)

print(f"--- Chain of Thought ---\n{chain_of_thought[:500]}...\n") # Preview first 500 chars
print(f"--- Final Answer ---\n{final_answer}")

Vil DeepSeeks succes ende Nvidias monopol?

Dette er det milliarddollarspørgsmål, der fik Nvidias aktie til at dykke. Hvis et laboratorium kan levere førende resultater på “begrænset” eller ældre hardware ved hjælp af smart software (MoE, MLA), behøver verden så virkelig at bruge billioner på de absolut nyeste H100’er og Blackwell‑chips?

Debatten “software vs. hardware”

DeepSeek har vist, at softwareoptimering er et levedygtigt alternativ til rå hardwarebrutalitet. Ved at optimere “model‑hardware‑codesign” opnåede de bedre resultater end konkurrenter, der blot kastede mere compute efter problemet.

Det betyder dog ikke Nvidias endeligt.

Faktisk kan det styrke deres dominans. DeepSeek brugte stadig Nvidias CUDA‑kerner; de brugte dem blot mere effektivt. Den “moat”, Nvidia besidder, er ikke kun chiphastighed, men CUDA‑softwareøkosystemet. DeepSeeks ingeniører er mestre i CUDA og skriver lavniveau‑kerner for at omgå hardwarebegrænsninger. Denne afhængighed af Nvidias softwarestack cementerer virksomhedens position, selv hvis antallet af chips, der kræves pr. model, kan falde en smule på grund af effektivitetsgevinster.

Konklusion

Den bedste aktuelle læsning af det offentlige materiale er, at DeepSeek både har brugt NVIDIA‑GPU’er på meningsfulde måder (træning og inferens) og også har udforsket alternative, indenlandske hardwaremuligheder. NVIDIA har integreret DeepSeek‑modeller i sit NIM‑inferensøkosystem og offentliggjort performancepåstande og udviklerværktøjer til at køre disse modeller effektivt på NVIDIA‑platforme. Forsøg på at gå fuldt ud over til indenlandske acceleratorer afslører den praktiske vanskelighed ved at erstatte et modent hardware‑software‑økosystem fra den ene dag til den anden: hardware alene er utilstrækkelig — softwarestack, interconnects og produktionsklare værktøjer er lige så afgørende.

Udviklere kan få adgang til Deepseek‑API’er såsom Deepseek V3.2 via CometAPI; de seneste modeller er opført pr. artiklens udgivelsesdato. For at komme i gang kan du udforske modellens kapabiliteter i Playground og konsultere API‑vejledningen for detaljerede instruktioner. Før adgang skal du sikre, at du er logget ind på CometAPI og har fået en API‑nøgle. CometAPI tilbyder en pris langt under den officielle pris for at hjælpe dig med integrationen.

Brug CometAPI til at få adgang til chatgpt‑modeller, begynd at handle!

Klar til at komme i gang?→ Sign up for deepseek API today !

Hvis du vil have flere tips, vejledninger og nyheder om AI, så følg os på VK, X og Discord!