Gebruikt DeepSeek NVIDIA?

Het afgelopen jaar is DeepSeek — een Chinese AI-startup uit Hangzhou — wereldwijd in het nieuws gekomen door de release van high-performance open-weight-modellen, met de claim dat de trainingskosten dramatisch lager liggen dan die van concurrenten. Dat riep één simpele maar belangrijke technische vraag op: gebruikt DeepSeek NVIDIA-hardware en -software? Kort antwoord: ja — de modellen en services van DeepSeek vertonen duidelijke banden met NVIDIA-hardware en -software in training, uitrol en distributie via derden. Maar het verhaal is genuanceerd: de relatie loopt van de GPU’s die in traininglogs worden gerapporteerd tot NVIDIA’s microservices-verpakking en downstream-implementatieopties, en staat naast discussies over algoritmische technieken (bijv. distillatie en schaalvergroting) die het benodigde aantal GPU’s hebben veranderd.

Wat is DeepSeek en waarom is de vraag “wie drijft het aan” belangrijk?

DeepSeek is een open-sourcefamilie van grote taal-/redeneermodellen die snel in de publieke belangstelling kwamen door een combinatie van architecturale trucs (distillatie/rekenefficiëntie tijdens ‘inference’) en agressieve prestatieclaims. De publieke code en documentatie van de modelfamilie hebben snelle adoptie en experimenten door externe ontwikkelaars aangewakkerd, met golfbewegingen in markten en beleidskringen over de vraag of de AI-frontlinie nauw verbonden blijft met dure, high-performance GPU’s of openbreekt naar nieuwe, minder hardware-intensieve benaderingen.

Waarom is de hardwarevraag belangrijk? Voor chipverkopers (NVIDIA, AMD, Taiwanese foundries), voor cloudaanbieders (AWS, Azure, Google Cloud) en voor beleidsmakers bepalen DeepSeek’s architectuur en de praktische kanten van de uitrol hoeveel vraag naar de GPU-markt blijft stromen, of exportcontroles effect sorteren en of nieuwe geheugen- of rekenontwerpen de huidige hardware-incumbents materieel kunnen verdringen. Recente berichtgeving die DeepSeek’s efficiëntie koppelt aan een lagere GPU-behoefte is mede verantwoordelijk voor koersvolatiliteit bij AI-chipmakers en heeft debat aangewakkerd over de vraag of de sector per se steeds grotere GPU-clusters moet blijven kopen.

Draait DeepSeek op NVIDIA-GPU’s?

Kort antwoord: ja — DeepSeek kan en draait op NVIDIA-GPU’s, en NVIDIA zelf heeft benchmarks en optimalisaties gepubliceerd die op DeepSeek-modellen zijn gericht. Bewijs omvat de publieke repository van DeepSeek en downstream-frameworks die expliciet NVIDIA-hardware ondersteunen, plus leveranciersbenchmarks die record-inferentiedoorvoer op NVIDIA-systemen tonen.

Hoe laten de code en tooling NVIDIA-ondersteuning zien?

De officiële repository van DeepSeek en ondersteunende toolchains bevatten expliciete verwijzingen naar zowel NVIDIA- als niet-NVIDIA-GPU-backends. De inferentieaanbevelingen en communitytooling tonen compatibiliteit met CUDA-gebaseerde runtimes, met waar mogelijk ook ondersteuning voor alternatieven (OpenCL/ROCm of CPU-fallbacks). De aanwezigheid van optimalisatiepaden en README-richtlijnen voor CUDA-doelen is direct bewijs dat NVIDIA-GPU’s een eersteklas implementatiedoel zijn voor practitioners die DeepSeek-modellen draaien.

Het officiële standpunt: het H800-cluster

Volgens het officiële technische rapport van DeepSeek werd de training van DeepSeek-V3 uitgevoerd op een cluster van 2,048 Nvidia H800 GPU’s. Dit is een cruciaal onderscheid. De H800 is een “sanctieconforme” variant van de krachtige H100 (Hopper-architectuur), specifiek door Nvidia ontworpen om te voldoen aan de exportcontroles van het Amerikaanse Department of Commerce voor China.

Hoewel de H800 dezelfde ruwe rekenkracht (FP8/FP16 tensor core-prestaties) behoudt als de H100, is de interconnect-bandbreedte (de snelheid waarmee chips met elkaar communiceren) aanzienlijk teruggeschroefd — tot ongeveer 400 GB/s vergeleken met 900 GB/s voor de H100. In massale AI-trainingsclusters is deze bandbreedte vaak de bottleneck, wat DeepSeek’s prestatie voor westerse waarnemers des te raadselachtiger en indrukwekkender maakt.

Hoe trainde DeepSeek V3 zo efficiënt?

De meest verbluffende statistiek uit de DeepSeek-V3-release is niet de benchmarkscore, maar het prijskaartje: $5.58 million aan trainingskosten. Ter vergelijking: de training van GPT-4 wordt geschat op meer dan $100 million. Hoe is deze orde van grootte lagere kost mogelijk op “inferieure” H800-hardware?

Architectonische innovatie: Mixture-of-Experts (MoE)

DeepSeek gebruikt een Mixture-of-Experts (MoE)-architectuur. In tegenstelling tot een dense model (zoals Llama 3), waarbij elke parameter actief is voor elk gegenereerd token, splitst een MoE-model het netwerk op in kleinere “experts”.

Totaal aantal parameters: 671 Billion
Actieve parameters: 37 Billion

Voor elk verwerkt datapunt maakt het model een dynamische route, waarbij slechts een klein deel van het totale “brein” wordt geactiveerd. Dit reduceert de benodigde floating-point-bewerkingen (FLOPs) drastisch, waardoor de H800’s data sneller kunnen verwerken ondanks hun bandbreedtebeperkingen.

De bandbreedtebottleneck overwinnen met MLA

Om de vertraagde interconnect-snelheid van de H800 te compenseren, introduceerde DeepSeek Multi-head Latent Attention (MLA). Standaard attentiemechanismen (Key-Value-caching) verbruiken enorme hoeveelheden geheugenbandbreedte. MLA comprimeert deze Key-Value (KV)-cache tot een latente vector, waardoor zowel de geheugendruk als de hoeveelheid te verplaatsen data tussen GPU’s aanzienlijk afneemt.

Deze architecturale keuze “hackt” in wezen de hardwarebeperkingen. Doordat er minder databeweging nodig is, wordt de langzamere interconnect van de H800 minder problematisch.

Dual-Pipe-communicatie en overlap

Het engineeringteam van DeepSeek schreef aangepaste CUDA-kernels voor communicatiebeheer. Ze implementeerden een Dual-Pipe-strategie die computation en communicatie naadloos laat overlappen. Terwijl de GPU-cores rekenen, wordt de volgende batch data al op de achtergrond overgezet. Dit zorgt ervoor dat de dure GPU-cores nooit stilstaan te wachten op data en perst elk druppeltje performance uit de hardware.

Wordt DeepSeek geraakt door Amerikaanse exportcontroles?

De geopolitieke dimensie van DeepSeek’s hardwaregebruik is even complex als de engineering.

Het “kat-en-muisspel”

De Amerikaanse overheid, met name het Department of Commerce, heeft de duimschroeven voor AI-chipexport naar China aangedraaid. De H800, die DeepSeek gebruikte, was in 2023 legaal aan te schaffen, maar werd vervolgens in latere updates van 2023 alsnog verboden.

Dit plaatst DeepSeek in een precaire positie. Hun huidige cluster is waarschijnlijk een “legacy”-activum dat vóór het verbod is gekocht. Opschalen voor een toekomstige “DeepSeek-V4” of “V5” wordt aanzienlijk lastiger als ze niet legaal meer Nvidia-silicium kunnen verkrijgen. Dit heeft de geruchten aangewakkerd dat ze alternative supply chains of binnenlandse Chinese chips (zoals Huawei’s Ascend-serie) overwegen, al blijft Nvidia de gouden standaard voor trainingsstabiliteit.

Onderzoeken door de Amerikaanse overheid

De VS onderzoekt actief of DeepSeek exportcontroles heeft omzeild om beperkt verkrijgbare chips te bemachtigen. Mocht er bewijs opduiken dat ze illegaal verkregen H100’s hebben gebruikt, dan kan dat leiden tot zware sancties voor het bedrijf en zijn leveranciers. Als ze deze prestaties daadwerkelijk op conforme H800’s hebben behaald, suggereert dat echter dat Amerikaanse exportcontroles minder effectief zijn in het afremmen van Chinese AI-vooruitgang dan beleidsmakers hoopten — wat een herbezinning op de “hardwareblokkade”-strategie kan afdwingen.

Wat zijn de hardwarevereisten voor gebruikers?

Voor ontwikkelaars en API-aggregators (zoals CometAPI) is de traininghardware minder relevant dan de inferentiehardware — wat je nodig hebt om het model te draaien.

DeepSeek-API vs. lokaal hosten

Vanwege de enorme omvang van DeepSeek-V3 (671B parameters) is het voor de meeste gebruikers onmogelijk om het volledige model lokaal te draaien. Er is ongeveer 1.5 TB aan VRAM nodig bij FP16-precisie, of circa 700 GB bij 8-bit-kwantisatie. Dit vereist een 8x H100- of A100-servernode.

De DeepSeek-R1-Distill-versies (gebaseerd op Llama en Qwen) zijn echter veel kleiner en kunnen op consumentenhardware draaien.

Code: DeepSeek lokaal draaien

Hieronder staat een professioneel Python-voorbeeld dat laat zien hoe je een gekwantiseerde versie van een door DeepSeek gedistilleerd model laadt met de transformers-bibliotheek. Dit is geoptimaliseerd voor een machine met één Nvidia RTX 3090 of 4090.

python

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

# Configuration for 4-bit quantization to fit on consumer GPUs
# Requires 'bitsandbytes' and 'accelerate' libraries
model_name = "deepseek-ai/DeepSeek-R1-Distill-Llama-8B"

print(f"Loading {model_name} with 4-bit quantization...")

try:
    tokenizer = AutoTokenizer.from_pretrained(model_name)
    
    model = AutoModelForCausalLM.from_pretrained(
        model_name,
        torch_dtype=torch.float16,
        device_map="auto",
        load_in_4bit=True,  # 4-bit quantization for memory efficiency
        bnb_4bit_compute_dtype=torch.float16
    )
    
    print("Model loaded successfully.")

    # Example Inference Function
    def generate_thought(prompt):
        inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
        
        outputs = model.generate(
            **inputs,
            max_new_tokens=512,
            temperature=0.6,
            top_p=0.9
        )
        
        return tokenizer.decode(outputs[0], skip_special_tokens=True)

    # Test the model
    user_query = "Explain the significance of FP8 training in AI."
    response = generate_thought(user_query)
    
    print("\n--- Model Response ---\n")
    print(response)

except Exception as e:
    print(f"An error occurred: {e}")

Code: DeepSeek-API integreren

Voor het volledige 671B-model is het gebruik van de API de standaardaanpak. De API van DeepSeek is volledig compatibel met de OpenAI SDK, waardoor migratie voor ontwikkelaars naadloos verloopt.

Als je op zoek bent naar een goedkopere Deepseek API, dan is CometAPI een goede optie.

from openai import OpenAI
import os

# Initialize the client with DeepSeek's base URL and your API key
# Ensure DEEPSEEK_API_KEY is set in your environment variables
client = OpenAI(
    api_key=os.getenv("cometapi_API_KEY"), 
    base_url="https://api.cometapi.com"
)
def query_deepseek_reasoner(prompt):
    """
    Queries the DeepSeek-R1 (Reasoner) model.
    Note: The reasoner model outputs a 'Chain of Thought' before the final answer.
    [...](asc_slot://start-slot-15)"""
    try:
        response = client.chat.completions.create(
            model="deepseek-reasoner",  # Specific model tag for R1
            messages=[
                {"role": "system", "content": "You are a helpful AI expert."},
                {"role": "user", "content": prompt},
            ],
            stream=False
        )
        
        # Extracting the reasoning content (if available) and the final content
        reasoning = response.choices[0].message.reasoning_content
        answer = response.choices[0].message.content
        
        return reasoning, answer

    except Exception as e:
        return None, f"API Error: {e}"

# Example Usage
prompt_text = "Analyze the trade-offs between H100 and H800 GPUs for MoE models."
chain_of_thought, final_answer = query_deepseek_reasoner(prompt_text)

print(f"--- Chain of Thought ---\n{chain_of_thought[:500]}...\n") # Preview first 500 chars
print(f"--- Final Answer ---\n{final_answer}")

Zal het succes van DeepSeek een einde maken aan het Nvidia-monopolie?

Dit is de vraag van een miljard die de koers van Nvidia deed dalen. Als een lab state-of-the-art resultaten kan produceren op “beperkte” of oudere hardware met slimme software (MoE, MLA), moet de wereld dan echt biljoenen uitgeven aan de allernieuwste H100’s en Blackwell-chips?

Het “software vs. hardware”-debat

DeepSeek heeft bewezen dat software-optimalisatie een valide alternatief is voor ruwe hardware-bruteforce. Door “Model-Hardware Co-design” te optimaliseren, behaalden ze betere resultaten dan concurrenten die simpelweg meer compute inzetten.

Dit betekent echter niet het einde voor Nvidia.

Sterker nog, het kan hun dominantie juist versterken. DeepSeek gebruikte nog steeds Nvidia CUDA-cores; ze gebruikten die alleen efficiënter. De “moat” die Nvidia bezit is niet alleen de snelheid van de chip, maar het CUDA-software-ecosysteem. De engineers van DeepSeek zijn meesters in CUDA en schrijven low-level-kernels om hardwarebeperkingen te omzeilen. Deze afhankelijkheid van Nvidia’s softwarestack verstevigt de positie van het bedrijf, zelfs als het aantal chips per model door efficiëntiewinst enigszins kan dalen.

Conclusie

De best onderbouwde lezing van het publieke dossier is dat DeepSeek zowel NVIDIA-GPU’s op betekenisvolle manieren heeft gebruikt (training en inferentie) als alternatieve binnenlandse hardwareopties heeft verkend. NVIDIA heeft DeepSeek-modellen geïntegreerd in zijn NIM-inferentie-ecosysteem en prestatieclaims en ontwikkeltools gepubliceerd om die modellen efficiënt op NVIDIA-platforms te draaien. Pogingen om volledig over te stappen op binnenlandse accelerators tonen de praktische moeilijkheid om een volwassen hardware-software-ecosysteem van de ene op de andere dag te vervangen: hardware alleen is onvoldoende — de softwarestack, interconnects en productierijpe tooling zijn minstens zo doorslaggevend.

Ontwikkelaars kunnen toegang krijgen tot Deepseek API zoals Deepseek V3.2 via CometAPI; de nieuwste modellen staan vermeld op de publicatiedatum van het artikel. Begin met het verkennen van de mogelijkheden in de Playground en raadpleeg de API-gids voor gedetailleerde instructies. Zorg ervoor dat je bent ingelogd bij CometAPI en een API-sleutel hebt verkregen voordat je toegang aanvraagt. CometAPI biedt een prijs die veel lager is dan de officiële prijs om je te helpen integreren.

Gebruik CometAPI om toegang te krijgen tot chatgpt-modellen, begin met shoppen!

Ready to Go?→ Sign up for deepseek API today !

Als je meer tips, gidsen en nieuws over AI wilt, volg ons op VK, X en Discord!