Bruker DeepSeek NVIDIA?

Det siste året har DeepSeek — en kinesisk AI-startup basert i Hangzhou — tatt verdensoverskriftene ved å slippe høytytende åpenvekt-modeller samtidig som de hevdet dramatisk lavere treningskostnader enn konkurrenter. Det utløste ett enkelt, men avgjørende teknisk spørsmål: bruker DeepSeek NVIDIA-maskinvare og -programvare? Kort svar: ja — DeepSeeks modeller og tjenester har klare bånd til NVIDIA-maskinvare og -programvare på tvers av trening, utrulling og distribusjon via tredjepart. Men historien er nyansert: forholdet spenner fra GPU-ene som rapporteres i treningslogger til NVIDIAs mikrotjeneste-pakketering og nedstrøms utrullingsalternativer, og det eksisterer side om side med debatter om algoritmiske teknikker (f.eks. destillasjon og skalering) som endret hvor mange GPU-er som trengs.

Hva er DeepSeek, og hvorfor spiller spørsmålet om «hvem som driver det» en rolle?

DeepSeek er en åpen kildekode-familie av store språk-/resonneringsmodeller som raskt kom i offentlighetens søkelys på grunn av en kombinasjon av arkitektoniske grep (destillasjon/«inferens-tids» beregningseffektivitet) og aggressive ytelsespåstander. Modellfamiliens åpne kode og dokumentasjon har oppmuntret til rask adopsjon og eksperimentering blant tredjepartsutviklere, og skapt bølger i markedene og i politiske miljøer om hvorvidt frontlinjen i KI vil forbli tett koblet til dyre, høyytelses GPU-er eller åpne opp for nye, mindre maskinvaretunge tilnærminger.

Hvorfor er maskinvare-spørsmålet viktig? For brikkeleverandører (NVIDIA, AMD, Taiwans støperier), for skyleverandører (AWS, Azure, Google Cloud), og for beslutningstakere, avgjør DeepSeeks arkitektur og det praktiske ved å drifte den hvor mye etterspørsel som fortsatt vil strømme inn i GPU-markedet, om eksportkontroller vil bite, og om nye minne- eller beregningsdesign i vesentlig grad kan fortrenge de nåværende maskinvare-aktørene. Nylige reportasjer som kobler DeepSeeks effektivitet til reduserte GPU-behov, er delvis ansvarlige for kursvolatilitet hos KI-brikkeprodusenter og har utløst debatt om hvorvidt bransjen fortsatt må kjøpe stadig større GPU-parker.

Kjører DeepSeek på NVIDIA-GPU-er?

Kort svar: Ja — DeepSeek kan og gjør det på NVIDIA-GPU-er, og NVIDIA selv har publisert ytelsestester og optimaliseringer rettet mot DeepSeek-modeller. Bevis inkluderer DeepSeeks offentlige repository og nedstrøms rammeverk som eksplisitt støtter NVIDIA-maskinvare, pluss leverandør-benchmarker som viser rekordhøy inferensgjennomstrømning på NVIDIA-systemer.

Hvordan viser koden og verktøyene NVIDIA-støtte?

DeepSeeks offisielle repo og støttende verktøykjeder inkluderer eksplisitte referanser til både NVIDIA- og ikke-NVIDIA GPU-backend-er. Prosjektets anbefalinger for inferens og fellesskapsverktøy viser kompatibilitet med CUDA-baserte kjøretider samtidig som de også støtter alternativer (OpenCL/ROCm eller CPU-fallback) der det er mulig. Tilstedeværelsen av optimaliseringsbaner og veiledning i README for CUDA-enheter er direkte bevis på at NVIDIA-GPU-er er et førsteklasses utrullingsmål for praktikere som kjører DeepSeek-modeller.

Den offisielle linjen: H800-klyngen

Ifølge DeepSeeks offisielle tekniske rapport ble treningen av DeepSeek-V3 gjennomført på en klynge med 2,048 Nvidia H800 GPU-er. Dette er et avgjørende skille. H800 er en «sanksjonskompatibel» versjon av den kraftige H100 (Hopper-arkitektur), spesifikt designet av Nvidia for å oppfylle Det amerikanske handelsdepartementets eksportkontroller for Kina.

Selv om H800 beholder den samme rå beregningskraften (FP8/FP16 tensor-kjerne-ytelse) som H100, er dens sammenkoblingsbåndbredde (hastigheten som brikkene kommuniserer med) betydelig strupet—kuttet ned til omtrent 400 GB/s sammenlignet med H100s 900 GB/s. I massive KI-treningsklynger er denne båndbredden vanligvis flaskehalsen, noe som gjør DeepSeeks prestasjon enda mer forvirrende og imponerende for vestlige observatører.

Hvordan trente DeepSeek V3 så effektivt?

Det mest oppsiktsvekkende tallet fra DeepSeek-V3-lanseringen er ikke deres benchmark-poeng, men prislappen: $5.58 million i treningskostnader. Til sammenligning er det anslått at treningen av GPT-4 kostet over $100 million. Hvordan er denne størrelsesorden-reduksjonen mulig på «underlegen» H800-maskinvare?

Arkitektonisk innovasjon: Mixture-of-Experts (MoE)

DeepSeek benytter en Mixture-of-Experts (MoE)-arkitektur. I motsetning til en tett modell (som Llama 3), der hver parameter er aktiv for hvert generert token, deler en MoE-modell nettverket opp i mindre «eksperter».

Totalt antall parametere: 671 milliarder
Aktive parametere: 37 milliarder

For hver dataporsjon som behandles, lager modellen en dynamisk rute og aktiverer bare en bitteliten brøkdel av sin totale «hjerne»-kraft. Dette reduserer dramatisk antall flyttallsoperasjoner (FLOPs) som kreves, slik at H800-ene kan prosessere data raskere til tross for deres båndbreddebegrensninger.

Å overvinne båndbreddeflaskehalsen med MLA

For å motvirke H800s strupede sammenkoblingshastighet introduserte DeepSeek Multi-head Latent Attention (MLA). Standard oppmerksomhetsmekanismer (Key-Value-caching) bruker enorme mengder minnebåndbredde. MLA komprimerer denne Key-Value (KV)-cachen til en latent vektor, noe som reduserer minnefotavtrykket og mengden data som må flyttes mellom GPU-er betydelig.

Dette arkitektoniske valget «hacker» i praksis maskinvarebegrensningen. Ved å kreve mindre databevegelse blir den tregere sammenkoblingen til H800 langt mindre problematisk.

Dual-Pipe-kommunikasjon og overlapping

DeepSeeks ingeniørteam skrev egendefinerte CUDA-kjerner for å håndtere kommunikasjonen. De implementerte en Dual-Pipe-strategi som perfekt overlapper beregning med kommunikasjon. Mens GPU-kjernene knuser tall (beregning), overføres neste batch med data allerede i bakgrunnen (kommunikasjon). Dette sikrer at de dyre GPU-kjernene aldri står uvirksomme og venter på data, og presser ut hver dråpe ytelse fra maskinvaren.

Påvirkes DeepSeek av USAs eksportkontroller?

Den geopolitiske dimensjonen ved DeepSeeks maskinvarebruk er like kompleks som ingeniørkunsten.

«Katt-og-mus»-leken

USAs regjering, spesielt Department of Commerce, har strammet grepet om AI-brikkeeksport til Kina. H800, som DeepSeek brukte, var lovlig å kjøpe i 2023, men ble deretter forbudt i oppdateringer sent i 2023.

Dette setter DeepSeek i en prekær situasjon. Deres nåværende klynge er sannsynligvis en «legacy»-ressurs kjøpt før forbudet. Å skalere opp for en fremtidig «DeepSeek-V4» eller «V5» blir betydelig vanskeligere hvis de ikke lovlig kan anskaffe mer Nvidia-silisium. Dette har fyrt opp rykter om at de kan se mot alternative forsyningskjeder eller innenlandske kinesiske brikker (som Huaweis Ascend-serie), selv om Nvidia forblir gullstandarden for treningsstabilitet.

Etterforskninger fra USA

USA undersøker aktivt om DeepSeek omgåtte kontrollene for å skaffe restriktede brikker. Hvis det dukker opp bevis for at de brukte ulovlig anskaffede H100-er, kan det føre til harde sanksjoner mot selskapet og dets leverandører. Men hvis de virkelig oppnådde denne ytelsen på kompatible H800-er, antyder det at USAs eksportkontroller kan være mindre effektive til å bremse kinesisk KI-fremgang enn politikere hadde håpet—noe som kan tvinge fram en revurdering av «maskinvareblokade»-strategien.

Hva er maskinvarekravene for brukere?

For utviklere og API-aggregatorer (som CometAPI) er treningsmaskinvaren mindre relevant enn inferensmaskinvaren—hva du trenger for å kjøre modellen.

DeepSeek API vs. lokal hosting

På grunn av den enorme størrelsen på DeepSeek-V3 (671B parametere) er det umulig for de fleste å kjøre hele modellen lokalt. Den krever omtrent 1.5 TB VRAM i FP16-presisjon, eller rundt 700 GB i 8-bits kvantisering. Dette krever en 8x H100- eller A100-servernode.

Derimot er DeepSeek-R1-Distill-versjonene (basert på Llama og Qwen) mye mindre og kan kjøres på forbrukermaskinvare.

Kode: Kjøre DeepSeek lokalt

Nedenfor er et profesjonelt Python-eksempel som viser hvordan du laster en kvantisert versjon av en DeepSeek-destillert modell ved hjelp av transformers-biblioteket. Dette er optimalisert for en maskin med en enkelt Nvidia RTX 3090 eller 4090.

python

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

# Configuration for 4-bit quantization to fit on consumer GPUs
# Requires 'bitsandbytes' and 'accelerate' libraries
model_name = "deepseek-ai/DeepSeek-R1-Distill-Llama-8B"

print(f"Loading {model_name} with 4-bit quantization...")

try:
    tokenizer = AutoTokenizer.from_pretrained(model_name)
    
    model = AutoModelForCausalLM.from_pretrained(
        model_name,
        torch_dtype=torch.float16,
        device_map="auto",
        load_in_4bit=True,  # 4-bit quantization for memory efficiency
        bnb_4bit_compute_dtype=torch.float16
    )
    
    print("Model loaded successfully.")

    # Example Inference Function
    def generate_thought(prompt):
        inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
        
        outputs = model.generate(
            **inputs,
            max_new_tokens=512,
            temperature=0.6,
            top_p=0.9
        )
        
        return tokenizer.decode(outputs[0], skip_special_tokens=True)

    # Test the model
    user_query = "Explain the significance of FP8 training in AI."
    response = generate_thought(user_query)
    
    print("\n--- Model Response ---\n")
    print(response)

except Exception as e:
    print(f"An error occurred: {e}")

Kode: Integrere DeepSeek API

For den fullstendige 671B-modellen er bruk av API standardtilnærmingen. DeepSeeks API er fullt kompatibel med OpenAI SDK, noe som gjør migrering sømløs for utviklere.

Hvis du ser etter en rimeligere Deepseek-API, er CometAPI et godt alternativ.

from openai import OpenAI
import os

# Initialize the client with DeepSeek's base URL and your API key
# Ensure DEEPSEEK_API_KEY is set in your environment variables
client = OpenAI(
    api_key=os.getenv("cometapi_API_KEY"), 
    base_url="https://api.cometapi.com"
)
def query_deepseek_reasoner(prompt):
    """
    Queries the DeepSeek-R1 (Reasoner) model.
    Note: The reasoner model outputs a 'Chain of Thought' before the final answer.
    [...](asc_slot://start-slot-15)"""
    try:
        response = client.chat.completions.create(
            model="deepseek-reasoner",  # Specific model tag for R1
            messages=[
                {"role": "system", "content": "You are a helpful AI expert."},
                {"role": "user", "content": prompt},
            ],
            stream=False
        )
        
        # Extracting the reasoning content (if available) and the final content
        reasoning = response.choices[0].message.reasoning_content
        answer = response.choices[0].message.content
        
        return reasoning, answer

    except Exception as e:
        return None, f"API Error: {e}"

# Example Usage
prompt_text = "Analyze the trade-offs between H100 and H800 GPUs for MoE models."
chain_of_thought, final_answer = query_deepseek_reasoner(prompt_text)

print(f"--- Chain of Thought ---\n{chain_of_thought[:500]}...\n") # Preview first 500 chars
print(f"--- Final Answer ---\n{final_answer}")

Vil DeepSeeks suksess avslutte Nvidia-monopolet?

Dette er milliardspørsmålet som fikk Nvidia-aksjen til å duppe. Hvis et laboratorium kan produsere resultater i verdenstoppen på «restriktert» eller eldre maskinvare ved hjelp av smart programvare (MoE, MLA), trenger verden egentlig å bruke billioner på de aller nyeste H100-ene og Blackwell-brikkene?

Debatten «Programvare vs. maskinvare»

DeepSeek har bevist at programvareoptimalisering er et levedyktig substitutt for ren maskinvare-brutalitet. Ved å optimalisere «samutforming av modell og maskinvare» oppnådde de bedre resultater enn konkurrenter som bare kastet mer beregning på problemet.

Dette betyr imidlertid ikke slutten for Nvidia.

Faktisk kan det forsterke deres dominans. DeepSeek brukte fortsatt Nvidia CUDA-kjerner; de brukte dem bare mer effektivt. «Vollgraven» Nvidia besitter er ikke bare chiphastigheten, men CUDA-programvareøkosystemet. DeepSeeks ingeniører er mestre i CUDA og skriver lavnivå-kjerner for å omgå maskinvarebegrensninger. Denne avhengigheten av Nvidias programvarestakk sementerer selskapets posisjon, selv om antallet brikker som kreves per modell kan synke noe på grunn av effektivitetsgevinster.

Konklusjon

Den beste tolkningen av det offentlige bildet i dag er at DeepSeek både har brukt NVIDIA-GPU-er på meningsfulle måter (trening og inferens) og også har utforsket alternative innenlandske maskinvarevalg. NVIDIA har integrert DeepSeek-modeller i sitt NIM-inferensøkosystem og publisert ytelsespåstander og utviklerverktøy for å kjøre disse modellene effektivt på NVIDIA-plattformer. Forsøk på å gå fullt over til innenlandske akseleratorer avdekker hvor vanskelig det er å erstatte et modent maskinvare-programvareøkosystem over natten: Maskinvare alene er ikke nok — programvarestakken, sammenkoblinger og produksjonsklare verktøy er like avgjørende.

Utviklere kan få tilgang til Deepseek API som Deepseek V3.2 via CometAPI. De nyeste modellene er listet per artikkelens publiseringsdato. For å komme i gang, utforsk modellens evner i Playground og se API-veiledningen for detaljerte instruksjoner. Før tilgang, sørg for at du har logget inn på CometAPI og fått API-nøkkelen. CometAPI tilbyr en pris langt lavere enn den offisielle for å hjelpe deg med integrasjonen.

Bruk CometAPI for å få tilgang til chatgpt-modeller, begynn å handle!

Klar til å starte?→ Registrer deg for deepseek API i dag!

Hvis du vil ha flere tips, guider og nyheter om KI, følg oss på VK, X og Discord!