Hvor mye koster det å kjøre DeepSeek R1

DeepSeek R1 har raskt blitt en av de mest kapable åpen kildekode-resonneringsmodellene, med imponerende resultater innen matematikk, koding og kompleks instruksjonsoppfølging. Likevel krever det en klar forståelse av beregningsressursene og kostnadene som er involvert for å utnytte det fulle potensialet. Denne artikkelen fordyper seg i «hvor mye man skal kjøre DeepSeek R1», og utforsker arkitekturen, maskinvarekravene, inferenskostnadene og praktiske strategier for å optimalisere utrullingen.

Hva er DeepSeek R1, og hvorfor er det unikt?

DeepSeek R1 er en flaggskipmodell med åpen kildekode utviklet av DeepSeek, en kinesisk AI-oppstartsbedrift grunnlagt i 2023. I motsetning til mange store språkmodeller som hovedsakelig er avhengige av veiledet forhåndstrening, er R1 bygget ved hjelp av en to-trinns forsterkningslæringstilnærming, som muliggjør selvutvikling gjennom autonom utforskningDen oppnår ytelse på nivå med ledende proprietære tilbud som OpenAIs o1-modell, spesielt i oppgaver som involverer matematikk, kodegenerering og kompleks resonnering.

Modellparametere og design med blanding av eksperter

Totale parametere671 milliarder, noe som gjør den til en av de største Mixture-of-Experts (MoE)-modellene med åpen kildekode.
Aktive parametere per inferensOmtrent 37 milliarder, takket være MoE-arkitekturen, som selektivt aktiverer kun relevante «ekspert»-undernettverk per token.
KontekstvinduOpptil 163 840 tokens, slik at den kan håndtere usedvanlig lange dokumenter i én omgang.

Treningsregime og lisensiering

DeepSeek R1s treningspipeline integrerer:

Kaldstart-overvåket fortrening på kuraterte datasett for å bootstrappe språkflyt.
Flertrinns forsterkningslæring, hvor modellen genererer resonnementskjeder og selvevaluerer for å forbedre sine evner.
En fullt ut MIT-lisensiert, åpen kildekode-utgivelse som tillater kommersiell bruk og modifisering, reduserer barrierer for adopsjon og fremmer bidrag fra lokalsamfunnet.

Hvordan påvirker den siste tidens utvikling kostnadseffektivitet?

Italias etterforskning og potensielle etterlevelseskostnader

juni åpnet Italias antitrustmyndighet en etterforskning av DeepSeek for utilstrekkelige brukeradvarsler om hallusinasjoner – villedende eller falske utdata – som potensielt kan føre til bøter eller obligatoriske åpenhetstiltak. Eventuelle samsvarskrav (f.eks. advarsler i apper, brukersamtykkeflyter) kan øke utviklingskostnadene og føre til en marginal økning i kostnader per forespørsel.

Forbedringer og ytelsesøkninger i DeepSeek R1-0528

For bare tre uker siden lanserte DeepSeek DeepSeek R1‑0528, en trinnvis oppdatering fokusert på reduserte hallusinasjoner, JSON-funksjonskall og forbedringer av referansepunkter (). Disse optimaliseringene gir høyere nøyaktighet per token, noe som betyr færre nye forsøk og kortere ledetekster – noe som direkte oversettes til lavere tokenfakturering og GPU-utnyttelse per vellykket interaksjon.

Bedriftsintegrasjoner og volumrabatter

Microsoft integrerte raskt R1 i sitt Copilot-økosystem og lokale Windows-distribusjoner, og reforhandlet OpenAI-partnerskap for å tillate modellfleksibilitet på tvers av produktene sine (). Slike volumforpliktelser gir ofte mulighet for nivåbaserte rabatter – bedrifter som inngår kontrakter om millioner av tokens per måned kan sikre seg 10–30 % rabatt på listepriser, noe som ytterligere reduserer gjennomsnittskostnadene.

Hvor mye maskinvare krever DeepSeek R1 for inferens?

Det er ikke trivielt å kjøre fullpresisjonsmodellen 671 B-parameter. DeepSeeks MoE-struktur reduserer beregning per token, men lagring og lasting av alle parametere krever fortsatt betydelige ressurser.

Fullpresisjonsdistribusjon

Samlet VRAMOver 1.5 TB GPU-minne fordelt på flere enheter.
Anbefalte GPU-er16 × NVIDIA A100 80 GB eller 8 × NVIDIA H100 80 GB, sammenkoblet via høyhastighets InfiniBand for modellparallellisme.
Systemminne og lagring≥ 8 TB DDR4/DDR5 RAM for aktiveringsbuffere og ~1.5 TB høyhastighets SSD/NVMe for vektlagring og kontrollpunkt.

Kvantiserte og destillerte varianter

For å demokratisere tilgangen har fellesskapet laget mindre, optimaliserte kontrollpunkter:

4-bit AWQ-kvantiseringReduserer VRAM-krav med ~75 %, noe som muliggjør inferens på 6 × A100 80 GB eller enda 4 × A100 i noen konfigurasjoner.
GGUF-destillerte modellerTette varianter ved parameterne 32 B, 14 B, 7 B og 1.5 B tillater implementering av én GPU (f.eks. RTX 4090 24 GB for 14 B, RTX 3060 12 GB for 7 B) samtidig som ~90 % av R1s resonneringsytelse beholdes.
Finjustering av LoRA/PEFTParametereffektive metoder for nedstrømsoppgaver som unngår å trene hele modellen på nytt og reduserer lagring med > 95 %.

Hva er inferenskostnadene på tokennivå for DeepSeek R1?

Enten det kjøres i skyen eller lokalt, er det viktig å forstå priser per token for budsjettering.

Prissetting av Cloud API

Skriv inn tokens0.45 dollar per 1 million
Output tokens2.15 dollar per 1 million.

Dermed koster en balansert spørring med 1 input + 000 output ~$1, mens tung bruk (f.eks. 000 0.0026 tokens/dag) koster $100/dag eller $000/måned.

Kostnad for lokal beregning

Estimering av CAPEX/OPEX:

CAPEX for maskinvareEn klynge med flere GPU-er (f.eks. 8 × A100 80 GB) koster ≈ $200 000–$300 000, inkludert servere, nettverk og lagring.
Energi og kjølingVed ~1.5 MW-time/dag legger strøm- og datasenterkostnader til $100–$200/dag.
amortiseringOver en livssyklus på 3 år kan tokenkostnadene være ~$0.50–$1.00 per 1 million tokens, eksklusive bemanning og vedlikehold.

Hvordan kan kvantisering og destillasjon redusere utrullingskostnader?

Optimaliseringsteknikker reduserer både maskinvare- og tokenutgifter dramatisk.

AWQ (4-bit) kvantisering

MinnereduksjonFra ~1 543 GB til ~436 GB VRAM for 671 B-modellen, noe som muliggjør færre GPU-er og reduserer energiforbruket med ~60 %.
Ytelsesavveining< 2 % reduksjon i referansepunktsnøyaktighet på tvers av matematikk-, kode- og resonneringsoppgaver.

GGUF-destillerte modeller

Modellstørrelser: 32 B, 14 B, 7 B og 1.5 B parametere.
Maskinvaretilpasning:
32 B → 4 × RTX 4090 (24 GB VRAM)
14 B → 1 × RTX 4090 (24 GB VRAM)
7 B → 1 × RTX 3060 (12 GB VRAM)
1.5 B → 1 × RTX 3050 (8 GB VRAM).
Nøyaktighetsbevaring~90–95 % av ytelsen til fullmodellen, noe som gjør disse variantene ideelle for kostnadssensitive oppgaver.

Hvordan er kostnadene og ytelsen til DeepSeek R1 sammenlignet med andre ledende modeller?

Organisasjoner veier ofte åpen kildekode-løsninger opp mot proprietære alternativer.

Kostnadssammenligning

Modell	Inndata ($/1 M tok)	Produksjon ($/1 million tok)	Merknader
DeepSeek R1	0.45	2.15	Åpen kildekode, lokalt alternativ
OpenAI o1	0.40	1.20	Proprietær, administrert tjeneste
Claude Sonnet 4	2.4	12.00	SLA-støttet, bedriftsfokus
Gemini 2.5 Pro	1.00	8.00	Høyeste ytelse, høyeste kostnad

Ytelsesbenchmarks

MMLU og GSM8KR1 samsvarer med o1 innenfor 1–2 % på matematikk- og resonneringsmålinger.
KodeoppgaverR1 yter bedre enn mange mindre åpne modeller, men ligger ~4 % bak GPT-5.

Ocuco åpen kildekode-lisens endrer avkastningen ytterligere, ettersom brukerne unngår samtaleavgifter og får full kontroll over infrastrukturen sin.

Hvilke serveringsrammeverk og strategier optimaliserer inferensgjennomstrømning?

Å oppnå kostnadseffektiv skalering innebærer mer enn bare maskinvare.

Høykapasitets inferensservere

vLLMGrupperer forespørsler, gjenbruker nøkkel-/verdibuffere, dobler tokener/sek per GPU.
Ollama og llama.cppLette C++-kjøretider for kvantiserte GGUF-modeller på kantenheter.
Rask oppmerksomhet biblioteker**: Kjerneoptimaliseringer som reduserer latens med ~30 %.

Parametereffektiv finjustering (PEFT)

LoRA-adaptereLegg til < 1 % parameteroppdateringer, noe som reduserer diskbruken fra 1.5 TB til < 20 GB.
BitFit og prefiksjustering: Reduserer beregningshastigheten ytterligere samtidig som domenespesifikk nøyaktighet beholdes.

Komme i gang

CometAPI tilbyr et enhetlig REST-grensesnitt som samler hundrevis av AI-modeller – under et konsistent endepunkt, med innebygd API-nøkkeladministrasjon, brukskvoter og faktureringsdashboards. I stedet for å sjonglere flere leverandør-URL-er og legitimasjonsinformasjon.

Utviklere kan få tilgang til det nyeste deepseek API-et (Frist for publisering av artikkelen): DeepSeek R1 API (modellnavn: deepseek-r1-0528)gjennom CometAPIFor å begynne, utforsk modellens muligheter i lekeplass og konsulter API-veiledning for detaljerte instruksjoner. Før du får tilgang, må du sørge for at du har logget inn på CometAPI og fått API-nøkkelen. CometAPI tilby en pris som er langt lavere enn den offisielle prisen for å hjelpe deg med å integrere.

Å kjøre DeepSeek R1 innebærer en balanse mellom uovertruffen resonneringsevne og betydelige ressursforpliktelserEn fullpresisjonsdistribusjon krever hundretusenvis av kroner i maskinvare-CAPEX og gir inferenskostnader på $0.45–$2.15 per million tokens, mens optimaliserte varianter reduserer både GPU-antall og avgifter på tokennivå med opptil 75 %. For team innen vitenskapelig databehandling, kodegenerering og bedrifts-AI kan muligheten til å være vert for en førsteklasses, åpen kildekode-resonnementsmodell – uten leverandørbinding per samtale – rettferdiggjøre investeringen. Ved å forstå R1s arkitektur, kostnadsstruktur og optimaliseringsstrategier kan utøvere skreddersy distribusjoner for å oppnå maksimal verdi og driftseffektivitet.