Slik kjører du DeepSeek-V3.1 på din lokale enhet

CometAPI
AnnaSep 1, 2025
Slik kjører du DeepSeek-V3.1 på din lokale enhet

DeepSeek-V3.1 er en hybrid Mixture-of-Experts (MoE) chatmodell utgitt av DeepSeek i august 2025 som støtter to inferensmoduser — en rask «ikke-tenkende»-modus og en bevisst «tenkende»-modus — fra samme sjekkpunkt. Modellen er tilgjengelig på Hugging Face og kan kjøres lokalt via flere stier (vLLM, Ollama/llama.cpp, Ollama-stil GGUF-er eller storskala multi-GPU-oppsett). Nedenfor går jeg gjennom krav, hvordan tenkemodusen fungerer, flere lokale kjørealternativer (med kjørbare kodestykker) og en trinnvis «Tenkemodusdistribusjon»-oppskrift med eksempler på verktøykall og tokenmaler.

Hva er DeepSeek-V3.1, og hvorfor er det viktig?

DeepSeek-V3.1 er v3-familieoppdateringen fra DeepSeek som introduserer en hybrid inferensdesignden samme modellen kan kjøres i tenker (bevisst, flertrinns) eller ikke-tenkende (direkte svar, raskere) moduser ved å endre chatmalen. Arkitektonisk sett er det en stor MoE-familie (basissjekkpunkt rundt 671 milliarder totale parametere, ~37 milliarder aktivert per token) med langkonteksttrening utvidet til 128 8 tokener og støtte for FP3.1-mikroskalering. DeepSeek posisjonerte V1 som en agentklar utgivelse: bedre verktøykall, forbedrede agentferdigheter og høyere tenkeeffektivitet sammenlignet med tidligere R2025-utgivelser. Utgivelsen ble annonsert i august XNUMX og har blitt integrert i Hugging Face, CFD/OSS-verktøy og skydistribusjonsveiledninger.

Hvordan hybridmodellen fungerer (kortfattet)

  • Ett kontrollpunkt, to maler: Tenknings- vs. ikke-tenkningsmoduser styres av chatmal og en <think>/</think> tokenkonvensjonen i ledeteksten. Modellkortet dokumenterer de nøyaktige prefiksene.
  • Forbedringer av agenter/verktøy: Boosts etter trening muliggjør smartere verktøykall – modellen forventer et strengt JSON-format for verktøykall for sikker, deterministisk verktøyutførelse.
  • Ytelsesavveininger: Tenkemodus bruker tokens på intern tankekjede-lignende resonnering og kan være tregere/mer tokenintensiv; ikke-tenking er raskere og billigere. Referanseverdier i modellkortet viser betydelige forbedringer på tvers av resonnering og kodereferanseverdier for V3.1.

Hvordan modellen er strukturert

  • MoE-ryggrad: stort totalt antall parametere med et mindre aktivert delsett per token (økonomisk inferens).
  • LangkonteksttreningV3.1 utvider langkontekstfaser betydelig (32k → større trening på lange dokumenter) for å støtte 128K+ vinduer i noen bygg.
  • FP8 innebygd arbeidsflytDeepSeek bruker FP8-formater i stor grad (w8a8 / UE8M0) for vekt-/aktiveringseffektivitet; konverteringsskript fra fellesskapet finnes hvis du foretrekker BF16/FP16.

Hva er kravene for å kjøre DeepSeek-V3.1 lokalt? (Maskinvare, lagring og programvare)

Kjører fullt V3.1-modellen (ukvantisert) er et stort prosjekt. Nedenfor finner du realistiske kategorier av oppsett og hva de vanligvis krever.

Praktiske bøtter

  • **Klynge / forskningslaboratorium (full modell)**flere GPU-er med høyt minne (H100/H800-klassen eller mange Ada/Hopper-GPU-er), multinode med titalls GPU-er, mye NVMe-lagring (hundrevis av GB) og spesialiserte inferensrammeverk (SGLang, vLLM, LMDeploy, TRT-LLM).
  • **Enkeltserver-high-end (kvantisert)**mulig med kraftig kvantisering (INT4/AWQ/AWQ2/gguf) og rammeverk som Ollama (forhåndspakket) eller fellesskaps-GGUF-er – krever fortsatt ~titalls til hundrevis av GB GPU-RAM eller smart CPU+GPU-avlastning.
  • Utvikler-laptop / utviklerboksikke gjennomførbart for full modell; bruk små destillerte/finjusterte varianter eller koble til lokal server/Ollama-instans.

Sjekkliste for maskinvare (praktisk)

  • GPUFor reell inferensgjennomstrømning av full V3.1: multi-GPU-klynger (H100 / H800 / Ada Lovelace+). For FP8-kjøring trengs GPU-er med beregningskapasitet og driverstøtte.
  • RAM og lagringForvent hundrevis av GB ledig diskplass for modellfilene (modellsidene viser noen hundre GB avhengig av format/kvantisering), pluss arbeidsplass for konverterte formater. Ollama-metadata viser et fotavtrykk på ~400 GB for en DeepSeek V3.1 Ollama-pakke i biblioteket.
  • NetworkFor inferens med flere noder trenger du sammenkoblinger med lav latens (NVLink / InfiniBand) og orkestreringsverktøy for tensor-parallelle oppsett.

Programvare sjekkliste

  • OSLinux anbefales for verktøy for fellesskapsslutning (DeepSeek-Infer-demoen viser Linux/Python).
  • Python: 3.10+ (i mange DeepSeek-eksempler). Typiske pakkeversjoner er festet i repositoriet requirements.txt.
  • Rammeverk og verktøy (velg én eller flere): SGLang, vLLM, LMDeploy, TRT-LLM/TensorRT-LLM, LightLLM eller Ollama for enklere lokale installasjoner. Hver har instruksjoner og ulik støtte for presisjon/kvantisering.

Praktisk merknad: Hvis du bare har én forbruker-GPU (f.eks. 24–48 GB), vil du sannsynligvis bruke kvantiserte GGUF-er eller ekstern inferens. Hvis du har en arbeidsstasjon med >128 GB RAM pluss en GPU-klynge i H100/H200-klassen, kan du sikte mot FP8/FP16-inferens med høyere kvalitet med vLLM.


Hvordan kjører jeg DeepSeek-V3.1 lokalt?

Nedenfor finner du flere praktiske veier du kan bruke, fra den mest manuelle/fleksible til den enkleste veien for en enkelt utviklerboks. Jeg vil gi trinnvise veiledninger og kodeeksempler.


Alternativ A – Offisiell DeepSeek-Infer-demo (utviklings-/klyngesti)

Dette er repoets eksempel/demo for FP8/BF16-inferens. Bruk det hvis du planlegger flernode- eller ønsker å eksperimentere med den offisielle inferenskoden.

  1. Klon, klargjør miljø
git clone https://github.com/deepseek-ai/DeepSeek-V3.git
cd DeepSeek-V3/inference
# Create a dedicated venv / conda env

python -m venv venv && source venv/bin/activate
pip install -r requirements.txt

(Depot inference/requirements.txt lister opp festede fakkel-/triton-/transformatorversjoner anbefalt av teamet.)

  1. Last ned modellvekter
  • Last ned fra siden for klemmende ansikt-modellen (deepseek-ai/DeepSeek-V3.1) og plasser dem under /path/to/DeepSeek-V3Modellkortet og depotet viser begge de offisielle lagringslenkene for Hugging Face.
  1. Konverter vekter for demo
# example conversion command shown in the repo

python convert.py --hf-ckpt-path /path/to/DeepSeek-V3 --save-path /path/to/DeepSeek-V3-Demo --n-experts 256 --model-parallel 16
  1. Kjør interaktiv generering (distribuert)
torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR \
  generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json \
  --interactive --temperature 0.7 --max-new-tokens 200

Dette er det kanoniske eksemplet fra DeepSeek-repoet for kjøringer i klyngestil.


Alternativ B – vLLM (anbefales for serverdistribusjoner og OpenAI-kompatibelt API)

vLLM støtter DeepSeek i FP8/BF16-moduser og gir deg en OpenAI-kompatibel server. Det er en populær produksjonsvei for store modeller på grunn av minneoptimaliseringer og API-kompatibilitet.

Start en vLLM-server som henter modellen fra Hugging Face (eksempelmønster):

# this will download/serve the model (replace with exact model id if needed)

vllm serve deepseek-ai/DeepSeek-V3.1 --host 0.0.0.0 --port 8000

Be deretter om fullføringer med curl eller en OpenAI-kompatibel klient:

curl -s -X POST "http://localhost:8000/v1/completions" \
  -H "Content-Type: application/json" \
  -d '{"model":"DeepSeek-V3.1","prompt":"Explain the QuickSort algorithm", "max_tokens":200}'

vLLM-oppskrifter og -dokumentasjon inkluderer DeepSeek-eksempler og notater om FP8-kompatibilitet og parallellisme mellom flere GPU-er/pipeline-enheter. For tunge modeller trenger du fortsatt flere GPU-er eller en kvantisert variant.


Alternativ C — LMDeploy / SGLang / LightLLM og TensorRT-LLM (høy ytelse)

DeepSeek-depotet anbefaler eksplisitt SGLang, LMDeployog TensorRT-LLM som optimaliserte motorer for DeepSeek V3. De gir forbedret inferensforsinkelse, gjennomstrømning og FP8-kjerner.

En typisk LMDeploy-påkalling (se LMDeploy-dokumentasjonen for nøyaktig CLI):

# pseudo-example; refer to LMDeploy docs for exact options

lmdeploy serve --model /path/to/deepseek_v3.1 --precision fp8 --port 8080

SGLang-benchmarks og lanseringsoppskrifter er tilgjengelige i repoet og i SGLang-prosjektets benchmark/deepseek_v3 mappe. Bruk disse stablene når du kontrollerer en GPU-klynge og ønsker produksjonsgjennomstrømning.


Alternativ D – Ollama (den enkleste lokale utviklingsruten, ofte én maskin)

Hvis du vil ha den lavest mulige friksjonsmåten for å kjøre DeepSeek lokalt (og du kan spare disken), Ollama tilbyr pakkede modeller og et enkelt CLI (ollama pull, ollama runDeepSeek-V3.1 finnes i Ollama-biblioteket og kan kjøres lokalt (Ollama kan kreve en nyere/forhåndsversjon for enkelte funksjoner).

Eksempel (Ollama CLI):

# Pull the model (downloads the model artifacts to your disk)

ollama pull deepseek-v3.1

# Start an interactive session:

ollama run deepseek-v3.1

# Or run as a local API server (Ollama supports a local API)

# Example: POSTing to Ollama's local API (adjust host/port to your setup)
curl -X POST http://localhost:11434/api/generate \
  -H 'Content-Type: application/json' \
  -d '{"model":"deepseek-v3.1","prompt":"Summarize the following paper: ..."}'

Ollama abstraherer mange distribusjons-/kvantiseringsdetaljer og kan være en fin måte å teste modelloppførsel på en enkelt vert. Merk: modellsiden viser en pakket størrelse på ~404 GB for Ollama-oppføringen, så planlegg disk og RAM deretter.


Hva er tenkemodus og hvordan bruker man den

DeepSeek-V3.1 implementerer en hybrid tenkningstoken tilnærming: samme kontrollpunkt kan kjøre inn tenker modus (interne «tankekjede»-tokens) eller ikke-tenkende modus ved å bytte chat-/ledetekstmal. Modellen bruker eksplisitte tokener som <think> (og lukking </think> (i noen maler) for å signalisere intern tankekjede kontra direkte svargenerering. Modellkortet dokumenterer prefikser for ikke-tenkning og tenkning og viser hvordan maler er forskjellige.

Eksempel: konstruere en melding i Python (tokenizer-hjelper)

Modellkortet for klemfjes inneholder et nyttig utdrag som viser hvordan du bruker chatmalen via tokenizeren. Dette er det anbefalte mønsteret for generering. tenker or ikke-tenkende formaterte ledetekster:

import transformers
tokenizer = transformers.AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-V3.1")

messages = [
    {"role": "system", "content": "You are a helpful assistant"},
    {"role": "user", "content": "Who are you?"},
    {"role": "assistant", "content": "<think>Hmm</think>I am DeepSeek"},
    {"role": "user", "content": "1+1=?"}
]

# Thinking mode

tokenizer.apply_chat_template(messages, tokenize=False, thinking=True, add_generation_prompt=True)

# Non-thinking mode

tokenizer.apply_chat_template(messages, tokenize=False, thinking=False, add_generation_prompt=True)

Bytte om thinking=True å lage en ledetekst som bruker <think> prefiks; thinking=False produserer den ikke-tenkende malen. Modellen vil oppføre seg annerledes (intern overveielse kontra umiddelbar respons) avhengig av dette flagget.


Hurtigreferanse – liten feilsøking og beste praksis

Hvis du går tom for GPU-minne: Prøv kvantiserte bygg (AWQ/q4/INT4) eller fellesskaps-GGUF-er; mange fellesskapsområder publiserer kvantiseringer for lokal bruk. Ollama / vLLM kan også betjene mindre kvantiserte bygg.

Hvis du trenger at modellen skal kalle eksterne verktøy: Vedta Verktøyanrop skjemaet i chatmalen nøyaktig. Test verktøyets JSON-format offline og sjekk at orkestreringskoden din (delen som kjører verktøyet) returnerer renset, skrevet JSON tilbake til modellen.

Hvis du trenger lang kontekst: Bruk vLLM eller SGLang med plugins for lang kontekst; DeepSeek ble eksplisitt trent/utvidet for 32K/128K kontekster, og relatert verktøy støtter det vinduet. Forvent minneavveininger.

Kan jeg faktisk kjøre DeepSeek-V3.1 på en bærbar PC eller en liten server?

Kort svar: Ja, men med forbehold. Fellesskapskvantiseringer (AWQ/GGUF/1-bit dynamic) reduserer lagrings- og minneforbruket drastisk og har gjort det mulig for hobbybrukere å kjøre V3.1-varianter på avanserte stasjonære datamaskiner (påstander om ~170 GB arbeidssett). Imidlertid:

  • Avveining mellom kvalitet og størrelse: Aggressiv kvantisering reduserer minne, men kan påvirke resonnement/kodeytelse. Test på arbeidsbelastningene dine.
  • Juridisk og lisensiering: Modellen er MIT-lisensiert i henhold til modellkortet, men tredjeparts kvantiseringer kan ha sine egne lisenser; gjennomgå dem før produksjonsbruk.

Siste ord

DeepSeek-V3.1 er et betydelig skritt mot hybride «agent»-modeller med eksplisitt tenkende/ikke-tenkende atferd og forbedret verktøybruk. Hvis du vil kjøre det lokalt, velg en bane som samsvarer med maskinvaren og risikotoleransen din:

For forskning: transformers + kvantiserte sikkerhetstenors og akselerer.

For produksjon og gjennomstrømning: vLLM + multi-GPU (H100/H200).

For lokale eksperimenter: Ollama/llama.cpp + fellesskaps-GGUF-er (slå sammen + kjør).

Komme i gang

CometAPI er en enhetlig API-plattform som samler over 500 AI-modeller fra ledende leverandører – som OpenAIs GPT-serie, Googles Gemini, Anthropics Claude, Midjourney, Suno og flere – i ett enkelt, utviklervennlig grensesnitt. Ved å tilby konsistent autentisering, forespørselsformatering og svarhåndtering, forenkler CometAPI dramatisk integreringen av AI-funksjoner i applikasjonene dine. Enten du bygger chatboter, bildegeneratorer, musikkomponister eller datadrevne analysepipeliner, lar CometAPI deg iterere raskere, kontrollere kostnader og forbli leverandøruavhengig – alt samtidig som du utnytter de nyeste gjennombruddene på tvers av AI-økosystemet.

Utviklere har tilgang DeepSeek-V3.1 Gjennom CometAPI er de nyeste modellversjonene som er oppført per artikkelens publiseringsdato. For å begynne, utforsk modellens muligheter i lekeplass og konsulter API-veiledning for detaljerte instruksjoner. Før du får tilgang, må du sørge for at du har logget inn på CometAPI og fått API-nøkkelen. CometAPI tilby en pris som er langt lavere enn den offisielle prisen for å hjelpe deg med å integrere.

Les mer

500+ modeller i ett API

Opptil 20 % rabatt