Jak uruchomić DeepSeek-V3.1 na urządzeniu lokalnym

DeepSeek-V3.1 to hybrydowy model czatu Mixture-of-Experts (MoE) wydany przez DeepSeek w sierpniu 2025 r., który obsługuje dwa tryby wnioskowania — szybki tryb „bezmyślności” i tryb świadomego „myślenia” — z tego samego punktu kontrolnego. Model jest dostępny w Hugging Face i można go uruchomić lokalnie kilkoma ścieżkami (vLLM, Ollama/llama.cpp, GGUF-y w stylu Ollama lub konfiguracje wieloprocesorowe na dużą skalę). Poniżej przedstawiam wymagania, sposób działania trybu myślenia, kilka opcji uruchamiania lokalnego (z fragmentami kodu nadającymi się do uruchomienia) oraz krok po kroku przepis na wdrożenie trybu myślenia z przykładami wywołań narzędzi i szablonami tokenów.

Czym jest DeepSeek-V3.1 i dlaczego jest to takie ważne?

DeepSeek-V3.1 to aktualizacja rodziny v3 firmy DeepSeek, która wprowadza hybrydowy projekt wnioskowania:ten sam model można uruchomić w myślenia (rozważny, wieloetapowy) lub niemyślący (bezpośrednia odpowiedź, szybszy) tryby poprzez zmianę szablonu czatu. Architektonicznie jest to duża rodzina MoE (podstawowy punkt kontrolny o łącznej liczbie parametrów wynoszącej około 671 mld, ~37 mld aktywowanych na token) z treningiem długiego kontekstu rozszerzonym do 128 tys. tokenów i obsługą mikroskalowania FP8. DeepSeek pozycjonuje wersję 3.1 jako wersję gotową do obsługi agentów: lepsze wywoływanie narzędzi, ulepszone umiejętności agentów i wyższa efektywność myślenia w porównaniu z poprzednimi wersjami R1. Wersja została ogłoszona w sierpniu 2025 roku i została zintegrowana z przewodnikami Hugging Face, narzędziami CFD/OSS i wdrożeniami w chmurze.

Jak działa model hybrydowy (w skrócie)

Jeden punkt kontrolny, dwa szablony: Tryby myślenia i niemyślenia są kontrolowane przez szablon czatu oraz <think>/</think> Konwencja tokenów w monicie. Karta modelu dokumentuje dokładne prefiksy.
Ulepszenia agentów/narzędzi: Ulepszenia po szkoleniu umożliwiają inteligentniejsze wywoływanie narzędzi — model oczekuje ścisłego formatu JSON wywołań narzędzi w celu bezpiecznego, deterministycznego wykonywania narzędzi.
Kompromisy w zakresie wydajności: Tryb myślenia zużywa tokeny na wewnętrzne rozumowanie oparte na łańcuchu myślowym i może być wolniejszy/bardziej wymagający tokenów; tryb bezmyślenia jest szybszy i tańszy. Testy porównawcze na karcie modelu pokazują znaczną poprawę w zakresie rozumowania i testów porównawczych kodu dla wersji 3.1.

Jak zbudowany jest model

Szkielet MoE:duża całkowita liczba parametrów z mniejszym aktywowanym podzbiorem na token (wnioskowanie ekonomiczne).
Szkolenie długoterminowe:W wersji 3.1 fazy długiego kontekstu zostały znacząco wydłużone (32 tys. → dłuższe szkolenie na długich dokumentach), co umożliwi obsługę okien o rozmiarze ponad 128 tys. w niektórych kompilacjach.
Natywny przepływ pracy FP8:DeepSeek szeroko wykorzystuje formaty FP8 (w8a8 / UE8M0) w celu zwiększenia wydajności wagi/aktywacji; jeśli wolisz BF16/FP16, dostępne są skrypty konwersji społeczności.

Jakie są wymagania do uruchomienia DeepSeek-V3.1 lokalnie? (sprzęt, pamięć masowa i oprogramowanie)

Uruchomienie pełny Model V3.1 (niekwantyzowany) to duże przedsięwzięcie. Poniżej przedstawiono realistyczne kategorie konfiguracji i ich typowe wymagania.

Praktyczne wiadra

Klaster / laboratorium badawcze (model pełny):wiele procesorów graficznych o dużej pamięci (klasa H100/H800 lub wiele procesorów graficznych Ada/Hopper), wiele węzłów z dziesiątkami procesorów graficznych, duża ilość pamięci masowej NVMe (setki GB) oraz specjalistyczne struktury wnioskowania (SGLang, vLLM, LMDeploy, TRT-LLM).
Pojedynczy serwer high-end (kwantyzowany):możliwe przy użyciu zaawansowanej kwantyzacji (INT4/AWQ/AWQ2/gguf) i struktur takich jak Ollama (wstępnie zapakowane) lub społecznościowych GGUF — nadal wymaga od dziesiątek do setek GB pamięci RAM GPU lub sprytnego odciążenia CPU+GPU.
Laptop/skrzynka deweloperska: niewykonalne w przypadku pełnego modelu; należy użyć mniejszych, bardziej dopracowanych wariantów lub połączyć się z lokalnym serwerem/instancją Ollama.

Lista kontrolna sprzętu (praktyczna)

GPU:Aby uzyskać rzeczywistą przepustowość wnioskowania w pełnej wersji 3.1: klastry wieloprocesorowe (H100 / H800 / Ada Lovelace+). Do wykonania FP8 potrzebne są procesory graficzne z mocą obliczeniową i obsługą sterowników.
Pamięć RAM i pamięć masowa: Spodziewaj się setek GB wolnego miejsca na dysku dla plików modelu (strony modelu podają kilkaset GB w zależności od formatu/kwantyzacji), plus przestrzeń roboczą dla przekonwertowanych formatów. Metadane Ollama podają, że pakiet DeepSeek V400 Ollama zajmuje około 3.1 GB miejsca na dysku.
Sieć:Do wnioskowania wielowęzłowego potrzebne są połączenia o niskim opóźnieniu (NVLink/InfiniBand) i narzędzia do koordynacji dla konfiguracji tensorowo-równoległych.

Lista kontrolna oprogramowania

OS:Linux jest zalecany do narzędzi wnioskowania społecznościowego (wersja demonstracyjna DeepSeek-Infer zawiera listę systemów Linux/Python).
Python: 3.10+ (w wielu przykładach DeepSeek). Typowe wersje pakietów są przypięte w repozytorium. requirements.txt.
Ramy i narzędzia (wybierz jeden lub więcej): SGLang, vLLM, LMDeploy, TRT-LLM/TensorRT-LLM, LightLLM lub Ollama dla prostszych instalacji lokalnych. Każdy z nich ma instrukcje i obsługuje inną precyzję/kwantyzację.

Uwaga praktyczna: Jeśli posiadasz tylko jeden procesor graficzny dla użytkowników indywidualnych (np. 24–48 GB), prawdopodobnie użyjesz skwantyzowanych funkcji GGUF lub zdalnego wnioskowania; jeśli masz stację roboczą z pamięcią RAM >128 GB i klasterem procesorów graficznych klasy H100/H200, możesz osiągnąć wyższą dokładność wnioskowania FP8/FP16 przy użyciu vLLM.

Jak uruchomić DeepSeek-V3.1 lokalnie?

Poniżej znajdziesz kilka praktycznych ścieżek, z których możesz skorzystać – od najbardziej ręcznej i elastycznej po najłatwiejszą ścieżkę dla pojedynczego komputera deweloperskiego. Udostępnię samouczki krok po kroku i przykłady kodu

Opcja A — Oficjalna wersja demonstracyjna DeepSeek-Infer (ścieżka rozwoju/klastra)

To jest przykład/demo repozytorium dla inferencji FP8/BF16. Użyj go, jeśli planujesz wdrożenie wielowęzłowe lub chcesz poeksperymentować z oficjalnym kodem inferencji.

Klonuj, przygotuj środowisko

git clone https://github.com/deepseek-ai/DeepSeek-V3.git
cd DeepSeek-V3/inference
# Create a dedicated venv / conda env

python -m venv venv && source venv/bin/activate
pip install -r requirements.txt

(Repo inference/requirements.txt (wyświetla listę przypiętych wersji Torch/Triton/Transformers rekomendowanych przez zespół.)

Pobierz wagi modeli

Pobierz ze strony modelu Hugging Face (deepseek-ai/DeepSeek-V3.1) i umieść je pod /path/to/DeepSeek-V3Karta modelu i repozytorium zawierają oficjalne linki do przechowywania Hugging Face.

Konwertuj wagi dla wersji demonstracyjnej

# example conversion command shown in the repo

python convert.py --hf-ckpt-path /path/to/DeepSeek-V3 --save-path /path/to/DeepSeek-V3-Demo --n-experts 256 --model-parallel 16

Uruchom generację interaktywną (rozproszoną)

torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR \
  generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json \
  --interactive --temperature 0.7 --max-new-tokens 200

Oto kanoniczny przykład z repozytorium DeepSeek dotyczący przebiegów w stylu klastra.

Opcja B — vLLM (zalecana w przypadku wdrożeń serwerowych i interfejsu API zgodnego z OpenAI)

vLLM obsługuje DeepSeek w trybach FP8/BF16 i zapewnia serwer zgodny z OpenAI. Jest to popularna ścieżka produkcyjna dla dużych modeli ze względu na optymalizację pamięci i kompatybilność z API.

Uruchom serwer vLLM, który pobierze model z Hugging Face (przykładowy wzór):

# this will download/serve the model (replace with exact model id if needed)

vllm serve deepseek-ai/DeepSeek-V3.1 --host 0.0.0.0 --port 8000

Następnie poproś o uzupełnienie za pomocą curl lub klienta zgodnego z OpenAI:

curl -s -X POST "http://localhost:8000/v1/completions" \
  -H "Content-Type: application/json" \
  -d '{"model":"DeepSeek-V3.1","prompt":"Explain the QuickSort algorithm", "max_tokens":200}'

Receptury i dokumentacja vLLM zawierają przykłady DeepSeek i uwagi dotyczące kompatybilności z FP8 oraz paralelizmu wielu GPU/potoków. W przypadku zaawansowanych modeli nadal potrzebne będą liczne GPU lub wariant kwantyzowany.

Opcja C — LMDeploy / SGLang / LightLLM i TensorRT-LLM (wysoka wydajność)

Repozytorium DeepSeek wyraźnie zaleca SGLang, Wdrażanie LMDeploy, TensorRT-LLM jako zoptymalizowane silniki dla DeepSeek V3. Zapewniają one lepsze opóźnienie wnioskowania, przepustowość i jądro FP8.

Typowe wywołanie LMDeploy (dokładny opis wiersza poleceń można znaleźć w dokumentacji LMDeploy):

# pseudo-example; refer to LMDeploy docs for exact options

lmdeploy serve --model /path/to/deepseek_v3.1 --precision fp8 --port 8080

Testy porównawcze i przepisy uruchomieniowe SGLang są dostępne w repozytorium i w projekcie SGLang benchmark/deepseek_v3 folder. Użyj tych stosów, gdy kontrolujesz klaster GPU i chcesz uzyskać przepustowość produkcyjną.

Opcja D — Ollama (najłatwiejsza lokalna ścieżka rozwoju, często na jednym komputerze)

Jeśli chcesz uzyskać jak najmniejszy poziom tarcia podczas uruchamiania DeepSeek lokalnie (i możesz oszczędzić dysk), Ollama zapewnia gotowe modele i prosty interfejs wiersza poleceń (ollama pull, ollama run). DeepSeek-V3.1 znajduje się w bibliotece Ollama i można go uruchomić lokalnie (Ollama może wymagać nowszej/przedpremierowej wersji, aby niektóre funkcje działały).

Przykład (Ollama CLI):

# Pull the model (downloads the model artifacts to your disk)

ollama pull deepseek-v3.1

# Start an interactive session:

ollama run deepseek-v3.1

# Or run as a local API server (Ollama supports a local API)

# Example: POSTing to Ollama's local API (adjust host/port to your setup)
curl -X POST http://localhost:11434/api/generate \
  -H 'Content-Type: application/json' \
  -d '{"model":"deepseek-v3.1","prompt":"Summarize the following paper: ..."}'

Ollama abstrahuje od wielu szczegółów dystrybucji/kwantyzacji i może być świetnym sposobem na testowanie zachowania modelu na pojedynczym hoście. Uwaga: strona modelu podaje rozmiar pakietu ~404 GB dla wpisu Ollama, więc odpowiednio zaplanuj dysk i pamięć RAM.

Czym jest tryb myślenia i jak go używać

DeepSeek-V3.1 implementuje token myślenia hybrydowego podejście: ten sam punkt kontrolny może działać w myślenia tryb (wewnętrzne tokeny „łańcucha myśli”) lub niemyślący tryb, zmieniając szablon czatu/monitu. Model wykorzystuje jawne tokeny, takie jak <think> (i zamykanie </think> (w niektórych szablonach) sygnalizuje wewnętrzny tok myślenia, a nie bezpośrednie generowanie odpowiedzi. Karta modelu dokumentuje prefiksy „bezmyślności” i „myślenia” oraz pokazuje różnice między szablonami.

Przykład: konstruowanie wiadomości w Pythonie (pomocnik tokenizera)

Karta modelu Hugging Face zawiera przydatny fragment kodu pokazujący, jak zastosować szablon czatu za pomocą tokenizatora. Jest to zalecany wzorzec do generowania myślenia or niemyślący sformatowane monity:

import transformers
tokenizer = transformers.AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-V3.1")

messages = [
    {"role": "system", "content": "You are a helpful assistant"},
    {"role": "user", "content": "Who are you?"},
    {"role": "assistant", "content": "<think>Hmm</think>I am DeepSeek"},
    {"role": "user", "content": "1+1=?"}
]

# Thinking mode

tokenizer.apply_chat_template(messages, tokenize=False, thinking=True, add_generation_prompt=True)

# Non-thinking mode

tokenizer.apply_chat_template(messages, tokenize=False, thinking=False, add_generation_prompt=True)

Przełącznik thinking=True aby wygenerować monit, który wykorzystuje <think> prefiks; thinking=False Tworzy szablon bezmyślności. Model będzie zachowywał się inaczej (wewnętrzna refleksja a natychmiastowa reakcja) w zależności od tej flagi.

Krótki przewodnik — drobne rozwiązywanie problemów i najlepsze praktyki

Jeśli zabraknie Ci pamięci GPU: Wypróbuj kompilacje kwantyzowane (AWQ/q4/INT4) lub społecznościowe GGUF-y; wiele przestrzeni społecznościowych publikuje kwantyzacje do użytku lokalnego. Ollama/vLLM może również obsługiwać mniejsze kompilacje kwantyzowane.

Jeśli potrzebujesz modelu do wywoływania narzędzi zewnętrznych: Przyjąć ToolCall Dokładnie wpisz schemat w szablonie czatu. Przetestuj format JSON narzędzia w trybie offline i sprawdź, czy kod orkiestracji (część uruchamiająca narzędzie) zwraca zdezynfekowany, typizowany kod JSON do modelu.

Jeśli potrzebujesz dłuższego kontekstu: Użyj vLLM lub SGLang z wtyczkami do obsługi długich kontekstów; DeepSeek został jawnie wytrenowany/rozszerzony dla kontekstów 32 KB/128 KB, a powiązane narzędzia obsługują to okno. Należy spodziewać się kompromisów w zakresie pamięci.

Czy mogę uruchomić DeepSeek-V3.1 na laptopie lub małym serwerze?

Krótka odpowiedź: Tak, ale z pewnymi zastrzeżeniami. Kwantyzacja społecznościowa (AWQ/GGUF/1-bitowa dynamika) drastycznie zmniejsza zapotrzebowanie na pamięć masową i umożliwia hobbystom uruchamianie wariantów V3.1 na komputerach stacjonarnych wysokiej klasy (deklarowany zestaw roboczy ~170 GB). Jednakże:

Kompromis pomiędzy wiernością a rozmiarem: Agresywna kwantyzacja zmniejsza zużycie pamięci, ale może wpływać na wydajność wnioskowania/kodu. Przetestuj na swoich obciążeniach.
Informacje prawne i licencyjne: Model ten jest objęty licencją MIT zgodnie z kartą modelu, ale kwantyzacje innych firm mogą mieć własne licencje; przed użyciem w produkcji należy się z nimi zapoznać.

Ostatnie słowa

DeepSeek-V3.1 to znaczący krok w kierunku hybrydowych modeli „agentów” z jawnym zachowaniem myślenia/niemyślenia i ulepszonym wykorzystaniem narzędzi. Jeśli chcesz uruchomić go lokalnie, wybierz ścieżkę odpowiadającą Twojemu sprzętowi i tolerancji ryzyka:

Do celów badawczych: transformers + skwantyzowane tensory bezpieczeństwa i przyspieszenie.

Do celów produkcji i przepustowości: vLLM + multi-GPU (H100/H200).

Do eksperymentów lokalnych: Ollama/llama.cpp + społecznościowe GGUF-y (scalanie i uruchamianie).

Jak zacząć

CometAPI to ujednolicona platforma API, która agreguje ponad 500 modeli AI od wiodących dostawców — takich jak seria GPT firmy OpenAI, Gemini firmy Google, Claude firmy Anthropic, Midjourney, Suno i innych — w jednym, przyjaznym dla programistów interfejsie. Oferując spójne uwierzytelnianie, formatowanie żądań i obsługę odpowiedzi, CometAPI radykalnie upraszcza integrację możliwości AI z aplikacjami. Niezależnie od tego, czy tworzysz chatboty, generatory obrazów, kompozytorów muzycznych czy oparte na danych potoki analityczne, CometAPI pozwala Ci szybciej iterować, kontrolować koszty i pozostać niezależnym od dostawcy — wszystko to przy jednoczesnym korzystaniu z najnowszych przełomów w ekosystemie AI.

Deweloperzy mogą uzyskać dostęp DeepSeek-V3.1 Za pośrednictwem CometAPI najnowsze wersje modeli są aktualne na dzień publikacji artykułu. Na początek zapoznaj się z możliwościami modelu w Plac zabaw i zapoznaj się z Przewodnik po API aby uzyskać szczegółowe instrukcje. Przed uzyskaniem dostępu upewnij się, że zalogowałeś się do CometAPI i uzyskałeś klucz API. Interfejs API Comet zaoferuj cenę znacznie niższą niż oficjalna, aby ułatwić Ci integrację.