Жергілікті құрылғыда DeepSeek-V3.1 қалай іске қосылады

DeepSeek-V3.1 — DeepSeek 2025 жылдың тамызында шығарған, сарапшылар қоспасының (ММ) гибридті чат үлгісі, ол екі қорытынды режимі — жылдам «ойланбау» режимі және әдейі «ойлау» режимі — бір бақылау нүктесінен. Модель Hugging Face қолданбасында қол жетімді және оны жергілікті түрде бірнеше жолдар арқылы іске қосуға болады (vLLM, Ollama/llama.cpp, Ollama стиліндегі GGUF немесе ауқымды көп GPU орнатулары). Төменде мен сізге талаптарды, ойлау режимінің қалай жұмыс істейтінін, бірнеше жергілікті іске қосу опцияларын (іске қосуға болатын код үзінділері бар) және құралды шақыруға және таңбалауыш үлгілеріне арналған мысалдары бар қадамдық «Ойлау режимін қолдану» рецептін көрсетемін.

DeepSeek-V3.1 дегеніміз не және ол неге маңызды?

DeepSeek-V3.1 - DeepSeek ұсынған v3 отбасы жаңартуы, ол а гибридті қорытынды дизайн: бірдей үлгіні іске қосуға болады ойлау (пікірталас, көп сатылы) немесе ойланбау чат үлгісін өзгерту арқылы (тікелей жауап, жылдамырақ) режимдер. Архитектуралық тұрғыдан бұл 671K таңбалауышқа дейін ұзартылған және FP37 микро масштабтау қолдауымен ұзақ мәтінмәндік оқытуы бар, архитектуралық тұрғыдан бұл үлкен ТМ тобы (базалық бақылау нүктесі шамамен 128В жалпы параметр, әр токенге ~8B белсендірілген). DeepSeek V3.1 нұсқасын агентке дайын шығарылым ретінде орналастырды: алдыңғы R1 шығарылымдарымен салыстырғанда жақсырақ құралды шақыру, жақсартылған агент дағдылары және жоғары ойлау тиімділігі. Шығарылым 2025 жылдың тамызында жарияланды және Hugging Face, CFD/OSS құралдары және бұлтты орналастыру нұсқаулықтарына біріктірілді.

Гибридті модель қалай жұмыс істейді (қысқаша)

Бір бақылау нүктесі, екі үлгі: Ойлау және Ойланбау режимдері басқарылады чат үлгісі және <think>/</think> шақырудағы токен конвенциясы. Үлгі картасы нақты префикстерді құжаттайды.
Агент/құрал жақсартулары: Жаттығудан кейінгі күшейту құралдарды ақылды шақыруға мүмкіндік береді — модель қауіпсіз, детерминирленген құралды орындау үшін қатаң құрал шақыру JSON пішімін күтеді.
Өнімділік айырбастары: Ойлау режимі таңбалауыштарды ойдың ішкі тізбегі стиліндегі пайымдауға жұмсайды және баяу/қарқындырақ болуы мүмкін; ойланбау тезірек және арзанырақ. Үлгі картасындағы эталондар V3.1 үшін пайымдаулар мен кодтық көрсеткіштер бойынша айтарлықтай жақсартуларды көрсетеді.

Модель қалай құрылымдалған

БМ магистраль: таңбалауыш үшін кішірек белсендірілген ішкі жиыны бар үлкен жалпы параметр саны (экономикалық қорытынды).
Ұзақ контекстік тренинг: V3.1 кейбір құрастырмалардағы 32K+ терезелерді қолдау үшін ұзақ мәтінмәндік фазаларды айтарлықтай кеңейтеді (128k → ұзын құжаттар бойынша үлкенірек оқыту).
FP8 жергілікті жұмыс процесі: DeepSeek салмақ/белсендіру тиімділігі үшін FP8 пішімдерін кеңінен пайдаланады (w8a8 / UE8M0); BF16/FP16 таңдасаңыз, қауымдастық түрлендіру сценарийлері бар.

DeepSeek-V3.1 жүйесін жергілікті түрде іске қосу үшін қандай талаптар бар? (Аппараттық құрал, сақтау және бағдарламалық қамтамасыз ету)

Іске қосу толық V3.1 моделі (квантсыз) - бұл үлкен кәсіпорын. Төменде орнатулардың нақты санаттары және олар әдетте не қажет етеді.

Практикалық шелектер

Кластер/зерттеу зертханасы (толық үлгі): бірнеше жоғары жады GPU (H100/H800 класы немесе көптеген Ada/Hopper GPU), ондаған GPU бар көп түйінді, көп NVMe жады (жүздеген ГБ) және арнайы қорытынды құрылымдары (SGLang, vLLM, LMDeploy, TRT-LLM).
Бір серверлік жоғары деңгейлі (квантталған): ауыр кванттау (INT4/AWQ/AWQ2/gguf) және Ollama (алдын ала оралған) немесе қауымдастық GGUF сияқты фреймворктармен мүмкін — әлі де ~ ондаған және жүздеген ГБ GPU жедел жады немесе ақылды CPU+GPU жүктеуді қажет етеді.
Әзірлеуші ноутбук / әзірлеуші қорап: толық модель үшін мүмкін емес; шағын тазартылған/дәл реттелген нұсқаларды пайдаланыңыз немесе жергілікті серверге/Ollama данасына қосылыңыз.

Аппараттық құралдарды тексеру тізімі (практикалық)

GPUs: Толық V3.1 нұсқасының нақты қорытынды өткізу қабілеті үшін: көп GPU кластерлері (H100 / H800 / Ada Lovelace+). FP8 орындау үшін есептеу мүмкіндігі бар GPU және драйверді қолдау қажет.
ЖЖҚ және сақтау: Үлгі файлдары үшін жүздеген ГБ бос дискіні күтіңіз (үлгі беттерінде пішімге/кванттау түріне байланысты бірнеше жүздеген ГБ тізімі бар), сонымен қатар түрлендірілген пішімдерге арналған жұмыс кеңістігі. Ollama метадеректері кітапханадағы DeepSeek V400 Ollama бумасы үшін ~3.1 ГБ іздің тізімін береді.
Желі: Көп түйінді қорытынды жасау үшін тензорлық-параллельді орнатулар үшін төмен кідіріс интерконненттер (NVLink / InfiniBand) және оркестрлеу құралдары қажет.

Бағдарламалық қамтамасыз етуді тексеру тізімі

OS: Linux қауымдастық шығару құралдары үшін ұсынылады (DeepSeek-Infer демо тізімдері Linux/Python).
Python: 3.10+ (көптеген DeepSeek мысалдарында). Әдеттегі бума нұсқалары репоға бекітілген requirements.txt.
Фреймерлер мен құралдар (бір немесе бірнешеуін таңдаңыз): SGLang, vLLM, LMDeploy, TRT-LLM/TensorRT-LLM, LightLLM немесе қарапайым жергілікті орнатулар үшін Ollama. Олардың әрқайсысында нұсқаулар және әртүрлі дәлдік/кванттау қолдауы бар.

Практикалық ескерту: Егер сізде тек бір тұтынушы GPU (мысалы, 24–48 ГБ) болса, квантталған GGUF немесе қашықтағы қорытындыны пайдалануыңыз мүмкін; егер сізде >128 ГБ жедел жады және H100/H200 класс GPU кластері бар жұмыс станциясы болса, vLLM көмегімен жоғары дәлдіктегі FP8/FP16 тұжырымын мақсаттауға болады.

DeepSeek-V3.1-ді жергілікті түрде қалай іске қосамын?

Төменде сіз қолдануға болатын бірнеше практикалық жолдар берілген, ең қолмен/икемдіден бір әзірлеушіге арналған ең оңай жолға дейін. Мен қадамдық оқулықтар мен код мысалдарын ұсынамын.

А нұсқасы — ресми DeepSeek-Infer демонстрациясы (әзірлеу/кластер жолы)

Бұл FP8/BF16 қорытындысына арналған репо үлгісі/демо нұсқасы. Егер сіз көп түйінді жоспарласаңыз немесе ресми қорытынды кодымен тәжірибе жасағыңыз келсе, оны пайдаланыңыз.

Клондау, ортаны дайындау

git clone https://github.com/deepseek-ai/DeepSeek-V3.git
cd DeepSeek-V3/inference
# Create a dedicated venv / conda env

python -m venv venv && source venv/bin/activate
pip install -r requirements.txt

(Репо inference/requirements.txt команда ұсынған факел/тритон/трансформатор нұсқаларын тізімдейді.)

Үлгі салмақтарын жүктеп алыңыз

Құшақтап тұрған бет үлгісі бетінен жүктеп алыңыз (deepseek-ai/DeepSeek-V3.1) және астына қойыңыз /path/to/DeepSeek-V3. Үлгі картасы мен репода құшақтап тұрған жүзді сақтаудың ресми сілтемелері бар.

Салмақтарды демонстрацияға түрлендіру

# example conversion command shown in the repo

python convert.py --hf-ckpt-path /path/to/DeepSeek-V3 --save-path /path/to/DeepSeek-V3-Demo --n-experts 256 --model-parallel 16

Интерактивті генерацияны іске қосыңыз (таратылған)

torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR \
  generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json \
  --interactive --temperature 0.7 --max-new-tokens 200

Бұл кластер стиліндегі іске қосуларға арналған DeepSeek репосының канондық мысалы.

B опциясы — vLLM (серверді орналастыру және OpenAI-үйлесімді API үшін ұсынылады)

vLLM FP8/BF16 режимдерінде DeepSeek мүмкіндігін қолдайды және сізге OpenAI-үйлесімді сервер береді. Бұл жадты оңтайландыру және API үйлесімділігіне байланысты үлкен үлгілер үшін танымал өндіріс жолы.

Hugging Face ішінен үлгіні алатын vLLM серверін іске қосыңыз (үлгі үлгісі):

# this will download/serve the model (replace with exact model id if needed)

vllm serve deepseek-ai/DeepSeek-V3.1 --host 0.0.0.0 --port 8000

Содан кейін curl немесе OpenAI-үйлесімді клиент арқылы аяқтауды сұраңыз:

curl -s -X POST "http://localhost:8000/v1/completions" \
  -H "Content-Type: application/json" \
  -d '{"model":"DeepSeek-V3.1","prompt":"Explain the QuickSort algorithm", "max_tokens":200}'

vLLM рецептері мен құжаттарында DeepSeek мысалдары мен FP8 үйлесімділігі және көп GPU/құбыр параллелизмі туралы ескертпелер бар. Ауыр үлгілер үшін сізге әлі де бірнеше GPU немесе квантталған нұсқа қажет болады.

C опциясы — LMDeploy / SGLang / LightLLM және TensorRT-LLM (жоғары өнімділік)

DeepSeek репо нақты ұсынады SGLang, LMDeploy, және TensorRT-LLM DeepSeek V3 үшін оңтайландырылған қозғалтқыштар ретінде. Олар жақсартылған қорытынды кідірісін, өткізу қабілетін және FP8 ядроларын қамтамасыз етеді.

Әдеттегі LMDeploy шақыруы (дәл CLI үшін LMDeploy құжаттарын қараңыз):

# pseudo-example; refer to LMDeploy docs for exact options

lmdeploy serve --model /path/to/deepseek_v3.1 --precision fp8 --port 8080

SGLang эталондары мен іске қосу рецепттері репода және SGLang жобасында қол жетімді. benchmark/deepseek_v3 қалта. Бұл стектерді GPU кластерін басқарғанда және өндіріс өнімділігін қажет еткенде пайдаланыңыз.

D нұсқасы — Оллама (ең оңай жергілікті әзірлеу жолы, көбінесе бір машина)

DeepSeek-ті жергілікті түрде іске қосудың ең аз үйкеліс әдісін қаласаңыз (және сіз дискіні үнемдей аласыз), Оллама пакеттелген үлгілерді және қарапайым CLI (ollama pull, ollama run). DeepSeek-V3.1 Ollama кітапханасында пайда болады және оны жергілікті түрде іске қосуға болады (Ollama кейбір мүмкіндіктер үшін соңғы/алдын ала шығарылған нұсқасын қажет етуі мүмкін).

Мысал (Ollama CLI):

# Pull the model (downloads the model artifacts to your disk)

ollama pull deepseek-v3.1

# Start an interactive session:

ollama run deepseek-v3.1

# Or run as a local API server (Ollama supports a local API)

# Example: POSTing to Ollama's local API (adjust host/port to your setup)
curl -X POST http://localhost:11434/api/generate \
  -H 'Content-Type: application/json' \
  -d '{"model":"deepseek-v3.1","prompt":"Summarize the following paper: ..."}'

Оллама көптеген тарату/кванттау мәліметтерін алып тастайды және бір хосттағы үлгі әрекетін тексерудің тамаша тәсілі болуы мүмкін. Ескертпе: үлгі бетінде Ollama жазбасы үшін ~404 ГБ бума өлшемі көрсетілген, сондықтан диск пен жедел жадты сәйкесінше жоспарлаңыз.

Ойлау режимі дегеніміз не және оны қалай пайдалану керек

DeepSeek-V3.1 жүзеге асырады a гибридті ойлау белгісі жақындау: бірдей бақылау пункті кіруі мүмкін ойлау режимі (ішкі «ой тізбегі» лексемалары) немесе ойланбау чат/шақыру үлгісін ауыстыру арқылы режим. Модель сияқты айқын таңбалауыштарды пайдаланады <think> (және жабу </think> кейбір үлгілерде) ішкі ой тізбегі мен тікелей жауап генерациясына сигнал беру үшін. Үлгі картасы ойлау және ойлау префикстерін құжаттайды және үлгілердің қалай ерекшеленетінін көрсетеді.

Мысал: Python тілінде хабарлама құру (токенизатордың көмекшісі)

Hugging Face үлгісі картасы токенизатор арқылы сөйлесу үлгісін қалай қолдану керектігін көрсететін ыңғайлы үзіндіні қамтиды. Бұл жасау үшін ұсынылған үлгі ойлау or ойланбау пішімделген шақырулар:

import transformers
tokenizer = transformers.AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-V3.1")

messages = [
    {"role": "system", "content": "You are a helpful assistant"},
    {"role": "user", "content": "Who are you?"},
    {"role": "assistant", "content": "<think>Hmm</think>I am DeepSeek"},
    {"role": "user", "content": "1+1=?"}
]

# Thinking mode

tokenizer.apply_chat_template(messages, tokenize=False, thinking=True, add_generation_prompt=True)

# Non-thinking mode

tokenizer.apply_chat_template(messages, tokenize=False, thinking=False, add_generation_prompt=True)

қосқыш thinking=True пайдаланатын шақыруды шығару үшін <think> префикс; thinking=False ойланбайтын үлгіні жасайды. Модель осы жалаушаға байланысты басқаша әрекет етеді (ішкі талқылау және дереу жауап).

Жылдам анықтама — шағын ақауларды жою және ең жақсы тәжірибелер

GPU жады таусылған жағдайда: Квантталған құрылымдарды (AWQ/q4/INT4) немесе қауымдастық GGUF-терін қолданып көріңіз; көптеген қауымдастық кеңістіктері жергілікті пайдалану үшін кванттауларды жариялайды. Ollama / vLLM кішігірім квантталған құрылымдарға да қызмет ете алады.

Сыртқы құралдарды шақыру үшін үлгі қажет болса: қабылдаңыз ToolCall чат үлгісіндегі схема дәл. JSON пішімін офлайн режимде сынап көріңіз және сіздің оркестрлеу кодыңыз (құралды орындайтын бөлік) тазартылған, терілген JSON үлгісін қайтаратынын тексеріңіз.

Ұзақ контекст қажет болса: Ұзын мәтінмәндік плагиндермен vLLM немесе SGLang пайдаланыңыз; DeepSeek 32K/128K мәтінмәндері үшін нақты оқытылды/кеңейтілді және қатысты құралдар сол терезені қолдайды. Есте сақтауды күтіңіз.

Мен ноутбукта немесе шағын серверде DeepSeek-V3.1 іске қоса аламын ба?

Қысқа жауап: Иә, бірақ ескертулермен. Қауымдастық кванттаулары (AWQ/GGUF/1-биттік динамикалық) жад пен жад ізін күрт төмендетеді және әуесқойларға жоғары деңгейлі жұмыс үстелінде V3.1 нұсқаларын іске қосуға мүмкіндік берді (~170 ГБ жұмыс жинағы талаптары). Дегенмен:

Өлшемге қарсы адалдық: агрессивті кванттау жадты азайтады, бірақ ойлау/код өнімділігіне әсер етуі мүмкін. Жұмыс жүктемелеріңізді тексеріңіз.
Құқықтық және лицензиялау: үлгі карта бойынша MIT лицензиясы бар, бірақ үшінші тарап кванттаулары өз лицензияларын алып жүруі мүмкін; өндірісті қолданар алдында оларды қарап шығыңыз.

Соңғы сөздер

DeepSeek-V3.1 айқын ойлау/ойланбайтын мінез-құлық және жақсартылған құралдарды пайдалану бар гибридті «агент» үлгілеріне маңызды қадам болып табылады. Оны жергілікті түрде іске қосқыңыз келсе, аппараттық құралға және тәуекелге төзімділікке сәйкес келетін жолды таңдаңыз:

Зерттеу үшін: transformers + квантталған сейтензорлар және жеделдету.

Өндіріс және өткізу қабілеті үшін: vLLM + мульти-GPU (H100/H200).

Жергілікті эксперименттер үшін: Ollama/llama.cpp + қауымдастық GGUF (біріктіру + іске қосу).

Басталу

CometAPI – OpenAI GPT сериялары, Google Gemini, Anthropic's Claude, Midjourney, Suno және т.б. сияқты жетекші провайдерлердің 500-ден астам AI үлгілерін бір, әзірлеушілерге ыңғайлы интерфейске біріктіретін бірыңғай API платформасы. Тұрақты аутентификацияны, сұрауды пішімдеуді және жауаптарды өңдеуді ұсына отырып, CometAPI қолданбаларыңызға AI мүмкіндіктерін біріктіруді айтарлықтай жеңілдетеді. Чат-боттарды, кескін генераторларын, музыкалық композиторларды немесе деректерге негізделген аналитикалық құбырларды құрастырып жатсаңыз да, CometAPI сізге AI экожүйесіндегі соңғы жетістіктерге қол жеткізе отырып, жылдамырақ қайталауға, шығындарды басқаруға және жеткізуші-агностикалық күйде қалуға мүмкіндік береді.

Әзірлеушілер қол жеткізе алады DeepSeek-V3.1 CometAPI арқылы тізімдегі соңғы үлгілер нұсқасы мақаланың жарияланған күнінен бастап берілген. Бастау үшін үлгінің мүмкіндіктерін зерттеңіз Ойын алаңы және кеңесіңіз API нұсқаулығы егжей-тегжейлі нұсқаулар үшін. Қол жеткізу алдында CometAPI жүйесіне кіріп, API кілтін алғаныңызға көз жеткізіңіз. CometAPI біріктіруге көмектесу үшін ресми бағадан әлдеқайда төмен баға ұсыныңыз.