Deepseek-v3.1-ді оллама арқылы жергілікті түрде қалай орналастыруға болады: Шығыстағы нұсқаулық

DeepSeek-V3.1 — дұрыс провайдерді/кванттау мен құралды пайдалансаңыз, жергілікті түрде іске қосуға болатын «ойлайтын/ойланбайтын» ТМ тіл үлгісі (барлығы 671В, ≈37B әр таңбалауыш үшін белсендірілген) гибридті. Төменде мен DeepSeek-V3.1 не екенін, аппараттық/бағдарламалық қамтамасыз ету талаптарын, қадамдық жергілікті іске қосу оқулықтарын (Ollama + llama.cpp мысалдары) және қалай жасау керектігін түсіндіремін. Ойлау режимін қолдану және қолдану ( <think>/</think> чат үлгісі) код мысалдарымен көшіруге/қоюға болады.

DeepSeek-V3.1 дегеніміз не?

DeepSeek-V3.1 - DeepSeek's MoE (Mixture-of-Experts) отбасының v3.1 шығарылымы. Ол екі сөйлесу үлгісін/режимін қолдайтын гибридті қорытынды үлгісі ретінде жасалған — Ойлау және Ойланбау — чат үлгісін өзгерту арқылы сол бақылау нүктесінен. Модель архитектурасы DeepSeek-V3 MoE дизайнына (жалпы 671B параметр; қорытынды жасау үшін әрбір таңбалауыш үшін белсендірілген ≈37B параметрлер) қадағалайды және құралды пайдалану, агент дағдылары және ұзақ мәтінмәнді өңдеу үшін жаттығудан кейінгі жақсартуларды қосады.

Жылдам мүмкіндіктерді бөлектеу

гибридтік Ойлау / Ойланбау режимдер (чат үлгісін токенизациялау арқылы ауыстырылады).
MoE архитектурасы: үлкен жалпы параметрлер саны, бірақ бір таңбалауыш үшін шектеулі белсендірілген параметрлер (тиімділікті қосады).
Құрал шақырулары мен агент жұмыс үрдістері үшін жаттығудан кейінгі күшейтулер (үлгі активтерінде құжатталған құрал-шақыру пішімі және агент үлгілері).

DeepSeek-V3.1 жергілікті түрде іске қосу үшін не қажет?

Іске қосу толық DeepSeek-V3.1 (шикі бақылау нүктелері) ауыр салмақты болып табылады — жаттығу/бақылау нүктесін сақтау және қорытындыларды ұйымдастыру тривиальды емес. Бірақ практикалық жолдар бар:

аппараттық

Толық таратылған қорытынды (зерттеу/кластер): бірнеше жоғары жады GPU (A100/H800 класы) немесе модельге параллель қызмет көрсететін GPU кластері (600B+ бақылау нүктелеріне тән). Өндірістік зерттеу кластерлерін іске қосып жатсаңыз ғана пайдаланыңыз.
Практикалық жергілікті нұсқалар: пайдаланыңыз белсендірілген-парам перспектива (≈37B белсендірілген) немесе квантталған GGUF/1-биттік динамикалық құрастыру. Қауымдастық кванттаулары (1-биттік динамикалық / GGUF) диск + ЖЖҚ талаптарын айтарлықтай төмендетеді — мысалы, қауымдастық хабарламалары квантталған нұсқа үшін 720 ГБ бақылау нүктесін ~170 ГБ GGUF дейін қысатынын хабарлайды. Бұл жақсы ресурсы бар жұмыс үстелдері/серверлері үшін жергілікті бір серверлік GPU қорытындысын мүмкін етеді.

Төменгі жолда: үлкен үлгідегі жұмыс процесін күтіңіз (квантталған артефактілер үшін ондаған және жүздеген ГБ дискілер); GPU VRAM үшін квантталған нұсқаларды пайдаланыңыз және ақылға қонымды өткізу қабілеті үшін ≥24–48 ГБ VRAM құрылғысын пайдаланыңыз; әйтпесе өнімділік айырбастаулары бар CPU+swap пайдаланыңыз.

Бағдарламалық қамтамасыз ету және құралдар

Python 3.10+ (трансформатор/токенизатор құралдары және пайдаланушы сценарийлері үшін).

transformers (токенизатор және көмекші функциялары үшін) — үлгі картасы пайдалану мысалдарын көрсетеді transformers.AutoTokenizer.

Бір немесе бірнеше жергілікті қорытындының орындалу уақыты:

Оллама (оңай: ollama pull / ollama run интеграция; Ollama негізіндегі кейбір DeepSeek құрастырулары шығарылым алдындағы нұсқаларды қажет етеді, үлгі/оллама жазбасын тексеріңіз). Оллама қауымдастық үлгілері үшін стандартты жергілікті жүгірушіге айналды.
llama.cpp / ggml стектер немесе llama-server GGUF квантталған файлдары үшін — тікелей GGUF орындау үшін тамаша.
мәтінді генерациялау-түсіндірме / Triton / FlashAttention стектері өнімділігі жоғары GPU қорытындысы үшін (кеңейтілген орнатулар).

Диск: үлгі файлдары үшін үлкен бос орын (кванттау түріне байланысты ондаған → жүздеген ГБ).

Үлгі артефактілер (қай файлды алу керек)

Ресми сейфтензорлар / BF16 / FP8 / GGUF нұсқалары: Hugging Face хосттары V3.1 үлгі артефактілері мен бірнеше кванттаулар. Егер сізге GGUF/квантталған файл қажет болса llama.cpp, қауымдастықтың кванттау шығарылымын (немесе safetensors → GGUF түрлендіру сценарийін) іздеңіз — үлгі картасы квантталған нұсқаларды тізімдейді.

Модельді жергілікті қорытындыға қалай дайындауға болады?

Төменде қарапайым → қосымшадан реттелген ұсынылатын дайындық қадамдары берілген.

1-қадам — Орындау уақытын таңдау (ұсыныс)

Бастауыш / жылдам тест: Ollama — минималды орнату: жүктеп алу, іске қосу үлгісі, API қоңырауы. Ескерту: кейбір DeepSeek-V3.1 құрастыру жазбасы Ollama v0.11.7 нақты мүмкіндіктер үшін қажет.
Жетілдірілген/төмен деңгейлі басқару: llama.cpp + GGUF квант (GGUF кванттау қол жетімді болса). Бұл тікелей қорытындыны басқаруға және онымен біріктіруге мүмкіндік береді llama-server.

2-қадам — Үлгіні жүктеп алыңыз

Ollama пайдалансаңыз:

# install ollama (see https://ollama.com/docs)

# Pull the model (this downloads the model to your machine)
ollama pull deepseek-ai/DeepSeek-V3.1
# or a specific tag: ollama pull deepseek-ai/DeepSeek-V3.1:quant-q4_0

(Олламаның run жоқ болса, автоматты түрде тартылады; pull уақытты басқаруға мүмкіндік береді.)

Құшақтап тұрған бет + llama.cpp қолданбасын пайдалансаңыз:

# Example: download via huggingface-cli or hf_transfer

pip install huggingface_hub
hf_hub_download(repo_id="deepseek-ai/DeepSeek-V3.1", filename="DeepSeek-V3.1.gguf")
# or use a community quant file (gguf) referenced on the Hugging Face model page

Құшақтап тұрған бет үлгі картасындағы үлгі артефактілерін, үлгілерін және кванттауларды тізімдейді.

3-қадам — түрлендіру / кванттау (міндетті емес)

Егер сіз тек сейфтенсорларды немесе BF16 артефактілерін тапсаңыз, бірақ GGUF қажет болса llama.cpp, түрлендіру сценарийлерін пайдаланыңыз llama.cpp (немесе қауымдастық құралдары) түрлендіру → кванттау. Өлшемді кішірейту кезінде дәлдікті сақтайтын 1-биттік динамикалық кванттау үшін қауымдастық құралдары бар; ~170 ГБ дейін есеп беретін қауымдастық жазбаларын қараңыз.

DeepSeek-V3.1-ді жергілікті түрде қалай іске қосамын? (Практикалық жаттығулар)

Мен көрсетемін Оллама (оңай, ұсынылады) және call.cpp (GGUF) мысалдары және үлгі картасының таңбалауыш көмекшілерін пайдаланатын қысқа Python мысалы.

A — Олламамен жүгіру (жылдам бастау)

Ollama орнатыңыз (ресми нұсқауларды орындаңыз).
Үлгіні тартып, іске қосыңыз:

# pull model to disk (optional; run will pull automatically)

ollama pull deepseek-ai/DeepSeek-V3.1

# start an interactive session (runs model and exposes local API)

ollama run deepseek-ai/DeepSeek-V3.1

Жергілікті Ollama серверіне HTTP сұрауын жасаңыз:

# curl usage example (local Ollama server usually listens on port 11434)

curl -sS -X POST 'http://localhost:11434/api/generate' \
  -H 'Content-Type: application/json' \
  -d '{
    "model":"deepseek-ai/DeepSeek-V3.1",
    "prompt":"Explain the difference between thinking and non-thinking mode in DeepSeek.",
    "max_tokens":256
  }'

Ollama CLI және API үлгілері қарапайым етіп жасалған: ollama run қажет болса тартып, үлгі серверін іске қосады. Жад бойынша кеңестер мен нақты үлгі атаулары/тегтері үшін Ollama құжаттары мен үлгі беттерін қараңыз.

B — llama.cpp арқылы квантталған GGUF іске қосу

салу llama.cpp CUDA (қосымша) немесе CPU көмегімен:

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
# for CUDA:

make clean && make LLAMA_CUBLAS=1
# or CPU only:

make

Модель GGUF файлын жолға қойып, іске қосыңыз:

./main -m /path/to/DeepSeek-V3.1.q4_K_M.gguf \
  -p "Explain how to enable thinking mode." \
  --temp 0.2 --n_predict 512

Серверді пайдалану үшін, llama-server (қауымдастық жобасы) HTTP соңғы нүктесін көрсете алады:

llama-server -m /path/to/DeepSeek-V3.1.q4_K_M.gguf
# then POST to the server like:

curl -X POST "http://localhost:8080/api/v1/generate" -d '{"prompt":"Hello","max_tokens":200}'

GPU/CPU бюджеттеріне сәйкестендіру үшін қауымдастық GGUF кванттауларын (q4/q8/1-биттік динамикалық) пайдаланыңыз; the llama.cpp репо түрлендіру құралдары мен нұсқауларын береді.

C — Токенизатор + чат үлгісін қолданатын Python мысалы

Hugging Face үлгісінің картасы a қамтамасыз етеді tokenizer.apply_chat_template көмекші және сөйлесуді қалай кодтау керектігін көрсетеді thinking=True. Модель картасынан бейімделген ең аз Python мысалы:

from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-V3.1")

messages = [
    {"role": "system", "content": "You are a helpful assistant"},
    {"role": "user", "content": "Who are you?"},
    {"role": "assistant", "content": "<think>Hmm</think>I am DeepSeek"},
    {"role": "user", "content": "1+1=?"}
]

# apply thinking chat template

s = tokenizer.apply_chat_template(messages, tokenize=False, thinking=True, add_generation_prompt=True)
print(s)  # the template includes the special <think> token placement

Содан кейін стекке байланысты таңбаланған шақыруды қорытындының орындалу уақытына (Ollama/llama.cpp/TGI) беруге болады.

Ойлау режимі қалай жұмыс істейді және оны жергілікті жерде қалай қолдана аламын?

DeepSeek-V3.1 пайдаланады чат үлгілері арнайы ойлау белгісі бар (мысалы, <think> және </think>). The Үлгі модельдің Ойлау немесе Ойланбау режимінде екенін анықтайды:

Ойланбау шаблон орындары </think> ассистент префиксінде, ол модельге тікелей жауаптарды шығаруға нұсқау береді (ойланбаған жағдайда құралды шақыру пішімін қолдайды).
Ойлау шаблон орындары <think> модельді ішкі ойлау тізбегі стиліндегі аралық сигналдарды шығаруға мүмкіндік беретін көмекші префиксте (модель іштей пайымдау және жоғары сапалы көп сатылы жауаптарды шығару үшін осы маркер тізбегін пайдалануға үйретілген). Құшақтап тұрған бет үлгі картасы дәл осы белгілерді және tokenizer.apply_chat_template(..., thinking=True) API.

Бағдарламалық қосқыш (мысалдар)

A — токенизатормен (Python):

# thinking=True or thinking=False changes how the prompt is formatted

prompt_thinking = tokenizer.apply_chat_template(messages, thinking=True, add_generation_prompt=True)
prompt_non_thinking = tokenizer.apply_chat_template(messages, thinking=False, add_generation_prompt=True)

жем prompt_thinking Ойлау әрекетін алу үшін қорытындының орындалу уақытына.

B — өңделмеген нұсқаумен (llama.cpp / manual):

салу <think> Сіз сұраған кезде көмекші бұрылмай тұрып:

<｜begin_of_sentence｜>You are a helpful assistant<｜User｜>How to optimize this code?<｜Assistant｜><think>

(Дәл таңбалауыш жақтау үлгі картасында бар - егер сіз өңделмеген үлгіні пайдалансаңыз, аралық пен арнайы маркерлерді сақтауыңыз керек.)

C — Ollama көмегімен (UI ауыстырып-қосқышы):
Ресми DeepSeek веб-демо-демосы мен шығарылым жазбаларында орналастырылған UI-де режимдерді ауыстыруға арналған «DeepThink» ауыстырып-қосқышы/түймесі туралы айтылады. Жергілікті жерде Ollama немесе қолданбаңыз бұл әрекетті чат үлгісін ауыстыру арқылы қайталауы керек (яғни, екі белгіленген пішін арасындағы орындалу уақытына жіберген шақыруды өзгерту). DeepSeek-ті Ollama арқылы іске қоссаңыз, оны екі шақыру үлгісін (ойлау және ойланбау) сақтау және Ollama API арқылы өтетін ауыстырып қосу арқылы қолданбаңызда жүзеге асыруға болады.

Ойлау режимін агент ретінде қалай қолдана аламын (құрал шақырулары, код агенттері)?

DeepSeek-V3.1 құжаттары құралдарды шақыру және агент үлгі активтеріндегі үлгілер. Модель құралдардың нақты JSON/нұсқау пішімінде ұсынылуын күтеді және үлгі картасында сипатталған дәл орауыш таңбалауыштарын орындасаңыз, бір айналымда бірнеше құрал шақыруларын тізбектеуді қолдайды.

Мысал: қарапайым құралды шақыру ораушысы (псевдо)

Модель құрал дескриптор блогын және қатаңды анықтайды tool_calls_begin / tool_call_begin пішім. Минималды мысал (концептуалды):

## Tools

You have access to the following tools:

### web_search

Description: Query the web
Parameters: {"q": "string"}

<｜begin_of_sentence｜>{system prompt}

## Tools

...tool descriptions...

<｜User｜>Find the population of Tokyo<｜Assistant｜></think>
<｜tool_calls_begin｜><｜tool_call_begin｜>web_search<｜tool_sep｜>{"q":"population of Tokyo 2025"}<｜tool_call_end｜><｜tool_calls_end｜>

Содан кейін құралдың шығысы үлгінің белгіленген форматына сәйкес келесі кезекте үлгіге берілуі керек (қараңыз. assets/search_tool_trajectory.html нақты ағын үшін үлгі бетінде). Агенттерді іске асыру үшін бағдарламалық ұйымдастыру қажет: қоңырау шалу құралы → нәтижені түсіру → нәтижені чат контекстіне шаблон белгілегендей қайта енгізу → қайта қоңырау шалу үлгісі.

Практикалық кеңестер, ақауларды жою және қауіпсіздік ескертулері (Неге назар аударуым керек?)

Токен үлгілері қатаң. Модельді пайдаланыңыз tokenizer.apply_chat_template немесе дәл қайталаңыз <think>/</think> көрсетілгендей белгілер. Қате интервал немесе жоқ маркерлер үлгі әрекетін өзгертеді.
Құрал пішімі жарамды JSON болуы керек. Модель құрал аргументтерін JSON ретінде талдайды — жарамсыз JSON құрал шақыруларын бұзады.
Кванттау айырбастары. 1-биттік динамикалық/агрессивті кванттаулар жад пен жедел жадты қысқартады, бірақ сандық дәлдікті сәл өзгертуі мүмкін. Жұмыс жүктемелеріңізді тексеріңіз. Дискіні пайдаланудың 80% төмендететін қауымдастық кванттаулары бар (мысал есеп: 720 ГБ → ~ 170 ГБ), бірақ әрқашан сұрауларыңызбен расталады.
Ollama үйлесімділігі. Кейбір DeepSeek нұсқалары Ollama v0.11.7 нұсқасын алдын ала шығарылым мүмкіндіктері үшін қажет деп атап өтеді — Ollama үлгісі бетін тексеріп, сәйкесінше жаңартыңыз.

Үздіксіз мысал: DeepSeek-V3.1 қолданбасын ойлау режимімен жергілікті түрде іске қосыңыз (шағын шолу)

Ollama орнатып, үлгіні тартыңыз:

# install ollama per docs, then:

ollama pull deepseek-ai/DeepSeek-V3.1
ollama run deepseek-ai/DeepSeek-V3.1 &

Ой шақыруын құрастыру үшін Python токенизаторын пайдаланыңыз:

from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-V3.1")

msgs = [
  {"role":"system","content":"You are a helpful assistant."},
  {"role":"user","content":"Plan a multi-step strategy to prototype a mobile app in 2 weeks."}
]
prompt = tokenizer.apply_chat_template(msgs, thinking=True, add_generation_prompt=True)

import requests
resp = requests.post("http://localhost:11434/api/generate", json={
    "model": "deepseek-ai/DeepSeek-V3.1",
    "prompt": prompt,
    "max_tokens": 400
})
print(resp.json())

Модель құралдар шақыру пішімінде құрал шақыруын қайтарса, JSON талдаңыз және құралды іске қосыңыз, содан кейін үлгі картасы үлгілеріне сәйкес нәтижелерді келесі хабарға енгізіңіз.

Орналастыру жолын қалай таңдау керек?

Эксперименттің ең жылдам жолын қаласаңыз: пайдалану Оллама және Hugging Face үлгісі картасының мысалдары. Ollama көптеген инфра мәліметтерін жасырады және жергілікті HTTP API береді.
Егер сізге төмен баға/көбірек тасымалдау қажет болса: қауымдастықты пайдаланыңыз GGUF квантталған артефакт және бірге жүгіру llama.cpp or llama-server. Кванттау диск пен жадты сақтайды, бірақ жұмыс жүктемеңіздің дәлдігін тексереді.
Егер сіз агенттерді немесе құралдарды жасап жатсаңыз: үлгі картасын орындаңыз құралдарды шақыру және агент шаблондар дәл; Оркестр құралының нәтижелерін үлгі контекстіне қайтарады.

Басталу

CometAPI – OpenAI GPT сериялары, Google Gemini, Anthropic's Claude, Midjourney, Suno және т.б. сияқты жетекші провайдерлердің 500-ден астам AI үлгілерін бір, әзірлеушілерге ыңғайлы интерфейске біріктіретін бірыңғай API платформасы. Тұрақты аутентификацияны, сұрауды пішімдеуді және жауаптарды өңдеуді ұсына отырып, CometAPI қолданбаларыңызға AI мүмкіндіктерін біріктіруді айтарлықтай жеңілдетеді. Чат-боттарды, кескін генераторларын, музыкалық композиторларды немесе деректерге негізделген аналитикалық құбырларды құрастырып жатсаңыз да, CometAPI сізге AI экожүйесіндегі соңғы жетістіктерге қол жеткізе отырып, жылдамырақ қайталауға, шығындарды басқаруға және жеткізуші-агностикалық күйде қалуға мүмкіндік береді.

Әзірлеушілер қол жеткізе алады DeepSeek V3.1 CometAPI арқылы тізімдегі соңғы үлгілер нұсқасы мақаланың жарияланған күнінен бастап берілген. Бастау үшін үлгінің мүмкіндіктерін зерттеңіз Ойын алаңы және кеңесіңіз API нұсқаулығы егжей-тегжейлі нұсқаулар үшін. Қол жеткізу алдында CometAPI жүйесіне кіріп, API кілтін алғаныңызға көз жеткізіңіз. CometAPI біріктіруге көмектесу үшін ресми бағадан әлдеқайда төмен баға ұсыныңыз.

қорытынды

DeepSeek-V3.1 практикалық гибридті қорытынды философиясын (бір бақылау нүктесі + шаблондық ойлау әрекеті) ұсынады, ол ой тізбегі стиліндегі дәлелдермен тәжірибе жасауды және чат үлгілері мен құрал талаптарын сақтаған кезде агент құралын оңай пайдалануға мүмкіндік береді. Hugging Face үлгісі картасын және DeepSeek шығарылым жазбаларын бірінші аялдама ретінде пайдаланыңыз, жергілікті жұмыс уақытын таңдаңыз (қарапайымдылық үшін Ollama, llama.cpp бақылау үшін) және практикалық жергілікті орналастыру үшін квантталған құрылымдарды сынаңыз.