Cara Menjalankan DeepSeek-V3.1 pada peranti tempatan anda

DeepSeek-V3.1 ialah model sembang Mixture-of-Experts (MoE) hibrid yang dikeluarkan oleh DeepSeek pada Ogos 2025 yang menyokong dua mod inferens — mod "tidak berfikir" pantas dan mod "berfikir" yang disengajakan — dari pusat pemeriksaan yang sama. Model ini tersedia pada Muka Memeluk dan boleh dijalankan secara setempat melalui beberapa laluan (vLLM, Ollama/llama.cpp, GGUF gaya Ollama atau persediaan berbilang GPU berskala besar). Di bawah ini saya membimbing anda tentang keperluan, cara mod pemikiran berfungsi, beberapa pilihan larian setempat (dengan coretan kod boleh jalan) dan resipi langkah demi langkah "Mod Berfikir menggunakan" dengan contoh untuk panggilan alat dan templat token.

Apakah DeepSeek-V3.1 dan mengapa ia penting?

DeepSeek-V3.1 ialah kemas kini keluarga v3 daripada DeepSeek yang memperkenalkan a reka bentuk inferens hibrid: model yang sama boleh dijalankan berfikir (musyawarah, pelbagai langkah) atau tidak berfikir (jawapan langsung, lebih pantas) mod dengan menukar templat sembang. Dari segi seni bina, ia adalah keluarga besar MoE (pusat pemeriksaan asas sekitar 671B jumlah parameter, ~37B diaktifkan setiap token) dengan latihan konteks panjang dilanjutkan kepada 128K token dan sokongan penskalaan mikro FP8. DeepSeek meletakkan V3.1 sebagai keluaran sedia ejen: panggilan alat yang lebih baik, kemahiran ejen yang dipertingkatkan dan kecekapan pemikiran yang lebih tinggi berbanding keluaran R1 sebelumnya. Keluaran itu diumumkan pada Ogos 2025 dan telah disepadukan ke dalam Hugging Face, perkakas CFD/OSS dan panduan penggunaan awan.

Cara model hibrid berfungsi (ringkas)

Satu pusat pemeriksaan, dua templat: Mod Berfikir vs Tidak Berfikir dikawal oleh templat sembang dan <think>/</think> konvensyen token dalam gesaan. Kad model mendokumenkan awalan yang tepat.
Penambahbaikan ejen/alat: Rangsangan selepas latihan membolehkan panggilan alat yang lebih bijak — model menjangkakan format JSON panggilan alat yang ketat untuk pelaksanaan alat yang selamat dan menentukan.
Tukar ganti prestasi: Mod pemikiran membelanjakan token pada penaakulan gaya rantaian pemikiran dalaman dan boleh menjadi lebih perlahan/lebih intensif token; tidak berfikir lebih cepat dan lebih murah. Penanda aras dalam kad model menunjukkan peningkatan yang ketara merentas penaakulan dan penanda aras kod untuk V3.1.

Bagaimana model itu distrukturkan

tulang belakang KPM: jumlah kiraan parameter yang besar dengan subset diaktifkan yang lebih kecil bagi setiap token (inferens ekonomi).
Latihan konteks panjang: V3.1 memanjangkan fasa konteks panjang dengan ketara (32k → latihan yang lebih besar pada dokumen panjang) untuk menyokong tetingkap 128K+ dalam beberapa binaan.
Aliran kerja asli FP8: DeepSeek menggunakan format FP8 secara meluas (w8a8 / UE8M0) untuk kecekapan berat/pengaktifan; skrip penukaran komuniti wujud jika anda lebih suka BF16/FP16.

Apakah keperluan untuk menjalankan DeepSeek-V3.1 secara tempatan? (Perkakasan, storan dan perisian)

Running the penuh Model V3.1 (tidak terkuantisasi) adalah usaha yang besar. Di bawah ialah kategori persediaan yang realistik dan perkara yang biasanya mereka perlukan.

Baldi Praktikal

Kluster / makmal penyelidikan (model penuh): berbilang GPU memori tinggi (kelas H100/H800 atau banyak GPU Ada/Hopper), berbilang nod dengan berpuluh-puluh GPU, banyak storan NVMe (ratusan GB) dan rangka kerja inferens khusus (SGLang, vLLM, LMDeploy, TRT-LLM).
Pelayan tunggal mewah (dikuantisasi): mungkin dengan pengkuantitian berat (INT4/AWQ/AWQ2/gguf) dan rangka kerja seperti Ollama (dibungkus) atau GGUF komuniti — masih memerlukan ~ puluhan hingga ratusan GB GPU RAM atau pemuatan CPU+GPU yang bijak.
Komputer riba pemaju / kotak dev: tidak boleh dilaksanakan untuk model penuh; gunakan varian suling / diperhalusi kecil atau sambung ke pelayan tempatan/contoh Ollama.

Senarai semak perkakasan (praktikal)

GPU: Untuk input inferens sebenar bagi V3.1 penuh: gugusan berbilang GPU (H100 / H800 / Ada Lovelace+). Untuk pelaksanaan FP8, GPU dengan keupayaan pengiraan dan sokongan pemandu diperlukan.
RAM & storan: Jangkakan ratusan GB cakera percuma untuk fail model (halaman model menyenaraikan beberapa ratus GB bergantung pada format/kuantisasi), serta ruang kerja untuk format yang ditukar. Metadata Ollama menyenaraikan jejak ~400GB untuk pakej DeepSeek V3.1 Ollama dalam pustaka.
rangkaian: Untuk inferens berbilang nod anda memerlukan sambung kependaman rendah (NVLink / InfiniBand) dan perkakas orkestra untuk tetapan selari tensor.

Senarai semak perisian

OS: Linux disyorkan untuk alat inferens komuniti (DeepSeek-Infer demo menyenaraikan Linux/Python).
Python: 3.10+ (dalam banyak contoh DeepSeek). Versi pakej biasa disematkan dalam repo requirements.txt.
Rangka kerja & alatan (pilih satu atau lebih): SGLang, vLLM, LMDeploy, TRT-LLM/TensorRT-LLM, LightLLM atau Ollama untuk pemasangan setempat yang lebih ringkas. Setiap satu mempunyai arahan dan sokongan ketepatan/kuantisasi yang berbeza.

Nota praktikal: Jika anda hanya mempunyai satu GPU pengguna (cth, 24–48 GB), anda mungkin akan menggunakan GGUF terkuantisasi atau inferens jauh; jika anda mempunyai stesen kerja dengan >128 GB RAM serta kluster GPU kelas H100/H200, anda boleh menyasarkan inferens FP8/FP16 yang lebih tinggi dengan vLLM.

Bagaimanakah cara saya menjalankan DeepSeek-V3.1 secara tempatan?

Di bawah ialah beberapa laluan praktikal yang boleh anda gunakan, daripada yang paling manual / fleksibel kepada laluan yang paling mudah untuk satu kotak pembangun. Saya akan menyediakan tutorial langkah demi langkah dan contoh kod

Pilihan A — Demo Rasmi DeepSeek-Infer (laluan pembangunan / kelompok)

Ini ialah contoh/demo repo untuk inferens FP8/BF16. Gunakannya jika anda merancang berbilang nod atau ingin mencuba kod inferens rasmi.

Klon, sediakan persekitaran

git clone https://github.com/deepseek-ai/DeepSeek-V3.git
cd DeepSeek-V3/inference
# Create a dedicated venv / conda env

python -m venv venv && source venv/bin/activate
pip install -r requirements.txt

(Repo inference/requirements.txt menyenaraikan versi obor/triton/transformer yang disematkan yang disyorkan oleh pasukan.)

Muat turun berat model

Muat turun dari halaman model Memeluk Wajah (deepseek-ai/DeepSeek-V3.1) dan letakkannya di bawah /path/to/DeepSeek-V3. Kad model dan repo mencatatkan kedua-dua pautan storan Memeluk Wajah rasmi.

Tukar pemberat untuk demo

# example conversion command shown in the repo

python convert.py --hf-ckpt-path /path/to/DeepSeek-V3 --save-path /path/to/DeepSeek-V3-Demo --n-experts 256 --model-parallel 16

Jalankan penjanaan interaktif (diedarkan)

torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR \
  generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json \
  --interactive --temperature 0.7 --max-new-tokens 200

Ini ialah contoh kanonik daripada repo DeepSeek untuk larian gaya kluster.

Pilihan B — vLLM (disyorkan untuk penggunaan pelayan & API serasi OpenAI)

vLLM menyokong DeepSeek dalam mod FP8/BF16 dan memberikan anda pelayan serasi OpenAI. Ia merupakan laluan pengeluaran yang popular untuk model besar kerana pengoptimuman memori dan keserasian API.

Mulakan pelayan vLLM yang akan mengambil model daripada Hugging Face (contoh corak):

# this will download/serve the model (replace with exact model id if needed)

vllm serve deepseek-ai/DeepSeek-V3.1 --host 0.0.0.0 --port 8000

Kemudian minta pelengkapan dengan curl atau klien yang serasi dengan OpenAI:

curl -s -X POST "http://localhost:8000/v1/completions" \
  -H "Content-Type: application/json" \
  -d '{"model":"DeepSeek-V3.1","prompt":"Explain the QuickSort algorithm", "max_tokens":200}'

Resipi dan dokumen vLLM termasuk contoh DeepSeek dan nota tentang keserasian FP8 dan selari berbilang GPU/saluran paip. Untuk model berat, anda masih memerlukan berbilang GPU atau varian terkuantisasi.

Pilihan C — LMDeploy / SGLang / LightLLM & TensorRT-LLM (prestasi tinggi)

Repo DeepSeek mengesyorkan secara eksplisit SGLang, LMDeploy, dan TensorRT-LLM sebagai enjin yang dioptimumkan untuk DeepSeek V3. Mereka menyediakan kependaman inferens, daya pemprosesan dan kernel FP8 yang lebih baik.

Seruan LMDeploy biasa (rujuk dokumen LMDeploy untuk CLI tepat):

# pseudo-example; refer to LMDeploy docs for exact options

lmdeploy serve --model /path/to/deepseek_v3.1 --precision fp8 --port 8080

Penanda aras dan resipi pelancaran SGLang tersedia dalam repo dan dalam projek SGLang benchmark/deepseek_v3 folder. Gunakan tindanan ini apabila anda mengawal kluster GPU dan mahukan hasil pengeluaran.

Pilihan D — Ollama (laluan dev tempatan paling mudah, selalunya mesin tunggal)

Jika anda mahukan cara geseran terendah untuk menjalankan DeepSeek secara tempatan (dan anda boleh menyelamatkan cakera), Ollama menyediakan model berpakej dan CLI ringkas (ollama pull, ollama run). DeepSeek-V3.1 muncul dalam pustaka Ollama dan boleh dijalankan secara setempat (Ollama mungkin memerlukan versi terkini/pra-keluaran untuk beberapa ciri).

Contoh (Ollama CLI):

# Pull the model (downloads the model artifacts to your disk)

ollama pull deepseek-v3.1

# Start an interactive session:

ollama run deepseek-v3.1

# Or run as a local API server (Ollama supports a local API)

# Example: POSTing to Ollama's local API (adjust host/port to your setup)
curl -X POST http://localhost:11434/api/generate \
  -H 'Content-Type: application/json' \
  -d '{"model":"deepseek-v3.1","prompt":"Summarize the following paper: ..."}'

Ollama menghilangkan banyak butiran pengedaran/kuantisasi dan boleh menjadi cara terbaik untuk menguji tingkah laku model pada satu hos. Nota: halaman model menyenaraikan saiz berpakej ~404GB untuk entri Ollama, jadi rancang cakera & RAM dengan sewajarnya.

Apakah Mod Berfikir dan cara menggunakannya

DeepSeek-V3.1 melaksanakan a token pemikiran hibrid pendekatan: pusat pemeriksaan yang sama boleh masuk berfikir mod (token "rantai pemikiran" dalaman) atau tidak berfikir mod dengan menukar templat sembang/gesa. Model menggunakan token eksplisit seperti <think> (dan penutup </think> dalam beberapa templat) untuk memberi isyarat rantaian pemikiran dalaman vs penjanaan jawapan langsung. Kad model mendokumentasikan awalan tidak berfikir dan berfikir dan menunjukkan cara templat berbeza.

Contoh: membina mesej dalam Python (pembantu tokenizer)

Kad model Hugging Face termasuk coretan berguna yang menunjukkan cara menggunakan templat sembang melalui tokenizer. Ini ialah corak yang disyorkan untuk penjanaan berfikir or tidak berfikir gesaan berformat:

import transformers
tokenizer = transformers.AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-V3.1")

messages = [
    {"role": "system", "content": "You are a helpful assistant"},
    {"role": "user", "content": "Who are you?"},
    {"role": "assistant", "content": "<think>Hmm</think>I am DeepSeek"},
    {"role": "user", "content": "1+1=?"}
]

# Thinking mode

tokenizer.apply_chat_template(messages, tokenize=False, thinking=True, add_generation_prompt=True)

# Non-thinking mode

tokenizer.apply_chat_template(messages, tokenize=False, thinking=False, add_generation_prompt=True)

Beralih thinking=True untuk menghasilkan gesaan yang menggunakan <think> awalan; thinking=False menghasilkan templat tidak berfikir. Model akan berkelakuan berbeza (pertimbangan dalaman vs tindak balas segera) bergantung pada bendera ini.

Rujukan pantas — penyelesaian masalah kecil & amalan terbaik

Jika anda kehabisan memori GPU: Cuba binaan terkuantisasi (AWQ/q4/INT4) atau GGUF komuniti; banyak ruang komuniti menerbitkan kuantisasi untuk kegunaan tempatan. Ollama / vLLM juga boleh menyediakan binaan berkuantiti yang lebih kecil.

Jika anda memerlukan model untuk memanggil alat luaran: Mengamalkan Panggilan Alat skema dalam templat sembang dengan tepat. Uji format JSON alat di luar talian dan semak sama ada kod orkestrasi anda (bahagian yang melaksanakan alat) mengembalikan JSON yang telah dibersihkan, ditaip kembali kepada model.

Jika anda memerlukan konteks yang panjang: Gunakan vLLM atau SGLang dengan pemalam konteks panjang; DeepSeek telah dilatih/dilanjutkan secara eksplisit untuk konteks 32K/128K dan alatan berkaitan menyokong tetingkap itu. Jangkakan pertukaran memori.

Bolehkah saya menjalankan DeepSeek-V3.1 pada komputer riba atau pelayan kecil?

Jawapan pendek: Ya, tetapi dengan kaveat. Pengkuantitian komuniti (dinamik AWQ/GGUF/1-bit) mengurangkan storan dan jejak memori secara drastik dan telah membolehkan penggemar menjalankan varian V3.1 pada desktop mewah (tuntutan ~170 GB set kerja ). Walau bagaimanapun:

Kesetiaan vs saiz tukar ganti: kuantisasi agresif mengurangkan ingatan tetapi boleh menjejaskan prestasi penaakulan/kod. Uji beban kerja anda.
Undang-undang & pelesenan: model itu dilesenkan oleh MIT bagi setiap kad model, tetapi pengkuantitian pihak ketiga mungkin membawa lesen mereka sendiri; semak semula sebelum digunakan pengeluaran.

Kata-kata akhir

DeepSeek-V3.1 ialah langkah penting ke arah model "ejen" hibrid dengan tingkah laku pemikiran/tidak berfikir yang eksplisit dan penggunaan alat yang lebih baik. Jika anda ingin menjalankannya secara setempat, pilih laluan yang sepadan dengan perkakasan anda dan toleransi risiko:

Untuk penyelidikan: transformers + safetensors terkuantisasi dan mempercepatkan.

Untuk pengeluaran & pengeluaran: vLLM + berbilang GPU (H100/H200).

Untuk eksperimen tempatan: Ollama/llama.cpp + GGUF komuniti (gabung + lari).

Bermula

CometAPI ialah platform API bersatu yang mengagregatkan lebih 500 model AI daripada pembekal terkemuka—seperti siri GPT OpenAI, Google Gemini, Anthropic's Claude, Midjourney, Suno dan banyak lagi—menjadi satu antara muka mesra pembangun. Dengan menawarkan pengesahan yang konsisten, pemformatan permintaan dan pengendalian respons, CometAPI secara dramatik memudahkan penyepaduan keupayaan AI ke dalam aplikasi anda. Sama ada anda sedang membina chatbots, penjana imej, komposer muzik atau saluran paip analitik terdorong data, CometAPI membolehkan anda mengulangi dengan lebih pantas, mengawal kos dan kekal sebagai vendor-agnostik—semuanya sambil memanfaatkan penemuan terkini merentas ekosistem AI.

Pembangun boleh mengakses DeepSeek-V3.1 melalui CometAPI, versi model terkini yang disenaraikan adalah pada tarikh penerbitan artikel. Untuk memulakan, terokai keupayaan model dalam Taman Permainan dan berunding dengan Panduan API untuk arahan terperinci. Sebelum mengakses, sila pastikan anda telah log masuk ke CometAPI dan memperoleh kunci API. CometAPI menawarkan harga yang jauh lebih rendah daripada harga rasmi untuk membantu anda menyepadukan.