Jika model “DeepSeek V4” tersedia untuk dimuat turun secara umum, berikut ialah cara ringkas untuk menjalankannya secara lokal:
1) Sediakan persekitaran
- OS: Windows/macOS/Linux.
- GPU (disyorkan): NVIDIA dengan pemacu CUDA terkini, AMD (ROCm), atau Apple Silicon (M‑series). Boleh jalan di CPU tetapi lebih perlahan.
- Perisian asas: Python 3.10+, pip/conda; atau gunakan pengurus seperti Homebrew/Chocolatey mengikut sistem.
2) Kaedah 1 — Ollama (paling mudah untuk pengguna umum)
- Pasang Ollama mengikut panduan rasmi sistem anda.
- Dapatkan model: jika tersedia di Hugging Face atau lokasi lain, sediakan Modelfile yang merujuk kepada repositori atau laluan tempatan model.
Contoh ringkas Modelfile:
FROM <huggingface_repo_or_local_path>
- Cipta dan jalankan model:
- ollama create deepseek-v4 -f Modelfile
- ollama run deepseek-v4
- Uji dengan prompt di terminal. Untuk prestasi GPU, pastikan Ollama mengesan GPU anda.
3) Kaedah 2 — vLLM (menyediakan API gaya OpenAI)
- Pasang vLLM:
- pip install vllm
- Jalankan pelayan:
- python -m vllm.entrypoints.openai.api_server --model <huggingface_repo_or_local_path> --dtype auto
- Panggil API:
- Hantar permintaan ke http://localhost:8000/v1/chat/completions menggunakan kunci/format OpenAI serasi.
- Laraskan parameter seperti --tensor-parallel-size untuk multi‑GPU, atau --max-model-len untuk konteks lebih panjang.
4) Kaedah 3 — llama.cpp / LM Studio (mesra CPU & Apple Silicon)
- Dapatkan fail model dalam format GGUF (atau tukar daripada safetensors ke GGUF menggunakan skrip penukaran).
- Jalankan dengan llama.cpp:
- ./main -m <model.gguf> -p "Hello"
- Kuantisasi (cth. Q4_K_M) mengurangkan penggunaan RAM/VRAM dengan sedikit kompromi kualiti.
- Alternatif GUI: LM Studio boleh memuat turun/menjalankan model GGUF dan menyediakan UI chat tempatan.
5) Kaedah 4 — text-generation-webui (web UI serbaguna)
- Pasang kebergantungan dan lancarkan:
- git clone <repo_tgwui>; python launch.py
- Muatkan model dari Hugging Face (<huggingface_repo>) atau laluan tempatan, pilih backend (Transformers, ExLlama, llama.cpp), dan mula berbual melalui UI.
Petua penting
- Templat chat: Ikuti templat perbualan yang disyorkan dalam repositori model (role system/user/assistant) untuk hasil terbaik.
- Memori/VRAM: Jika kehabisan VRAM, guna kuantisasi 4‑bit/8‑bit, aktifkan offloading ke CPU, kecilkan batch/sequence length.
- Keserasian: Pastikan versi pemacu CUDA/ROCm dan PyTorch sesuai. Pada Apple Silicon, bina dengan sokongan Metal/Accelerate.
- Lesen & penggunaan: Semak lesen model dan patuhi sekatan penggunaan/edaran.
Jika “DeepSeek V4” belum tersedia secara umum, kaedah di atas tetap terpakai apabila fail model dan arahan rasmi dikeluarkan; sebagai alternatif, anda boleh menguji versi DeepSeek lain yang tersedia menggunakan aliran kerja yang sama.
Cara praktikal untuk menjalankan DeepSeek V4 secara setempat ialah menggunakan pemberat sumber terbuka rasmi dengan timbunan penyajian berprestasi tinggi seperti vLLM, kemudian mendedahkan model melalui titik akhir setempat yang serasi dengan OpenAI. Bahan awam DeepSeek pada masa ini menerangkan dua model dalam keluarga V4: DeepSeek-V4-Pro dengan 1.6T jumlah parameter / 49B aktif, dan DeepSeek-V4-Flash dengan 284B jumlah parameter / 13B aktif, kedua-duanya dengan konteks 1M token dan tiga mod penaakulan. Contoh penyebaran setempat vLLM semasa menyasarkan 8× B200/B300 untuk Pro dan 4× B200/B300 untuk Flash. Jika anda tidak mempunyai perkakasan sedemikian, pilihan sandaran dihoskan seperti CometAPI ialah laluan yang lebih praktikal.Kemas Kini DeepSeek: apa yang berubah, apa yang baharu, dan mengapa ia penting
Pada Februari 2026, syarikat pemula AI dari China, DeepSeek, melancarkan kemas kini besar untuk aplikasi dalam talian dan antara muka webnya, yang menandakan momentum ke arah pelancaran model generasi seterusnya, DeepSeek V4. Walaupun kemas kini ini hadir sebelum model V4 penuh, ia sudah pun mencetuskan perbincangan dalam kalangan pengguna dan pemerhati industri berkaitan perubahan pada tingkah laku interaksi, keupayaan konteks panjang, serta ujian persediaan untuk potensi masa depan.