DeepSeek-V3.1, DeepSeek tarafından Ağustos 2025'te yayınlanan hibrit bir Uzman Karışımı (MoE) sohbet modelidir ve şunları destekler: iki çıkarım modu — hızlı bir "düşünmeyen" mod ve bilinçli bir "düşünen" mod — aynı kontrol noktasından. Model, Hugging Face'te mevcuttur ve çeşitli yollarla (vLLM, Ollama/llama.cpp, Ollama tarzı GGUF'ler veya büyük ölçekli çoklu GPU kurulumları) yerel olarak çalıştırılabilir. Aşağıda, gereksinimleri, düşünme modunun nasıl çalıştığını, çeşitli yerel çalıştırma seçeneklerini (çalıştırılabilir kod parçacıklarıyla) ve araç çağırma ve belirteç şablonları için örnekler içeren adım adım bir "Düşünme Modu dağıtımı" tarifini adım adım açıklıyorum.
DeepSeek-V3.1 nedir ve neden önemlidir?
DeepSeek-V3.1, DeepSeek'in v3 ailesi güncellemesidir ve hibrit çıkarım tasarımı: aynı model çalıştırılabilir düşünme (kasıtlı, çok adımlı) veya düşünmeyen (doğrudan yanıt, daha hızlı) sohbet şablonunu değiştirerek modlar. Mimari olarak, uzun bağlamlı eğitimin 671 bin token'a ve FP37 mikro ölçeklendirme desteğine genişletildiği geniş bir MoE ailesidir (toplam yaklaşık 128 milyar parametre, token başına yaklaşık 8 milyar aktif). DeepSeek, V3.1'i aracı kullanıma hazır bir sürüm olarak konumlandırdı: önceki R1 sürümlerine kıyasla daha iyi araç çağırma, geliştirilmiş aracı becerileri ve daha yüksek düşünme verimliliği. Sürüm Ağustos 2025'te duyurulmuş ve Hugging Face, CFD/OSS araçları ve bulut dağıtım kılavuzlarına entegre edilmiştir.
Hibrit model nasıl çalışır (özet)
- Bir kontrol noktası, iki şablon: Düşünme ve Düşünmeme modları aşağıdakiler tarafından kontrol edilir: sohbet şablonu ve
<think>/</think>İstemdeki belirteç kuralı. Model kartı, tam önekleri belgelendirir. - Aracı/araç iyileştirmeleri: Eğitim sonrası güçlendirmeler daha akıllı araç çağrılarını mümkün kılar; model, güvenli ve kesin araç yürütme için katı bir araç çağrısı JSON biçimi bekler.
- Performans dezavantajları: Düşünme modu, token'ları dahili düşünce zinciri tarzı muhakemeye harcar ve daha yavaş/daha fazla token yoğun olabilir; düşünmeme modu ise daha hızlı ve daha ucuzdur. Model kartındaki kıyaslamalar, V3.1 için muhakeme ve kod kıyaslamalarında önemli iyileştirmeler göstermektedir.
Model nasıl yapılandırıldı?
- MoE omurgası: jeton başına daha küçük etkinleştirilmiş alt kümeye sahip büyük toplam parametre sayısı (ekonomik çıkarım).
- Uzun bağlamlı eğitim: V3.1, bazı sürümlerde 32K+ pencereleri desteklemek için uzun bağlam aşamalarını önemli ölçüde genişletiyor (128k → uzun belgelerde daha büyük eğitim).
- FP8 yerel iş akışı: DeepSeek ağırlık/aktivasyon verimliliği için FP8 formatlarını (w8a8 / UE8M0) yoğun olarak kullanır; BF16/FP16'yı tercih ederseniz topluluk dönüştürme betikleri mevcuttur.
DeepSeek-V3.1'i yerel olarak çalıştırmak için gereksinimler nelerdir? (Donanım, depolama ve yazılım)
Koşuyor tam V3.1 modeli (kuantize edilmemiş) büyük bir girişimdir. Aşağıda gerçekçi kurulum kategorileri ve bunların genellikle ne gerektirdiği yer almaktadır.
Pratik Kovalar
- Küme / araştırma laboratuvarı (tam model): birden fazla yüksek bellekli GPU (H100/H800 sınıfı veya birçok Ada/Hopper GPU), onlarca GPU'lu çoklu düğüm, çok sayıda NVMe depolama alanı (yüzlerce GB) ve özel çıkarım çerçeveleri (SGLang, vLLM, LMDeploy, TRT-LLM).
- Tek sunuculu üst düzey (niceliklendirilmiş): Ağır niceleme (INT4/AWQ/AWQ2/gguf) ve Ollama (önceden paketlenmiş) veya topluluk GGUF'ları gibi çerçevelerle mümkün — yine de ~onlarca ila yüzlerce GB GPU RAM'i veya akıllı CPU+GPU yük boşaltması gerektirir.
- Geliştirici dizüstü bilgisayarı / geliştirme kutusu: tam model için uygun değil; küçük damıtılmış/ince ayarlı varyantları kullanın veya yerel sunucuya/Ollama örneğine bağlanın.
Donanım kontrol listesi (pratik)
- GPU'lar: V3.1'in tam sürümünün gerçek çıkarım verimi için çoklu GPU kümeleri (H100 / H800 / Ada Lovelace+) gereklidir. FP8 yürütmesi için, hesaplama yeteneğine ve sürücü desteğine sahip GPU'lara ihtiyaç vardır.
- RAM ve depolama: Model dosyaları için yüzlerce GB boş disk alanı bekleyin (model sayfalarında biçime/nicelemeye bağlı olarak birkaç yüz GB listelenir) ve dönüştürülen biçimler için çalışma alanı da mevcuttur. Ollama meta verileri, kütüphanedeki DeepSeek V400 Ollama paketi için yaklaşık 3.1 GB'lık bir alan listeler.
- ağ:Çoklu düğüm çıkarımı için düşük gecikmeli ara bağlantılara (NVLink / InfiniBand) ve tensör paralel kurulumlar için orkestrasyon araçlarına ihtiyacınız var.
Yazılım kontrol listesi
- OS: Topluluk çıkarım araçları için Linux önerilir (DeepSeek-Infer demosunda Linux/Python listelenmiştir).
- Python: 3.10+ (birçok DeepSeek örneğinde). Tipik paket sürümleri depoda sabitlenmiştir
requirements.txt. - Çerçeveler ve araçlar (bir veya daha fazlasını seçin): Daha basit yerel kurulumlar için SGLang, vLLM, LMDeploy, TRT-LLM/TensorRT-LLM, LightLLM veya Ollama. Her birinin talimatları ve farklı hassasiyet/niceleme desteği vardır.
Pratik not: Yalnızca bir tüketici GPU'nuz varsa (örneğin, 24–48 GB), büyük olasılıkla niceliksel GGUF'leri veya uzaktan çıkarımı kullanırsınız; >128 GB RAM'e ve bir H100/H200 sınıfı GPU kümesine sahip bir iş istasyonunuz varsa, vLLM ile daha yüksek doğrulukta FP8/FP16 çıkarımı hedefleyebilirsiniz.
DeepSeek-V3.1'i yerel olarak nasıl çalıştırabilirim?
Aşağıda, tek bir geliştirici kutusu için en manuel/esnekten en kolay yola kadar kullanabileceğiniz birkaç pratik yol bulunmaktadır. Adım adım eğitimler ve kod örnekleri sunacağım
Seçenek A — Resmi DeepSeek-Infer demosu (geliştirme / küme yolu)
Bu, FP8/BF16 çıkarımı için deponun örneği/demodur. Çoklu düğüm planlıyorsanız veya resmi çıkarım koduyla denemeler yapmak istiyorsanız bunu kullanabilirsiniz.
- Klonla, ortamı hazırla
git clone https://github.com/deepseek-ai/DeepSeek-V3.git
cd DeepSeek-V3/inference
# Create a dedicated venv / conda env
python -m venv venv && source venv/bin/activate
pip install -r requirements.txt
(Depo inference/requirements.txt (Ekibin önerdiği pinli torch/triton/transformers versiyonlarını listeler.)
- Model ağırlıklarını indirin
- Hugging Face model sayfasından indirin (
deepseek-ai/DeepSeek-V3.1) ve bunları altına yerleştirin/path/to/DeepSeek-V3Model kartı ve depo notu, her ikisi de resmi Hugging Face depolama bağlantılarını içerir.
- Demo için ağırlıkları dönüştürün
# example conversion command shown in the repo
python convert.py --hf-ckpt-path /path/to/DeepSeek-V3 --save-path /path/to/DeepSeek-V3-Demo --n-experts 256 --model-parallel 16
- Etkileşimli üretimi (dağıtılmış) çalıştırın
torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR \
generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json \
--interactive --temperature 0.7 --max-new-tokens 200
Bu, küme tarzı çalıştırmalar için DeepSeek deposundan alınan kanonik örnektir.
Seçenek B — vLLM (sunucu dağıtımları ve OpenAI uyumlu API için önerilir)
vLLM, FP8/BF16 modlarında DeepSeek'i destekler ve size OpenAI uyumlu bir sunucu sunar. Bellek optimizasyonları ve API uyumluluğu sayesinde büyük modeller için popüler bir üretim yoludur.
Hugging Face'den modeli getirecek bir vLLM sunucusu başlatın (örnek desen):
# this will download/serve the model (replace with exact model id if needed)
vllm serve deepseek-ai/DeepSeek-V3.1 --host 0.0.0.0 --port 8000
Daha sonra curl veya OpenAI uyumlu bir istemci ile tamamlamaları talep edin:
curl -s -X POST "http://localhost:8000/v1/completions" \
-H "Content-Type: application/json" \
-d '{"model":"DeepSeek-V3.1","prompt":"Explain the QuickSort algorithm", "max_tokens":200}'
vLLM tarifleri ve belgeleri, DeepSeek örnekleri ve FP8 uyumluluğu ve çoklu GPU/işlem hattı paralelliği hakkında notlar içerir. Ağır modeller için yine de birden fazla GPU'ya veya nicemlenmiş bir varyanta ihtiyacınız olacaktır.
Seçenek C — LMDeploy / SGLang / LightLLM ve TensorRT-LLM (yüksek performans)
DeepSeek deposu açıkça şunu öneriyor: SGLang, LM Dağıtımı, ve TensorRT-LLM DeepSeek V3 için optimize edilmiş motorlar olarak. Geliştirilmiş çıkarım gecikmesi, verimlilik ve FP8 çekirdekleri sağlarlar.
Tipik bir LMDeploy çağrısı (tam CLI için LMDeploy belgelerine bakın):
# pseudo-example; refer to LMDeploy docs for exact options
lmdeploy serve --model /path/to/deepseek_v3.1 --precision fp8 --port 8080
SGLang kıyaslamaları ve lansman tarifleri depoda ve SGLang projesinin benchmark/deepseek_v3 Klasör. Bir GPU kümesini kontrol ettiğinizde ve üretim verimi istediğinizde bu yığınları kullanın.
Seçenek D — Ollama (en kolay yerel geliştirme yolu, genellikle tek makine)
DeepSeek'i yerel olarak çalıştırmanın en düşük sürtünmeli yolunu istiyorsanız (ve diski ayırabiliyorsanız), Ollama paketlenmiş modeller ve basit bir CLI sağlar (ollama pull, ollama run). DeepSeek-V3.1 Ollama kütüphanesinde yer almaktadır ve yerel olarak çalıştırılabilir (Ollama bazı özellikler için güncel/ön sürüm gerektirebilir).
Örnek (Ollama CLI):
# Pull the model (downloads the model artifacts to your disk)
ollama pull deepseek-v3.1
# Start an interactive session:
ollama run deepseek-v3.1
# Or run as a local API server (Ollama supports a local API)
# Example: POSTing to Ollama's local API (adjust host/port to your setup)
curl -X POST http://localhost:11434/api/generate \
-H 'Content-Type: application/json' \
-d '{"model":"deepseek-v3.1","prompt":"Summarize the following paper: ..."}'
Ollama, birçok dağıtım/niceleme ayrıntısını soyutlar ve tek bir ana bilgisayarda model davranışını test etmenin harika bir yolu olabilir. Not: Model sayfasında Ollama girişi için yaklaşık 404 GB'lık bir paketleme boyutu listelenmiştir, bu nedenle disk ve RAM'i buna göre planlayın.
Düşünme Modu nedir ve nasıl kullanılır?
DeepSeek-V3.1 bir hibrit düşünme belirteci yaklaşım: aynı kontrol noktası şu şekilde çalışabilir: düşünme mod (dahili “düşünce zinciri” belirteçleri) veya düşünmeyen Sohbet/istem şablonunu değiştirerek modu değiştirin. Model, aşağıdaki gibi açık belirteçler kullanır: <think> (ve kapanış </think> Bazı şablonlarda) içsel düşünce zinciri ile doğrudan cevap üretimi arasındaki farkı belirtmek için kullanılır. Model kart, düşünmeyen ve düşünen önekleri belgelendirir ve şablonların nasıl farklılaştığını gösterir.
Örnek: Python'da bir mesaj oluşturma (tokenizer yardımcısı)
Sarılma Yüzü model kartı, sohbet şablonunun belirteç ayırıcı aracılığıyla nasıl uygulanacağını gösteren kullanışlı bir kod parçası içerir. Bu, sohbet şablonu oluşturmak için önerilen modeldir. düşünme or düşünmeyen biçimlendirilmiş istemler:
import transformers
tokenizer = transformers.AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-V3.1")
messages = [
{"role": "system", "content": "You are a helpful assistant"},
{"role": "user", "content": "Who are you?"},
{"role": "assistant", "content": "<think>Hmm</think>I am DeepSeek"},
{"role": "user", "content": "1+1=?"}
]
# Thinking mode
tokenizer.apply_chat_template(messages, tokenize=False, thinking=True, add_generation_prompt=True)
# Non-thinking mode
tokenizer.apply_chat_template(messages, tokenize=False, thinking=False, add_generation_prompt=True)
anahtar thinking=True kullanan bir istem üretmek için <think> önek; thinking=False Düşünmeyen şablonu üretir. Model, bu bayrağa bağlı olarak farklı davranacaktır (içsel değerlendirme veya anında tepki).
Hızlı başvuru — küçük sorun giderme ve en iyi uygulamalar
GPU belleğiniz biterse: Niceliksel yapıları (AWQ/q4/INT4) veya topluluk GGUF'larını deneyin; birçok topluluk alanı yerel kullanım için niceliksel yapılar yayınlar. Ollama / vLLM daha küçük niceliksel yapılara da hizmet verebilir.
Modelin harici araçları çağırması gerekiyorsa: benimseyin Araç Çağrısı Sohbet şablonundaki şemayı tam olarak aynı yapın. Aracın JSON formatını çevrimdışı olarak test edin ve orkestrasyon kodunuzun (aracı çalıştıran parça) modele temizlenmiş, yazılmış JSON döndürdüğünü kontrol edin.
Uzun bir bağlama ihtiyacınız varsa: Uzun bağlam eklentileriyle vLLM veya SGLang kullanın; DeepSeek, 32K/128K bağlamlar için açıkça eğitilmiş/genişletilmiştir ve ilgili araçlar bu pencereyi destekler. Bellekte bazı ödünleşimler bekleyin.
DeepSeek-V3.1'i bir dizüstü bilgisayarda veya küçük bir sunucuda çalıştırabilir miyim?
Kısa cevap: Evet, ancak bazı çekincelerle. Topluluk nicemlemeleri (AWQ/GGUF/1 bit dinamik), depolama ve bellek ayak izini önemli ölçüde azaltır ve meraklıların V3.1 varyantlarını üst düzey masaüstü bilgisayarlarda çalıştırmasını sağlar (yaklaşık 170 GB çalışma kümesi iddiası). Ancak:
- Sadakat ve boyut arasındaki denge: Agresif nicemleme hafızayı azaltır ancak muhakeme/kod performansını etkileyebilir. İş yüklerinizde test edin.
- Yasal ve lisanslama: Model, model kartına göre MIT lisanslıdır, ancak üçüncü taraf nicelemeleri kendi lisanslarını taşıyabilir; üretimde kullanmadan önce bunları inceleyin.
Son sözler
DeepSeek-V3.1, açık düşünme/düşünmeme davranışı ve geliştirilmiş araç kullanımıyla hibrit "araç" modellerine doğru önemli bir adımdır. Yerel olarak çalıştırmak istiyorsanız, donanımınıza ve risk toleransınıza uygun bir yol seçin:
Araştırma için: transformers + nicemlenmiş safensörler ve hızlandırma.
Üretim ve verimlilik için: vLLM + çoklu GPU (H100/H200).
Yerel deneyler için: Ollama/llama.cpp + topluluk GGUF'ları (birleştirme + çalıştırma).
Başlamak
CometAPI, OpenAI'nin GPT serisi, Google'ın Gemini, Anthropic'in Claude, Midjourney, Suno ve daha fazlası gibi önde gelen sağlayıcılardan 500'den fazla AI modelini tek bir geliştirici dostu arayüzde toplayan birleşik bir API platformudur. Tutarlı kimlik doğrulama, istek biçimlendirme ve yanıt işleme sunarak CometAPI, AI yeteneklerinin uygulamalarınıza entegrasyonunu önemli ölçüde basitleştirir. İster sohbet robotları, görüntü oluşturucular, müzik bestecileri veya veri odaklı analiz hatları oluşturuyor olun, CometAPI daha hızlı yineleme yapmanızı, maliyetleri kontrol etmenizi ve satıcıdan bağımsız kalmanızı sağlar; tüm bunları yaparken AI ekosistemindeki en son atılımlardan yararlanırsınız.
Geliştiriciler erişebilir DeepSeek-V3.1 CometAPI aracılığıyla listelenen en son model sürümleri, makalenin yayınlandığı tarih itibarıyla geçerlidir. Başlangıç olarak, modelin yeteneklerini keşfedin. Oyun Alanı ve danışın API kılavuzu Ayrıntılı talimatlar için. Erişimden önce, lütfen CometAPI'ye giriş yaptığınızdan ve API anahtarını edindiğinizden emin olun. Kuyrukluyıldız API'si Entegrasyonunuza yardımcı olmak için resmi fiyattan çok daha düşük bir fiyat teklif ediyoruz.
