Ağustos 2025'te Çinli yapay zeka girişimi DeepSeek, DeepSeek-V3.1Şirketin "araç çağına doğru" ilk adım olarak nitelendirdiği orta nesil bir yükseltme. Güncelleme, hibrit bir çıkarım modu ("düşünen" veya "düşünmeyen" modda çalışabilen tek bir model), önemli ölçüde daha uzun bir bağlam penceresi ve araç çağırma ve çok adımlı aracı davranışında hedefli eğitim sonrası iyileştirmeler getiriyor.
DeepSeek-V3.1 nedir ve neden önemlidir?
DeepSeek-V3.1, DeepSeek'in V3 serisinin en son üretim düzeyindeki güncellemesidir. Üst düzeyde, DeepSeek'in kullanıcı tarafından görülebilen iki çalışma modunu desteklemek üzere sonradan eğittiği ve genişlettiği hibrit bir MoE dil modeli ailesidir (V3 soyu). İki ana varyant bulacaksınız: DeepSeek-V3.1-Base ve tam DeepSeek-V3.1.
- Düşünmeyen (deepseek-chat): Hız ve konuşma amaçlı kullanım için optimize edilmiş standart bir sohbet tamamlama modu.
- Düşünme (derin arayış-akılcı): Yapılandırılmış, çok adımlı akıl yürütmeyi ve araç/araç orkestrasyonunu önceliklendiren bir aracı akıl yürütme modu.
Sürüm, üç görünür iyileştirmeye odaklanıyor: gecikme ve yetenek arasında denge kuran bir hibrit çıkarım hattı, daha akıllı araç çağırma/araç orkestrasyonu ve önemli ölçüde genişletilmiş bir bağlam penceresi (128K token olarak tanıtılıyor).
Neden önemlidir: DeepSeek-V3.1, verimli büyük ölçekli MoE mimarilerini araç temelleri ve çok uzun bağlam pencereleriyle birleştirme konusundaki daha geniş endüstri trendini sürdürüyor. Bu kombinasyon, hem verimlilik hem de harici araçlara kesin olarak "çağrı" yapma yeteneğinin gerekli olduğu kurumsal aracılar, arama artı akıl yürütme iş akışları, uzun belge özetleme ve araç odaklı otomasyon için önemlidir.
DeepSeek-V3.1'i önceki DeepSeek sürümlerinden farklı kılan nedir?
Hibrit çıkarım: bir model, iki operasyonel mod
Başlık mimari değişimdir hibrit çıkarımDeepSeek, V3.1 sürümünün aynı model örneği içinde hem "düşünme" modunu hem de "düşünmeme" modunu desteklediğini ve bu modun sohbet şablonunu veya bir kullanıcı arayüzü geçişini (DeepSeek'in "DeepThink" düğmesi) değiştirerek seçilebileceğini belirtiyor. Pratikte bu, modelin dahili akıl yürütme izleri üretmesi (düşünce zinciri tarzı aracı iş akışları için kullanışlıdır) veya geliştirici ihtiyaçlarına bağlı olarak ara akıl yürütme belirteçlerini ifşa etmeden doğrudan yanıt vermesi için talimat verilebileceği anlamına gelir. DeepSeek bunu, uygulamaların gecikme/ayrıntı dengesi arasında seçim yapmasına izin verirken daha aracı iş akışlarına giden bir yol olarak sunar.
Daha büyük bağlam penceresi ve belirteç ilkel öğeleri
Resmi sürüm notları bir rapor sunuyor çok daha büyük bağlam penceresi V3.1'de; topluluk testleri ve şirket gönderileri genişletilmiş bağlamı şu şekilde ortaya koyuyor: 128 bin jeton Bazı barındırılan varyantlar için, önemli ölçüde daha uzun konuşmaların, çok belgeli muhakemelerin veya uzun kod tabanlarının tek bir oturuma aktarılmasını sağlar. Buna ek olarak, DeepSeek'in birkaç özel kontrol belirteci sunduğu bildiriliyor (örneğin <|search_begin|>/<|search_end|>, <think> / </think>) araç çağrılarını yapılandırmayı ve dahili olarak "düşünme" bölümlerini belirlemeyi amaçlayan bir tasarım desenidir; harici araçlarla koordinasyonu basitleştirir.
Keskinleştirilmiş aracı/araç yetenekleri ve gecikme iyileştirmeleri
DeepSeek, V3.1'in şu avantajlardan yararlandığını belirtiyor: eğitim sonrası optimizasyon Araç çağırma ve çok adımlı aracı görevlerine odaklanmıştır: Modelin, önceki DeepSeek R1 sürümlerine kıyasla "düşünme" modunda yanıtlara daha hızlı ulaştığı ve harici API'leri çağırırken veya çok adımlı planları yürütürken daha güvenilir olduğu söylenmektedir. Bu konumlandırma -daha hızlı ancak daha fazla aracı yeteneğine sahip çıkarım- asistanlar, otomasyonlar veya aracı iş akışları oluşturan ekipler için açık bir ürün farklılaştırıcısıdır.
DeepSeek-V3.1'in arkasındaki mimari nedir?
DeepSeek-V3.1, DeepSeek-V3 ailesinin temel araştırmasına dayanmaktadır: Uzmanlar Karması (MEB) Verimlilik ve ölçeklenebilirlik için tasarlanmış bir dizi mimari yeniliğe sahip omurga. DeepSeek-V3'ün (altta yatan aile) genel teknik raporu şunları açıklıyor:
- Yüz milyarlarca toplam parametreye sahip büyük bir MoE tasarımı ve daha küçük bir aktive Jeton başına parametre sayısı (model kartında jeton başına yaklaşık 671 milyar etkin parametre olmak üzere toplam 37 milyar parametre listelenmektedir).
- Kapasiteyi korurken çıkarım maliyetini azaltan Çok Başlıklı Gizli Dikkat (MLA) ve özel DeepSeekMoE yönlendirme ve ölçekleme yaklaşımları.
- Yardımcı yük dengeleme kayıp terimlerine olan ihtiyacı ortadan kaldıran ve verimi ve sıra modellemesini iyileştirmek için çoklu belirteç tahmin hedeflerini benimseyen eğitim hedefleri ve yük dengeleme stratejileri.
Neden MEB + MLA?
Uzman Karışımı, modelin her jeton için yalnızca bir uzman alt kümesini etkinleştirirken yüksek bir teorik parametre sayısını korumasına olanak tanır; bu da jeton başına hesaplamayı azaltır. MLA, DeepSeek'in dikkat değişkenidir ve modelin dikkat işlemlerini birçok uzman ve uzun bağlamlar arasında verimli bir şekilde ölçeklemesine yardımcı olur. Bu seçenekler bir araya geldiğinde, birçok dağıtım için kullanılabilir çıkarım maliyetlerini korurken çok büyük kontrol noktalarını eğitmek ve hizmet vermek mümkün hale gelir.
DeepSeek-V3.1 kıyaslamalarda ve gerçek dünya testlerinde nasıl performans gösteriyor?
V3.1'in kelimelerle karşılaştırılması
- V3 (0324) Üzerinde: V3.1, özellikle kodlama ve aracılık görevlerinde genel olarak net bir yükseltmedir. Örnek: CanlıKodBench atlar 43.0 → 56.4 (düşünmeyen) ve → 74.8 (düşünme); Aider-Çok Dilli itibaren 55.1 → 68.4 / 76.3.
- R1-0528'e karşı: R1 güçlü bir "akıl yürütme odaklı" karşılaştırma noktası olmaya devam ediyor, ancak V3.1-Düşünme sıklıkla R1-0528'e eşittir veya onu aşar (AIME/HMMT, LiveCodeBench) aynı zamanda düşük gecikmeli kullanım için düşünmeden bir yol da sunuyor.
- Genel bilgi (MMLU varyantları): V3.1, "düşünme" açısından R1-0528'in hemen altında, ancak eski V3'ün üstünde yer alıyor.
Genel bilgi ve akademik
| Ölçüt (metrik) | V3.1-Düşünmeme | V3 (0324) | V3.1-Düşünme | R1-0528 |
|---|---|---|---|---|
| MMLU-Yeniden (Tam Eşleşme) | 91.8 | 90.5 | 93.7 | 93.4 |
| MMLU-Pro (Tam Eşleşme) | 83.7 | 81.2 | 84.8 | 85.0 |
| GPQA-Elmas (Pas@1) | 74.9 | 68.4 | 80.1 | 81.0 |
Bu ne anlama geliyor: V3.1, bilgi/akademik görevlerde V3'e göre daha iyi; "düşünme", zor bilim sorularında (GPQA-Diamond) R1 ile arasındaki farkı daraltıyor.
Kodlama (aracı olmayan)
| Ölçüt (metrik) | V3.1-Düşünmeme | V3 (0324) | V3.1-Düşünme | R1-0528 |
|---|---|---|---|---|
| LiveCodeBench (2408–2505) (Pas@1) | 56.4 | 43.0 | 74.8 | 73.3 |
| Aider-Çok Dilli (Kesinlik) | 68.4 | 55.1 | 76.3 | 71.6 |
| Codeforces-Div1 (Değerlendirme) | - | - | 2091 | 1930 |
Notlar:
- LiveCodeBench (2408–2505) toplanmış bir pencereyi belirtir (Ağustos 2024→Mayıs 2025). Daha yüksek Pass@1, çeşitli kodlama görevlerinde daha güçlü ilk deneme doğruluğunu yansıtır.
- Aider-Çok Dilli birçok dilde yardımcı tarzı kod düzenlemeyi simüle eder; V3.1-Düşünme bu konuda önde gelir, V3.1-Düşünmeme ise V3'e (0324) göre önemli bir sıçramadır.
- Model kartı şunu gösteriyor: V3 (0324) %55.1'de Aider'da - Aider'ın o döneme ait genel liderlik tablosu girişiyle tutarlı. (V3.1'in daha yüksek puanları model kartta yeni.)
Kodlama (aracı görevleri)
| Ölçüt (metrik) | V3.1-Düşünmeme | V3 (0324) | V3.1-Düşünme | R1-0528 |
|---|---|---|---|---|
| SWE Doğrulandı (Ajan modu) | 66.0 | 45.4 | - | 44.6 |
| SWE-bench Çok Dilli (Ajan modu) | 54.5 | 29.3 | - | 30.5 |
| Terminal tezgahı (Terminus 1 çerçevesi) | 31.3 | 13.3 | - | 5.7 |
Önemli uyarı: Bunlar DeepSeek'in dahili çerçevelerini kullanarak aracı değerlendirmeleri (araçlar, çok adımlı yürütme), saf bir sonraki jeton kod çözme testi değil. "LLM + orkestrasyon" yeteneğini yakalarlar. Bunları sistem sonuçlar (tekrarlanabilirlik, tam ajan yığınına ve ayarlara bağlı olabilir).
Matematik ve rekabet muhakemesi
| Ölçüt (metrik) | V3.1-Düşünmeme | V3 (0324) | V3.1-Düşünme | R1-0528 |
|---|---|---|---|---|
| 2024 (Pas@1) | 66.3 | 59.4 | 93.1 | 91.4 |
| 2025 (Pas@1) | 49.8 | 51.3 | 88.4 | 87.5 |
| HMMT 2025 (Pas@1) | 33.5 | 29.2 | 84.2 | 79.4 |
Paket: "Düşünme" modu sürücüleri çok büyük Matematik yarışması setlerinde yükselişler—V3.1-Düşünme, bildirilen çalışmalarda AIME/HMMT'de R1-0528'i geçiyor.
Arama destekli / "aracı" QA
| Ölçüt (metrik) | V3.1-Düşünmeme | V3 (0324) | V3.1-Düşünme | R1-0528 |
|---|---|---|---|---|
| BrowseComp | - | - | 30.0 | 8.9 |
| BrowseComp_zh | - | - | 49.2 | 35.7 |
| İnsanlığın Son Sınavı (Python + Arama) | - | - | 29.8 | 24.8 |
| BasitQA | - | - | 93.4 | 92.3 |
| İnsanlığın Son Sınavı (sadece metin) | - | - | 15.9 | 17.7 |
Not: DeepSeek, arama aracısı sonuçlarının kendi dahili arama çerçevesini (ticari arama API'si + sayfa filtreleme, 128K bağlam) kullandığını belirtiyor. Burada metodoloji önemlidir; yeniden üretim benzer araçlar gerektirir.
Sınırlarınız ve önünüzdeki yol nedir?
DeepSeek-V3.1, önemli bir mühendislik ve ürün adımıdır: uzun bağlamlı eğitimi, hibrit şablonları ve MoE mimarisini geniş çapta kullanılabilir bir kontrol noktasına entegre eder. Ancak, sınırlamalar devam etmektedir:
- Gerçek dünyadaki etken güvenliği, uzun bağlam özetinde halüsinasyon ve düşmanca hızlı davranış hala sistem düzeyinde hafifletmeler gerektiriyor.
- Ölçütler cesaret verici ancak tekdüze değil: performans, alana, dile ve değerlendirme paketine göre değişiyor; bağımsız doğrulama gerekli.
- Jeopolitik ve tedarik zinciri faktörleri (donanım bulunabilirliği ve çip uyumluluğu) daha önce DeepSeek'in takvimini etkilemişti ve müşterilerin ölçekte nasıl dağıtım yapacağını etkileyebilir.
CometAPI ile Başlarken
CometAPI, OpenAI'nin GPT serisi, Google'ın Gemini, Anthropic'in Claude, Midjourney, Suno ve daha fazlası gibi önde gelen sağlayıcılardan 500'den fazla AI modelini tek bir geliştirici dostu arayüzde toplayan birleşik bir API platformudur. Tutarlı kimlik doğrulama, istek biçimlendirme ve yanıt işleme sunarak CometAPI, AI yeteneklerinin uygulamalarınıza entegrasyonunu önemli ölçüde basitleştirir. İster sohbet robotları, görüntü oluşturucular, müzik bestecileri veya veri odaklı analiz hatları oluşturuyor olun, CometAPI daha hızlı yineleme yapmanızı, maliyetleri kontrol etmenizi ve satıcıdan bağımsız kalmanızı sağlar; tüm bunları yaparken AI ekosistemindeki en son atılımlardan yararlanırsınız.
Geliştiriciler erişebilir DeepSeek R1(deepseek-r1-0528) ve DeepSeek-V3.1 aracılığıyla Kuyrukluyıldız API'si, listelenen en son model sürümleri makalenin yayınlandığı tarih itibarıyla geçerlidir. Başlamak için, modelin yeteneklerini keşfedin. Oyun Alanı ve danışın API kılavuzu Ayrıntılı talimatlar için. Erişimden önce, lütfen CometAPI'ye giriş yaptığınızdan ve API anahtarını edindiğinizden emin olun. Kuyrukluyıldız API'si Entegrasyonunuza yardımcı olmak için resmi fiyattan çok daha düşük bir fiyat teklif ediyoruz.
Sonuç
DeepSeek-V3.1, pragmatik ve mühendislik odaklı bir güncellemeyi temsil ediyor: daha geniş bir bağlam penceresi, hibrit düşünme/düşünmeme çıkarımı, geliştirilmiş araç etkileşimleri ve OpenAI uyumlu bir API, onu ekipler oluşturmak için cazip bir seçenek haline getiriyor aracı asistanlar, uzun bağlamlı uygulamalar ve düşük maliyetli kod odaklı iş akışları.
