DeepSeek-V3.1: Fitur, arsitektur, dan tolok ukur

Pada bulan Agustus 2025, startup AI Tiongkok DeepSeek mengumumkan peluncuran Pencarian Dalam-V3.1, sebuah peningkatan pertengahan generasi yang diklaim perusahaan sebagai langkah pertama "menuju era agen." Pembaruan ini menghadirkan mode inferensi hibrida (satu model yang dapat berjalan dalam mode "berpikir" atau "tidak berpikir"), jendela konteks yang jauh lebih panjang, dan peningkatan pasca-pelatihan yang terarah pada pemanggilan alat dan perilaku agen multi-langkah.

Apa itu DeepSeek-V3.1 dan mengapa itu penting?

DeepSeek-V3.1 adalah pembaruan tingkat produksi terbaru untuk seri V3 DeepSeek. Secara umum, ini adalah keluarga model bahasa MoE hibrida (garis keturunan V3) yang telah dilatih dan diperluas oleh DeepSeek untuk mendukung dua mode operasi yang mudah dipahami pengguna. Anda akan menemukan dua varian utama: DeepSeek-V3.1-Base dan DeepSeek-V3.1 versi lengkap.

Tidak berpikir (obrolan mendalam): mode penyelesaian obrolan standar yang dioptimalkan untuk kecepatan dan penggunaan percakapan.
Berpikir (pencarian mendalam-penalaran): mode penalaran agen yang mengutamakan penalaran terstruktur, multi-langkah, dan orkestrasi alat/agen.

Rilis ini berfokus pada tiga peningkatan yang terlihat: jalur inferensi hibrid yang menyeimbangkan latensi dan kemampuan, pemanggilan alat/orkestrasi agen yang lebih cerdas, dan jendela konteks yang diperluas secara substansial (diiklankan sebagai token 128K).

Mengapa hal ini penting: DeepSeek-V3.1 melanjutkan tren industri yang lebih luas, yaitu menggabungkan arsitektur MoE skala besar yang efisien dengan primitif perkakas dan jendela konteks yang sangat panjang. Kombinasi ini penting untuk agen perusahaan, alur kerja pencarian plus penalaran, peringkasan dokumen panjang, dan otomatisasi berbasis perkakas, yang membutuhkan throughput dan kemampuan untuk "memanggil" perkakas eksternal secara deterministik.

Apa yang membuat DeepSeek-V3.1 berbeda dari rilis DeepSeek sebelumnya?

Inferensi hibrida: satu model, dua mode operasional

Perubahan arsitektur utama adalah inferensi hibridaDeepSeek menjelaskan V3.1 mendukung mode "berpikir" dan mode "non-berpikir" di dalam instans model yang sama, yang dapat dipilih dengan mengubah templat obrolan atau tombol alih UI (tombol "DeepThink" DeepSeek). Dalam praktiknya, ini berarti model dapat diinstruksikan untuk menghasilkan jejak penalaran internal (berguna untuk alur kerja agen bergaya rantai pemikiran) atau untuk merespons secara langsung tanpa mengekspos token penalaran perantara — tergantung kebutuhan pengembang. DeepSeek menyajikan ini sebagai jalur menuju alur kerja yang lebih agen sekaligus memungkinkan aplikasi memilih kompromi latensi/verbositas.

Jendela konteks yang lebih besar dan primitif token

Catatan rilis resmi melaporkan jendela konteks yang jauh lebih besar di V3.1; pengujian komunitas dan postingan perusahaan menempatkan konteks yang diperluas di 128rb token untuk beberapa varian yang dihosting, memungkinkan percakapan yang jauh lebih panjang, penalaran multi-dokumen, atau basis kode yang panjang untuk dimasukkan ke dalam satu sesi. Melengkapi hal tersebut, DeepSeek dilaporkan memperkenalkan beberapa token kontrol khusus (misalnya <｜search_begin｜>/<｜search_end｜>, <think> / </think>) dimaksudkan untuk menyusun panggilan alat dan menggambarkan segmen “pemikiran” secara internal — pola desain yang menyederhanakan koordinasi dengan alat eksternal.

Peningkatan kemampuan agen/alat dan peningkatan latensi

DeepSeek menyatakan bahwa V3.1 mendapat manfaat dari optimasi pasca pelatihan Berfokus pada pemanggilan alat dan tugas agen multi-langkah: model ini diklaim mencapai jawaban lebih cepat dalam mode "berpikir" dibandingkan versi DeepSeek R1 sebelumnya, dan lebih andal saat memanggil API eksternal atau menjalankan rencana multi-langkah. Posisi tersebut — inferensi yang lebih cepat namun lebih mumpuni — merupakan pembeda produk yang jelas bagi tim yang membangun asisten, otomatisasi, atau alur kerja agen.

Apa arsitektur di balik DeepSeek-V3.1?

DeepSeek-V3.1 dibangun di atas penelitian inti keluarga DeepSeek-V3: Campuran Pakar (MoE) tulang punggung dengan serangkaian inovasi arsitektur yang dirancang untuk efisiensi dan skalabilitas. Laporan teknis publik untuk DeepSeek-V3 (keluarga yang mendasarinya) menjelaskan:

Desain MoE yang besar dengan ratusan miliar parameter total dan lebih kecil diaktifkan jumlah parameter per token (kartu model mencantumkan total 671B parameter dengan sekitar 37B yang diaktifkan per token).
Multi-head Latent Attention (MLA) dan pendekatan perutean dan penskalaan DeepSeekMoE khusus yang mengurangi biaya inferensi sambil mempertahankan kapasitas.
Tujuan pelatihan dan strategi penyeimbangan beban yang menghilangkan kebutuhan akan istilah kerugian penyeimbangan beban tambahan dan mengadopsi tujuan prediksi multi-token untuk meningkatkan throughput dan pemodelan sekuens.

Mengapa MoE + MLA?

Mixture-of-Experts memungkinkan model mempertahankan jumlah parameter teoretis yang tinggi sambil hanya mengaktifkan sebagian kecil pakar per token — hal ini mengurangi komputasi per token. MLA adalah varian atensi DeepSeek yang membantu model menskalakan operasi atensi secara efisien di berbagai pakar dan konteks yang panjang. Kedua pilihan ini memungkinkan pelatihan dan penyajian titik pemeriksaan yang sangat besar sekaligus mempertahankan biaya inferensi yang dapat digunakan untuk banyak penerapan.

Bagaimana kinerja DeepSeek-V3.1 dalam benchmark dan pengujian dunia nyata?

Bagaimana V3.1 dibandingkan, dalam kata-kata

Lebih dari V3 (0324): V3.1 merupakan peningkatan yang signifikan secara menyeluruh—terutama dalam tugas pengkodean dan agensi. Contoh: LiveCodeBench melompat dari 43.0 → 56.4 (tidak berpikir) dan → 74.8 (pemikiran); Aider-Poliglot dari 55.1 → 68.4 / 76.3.
Melawan R1-0528: R1 tetap menjadi titik perbandingan yang kuat dalam “penalaran”, tetapi V3.1-Berpikir sering sama atau melebihi R1-0528 (AIME/HMMT, LiveCodeBench), sekaligus menawarkan jalur tanpa berpikir untuk penggunaan latensi rendah.
Pengetahuan umum (varian MMLU): V3.1 berada tepat di bawah R1-0528 jika “berpikir” yang dimaksud, tetapi di atas V3 yang lebih lama.

Pengetahuan umum & akademis

Tolok ukur (metrik)	V3.1-Tidak Berpikir	V3 (0324)	V3.1-Berpikir	R1-0528
MMLU-Redux (Pencocokan Tepat)	91.8	90.5	93.7	93.4
MMLU-Pro (Pencocokan Tepat)	83.7	81.2	84.8	85.0
GPQA-Berlian (Lulus@1)	74.9	68.4	80.1	81.0

Yang tersirat di sini: V3.1 lebih baik daripada V3 pada tugas pengetahuan/akademis; “berpikir” mempersempit kesenjangan dengan R1 pada pertanyaan sains yang sulit (GPQA-Diamond).

Pengkodean (non-agen)

Tolok ukur (metrik)	V3.1-Tidak Berpikir	V3 (0324)	V3.1-Berpikir	R1-0528
LiveCodeBench (2408–2505) (Lulus@1)	56.4	43.0	74.8	73.3
Aider-Poliglot (Ketepatan)	68.4	55.1	76.3	71.6
Codeforces-Div1 (Penilaian)	-	-	2091	1930

Catatan:

LiveCodeBench (2408–2505) menunjukkan jendela agregat (Agustus 2024→Mei 2025). Pass@1 yang lebih tinggi mencerminkan ketepatan percobaan pertama yang lebih kuat pada beragam tugas pengodean.
Aider-Poliglot mensimulasikan penyuntingan kode bergaya asisten di banyak bahasa; V3.1-Thinking memimpin rangkaiannya, V3.1-NonThinking merupakan lompatan besar dibandingkan V3 (0324).
Kartu model menunjukkan V3 (0324) pada 55.1% pada Aider—sesuai dengan entri papan peringkat publik Aider untuk vintage tersebut. (Skor yang lebih tinggi pada V3.1 merupakan hal baru pada kartu model.)

Pengkodean (tugas agen)

Tolok ukur (metrik)	V3.1-Tidak Berpikir	V3 (0324)	V3.1-Berpikir	R1-0528
SWE Terverifikasi (Mode agen)	66.0	45.4	-	44.6
SWE-bench Multibahasa (Mode agen)	54.5	29.3	-	30.5
Bangku terminal (Kerangka kerja Terminus 1)	31.3	13.3	-	5.7

Peringatan penting: Ini adalah evaluasi agen menggunakan kerangka kerja internal DeepSeek (perkakas, eksekusi multi-langkah), bukan pengujian dekode token berikutnya murni. Pengujian ini menangkap kemampuan "LLM + orkestrasi". Anggap ini sebagai sistem hasil (reproduktifitas dapat bergantung pada tumpukan agen dan pengaturan yang tepat).

Penalaran matematika & kompetisi

Tolok ukur (metrik)	V3.1-Tidak Berpikir	V3 (0324)	V3.1-Berpikir	R1-0528
TUJUAN 2024 (Lulus@1)	66.3	59.4	93.1	91.4
TUJUAN 2025 (Lulus@1)	49.8	51.3	88.4	87.5
HMMT 2025 (Lulus@1)	33.5	29.2	84.2	79.4

Takeaway: Mode “Berpikir” mendorong sangat besar peningkatan pada set kontes matematika—V3.1-Berpikir melampaui R1-0528 pada AIME/HMMT dalam lari yang dilaporkan.

QA yang ditingkatkan pencarian / “agentik”

Tolok ukur (metrik)	V3.1-Tidak Berpikir	V3 (0324)	V3.1-Berpikir	R1-0528
TelusuriComp	-	-	30.0	8.9
TelusuriComp_zh	-	-	49.2	35.7
Ujian Terakhir Kemanusiaan (Python + Pencarian)	-	-	29.8	24.8
QA Sederhana	-	-	93.4	92.3
Ujian Terakhir Kemanusiaan (hanya teks)	-	-	15.9	17.7

Catatan: DeepSeek menyatakan bahwa hasil agen pencarian menggunakan kerangka kerja pencarian internalnya (API pencarian komersial + pemfilteran halaman, konteks 128K). Metodologi penting di sini; reproduksi membutuhkan alat yang serupa.

Apa saja keterbatasannya dan apa saja jalan yang harus ditempuh?

DeepSeek-V3.1 merupakan langkah penting dalam rekayasa dan pengembangan produk: ia menggabungkan pelatihan konteks panjang, templat hibrida, dan arsitektur MoE ke dalam sebuah titik pemeriksaan yang dapat digunakan secara luas. Namun, masih terdapat beberapa keterbatasan:

Keselamatan agen di dunia nyata, halusinasi dalam peringkasan konteks panjang, dan perilaku perintah yang merugikan masih memerlukan mitigasi tingkat sistem.
Tolok ukurnya menggembirakan tetapi tidak seragam: kinerja bervariasi berdasarkan domain, bahasa, dan rangkaian evaluasi; validasi independen diperlukan.
Faktor geopolitik dan rantai pasokan — ketersediaan perangkat keras dan kompatibilitas chip — sebelumnya telah memengaruhi jadwal DeepSeek dan dapat memengaruhi cara pelanggan melakukan penerapan dalam skala besar.

Memulai melalui CometAPI

CometAPI adalah platform API terpadu yang menggabungkan lebih dari 500 model AI dari penyedia terkemuka—seperti seri GPT OpenAI, Gemini Google, Claude Anthropic, Midjourney, Suno, dan lainnya—menjadi satu antarmuka yang ramah bagi pengembang. Dengan menawarkan autentikasi yang konsisten, pemformatan permintaan, dan penanganan respons, CometAPI secara drastis menyederhanakan integrasi kapabilitas AI ke dalam aplikasi Anda. Baik Anda sedang membangun chatbot, generator gambar, komposer musik, atau alur kerja analitik berbasis data, CometAPI memungkinkan Anda melakukan iterasi lebih cepat, mengendalikan biaya, dan tetap tidak bergantung pada vendor—semuanya sambil memanfaatkan terobosan terbaru di seluruh ekosistem AI.

Pengembang dapat mengakses Pencarian Mendalam R1(deepseek-r1-0528) dan DeepSeek-V3.1 melalui API Komet, versi model terbaru yang tercantum adalah versi per tanggal publikasi artikel. Untuk memulai, jelajahi kemampuan model di tempat bermain dan konsultasikan Panduan API untuk petunjuk terperinci. Sebelum mengakses, pastikan Anda telah masuk ke CometAPI dan memperoleh kunci API. API Komet menawarkan harga yang jauh lebih rendah dari harga resmi untuk membantu Anda berintegrasi.

Kesimpulan

DeepSeek-V3.1 merupakan pembaruan yang pragmatis dan berorientasi pada rekayasa: jendela konteks yang lebih besar, inferensi berpikir/non-berpikir hibrida, interaksi alat yang ditingkatkan, dan API yang kompatibel dengan OpenAI menjadikannya pilihan yang menarik bagi tim yang membangun asisten agen, aplikasi konteks panjang, dan alur kerja berorientasi kode berbiaya rendah.