DeepSeek-V3.1-Terminus: Fitur, Tolok Ukur, dan Signifikansi

DeepSeek-V3.1-Terminus adalah penyempurnaan terbaru dari keluarga DeepSeek — sebuah model bahasa besar (LLM) hibrida berorientasi agen yang diposisikan DeepSeek sebagai jembatan antara model obrolan tradisional dan sistem agen yang lebih mumpuni. Alih-alih jaringan dasar yang benar-benar baru, Terminus disajikan sebagai pembaruan bergaya paket layanan yang ditargetkan untuk lini V3.1 yang berfokus pada stabilitas, konsistensi bahasa, dan kinerja agen/alat yang lebih baik (terutama agen Kode dan Pencarian). Rilis ini sudah tersedia melalui API DeepSeek, distribusi Hugging Face, dan telah diintegrasikan ke dalam berbagai ekosistem penyedia.

Di bawah ini saya jelaskan modelnya secara mendalam.

Apa itu DeepSeek-V3.1-Terminus?

DeepSeek-V3.1-Terminus adalah rilis poin terbaru dari lini V3 DeepSeek — penyempurnaan yang berorientasi pada stabilitas dan agen dari model Mixture-of-Experts (MoE) berkapasitas tinggi milik perusahaan. Pembaruan DeepSeek-V3.1-Terminus berfokus pada dua masalah praktis yang dihadapi pengguna yang dilaporkan pada versi V3 sebelumnya: pencampuran bahasa/gangguan karakter yang sporadis dan perilaku agen/alat yang tidak konsisten. DeepSeek menggambarkan rilis ini sebagai langkah pemeliharaan dan penguatan yang mempertahankan kapabilitas mentah V3 sekaligus meningkatkan stabilitas, penggunaan alat agen (terutama Agen Kode dan Agen Pencarian), dan keandalan lintas-benchmark; model dan bobot tersedia melalui saluran DeepSeek dan di Hugging Face.

Apa artinya, secara praktis:

Ini adalah peningkatan bertahap dari DeepSeek V3.1 yang berfokus pada penggunaan agen/alat (Agen Kode, Agen Pencarian) dan peningkatan penalaran multi-langkah.
Tim melaporkan lebih sedikit kesalahan pencampuran bahasa dan keluaran yang lebih stabil dibandingkan dengan V3.1 sebelumnya.
Mendukung templat obrolan "berpikir" dan "tidak berpikir" (mode penalaran hibrida) dan pemanggilan alat terstruktur untuk alur kerja agen.

Apa desain arsitektur secara umum?

DeepSeek-V3.1 (dan dengan perluasan pembaruan Terminus) adalah model penalaran hibrida yang besar: keluarga ini memadukan penskalaan bergaya campuran pakar (MoE) yang besar dengan perutean parameter aktif sehingga sistem dapat beroperasi dalam mode "berpikir" (penalaran internal yang intensif, perencanaan alat) dan mode obrolan "non-berpikir" (latensi lebih rendah, respons langsung). Desain hibrida ini diekspos kepada pengembang melalui templat obrolan dan mode runtime yang berbeda, alih-alih melalui model yang terpisah — jaringan dasar yang sama mendukung kedua perilaku tersebut.

Bagaimana “agen” diintegrasikan ke dalam arsitektur?

Kemampuan agen DeepSeek berlapis di atas inferensi model inti: modul agen khusus (Agen Kode, Agen Pencarian, Agen Jelajah, Agen Terminal) diimplementasikan sebagai perilaku penggunaan alat terpandu yang dapat dipelajari oleh model. DeepSeek-V3.1-Terminus meningkatkan keandalan dan koordinasi agen-agen tersebut melalui optimasi pasca-pelatihan dan templat perintah yang ditingkatkan. Dalam praktiknya, agen-agen tersebut bukanlah jaringan saraf terpisah, melainkan pola perilaku terlatih (dan terkadang pengontrol ringan) yang menginstruksikan model dasar kapan dan bagaimana memanggil alat atau tindakan eksternal.

Apa saja peningkatan utama dalam V3.1-Terminus?

Masalah pengguna apa yang ditangani Terminus?

DeepSeek-V3.1-Terminus dirilis sebagian besar sebagai respons terhadap dua kategori praktis umpan balik pengguna:

Stabilitas bahasa: Pengguna melaporkan adanya pencampuran bahasa sesekali (titik kode bahasa Mandarin/Inggris tercampur dalam keluaran), karakter yang menyimpang atau "tidak jelas", dan artefak tokenisasi yang tidak konsisten dalam konteks multibahasa. DeepSeek-V3.1-Terminus mencakup perbaikan yang bertujuan untuk mengurangi kejadian ini.
Keandalan agen: Pengguna menginginkan perilaku yang lebih tangguh dan berulang dari model ketika memanggil rantai alat (Agen Kode, Agen Pencarian, Agen Terminal). DeepSeek-V3.1-Terminus berisi perubahan pasca-pelatihan dan prompt/templat yang bertujuan untuk menstabilkan penggunaan alat dan mengurangi halusinasi agen atau eksekusi rencana yang tidak lengkap.

Solusi

DeepSeek-V3.1-Terminus dirancang sebagai rilis yang berkualitas dan tangguh. Perusahaan ini mencantumkan beberapa perbaikan dan pengoptimalan konkret:

Perbaikan konsistensi bahasa: Pengurangan pencampuran bahasa Mandarin/Inggris yang tidak terduga dan penghapusan karakter abnormal langka yang terkadang muncul dalam keluaran.
Ketahanan agen: Peningkatan yang signifikan pada Agen Kode dan Agen Pencarian, dengan fidelitas pemanggilan alat yang lebih baik dan lebih sedikit pemanggilan alat yang berhalusinasi. Terminus memperketat serah terima prompt-ke-eksekutor Agen Kode, meningkatkan interpretasi hasil pencarian oleh Agen Pencarian, dan mengurangi artefak tokenisasi palsu selama operasi berantai — semua ini bertujuan untuk membuat alur kerja agen ujung-ke-ujung (misalnya, kueri → pencarian → pembuatan kode → eksekusi) lebih deterministik dan lebih sedikit rawan kesalahan.
Stabilitas di seluruh tolok ukur: Tim melaporkan skor yang lebih stabil (varians lebih rendah) di seluruh tolok ukur umum dibandingkan dengan versi V3 sebelumnya.

DeepSeek membingkai Terminus agar kompatibel dengan titik integrasi V3.1 yang ada — titik akhir obrolan dan "reasoner" telah ditingkatkan. Secara teknis, hal ini menjadikan Terminus sebagai rilis dengan keandalan/kualitas yang aditif, alih-alih perubahan API yang merusak, meskipun perilaku khusus layanan (misalnya, sedikit perbedaan latensi dalam mode berpikir) dapat diperkirakan untuk aplikasi yang mengandalkan pengaturan waktu yang presisi.

Bagaimana kinerja DeepSeek-V3.1-Terminus pada benchmark?

Angka patokan apa yang telah diterbitkan DeepSeek?

DeepSeek menerbitkan skor benchmark komparatif untuk V3.1 dan V3.1-Terminus di berbagai pengujian penalaran, kode, agen, dan multibahasa. Item representatif dari tabel yang tersedia untuk umum meliputi:

MMLU-Pro (penalaran): V3.1 = 84.8 → Terminus = 85.0.
GPQA-Berlian: 80.1 → 80.7.
Ujian Terakhir Kemanusiaan: 15.9 → 21.7 (peningkatan yang nyata pada tolok ukur khusus).
LiveCodeBench / Kode: 74.8 → 74.9 (keuntungan kecil).
Codeforces (skor): 2091 → 2046 (sedikit variasi pada skor kontes pengkodean agregat).

Tolok ukur agen/penggunaan alat menunjukkan peningkatan relatif yang lebih besar:

BrowseComp (navigasi web agen): 30.0 → 38.5.
Terminal-bench (kompetensi baris perintah): 31.3 → 36.7.
SWE Terverifikasi (verifikasi rekayasa perangkat lunak): 66.0 → 68.4.
SimpleQA (akurasi QA): 93.4 → 96.8.

Angka-angka ini menunjukkan bahwa meskipun perolehan penalaran mentah sederhana, kapasitas agen dan penggunaan alat meningkat secara material — persis area yang ditargetkan DeepSeek untuk Terminus.

Tolok ukur berarti dalam istilah praktis:

Keuntungan penalaran kecil menunjukkan bobot model inti tidak berubah secara dramatis; perbaikan berasal dari kurasi data pelatihan dan jalur inferensi yang lebih baik.
Keuntungan agensi yang lebih besar menunjukkan model sekarang memilih dan menggunakan alat dengan lebih andal, yang menghasilkan tugas dunia nyata yang lebih baik seperti penelitian web multi-langkah, siklus pembuatan + pengujian kode, dan otomatisasi baris perintah.

Fitur canggih apa saja yang diungkap DeepSeek-V3.1-Terminus?

Rangkaian alat Agentik: Agen Kode, Agen Pencarian, Agen Terminal

Terminus menggandakan fitur agen yang memungkinkan pengembang mengatur alur kerja eksternal multi-langkah:

Agen Kode: menghasilkan kode yang dapat dijalankan, menjalankan loop eksekusi (di sandbox penyedia), dan menyediakan bantuan debugging iteratif. Pembaruan ini bertujuan untuk mengurangi potongan kode yang salah bentuk dan penalaran bertahap yang lebih baik untuk tugas-tugas algoritmik.
Cari Agen / Telusuri Agen: mengurutkan kueri web multi-langkah, mengintegrasikan hasil pencarian, dan mensintesis jawaban dari data yang diambil. Delta BrowseComp yang dipublikasikan menunjukkan stabilitas penelusuran yang lebih baik.
Agen Terminal: Dirancang untuk berinteraksi dengan tugas-tugas shell/terminal (misalnya, membangun rangkaian multi-perintah, mengurai keluaran), yang digunakan dalam evaluasi bergaya "terminal-bench" di mana model harus merencanakan dan mengeksekusi rangkaian perintah. Terminus menunjukkan peningkatan kinerja Terminal-bench.

Mode waktu proses berpikir/non-berpikir hibrida

Detail desain praktisnya adalah model ini mendukung templat "berpikir" (komputasi internal yang lebih banyak, perencanaan yang lebih baik) dan templat "non-berpikir" atau obrolan (latensi yang lebih rendah). DeepSeek mengekspos keduanya melalui varian titik akhir (deepseek-chat dan deepseek-reasoner) sehingga integrator dapat memilih profil kualitas/latensi per permintaan. Terminus menstandardisasi dan menyempurnakan templat tersebut untuk mengurangi perbedaan perilaku ganjil yang terlihat pada peluncuran V3.1 sebelumnya.

Ergonomi pengembang: templat, demo, dan pohon model

DeepSeek telah menerbitkan contoh inferensi yang diperbarui, pohon model yang lebih jelas di Hugging Face, dan bobot terkuantisasi untuk memungkinkan eksperimen lokal atau tepi. Fokus pada artefak penerapan (model terkuantisasi, kode demo inferensi) mengurangi hambatan bagi integrator yang ingin menguji coba model di lingkungan mereka sendiri.

Apa arti Terminus bagi pengembang?

Jika Anda sudah menggunakan DeepSeek V3.1: DeepSeek-V3.1-Terminus seharusnya menjadi peningkatan yang mudah dan berfokus pada keandalan. Tim yang mengandalkan fitur agen (pencarian, eksekusi kode, alur kerja terminal) kemungkinan besar akan melihat peningkatan praktis. Perusahaan telah meningkatkan titik akhir yang ada sehingga perubahan integrasi seharusnya minimal.
Jika Anda mengevaluasi model untuk aplikasi yang banyak menggunakan alat: DeepSeek-V3.1-Terminus menekankan stabilitas agen — layak ditambahkan ke daftar pilihan Anda jika aplikasi Anda membutuhkan orkestrasi alat multi-langkah. Namun, Anda tetap harus menjalankan prosedur benchmark dan prompt adversarial Anda sendiri yang relevan dengan domain Anda.

Kesimpulan — apakah DeepSeek-V3.1-Terminus signifikan?

DeepSeek-V3.1-Terminus paling baik dipahami sebagai rilis yang berfokus pada kualitas dan keandalan: rilis ini tidak merombak arsitektur atau mengubah skala keluarga secara radikal, tetapi mengatasi masalah-masalah praktis yang mendesak yang memengaruhi penerapan produksi — stabilitas bahasa, keandalan alat agen, dan peningkatan tolok ukur yang kecil namun signifikan dalam tugas-tugas agen. Bagi pengembang yang bergantung pada alur alat terintegrasi multi-langkah (orkestrasi pencarian, pembuatan + eksekusi kode, otomatisasi terminal), Terminus merupakan langkah maju yang signifikan. Bagi mereka yang berfokus hanya pada tolok ukur penalaran single-pass mentah, peningkatannya akan relatif kecil.

Mulai

CometAPI adalah platform API terpadu yang menggabungkan lebih dari 500 model AI dari penyedia terkemuka—seperti seri GPT OpenAI, Gemini Google, Claude Anthropic, Midjourney, Suno, dan lainnya—menjadi satu antarmuka yang ramah bagi pengembang. Dengan menawarkan autentikasi yang konsisten, pemformatan permintaan, dan penanganan respons, CometAPI secara drastis menyederhanakan integrasi kapabilitas AI ke dalam aplikasi Anda. Baik Anda sedang membangun chatbot, generator gambar, komposer musik, atau alur kerja analitik berbasis data, CometAPI memungkinkan Anda melakukan iterasi lebih cepat, mengendalikan biaya, dan tetap tidak bergantung pada vendor—semuanya sambil memanfaatkan terobosan terbaru di seluruh ekosistem AI.

Pengembang dapat mengakses DeepSeek-V3.1-Terminus melalui CometAPI, versi model terbaru selalu diperbarui dengan situs web resmi. Untuk memulai, jelajahi kemampuan model di tempat bermain dan konsultasikan Panduan API untuk petunjuk terperinci. Sebelum mengakses, pastikan Anda telah masuk ke CometAPI dan memperoleh kunci API. API Komet menawarkan harga yang jauh lebih rendah dari harga resmi untuk membantu Anda berintegrasi.

Siap untuk berangkat?→ Daftar ke CometAPI hari ini !