DeepSeek-V3.2

DeepSeek
deepseek-v3.2
Masukan:$0.22/M
Keluaran:$0.35/M
Konteks:128K
Keluaran Maksimum:4K
DeepSeek v3.2 adalah rilis produksi terbaru dalam keluarga DeepSeek V3: sebuah keluarga model bahasa berskala besar dengan bobot terbuka yang mengutamakan penalaran, dirancang untuk pemahaman konteks panjang, penggunaan agen/alat yang andal, penalaran tingkat lanjut, serta pemrograman dan matematika.

Apa itu DeepSeek v3.2?

DeepSeek v3.2 adalah rilis produksi terbaru dalam keluarga DeepSeek V3: keluarga model bahasa open-weight berskala besar yang berorientasi penalaran, dirancang untuk pemahaman konteks panjang, penggunaan agen/alat yang tangguh, penalaran lanjutan, pengodean, dan matematika. Rilis ini mencakup beberapa varian (V3.2 produksi dan V3.2-Speciale berperforma tinggi). Proyek ini menekankan inferensi konteks panjang yang hemat biaya melalui mekanisme atensi jarang baru bernama DeepSeek Sparse Attention (DSA) serta alur kerja agen/“thinking” (“Thinking in Tool-Use”).

Fitur utama (tingkat tinggi)

  • DeepSeek Sparse Attention (DSA): mekanisme atensi jarang yang dimaksudkan untuk secara drastis mengurangi komputasi dalam skenario konteks panjang sambil mempertahankan penalaran jarak jauh. (Klaim riset inti; digunakan dalam V3.2-Exp.)
  • Pemikiran agentik + integrasi penggunaan alat: V3.2 menekankan penyematan “thinking” ke dalam penggunaan alat: model dapat beroperasi dalam mode penalaran/pemikiran dan dalam mode non-thinking (normal) saat memanggil alat, sehingga meningkatkan pengambilan keputusan pada tugas bertahap dan orkestrasi alat.
  • Pipeline sintesis data agen skala besar: DeepSeek melaporkan korpus pelatihan dan pipeline sintesis agen yang mencakup ribuan lingkungan dan puluhan ribu instruksi kompleks untuk meningkatkan ketangguhan pada tugas interaktif.
  • DeepSeek Sparse Attention (DSA): DSA adalah metode atensi jarang berbutir halus yang diperkenalkan di lini V3.2 (pertama di V3.2-Exp) yang mengurangi kompleksitas atensi (dari O(L²) naif menjadi gaya O(L·k) dengan k ≪ L), dengan memilih himpunan token key/value yang lebih kecil per token query. Hasilnya adalah penggunaan memori/komputasi yang jauh lebih rendah untuk konteks sangat panjang (128K), membuat inferensi konteks panjang jauh lebih murah.
  • Backbone Mixture-of-Experts (MoE) dan Multi-head Latent Attention (MLA): Keluarga V3 menggunakan MoE untuk meningkatkan kapasitas secara efisien (jumlah parameter nominal besar dengan aktivasi per-token terbatas) bersama metode MLA untuk menjaga kualitas dan mengendalikan komputasi.

Spesifikasi teknis (ringkas)

  • Rentang parameter nominal: ~671B – 685B (tergantung varian).
  • Jendela konteks (rujukan terdokumentasi): 128.000 token (128K) dalam konfigurasi vLLM/referensi.
  • Atensi: DeepSeek Sparse Attention (DSA) + MLA; kompleksitas atensi berkurang untuk konteks panjang.
  • Presisi numerik & pelatihan: BF16 / F32 dan format kuantisasi terkompresi (F8_E4M3 dll.) tersedia untuk distribusi.
  • Keluarga arsitektur: backbone MoE (mixture-of-experts) dengan ekonomi aktivasi per-token.
  • Masukan / keluaran: masukan teks yang ditokenisasi standar (format chat/pesan didukung); mendukung pemanggilan alat (primitif API penggunaan alat) dan panggilan interaktif bergaya chat serta completion terprogram melalui API.
  • Varian yang ditawarkan: v3.2, v3.2-Exp (eksperimental, debut DSA), v3.2-Speciale (berorientasi penalaran, hanya API untuk jangka pendek).

Kinerja benchmark

V3.2-Speciale berdaya komputasi tinggi mencapai paritas atau melampaui model kelas atas kontemporer pada beberapa benchmark penalaran/matematika/pengodean, dan meraih nilai tingkat atas pada kumpulan soal matematika elit tertentu. Pracetak menyoroti paritas dengan model seperti GPT-5 / Kimi K2 pada benchmark penalaran terpilih, peningkatan spesifik dibanding baseline DeepSeek R1/V3 sebelumnya:

  • AIME: meningkat dari 70.0 menjadi 87.5 (Δ +17.5).
  • GPQA: 71.5 → 81.0 (Δ +9.5).
  • LCB_v6: 63.5 → 73.3 (Δ +9.8).
  • Aider: 57.0 → 71.6 (Δ +14.6).

Perbandingan dengan model lain (tingkat tinggi)

  • Vs GPT-5 / Gemini 3 Pro (klaim publik): Para penulis DeepSeek dan sejumlah media mengklaim paritas atau superioritas pada tugas penalaran dan pengodean tertentu untuk varian Speciale, sambil menekankan efisiensi biaya dan lisensi terbuka sebagai pembedanya.
  • Vs model terbuka (Olmo, Nemotron, Moonshot, dll.): DeepSeek menyoroti pelatihan agentik dan DSA sebagai pembeda kunci untuk efisiensi konteks panjang.

Kasus penggunaan representatif

  • Sistem agentik / orkestrasi: agen multi-alat (API, web scraper, konektor eksekusi kode) yang mendapat manfaat dari “thinking” di tingkat model + primitif pemanggilan alat yang eksplisit.
  • Penalaran/analisis dokumen panjang: dokumen hukum, korpora riset besar, transkrip rapat — varian konteks panjang (128k token) memungkinkan Anda mempertahankan konteks sangat besar dalam satu panggilan.
  • Bantuan matematika & pengodean kompleks: V3.2-Speciale dipromosikan untuk penalaran matematika tingkat lanjut dan tugas debugging kode ekstensif menurut benchmark vendor.
  • Penerapan produksi peka biaya: DSA + perubahan harga bertujuan menurunkan biaya inferensi untuk beban kerja berkonteks tinggi.

Cara memulai menggunakan API DeepSeek v3.2

Harga API DeepSeek v3.2 di CometAPI, diskon 20% dari harga resmi:

Token Masukan$0.22
Token Keluaran$0.35

Langkah yang diperlukan

  • Masuk ke cometapi.com. Jika Anda belum menjadi pengguna kami, silakan daftar terlebih dahulu
  • Dapatkan kunci API kredensial akses antarmuka. Klik “Add Token” pada API token di pusat pribadi, dapatkan kunci token: sk-xxxxx dan kirimkan.
  • Dapatkan URL situs ini: https://api.cometapi.com/

Metode penggunaan

  1. Pilih endpoint “deepseek-v3.2” untuk mengirim permintaan API dan atur body permintaan. Metode permintaan dan body permintaan diperoleh dari dok API situs kami. Situs kami juga menyediakan pengujian Apifox untuk kenyamanan Anda.
  2. Ganti <YOUR_API_KEY> dengan kunci CometAPI Anda yang sebenarnya dari akun Anda.
  3. Pilih format Chat: Masukkan pertanyaan atau permintaan Anda ke bidang content—itulah yang akan direspons oleh model.
  4. .Proses respons API untuk mendapatkan jawaban yang dihasilkan.

Model Lainnya