DeepSeek-V3.1: Ciri, seni bina dan penanda aras

CometAPI
AnnaAug 20, 2025
DeepSeek-V3.1: Ciri, seni bina dan penanda aras

Pada Ogos 2025, syarikat permulaan AI China DeepSeek mengumumkan pengeluaran DeepSeek-V3.1, peningkatan generasi pertengahan bil syarikat sebagai langkah pertama "menuju era ejen." Kemas kini membawa mod inferens hibrid (model tunggal yang boleh dijalankan dalam mod "berfikir" atau "tidak berfikir"), tetingkap konteks yang jauh lebih panjang dan penambahbaikan pasca latihan yang disasarkan pada panggilan alat dan gelagat ejen berbilang langkah.

Apakah DeepSeek-V3.1 dan mengapa ia penting?

DeepSeek-V3.1 ialah kemas kini gred pengeluaran terkini kepada siri V3 DeepSeek. Pada tahap yang tinggi ia merupakan keluarga model bahasa MoE hibrid (keturunan V3) yang DeepSeek telah dilatih dan diperluaskan untuk menyokong dua mod pengendalian yang boleh dilihat oleh pengguna,Anda akan menemui dua varian utama: DeepSeek-V3.1-Base dan DeepSeek-V3.1 penuh:

  • Tidak berfikir (deepseek-chat): mod penyelesaian sembang standard yang dioptimumkan untuk penggunaan kelajuan dan perbualan.
  • Berfikir (deepseek-reasoner): mod penaakulan agen yang mengutamakan penaakulan berstruktur, pelbagai langkah dan orkestrasi alat/ejen.

Keluaran ini memfokuskan pada tiga penambahbaikan yang boleh dilihat: saluran paip inferens hibrid yang mengimbangi kependaman dan keupayaan, orkestrasi alat-panggilan/ejen yang lebih bijak dan tetingkap konteks yang dilanjutkan dengan ketara (diiklankan sebagai token 128K).

Mengapa ia perkara: DeepSeek-V3.1 meneruskan trend industri yang lebih luas untuk menggabungkan seni bina MoE berskala besar yang cekap dengan alat primitif dan tingkap konteks yang sangat panjang. Gabungan itu penting untuk ejen perusahaan, aliran kerja mencari-tambah-penaakulan, ringkasan dokumen panjang dan automasi dipacu alat, di mana kedua-dua pemprosesan dan keupayaan untuk "memanggil" kepada alatan luaran secara deterministik diperlukan.

Apakah yang membezakan DeepSeek-V3.1 daripada keluaran DeepSeek sebelumnya?

Inferens hibrid: satu model, dua mod operasi

Perubahan seni bina tajuk adalah inferens hibrid. DeepSeek menerangkan V3.1 sebagai menyokong kedua-dua mod "berfikir" dan mod "tidak berfikir" dalam contoh model yang sama, boleh dipilih dengan menukar templat sembang atau togol UI (butang "DeepThink" DeepSeek). Dalam amalan ini bermakna model boleh diarahkan untuk menghasilkan jejak penaakulan dalaman (berguna untuk aliran kerja ejen gaya rantaian pemikiran) atau untuk bertindak balas secara langsung tanpa mendedahkan token penaakulan perantaraan — bergantung pada keperluan pembangun. DeepSeek mempersembahkan ini sebagai laluan ke arah aliran kerja yang lebih agenik sambil membenarkan aplikasi memilih pertukaran latensi/verbositi.

Tetingkap konteks yang lebih besar dan primitif token

Laporan nota keluaran rasmi a tetingkap konteks yang lebih besar dalam V3.1; ujian komuniti dan siaran syarikat meletakkan konteks lanjutan di 128k token untuk beberapa varian yang dihoskan, membolehkan perbualan yang jauh lebih panjang, penaakulan berbilang dokumen atau pangkalan kod yang panjang dimasukkan ke dalam satu sesi. Melengkapkan itu, DeepSeek dilaporkan memperkenalkan beberapa token kawalan khas (contohnya <|search_begin|>/<|search_end|>, <think> / </think>) bertujuan untuk menstrukturkan panggilan alat dan menggambarkan segmen "berfikir" secara dalaman — corak reka bentuk yang memudahkan penyelarasan dengan alatan luaran.

Kebolehan ejen/alat yang dipertajam dan penambahbaikan kependaman

DeepSeek menyatakan bahawa V3.1 mendapat manfaat daripada pengoptimuman selepas latihan menumpukan pada panggilan alat dan tugas ejen berbilang langkah: model dikatakan mencapai jawapan lebih cepat dalam mod "fikir" berbanding binaan DeepSeek R1 sebelum ini, dan menjadi lebih dipercayai apabila menggunakan API luaran atau melaksanakan pelan berbilang langkah. Kedudukan itu — inferens yang lebih pantas dan lebih berkemampuan ejen — ialah pembeza produk yang jelas untuk pembantu pembinaan pasukan, automasi atau aliran kerja ejen.

Apakah seni bina di sebalik DeepSeek-V3.1?

DeepSeek-V3.1 dibina berdasarkan penyelidikan teras keluarga DeepSeek-V3: a Campuran Pakar (KPM) tulang belakang dengan satu set inovasi seni bina yang direka untuk kecekapan dan skala. Laporan teknikal awam untuk DeepSeek-V3 (keluarga asas) menerangkan:

  • Reka bentuk KPM yang besar dengan ratusan bilion jumlah parameter dan lebih kecil diaktifkan kiraan parameter setiap token (kad model menyenaraikan 671B jumlah parameter dengan kira-kira 37B diaktifkan setiap token).
  • Perhatian Terpendam Berbilang Kepala (MLA) dan pendekatan penghalaan dan penskalaan DeepSeekMoE tersuai yang mengurangkan kos inferens sambil mengekalkan kapasiti.
  • Objektif latihan dan strategi pengimbangan beban yang menghapuskan keperluan untuk terma kerugian pengimbangan beban tambahan dan mengguna pakai objektif ramalan berbilang token untuk meningkatkan pemodelan pemprosesan dan jujukan.

Mengapa MoE + MLA?

Campuran Pakar membolehkan model mengekalkan kiraan parameter teori yang tinggi sambil hanya mengaktifkan subset pakar bagi setiap token — ini mengurangkan pengiraan setiap token. MLA ialah varian perhatian DeepSeek yang membantu model skala operasi perhatian dengan cekap merentas ramai pakar dan konteks yang panjang. Pilihan tersebut bersama-sama menjadikannya layak untuk melatih dan menyediakan pusat pemeriksaan yang sangat besar sambil mengekalkan kos inferens yang boleh digunakan untuk banyak penempatan.

Bagaimanakah prestasi DeepSeek-V3.1 dalam penanda aras dan ujian dunia sebenar?

Bagaimana V3.1 membandingkan, dalam perkataan

  • Lebih V3 (0324): V3.1 ialah peningkatan yang jelas di seluruh papan—terutamanya dalam pengekodan dan tugas agen. Contoh: LiveCodeBench melompat dari 43.0 → 56.4 (tidak berfikir) dan → 74.8 (berfikir); Penolong-Polyglot dari 55.1 → 68.4 / 76.3.
  • Berbanding R1-0528: R1 kekal sebagai titik perbandingan yang kuat "ditala penaakulan", tetapi V3.1-Berfikir dengan kerap sama atau melebihi R1-0528 (AIME/HMMT, LiveCodeBench), sambil turut menawarkan laluan tidak berfikir untuk penggunaan kependaman rendah.
  • Pengetahuan am (varian MMLU): Slot V3.1 hanya di bawah R1-0528 apabila "berfikir" dipertimbangkan, tetapi di atas V3 yang lebih lama.

Pengetahuan am & akademik

Penanda aras (metrik)V3.1-Tidak BerfikirV3 (0324)V3.1-BerfikirR1-0528
MMLU-Redux (Padanan Tepat)91.890.593.793.4
MMLU-Pro (Padanan Tepat)83.781.284.885.0
GPQA-Berlian (Lulus@1)74.968.480.181.0

Apakah maksud ini: V3.1 menambah baik berbanding V3 tentang tugas pengetahuan/akademik; "berfikir" mengecilkan jurang dengan R1 pada soalan sains yang sukar (GPQA-Diamond).

Pengekodan (bukan ejen)

Penanda aras (metrik)V3.1-Tidak BerfikirV3 (0324)V3.1-BerfikirR1-0528
LiveCodeBench (2408–2505) (Lulus@1)56.443.074.873.3
Penolong-Polyglot (Ketepatan)68.455.176.371.6
Codeforces-Div1 (Penilaian)--20911930

Nota:

  • LiveCodeBench (2408–2505) menandakan tetingkap agregat (Ogos 2024→Mei 2025). Pass@1 yang lebih tinggi mencerminkan ketepatan percubaan pertama yang lebih kukuh pada pelbagai tugas pengekodan.
  • Penolong-Polyglot mensimulasikan penyuntingan kod gaya pembantu merentas banyak bahasa; V3.1-Thinking mendahului set, V3.1-NonThinking ialah lonjakan yang besar berbanding V3 (0324).
  • Kad model menunjukkan V3 (0324) pada 55.1% pada Aider—selaras dengan entri papan pendahulu awam Aider untuk vintaj itu. (Skor V3.1 yang lebih tinggi adalah baharu pada kad model.)

Pengekodan (tugas ejen)

Penanda aras (metrik)V3.1-Tidak BerfikirV3 (0324)V3.1-BerfikirR1-0528
SWE Disahkan (Mod ejen)66.045.4-44.6
SWE-bench Berbilang bahasa (Mod ejen)54.529.3-30.5
Bangku terminal (Rangka kerja Terminal 1)31.313.3-5.7

Kaveat penting: Ini adalah penilaian ejen menggunakan rangka kerja dalaman DeepSeek (alatan, pelaksanaan berbilang langkah), bukan ujian penyahkodan token seterusnya yang tulen. Mereka menangkap keupayaan "LLM + orkestrasi". Anggap ini sebagai sistem keputusan (kebolehulangan boleh bergantung pada susunan dan tetapan ejen yang tepat).

Penaakulan matematik & pertandingan

Penanda aras (metrik)V3.1-Tidak BerfikirV3 (0324)V3.1-BerfikirR1-0528
AIME 2024 (Lulus@1)66.359.493.191.4
AIME 2025 (Lulus@1)49.851.388.487.5
HMMT 2025 (Lulus@1)33.529.284.279.4

Bawa pulang: Mod "Berfikir" dipacu sangat besar peningkatan pada set pertandingan matematik—V3.1-Thinking edge melepasi R1-0528 pada AIME/HMMT dalam larian yang dilaporkan.

QA ditambah carian / "agentik".

Penanda aras (metrik)V3.1-Tidak BerfikirV3 (0324)V3.1-BerfikirR1-0528
BrowseComp--30.08.9
BrowseComp_zh--49.235.7
Peperiksaan Terakhir Kemanusiaan (Python + Carian)--29.824.8
SimpleQA--93.492.3
Peperiksaan Terakhir Kemanusiaan (teks sahaja)--15.917.7

Catatan: DeepSeek menyatakan hasil ejen carian menggunakan rangka kerja carian dalamannya (API carian komersial + penapisan halaman, konteks 128K). Metodologi penting di sini; pembiakan memerlukan perkakas yang serupa.

Apakah batasan dan jalan di hadapan?

DeepSeek-V3.1 ialah langkah kejuruteraan dan produk yang penting: ia menggabungkan latihan konteks panjang, templat hibrid dan seni bina MoE ke dalam pusat pemeriksaan yang boleh digunakan secara meluas. Walau bagaimanapun, batasan tetap ada:

  • Keselamatan ejen dunia sebenar, halusinasi dalam ringkasan konteks panjang, dan tingkah laku segera menentang masih memerlukan mitigasi peringkat sistem.
  • Penanda aras menggalakkan tetapi tidak seragam: prestasi berbeza mengikut domain, bahasa dan suite penilaian; pengesahan bebas adalah perlu.
  • Faktor geopolitik dan rantaian bekalan — ketersediaan perkakasan dan keserasian cip — sebelum ini telah menjejaskan jadual DeepSeek dan mungkin mempengaruhi cara pelanggan menggunakan secara berskala.

Bermula melalui CometAPI

CometAPI ialah platform API bersatu yang mengagregatkan lebih 500 model AI daripada pembekal terkemuka—seperti siri GPT OpenAI, Google Gemini, Anthropic's Claude, Midjourney, Suno dan banyak lagi—menjadi satu antara muka mesra pembangun. Dengan menawarkan pengesahan yang konsisten, pemformatan permintaan dan pengendalian respons, CometAPI secara dramatik memudahkan penyepaduan keupayaan AI ke dalam aplikasi anda. Sama ada anda sedang membina chatbots, penjana imej, komposer muzik atau saluran paip analitik terdorong data, CometAPI membolehkan anda mengulangi dengan lebih pantas, mengawal kos dan kekal sebagai vendor-agnostik—semuanya sambil memanfaatkan penemuan terkini merentas ekosistem AI.

Pembangun boleh mengakses DeepSeek R1(deepseek-r1-0528) dan DeepSeek-V3.1 melalui CometAPI, versi model terkini yang disenaraikan adalah pada tarikh penerbitan artikel. Untuk memulakan, terokai keupayaan model dalam Taman Permainan dan berunding dengan Panduan API untuk arahan terperinci. Sebelum mengakses, sila pastikan anda telah log masuk ke CometAPI dan memperoleh kunci API. CometAPI menawarkan harga yang jauh lebih rendah daripada harga rasmi untuk membantu anda menyepadukan.

Kesimpulan

DeepSeek-V3.1 mewakili kemas kini pragmatik, kejuruteraan ke hadapan: tetingkap konteks yang lebih besar, inferens pemikiran/bukan-fikir hibrid, interaksi alat yang dipertingkatkan dan API yang serasi OpenAI menjadikannya pilihan yang menarik untuk membina pasukan pembantu agen, aplikasi konteks panjang dan aliran kerja berorientasikan kod kos rendah.

Baca Lagi

500+ Model dalam Satu API

Sehingga 20% Diskaun