DeepSeek-V3.1: คุณสมบัติ สถาปัตยกรรม และเกณฑ์มาตรฐาน

ในเดือนสิงหาคม พ.ศ. 2025 บริษัทสตาร์ทอัพด้าน AI ของจีน DeepSeek ได้ประกาศเปิดตัว ดีพซีค-V3.1การอัปเกรดระดับกลางที่บริษัทเรียกว่าเป็นก้าวแรก “สู่ยุคเอเจนต์” การอัปเดตนี้มาพร้อมกับโหมดอนุมานแบบไฮบริด (โมเดลเดียวที่สามารถทำงานในโหมด “คิด” หรือ “ไม่คิด”) หน้าต่างบริบทที่ยาวขึ้นอย่างมาก และการปรับปรุงหลังการฝึกแบบเจาะจงสำหรับการเรียกใช้เครื่องมือและพฤติกรรมเอเจนต์แบบหลายขั้นตอน

DeepSeek-V3.1 คืออะไร และเหตุใดจึงสำคัญ?

DeepSeek-V3.1 คือการอัปเดตระดับการผลิตล่าสุดสำหรับซีรีส์ V3 ของ DeepSeek ในระดับสูงสุด นี่คือตระกูลโมเดลภาษา MoE แบบไฮบริด (ตระกูล V3) ที่ DeepSeek ได้ฝึกฝนและขยายเพิ่มเติมเพื่อรองรับโหมดการทำงานสองโหมดที่ผู้ใช้มองเห็นได้ คุณจะพบสองเวอร์ชันหลัก ได้แก่ DeepSeek-V3.1-Base และ DeepSeek-V3.1 เวอร์ชันเต็ม

ไม่คิด (สนทนาแบบเจาะลึก): โหมดการแชทมาตรฐานที่ปรับให้เหมาะสมสำหรับความเร็วและการใช้สนทนา
การคิด (ผู้แสวงหาเหตุผลอย่างลึกซึ้ง): โหมดการใช้เหตุผลเชิงตัวแทนที่ให้ความสำคัญกับการใช้เหตุผลแบบมีโครงสร้างหลายขั้นตอนและการประสานงานระหว่างเครื่องมือและตัวแทน

การเปิดตัวนี้มุ่งเน้นไปที่การปรับปรุงที่มองเห็นได้สามประการ ได้แก่ ไพพ์ไลน์การอนุมานแบบไฮบริดที่สร้างสมดุลระหว่างเวลาแฝงและความสามารถ การเรียกเครื่องมือ/การประสานงานตัวแทนที่ชาญฉลาดยิ่งขึ้น และหน้าต่างบริบทที่ขยายออกไปอย่างมาก (โฆษณาว่าเป็นโทเค็น 128)

ทำไมมันเรื่อง: DeepSeek-V3.1 สานต่อแนวโน้มอุตสาหกรรมในวงกว้างด้วยการผสมผสานสถาปัตยกรรม MoE ขนาดใหญ่ที่มีประสิทธิภาพเข้ากับเครื่องมือพื้นฐานและหน้าต่างบริบทที่ยาวมาก การผสมผสานนี้มีความสำคัญต่อเอเจนต์ระดับองค์กร เวิร์กโฟลว์การค้นหาและการใช้เหตุผล การสรุปเอกสารยาว และระบบอัตโนมัติที่ขับเคลื่อนด้วยเครื่องมือ ซึ่งจำเป็นต้องมีทั้งปริมาณงานและความสามารถในการ "เรียกใช้" เครื่องมือภายนอกอย่างแม่นยำ

อะไรที่ทำให้ DeepSeek-V3.1 แตกต่างจาก DeepSeek รุ่นก่อนๆ?

การอนุมานแบบไฮบริด: หนึ่งโมเดล สองโหมดการทำงาน

การเปลี่ยนแปลงทางสถาปัตยกรรมหัวข้อหลักคือ การอนุมานแบบไฮบริดDeepSeek อธิบายว่า V3.1 รองรับทั้งโหมด "คิด" และโหมด "ไม่คิด" ภายในอินสแตนซ์โมเดลเดียวกัน ซึ่งสามารถเลือกได้โดยการเปลี่ยนเทมเพลตแชทหรือปุ่มสลับ UI (ปุ่ม "DeepThink" ของ DeepSeek) ในทางปฏิบัติ หมายความว่าโมเดลสามารถได้รับคำสั่งให้สร้างร่องรอยการใช้เหตุผลภายใน (มีประโยชน์สำหรับเวิร์กโฟลว์ของเอเจนต์แบบห่วงโซ่ความคิด) หรือให้ตอบสนองโดยตรงโดยไม่ต้องเปิดเผยโทเค็นการใช้เหตุผลระดับกลาง ขึ้นอยู่กับความต้องการของนักพัฒนา DeepSeek นำเสนอสิ่งนี้เป็นเส้นทางสู่เวิร์กโฟลว์แบบเอเจนต์มากขึ้น ในขณะที่ให้แอปพลิเคชันเลือกการแลกเปลี่ยนระหว่างความหน่วงเวลา/ความซ้ำซ้อนได้

หน้าต่างบริบทที่ใหญ่ขึ้นและโทเค็นดั้งเดิม

รายงานบันทึกการเปิดตัวอย่างเป็นทางการ หน้าต่างบริบทที่ใหญ่ขึ้นมาก ใน V3.1 การทดสอบชุมชนและโพสต์ของบริษัททำให้บริบทขยายออกไปที่ 128k โทเค็น สำหรับโฮสต์เวอร์ชันบางเวอร์ชัน ช่วยให้สามารถสนทนาได้ยาวนานขึ้นอย่างมาก การให้เหตุผลแบบหลายเอกสาร หรือฐานโค้ดยาวๆ ที่จะป้อนเข้าสู่เซสชันเดียว นอกจากนี้ DeepSeek ยังได้เปิดตัวโทเค็นควบคุมพิเศษบางรายการ (ตัวอย่างเช่น <｜search_begin｜>/<｜search_end｜>, <think> / </think>) มีจุดประสงค์เพื่อสร้างโครงสร้างการเรียกใช้เครื่องมือและกำหนดส่วน "การคิด" ภายใน ซึ่งเป็นรูปแบบการออกแบบที่ทำให้การประสานงานกับเครื่องมือภายนอกง่ายขึ้น

ปรับปรุงความสามารถของตัวแทน/เครื่องมือให้คมชัดขึ้นและปรับปรุงความล่าช้า

DeepSeek ระบุว่า V3.1 ได้รับประโยชน์จาก การเพิ่มประสิทธิภาพหลังการฝึกอบรม มุ่งเน้นไปที่การเรียกใช้เครื่องมือและงานเอเจนต์แบบหลายขั้นตอน: โมเดลนี้ได้รับการกล่าวขานว่าให้คำตอบได้เร็วกว่าในโหมด "คิด" เมื่อเทียบกับ DeepSeek R1 รุ่นก่อนๆ และมีความน่าเชื่อถือมากกว่าเมื่อเรียกใช้ API ภายนอกหรือดำเนินการตามแผนแบบหลายขั้นตอน การวางตำแหน่งนี้ — การอนุมานที่รวดเร็วขึ้นแต่มีความสามารถของเอเจนต์มากขึ้น — เป็นตัวสร้างความแตกต่างที่ชัดเจนของผลิตภัณฑ์สำหรับทีมที่สร้างผู้ช่วย ระบบอัตโนมัติ หรือเวิร์กโฟลว์ของเอเจนต์

สถาปัตยกรรมเบื้องหลัง DeepSeek-V3.1 คืออะไร

DeepSeek-V3.1 สร้างขึ้นจากการวิจัยหลักของตระกูล DeepSeek-V3: ส่วนผสมของผู้เชี่ยวชาญ (MoE) โครงสร้างพื้นฐานที่มาพร้อมชุดนวัตกรรมทางสถาปัตยกรรมที่ออกแบบมาเพื่อประสิทธิภาพและการขยายขนาด รายงานทางเทคนิคสาธารณะสำหรับ DeepSeek-V3 (ตระกูลพื้นฐาน) อธิบายว่า:

การออกแบบ MoE ขนาดใหญ่ที่มีพารามิเตอร์รวมนับร้อยพันล้านรายการและขนาดเล็กกว่า เปิดใช้งาน จำนวนพารามิเตอร์ต่อโทเค็น (การ์ดรุ่นแสดงพารามิเตอร์ทั้งหมด 671B รายการ โดยมีการเปิดใช้งานประมาณ 37B รายการต่อโทเค็น)
ความสนใจแฝงแบบหลายหัว (MLA) และวิธีการกำหนดเส้นทางและการปรับขนาด DeepSeekMoE ที่กำหนดเองซึ่งช่วยลดต้นทุนการอนุมานในขณะที่ยังคงรักษาความจุไว้
วัตถุประสงค์ในการฝึกอบรมและกลยุทธ์การปรับสมดุลโหลดที่ลบความจำเป็นในการใช้เงื่อนไขการสูญเสียการปรับสมดุลโหลดเสริม และนำวัตถุประสงค์การคาดการณ์หลายโทเค็นมาใช้เพื่อปรับปรุงปริมาณงานและการสร้างแบบจำลองลำดับ

ทำไมต้อง MoE + MLA?

การผสมผสานของผู้เชี่ยวชาญช่วยให้แบบจำลองรักษาจำนวนพารามิเตอร์เชิงทฤษฎีที่สูง ในขณะที่เปิดใช้งานเฉพาะกลุ่มผู้เชี่ยวชาญย่อยต่อโทเค็น ซึ่งจะช่วยลดการประมวลผลต่อโทเค็น MLA คือตัวแปรความสนใจของ DeepSeek ที่ช่วยให้แบบจำลองปรับขนาดการดำเนินการความสนใจได้อย่างมีประสิทธิภาพครอบคลุมผู้เชี่ยวชาญจำนวนมากและบริบทที่ยาวนาน ตัวเลือกเหล่านี้ทำให้สามารถฝึกอบรมและให้บริการจุดตรวจสอบขนาดใหญ่ได้ ในขณะที่ยังคงรักษาต้นทุนการอนุมานที่ใช้งานได้สำหรับการใช้งานจำนวนมาก

DeepSeek-V3.1 มีประสิทธิภาพเพียงใดในการทดสอบประสิทธิภาพและการใช้งานจริง

V3.1 เปรียบเทียบอย่างไรในคำพูด

เหนือ V3 (0324): V3.1 เป็นการอัปเกรดที่ชัดเจนในทุกด้าน โดยเฉพาะอย่างยิ่งในด้านการเขียนโค้ดและงานด้านเอเจนต์ ตัวอย่าง: LiveCodeBench กระโดดจาก 43.0 → 56.4 (ไม่คิด) และ → 74.8 (คิด); เอเดอร์-โพลีกลอต จาก 55.1 → 68.4 / 76.3.
เทียบกับ R1-0528: R1 ยังคงเป็นจุดเปรียบเทียบที่ “ปรับเหตุผล” อย่างชัดเจน แต่ V3.1-การคิดบ่อยครั้งเท่ากับหรือเกิน R1-0528 (AIME/HMMT, LiveCodeBench) พร้อมทั้งเสนอเส้นทางที่ไม่ต้องใช้ความคิดสำหรับการใช้งานที่มีเวลาแฝงต่ำ
ความรู้ทั่วไป (MMLU variants): V3.1 อยู่ต่ำกว่า R1-0528 เล็กน้อยเมื่อพิจารณาถึง "การคิด" แต่สูงกว่า V3 รุ่นเก่า

ความรู้ทั่วไปและวิชาการ

เกณฑ์มาตรฐาน (เมตริก)	V3.1-การไม่คิด	V3 (พ.ศ. 0324)	V3.1-การคิด	R1-0528
MMLU-รีดักซ์ (ตรงกันเป๊ะ)	91.8	90.5	93.7	93.4
MMLU-โปร (ตรงกันเป๊ะ)	83.7	81.2	84.8	85.0
GPQA-เพชร (ผ่าน@1)	74.9	68.4	80.1	81.0

สิ่งนี้หมายถึงอะไร: V3.1 ปรับปรุงจาก V3 ในด้านความรู้/วิชาการ “การคิด” ลดช่องว่างกับ R1 ในคำถามทางวิทยาศาสตร์ที่ยาก (GPQA-Diamond)

การเข้ารหัส (ไม่ใช่ตัวแทน)

เกณฑ์มาตรฐาน (เมตริก)	V3.1-การไม่คิด	V3 (พ.ศ. 0324)	V3.1-การคิด	R1-0528
ไลฟ์โค้ดเบนช์ (2408–2505) (ผ่าน@1)	56.4	43.0	74.8	73.3
เอเดอร์-โพลีกลอต (ความแม่นยำ)	68.4	55.1	76.3	71.6
โค้ดฟอร์ซ-ดิวิชั่น1 (เรตติ้ง)	-	-	2091	1930

หมายเหตุ:

ไลฟ์โค้ดเบนช์ (2408–2505) หมายถึงหน้าต่างรวม (ส.ค. 2024 → พ.ค. 2025) Higher Pass@1 สะท้อนถึงความถูกต้องในการทดลองครั้งแรกที่แข็งแกร่งกว่าในงานเขียนโค้ดที่หลากหลาย
เอเดอร์-โพลีกลอต จำลองการแก้ไขโค้ดแบบผู้ช่วยในหลายภาษา V3.1-Thinking เป็นผู้นำชุด V3.1-NonThinking ถือเป็นก้าวกระโดดที่สำคัญจาก V3 (0324)
การ์ดโมเดลแสดง V3 (0324) ที่ 55.1% บน Aider ซึ่งสอดคล้องกับรายการกระดานผู้นำสาธารณะของ Aider สำหรับรุ่นนั้น (คะแนนที่สูงกว่าของ V3.1 ถือเป็นคะแนนใหม่ในการ์ดรุ่น)

การเข้ารหัส (งานตัวแทน)

เกณฑ์มาตรฐาน (เมตริก)	V3.1-การไม่คิด	V3 (พ.ศ. 0324)	V3.1-การคิด	R1-0528
SWE ได้รับการยืนยัน (โหมดตัวแทน)	66.0	45.4	-	44.6
SWE-bench หลายภาษา (โหมดตัวแทน)	54.5	29.3	-	30.5
เทอร์มินัลเบ็น (กรอบงานเทอร์มินัส 1)	31.3	13.3	-	5.7

ข้อแม้ที่สำคัญ: เหล่านี้เป็น การประเมินตัวแทนโดยใช้กรอบงานภายในของ DeepSeek (เครื่องมือ การดำเนินการแบบหลายขั้นตอน) ไม่ใช่การทดสอบการถอดรหัสแบบ next-token อย่างแท้จริง พวกมันจับความสามารถ "LLM + การประสาน" ถือว่าสิ่งเหล่านี้เป็น ระบบ ผลลัพธ์ (ความสามารถในการทำซ้ำได้อาจขึ้นอยู่กับสแต็กและการตั้งค่าตัวแทนที่แน่นอน)

การใช้เหตุผลทางคณิตศาสตร์และการแข่งขัน

เกณฑ์มาตรฐาน (เมตริก)	V3.1-การไม่คิด	V3 (พ.ศ. 0324)	V3.1-การคิด	R1-0528
เอไอเอ็ม 2024 (ผ่าน@1)	66.3	59.4	93.1	91.4
เอไอเอ็ม 2025 (ผ่าน@1)	49.8	51.3	88.4	87.5
เอชเอ็มเอ็มที 2025 (ผ่าน@1)	33.5	29.2	84.2	79.4

Takeaway: โหมด “การคิด” ขับเคลื่อน มีขนาดใหญ่มาก ลิฟต์ในชุดการแข่งขันคณิตศาสตร์—V3.1-Thinking แซงหน้า R1-0528 บน AIME/HMMT ในการทำงานที่รายงาน

QA แบบค้นหาเสริม/แบบ “ตัวแทน”

เกณฑ์มาตรฐาน (เมตริก)	V3.1-การไม่คิด	V3 (พ.ศ. 0324)	V3.1-การคิด	R1-0528
เบราส์คอมพ์	-	-	30.0	8.9
เรียกดูComp_zh	-	-	49.2	35.7
การสอบครั้งสุดท้ายของมนุษยชาติ (Python + การค้นหา)	-	-	29.8	24.8
ซิมเพิลคิวเอ	-	-	93.4	92.3
การสอบครั้งสุดท้ายของมนุษยชาติ (เนื้อหาเท่านั้น)	-	-	15.9	17.7

หมายเหตุ DeepSeek ระบุว่าผลลัพธ์ของเอเจนต์การค้นหาใช้กรอบการทำงานการค้นหาภายใน (API การค้นหาเชิงพาณิชย์ + การกรองหน้า, บริบท 128K) วิธีการมีความสำคัญในกรณีนี้ การทำซ้ำต้องใช้เครื่องมือที่คล้ายกัน

มีข้อจำกัดและเส้นทางข้างหน้าเป็นอย่างไร?

DeepSeek-V3.1 เป็นขั้นตอนสำคัญทางวิศวกรรมและผลิตภัณฑ์ โดยผสานการฝึกอบรมแบบ long-context เทมเพลตไฮบริด และสถาปัตยกรรม MoE เข้าไว้ด้วยกันเป็นจุดตรวจสอบที่ใช้งานได้อย่างกว้างขวาง อย่างไรก็ตาม ข้อจำกัดยังคงอยู่:

ความปลอดภัยของตัวแทนในโลกแห่งความเป็นจริง ภาพหลอนในการสรุปบริบทระยะยาว และพฤติกรรมการโต้ตอบที่เป็นปฏิปักษ์ ยังคงต้องการการบรรเทาผลกระทบในระดับระบบ
เกณฑ์มาตรฐานนั้นน่าพอใจแต่ยังไม่สม่ำเสมอ: ประสิทธิภาพจะแตกต่างกันไปตามโดเมน ภาษา และชุดการประเมิน จำเป็นต้องมีการตรวจสอบโดยอิสระ
ปัจจัยทางภูมิรัฐศาสตร์และห่วงโซ่อุปทาน เช่น ความพร้อมใช้งานของฮาร์ดแวร์และความเข้ากันได้ของชิป เคยส่งผลกระทบต่อตารางเวลาของ DeepSeek มาก่อน และอาจส่งผลต่อวิธีการใช้งานของลูกค้าในระดับขนาดใหญ่

เริ่มต้นใช้งานผ่าน CometAPI

CometAPI เป็นแพลตฟอร์ม API แบบรวมที่รวบรวมโมเดล AI มากกว่า 500 โมเดลจากผู้ให้บริการชั้นนำ เช่น ซีรีส์ GPT ของ OpenAI, Gemini ของ Google, Claude ของ Anthropic, Midjourney, Suno และอื่นๆ ไว้ในอินเทอร์เฟซเดียวที่เป็นมิตรกับนักพัฒนา ด้วยการนำเสนอการตรวจสอบสิทธิ์ การจัดรูปแบบคำขอ และการจัดการการตอบสนองที่สอดคล้องกัน CometAPI จึงทำให้การรวมความสามารถของ AI เข้ากับแอปพลิเคชันของคุณง่ายขึ้นอย่างมาก ไม่ว่าคุณจะกำลังสร้างแชทบ็อต เครื่องกำเนิดภาพ นักแต่งเพลง หรือไพพ์ไลน์การวิเคราะห์ที่ขับเคลื่อนด้วยข้อมูล CometAPI ช่วยให้คุณทำซ้ำได้เร็วขึ้น ควบคุมต้นทุน และไม่ขึ้นอยู่กับผู้จำหน่าย ทั้งหมดนี้ในขณะที่ใช้ประโยชน์จากความก้าวหน้าล่าสุดในระบบนิเวศ AI

นักพัฒนาสามารถเข้าถึงได้ Deep Seek R1(deepseek-r1-0528) และ DeepSeek-V3.1 ผ่าน โคเมทเอพีไอรุ่นล่าสุดที่ระบุไว้เป็นข้อมูล ณ วันที่เผยแพร่บทความ เริ่มต้นด้วยการสำรวจความสามารถของโมเดลใน สนามเด็กเล่น และปรึกษา คู่มือ API สำหรับคำแนะนำโดยละเอียด ก่อนเข้าใช้งาน โปรดตรวจสอบให้แน่ใจว่าคุณได้เข้าสู่ระบบ CometAPI และได้รับรหัส API แล้ว โคเมทเอพีไอ เสนอราคาที่ต่ำกว่าราคาอย่างเป็นทางการมากเพื่อช่วยคุณบูรณาการ

สรุป

DeepSeek-V3.1 นำเสนอการอัปเดตที่เน้นด้านวิศวกรรมและใช้งานได้จริง: หน้าต่างบริบทที่ใหญ่ขึ้น การอนุมานแบบคิด/ไม่คิดแบบไฮบริด การโต้ตอบเครื่องมือที่ปรับปรุงดีขึ้น และ API ที่เข้ากันได้กับ OpenAI ทำให้เป็นตัวเลือกที่น่าสนใจสำหรับทีมที่สร้าง ผู้ช่วยตัวแทน แอปพลิเคชันบริบทยาว และเวิร์กโฟลว์ที่เน้นโค้ดต้นทุนต่ำ.