DeepSeek-V3.1-Terminus: คุณสมบัติ เกณฑ์มาตรฐาน และความสำคัญ

DeepSeek-V3.1-Terminus คือการปรับปรุงล่าสุดของตระกูล DeepSeek ซึ่งเป็นโมเดลภาษาขนาดใหญ่ (LLM) แบบไฮบริดที่เน้นเอเจนต์ ซึ่ง DeepSeek วางไว้เป็นสะพานเชื่อมระหว่างโมเดลแชทแบบดั้งเดิมกับระบบเอเจนต์ที่มีประสิทธิภาพมากขึ้น แทนที่จะเป็นเครือข่ายฐานใหม่ Terminus นำเสนอในรูปแบบเซอร์วิสแพ็คที่เจาะจงสำหรับไลน์ V3.1 ที่มุ่งเน้นความเสถียร ความสอดคล้องของภาษา และประสิทธิภาพของเอเจนต์/เครื่องมือที่แข็งแกร่งขึ้น (โดยเฉพาะเอเจนต์ Code และ Search) เวอร์ชันนี้พร้อมใช้งานแล้วผ่าน API ของ DeepSeek, Hugging Face distribution และได้รับการผสานรวมเข้ากับระบบนิเวศของผู้ให้บริการหลายราย

ด้านล่างนี้ฉันจะอธิบายโมเดลอย่างละเอียด

DeepSeek-V3.1-Terminus คืออะไร?

DeepSeek-V3.1-Terminus คือรุ่นย่อยล่าสุดจากกลุ่มผลิตภัณฑ์ V3 ของ DeepSeek ซึ่งเป็นการปรับปรุงประสิทธิภาพการทำงานและความเสถียรของโมเดล Mixture-of-Experts (MoE) ความจุสูงของบริษัท การอัปเดต DeepSeek-V3.1-Terminus มุ่งเน้นไปที่ปัญหาสองประการที่ผู้ใช้พบเห็นใน V3 รุ่นก่อนหน้า ได้แก่ ปัญหาการผสมภาษา/อักขระที่เกิดขึ้นเป็นครั้งคราว และพฤติกรรมของเอเจนต์/เครื่องมือที่ไม่สอดคล้องกัน DeepSeek อธิบายว่าการเปิดตัวนี้เป็นขั้นตอนการบำรุงรักษาและเสริมความแข็งแกร่งที่รักษาความสามารถพื้นฐานของ V3 ไว้ พร้อมกับปรับปรุงความเสถียร การใช้เครื่องมือเอเจนต์ (โดยเฉพาะ Code Agent และ Search Agent) และความน่าเชื่อถือแบบข้ามเกณฑ์มาตรฐาน โมเดลและน้ำหนักต่างๆ สามารถดูได้ผ่านช่องทางของ DeepSeek และบน Hugging Face

นั่นหมายถึงในทางปฏิบัติ:

เป็นการอัปเกรดเพิ่มเติมของ DeepSeek V3.1 ที่เน้นการใช้ตัวแทน/เครื่องมือ (ตัวแทนโค้ด ตัวแทนการค้นหา) และการปรับปรุงการใช้เหตุผลหลายขั้นตอน
ทีมงานรายงานว่ามีข้อผิดพลาดในการผสมภาษาลดลงและเอาต์พุตมีเสถียรภาพมากขึ้นเมื่อเทียบกับ V3.1 ก่อนหน้า
รองรับทั้งเทมเพลตแชทแบบ "คิด" และ "ไม่คิด" (โหมดการใช้เหตุผลแบบไฮบริด) และเครื่องมือที่มีโครงสร้างที่เรียกเวิร์กโฟลว์ของตัวแทน

การออกแบบสถาปัตยกรรมแบบกว้างๆ คืออะไร?

DeepSeek-V3.1 (และการอัปเดต Terminus โดยส่วนขยาย) เป็นโมเดลขนาดใหญ่ที่ใช้เหตุผลแบบไฮบริด: ตระกูลนี้ผสมผสานการปรับขนาดแบบผสมผสานของผู้เชี่ยวชาญ (MoE) ขนาดใหญ่เข้ากับการกำหนดเส้นทางพารามิเตอร์แบบแอคทีฟ ทำให้ระบบสามารถทำงานได้ทั้งในโหมด "คิด" (การใช้เหตุผลภายในอย่างหนัก การวางแผนเครื่องมือ) และโหมดแชท "ไม่ใช้ความคิด" (ความหน่วงต่ำ การตอบสนองที่ตรงไปตรงมา) การออกแบบแบบไฮบริดนี้เปิดให้นักพัฒนาได้เห็นผ่านเทมเพลตแชทและโหมดรันไทม์ที่แตกต่างกัน แทนที่จะผ่านโมเดลที่แยกจากกัน — เครือข่ายพื้นฐานเดียวกันรองรับทั้งสองพฤติกรรม

“ตัวแทน” ถูกผสานเข้ากับสถาปัตยกรรมได้อย่างไร

ความสามารถของเอเจนต์ของ DeepSeek นั้นมีเลเยอร์เหนือกว่าการอนุมานโมเดลหลัก: โมดูลเอเจนต์เฉพาะทาง (Code Agent, Search Agent, Browse Agent, Terminal Agent) จะถูกนำไปใช้งานเป็นพฤติกรรมการใช้งานเครื่องมือแบบมีคำแนะนำ ซึ่งโมเดลสามารถเรียนรู้ที่จะเรียกใช้ได้ DeepSeek-V3.1-Terminus ช่วยเพิ่มความน่าเชื่อถือและการประสานงานของเอเจนต์เหล่านั้นผ่านการปรับแต่งประสิทธิภาพหลังการฝึกและเทมเพลตพร้อมท์ที่ได้รับการปรับปรุง ในทางปฏิบัติ เอเจนต์เหล่านี้ไม่ใช่เครือข่ายประสาทที่แยกจากกัน แต่เป็นรูปแบบพฤติกรรมที่ผ่านการฝึก (และบางครั้งอาจเป็นตัวควบคุมขนาดเล็ก) ที่สั่งการให้โมเดลพื้นฐานเรียกใช้เครื่องมือหรือแอคชันภายนอกเมื่อใดและอย่างไร

การปรับปรุงที่สำคัญใน V3.1-Terminus มีอะไรบ้าง

Terminus แก้ไขปัญหาผู้ใช้ด้านใดบ้าง?

DeepSeek-V3.1-Terminus ได้รับการเผยแพร่ส่วนใหญ่เพื่อตอบสนองต่อความคิดเห็นของผู้ใช้ในสองประเภทหลักๆ:

เสถียรภาพทางภาษา: ผู้ใช้รายงานว่าพบปัญหาภาษาผสมกันเป็นครั้งคราว (รหัสภาษาจีน/อังกฤษผสมอยู่ในผลลัพธ์) อักขระที่ผิดเพี้ยนหรือ "อ่านไม่ออก" และปัญหาการสร้างโทเค็นที่ไม่สอดคล้องกันในบริบทหลายภาษา DeepSeek-V3.1-Terminus ได้รวมการแก้ไขที่มุ่งลดปัญหาเหล่านี้ไว้แล้ว
ความน่าเชื่อถือของตัวแทน: ผู้ใช้ร้องขอให้โมเดลมีพฤติกรรมที่ทนทานและทำซ้ำได้มากขึ้นเมื่อเรียกใช้ชุดเครื่องมือ (Code Agent, Search Agent, Terminal Agent) DeepSeek-V3.1-Terminus ประกอบด้วยการเปลี่ยนแปลงหลังการฝึกอบรมและพร้อมท์/เทมเพลตที่มุ่งหวังให้การใช้เครื่องมือมีเสถียรภาพและลดอาการประสาทหลอนของตัวแทนหรือการดำเนินการตามแผนที่ไม่สมบูรณ์

Solution

DeepSeek-V3.1-Terminus ถูกจัดกรอบให้เป็นเวอร์ชันที่เน้นคุณภาพและความทนทาน บริษัทได้ระบุรายการแก้ไขและการปรับปรุงที่เป็นรูปธรรมไว้หลายรายการ:

การแก้ไขความสอดคล้องของภาษา: การลดการผสมภาษาจีน/ภาษาอังกฤษที่ไม่คาดคิดและการลบตัวอักษรผิดปกติที่หายากซึ่งบางครั้งปรากฏในผลลัพธ์
ความทนทานของตัวแทน: การปรับปรุงที่เห็นได้ชัดสำหรับ Code Agent และ Search Agent ด้วยความแม่นยำในการเรียกใช้เครื่องมือที่ดีขึ้นและการเรียกใช้เครื่องมือแบบเห็นภาพหลอนน้อยลง Terminus เพิ่มความกระชับในการส่งต่อคำสั่งไปยังตัวดำเนินการของ Code Agent ปรับปรุงการตีความผลการค้นหาโดย Search Agent และลดการสร้างโทเค็นปลอมระหว่างการดำเนินการแบบต่อเนื่อง ทั้งหมดนี้เพื่อให้เวิร์กโฟลว์ของเอเจนต์แบบ end-to-end (เช่น การค้นหา → การสร้างโค้ด → การดำเนินการ) มีความแน่นอนมากขึ้นและมีโอกาสเกิดข้อผิดพลาดน้อยลง
ความเสถียรระหว่างเกณฑ์มาตรฐาน: ทีมงานรายงานคะแนนที่เสถียรมากขึ้น (ความแปรปรวนต่ำกว่า) ในเกณฑ์มาตรฐานทั่วไปเมื่อเปรียบเทียบกับรุ่น V3 รุ่นก่อนหน้า

DeepSeek กำหนดให้ Terminus เข้ากันได้กับจุดเชื่อมต่อ V3.1 ที่มีอยู่ โดยจุดเชื่อมต่อแชทและ "reasoner" ได้รับการปรับปรุงแล้ว ในแง่วิศวกรรม สิ่งนี้ทำให้ Terminus เป็นเวอร์ชันเสริมที่มีความน่าเชื่อถือ/คุณภาพ แทนที่จะเป็นการเปลี่ยนแปลง API แบบเจาะจง แม้ว่าจะคาดหวังพฤติกรรมเฉพาะบริการ (เช่น ความแตกต่างของเวลาแฝงเล็กน้อยในโหมดการคิด) สำหรับแอปพลิเคชันที่ต้องอาศัยจังหวะเวลาที่แม่นยำ

DeepSeek-V3.1-Terminus ทำผลงานได้อย่างไรในการทดสอบประสิทธิภาพ?

DeepSeek เผยแพร่ตัวเลขเกณฑ์มาตรฐานอะไรบ้าง?

DeepSeek เผยแพร่คะแนนเปรียบเทียบประสิทธิภาพสำหรับ V3.1 และ V3.1-Terminus โดยครอบคลุมการทดสอบทั้งด้านเหตุผล โค้ด ตัวแทน และภาษาต่างๆ รายการจากตารางที่เผยแพร่สู่สาธารณะประกอบด้วย:

MMLU-Pro (เหตุผล): V3.1 = 84.8 → จุดสิ้นสุด = 85.0.
GPQA-เพชร: 80.1 → 80.7.
การสอบครั้งสุดท้ายของมนุษยชาติ: 15.9 → 21.7 (ยกได้ชัดเจนบนเกณฑ์มาตรฐานเฉพาะ)
LiveCodeBench / โค้ด: 74.8 → 74.9 (กำไรเล็กน้อย)
Codeforces (คะแนน): 2091 → 2046 (คะแนนรวมการแข่งขันการเขียนโค้ดมีความแตกต่างกันเล็กน้อย)

เกณฑ์มาตรฐานการใช้ตัวแทน/เครื่องมือแสดงให้เห็นการปรับปรุงที่ใหญ่กว่า:

BrowseComp (ระบบนำทางเว็บแบบตัวแทน): 30.0 → 38.5.
ความสามารถด้านเทอร์มินัล-เบนช์ (ความสามารถด้านบรรทัดคำสั่ง): 31.3 → 36.7.
SWE Verified (การตรวจสอบวิศวกรรมซอฟต์แวร์): 66.0 → 68.4.
SimpleQA (ความแม่นยำของ QA): 93.4 → 96.8.

ตัวเลขเหล่านี้บ่งชี้ว่าแม้ว่าการปรับปรุงการใช้เหตุผลแบบดิบจะค่อนข้างน้อย แต่ความสามารถในการใช้ตัวแทนและเครื่องมือได้รับการปรับปรุงให้ดีขึ้นอย่างมาก ซึ่งเป็นพื้นที่ที่ DeepSeek กำหนดเป้าหมายไว้สำหรับ Terminus

เกณฑ์มาตรฐานในทางปฏิบัติหมายถึง:

ผลประโยชน์จากการใช้เหตุผลเพียงเล็กน้อย แนะนำว่าน้ำหนักของโมเดลหลักไม่ได้มีการเปลี่ยนแปลงอย่างมาก การปรับปรุงมาจากการดูแลข้อมูลการฝึกอบรมและกระบวนการอนุมานที่ดีขึ้น
กำไรตัวแทนที่มากขึ้น ระบุว่าโมเดลปัจจุบันเลือกและใช้เครื่องมือได้อย่างน่าเชื่อถือมากขึ้น ทำให้สามารถใช้งานจริงได้ดีขึ้น เช่น การวิจัยเว็บหลายขั้นตอน การสร้างโค้ด + รอบการทดสอบ และการทำงานอัตโนมัติแบบบรรทัดคำสั่ง

DeepSeek-V3.1-Terminus เปิดเผยคุณสมบัติขั้นสูงอะไรบ้าง?

ชุดเครื่องมือ Agentic: ตัวแทนโค้ด, ตัวแทนการค้นหา, ตัวแทนเทอร์มินัล

Terminus ทุ่มเทให้กับฟีเจอร์ของตัวแทนที่ให้ผู้พัฒนาสามารถจัดการเวิร์กโฟลว์ภายนอกหลายขั้นตอนได้:

ตัวแทนโค้ด: สร้างโค้ดที่รันได้ ขับเคลื่อนลูปการดำเนินการ (ในแซนด์บ็อกซ์ของผู้ให้บริการ) และให้ความช่วยเหลือในการดีบักแบบวนซ้ำ การอัปเดตนี้มุ่งเป้าไปที่การลดจำนวนสไนปเป็ตที่ผิดรูป และการให้เหตุผลแบบขั้นตอนที่ดีขึ้นสำหรับงานอัลกอริทึม
ค้นหาตัวแทน / ค้นหาตัวแทน: เรียงลำดับการค้นหาเว็บแบบหลายขั้นตอน ผสานรวมผลการค้นหา และสังเคราะห์คำตอบจากข้อมูลที่ดึงมา เดลต้า BrowseComp ที่เผยแพร่แสดงให้เห็นถึงความเสถียรในการเรียกดูที่ดีขึ้น
ตัวแทนเทอร์มินัล: ออกแบบมาเพื่อเชื่อมต่อกับงานเชลล์/เทอร์มินัล (เช่น การสร้างลำดับคำสั่งหลายคำสั่ง การแยกวิเคราะห์เอาต์พุต) ใช้ในการประเมินแบบ "เทอร์มินัล-เบนช์" ซึ่งแบบจำลองต้องวางแผนและดำเนินการตามลำดับคำสั่ง เทอร์มินัสแสดงให้เห็นถึงประสิทธิภาพของเทอร์มินัล-เบนช์ที่ได้รับการปรับปรุง

โหมดรันไทม์แบบคิดแบบไฮบริด/ไม่คิด

รายละเอียดการออกแบบเชิงปฏิบัติคือโมเดลนี้รองรับเทมเพลต "แบบคิด" (ประมวลผลภายในมากขึ้น วางแผนมากขึ้น) และเทมเพลต "แบบไม่ใช้ความคิด" หรือแบบแชท (ความหน่วงต่ำกว่า) DeepSeek เปิดเผยทั้งสองรูปแบบผ่านตัวแปรปลายทาง (deepseek-chat และ deepseek-reasoner) เพื่อให้ผู้รวมระบบสามารถเลือกโปรไฟล์คุณภาพ/ความหน่วงได้ตามคำขอ Terminus ได้ปรับปรุงและปรับแต่งเทมเพลตเหล่านั้นให้เป็นมาตรฐานเพื่อลดความแตกต่างด้านพฤติกรรมที่แปลกประหลาดที่พบในการเปิดตัว V3.1 ก่อนหน้านี้

การพัฒนาตามหลักสรีรศาสตร์: เทมเพลต เดโม และแผนผังแบบจำลอง

DeepSeek ได้เผยแพร่ตัวอย่างการอนุมานที่อัปเดตแล้ว แผนผังโมเดลที่ชัดเจนยิ่งขึ้นบน Hugging Face และน้ำหนักเชิงปริมาณที่อนุญาตให้ทำการทดลองในพื้นที่หรือขอบ การมุ่งเน้นไปที่สิ่งประดิษฐ์ที่นำไปใช้งานจริง (โมเดลเชิงปริมาณ, โค้ดสาธิตการอนุมาน) ช่วยลดความยุ่งยากสำหรับผู้รวมระบบที่ต้องการทดลองใช้โมเดลในสภาพแวดล้อมของตนเอง

Terminus หมายถึงอะไรสำหรับนักพัฒนา

หากคุณใช้ DeepSeek V3.1 อยู่แล้ว: DeepSeek-V3.1-Terminus ควรเป็นการอัปเกรดที่ลดแรงเสียดทานโดยเน้นที่ความน่าเชื่อถือ ทีมที่พึ่งพาฟีเจอร์แบบเอเจนต์ (การค้นหา การรันโค้ด และเวิร์กโฟลว์เทอร์มินัล) มีแนวโน้มที่จะเห็นการปรับปรุงที่เป็นรูปธรรมมากที่สุด บริษัทได้อัปเกรดจุดเชื่อมต่อภายใน (in-place endpoint) เพื่อให้การเปลี่ยนแปลงในการผสานรวมน้อยที่สุด
หากคุณประเมินโมเดลสำหรับแอปที่ต้องใช้เครื่องมือจำนวนมาก: DeepSeek-V3.1-Terminus เน้นย้ำถึงความเสถียรของเอเจนต์ ซึ่งคุ้มค่าที่จะเพิ่มเข้าไปในรายการตัวเลือกของคุณ หากแอปของคุณต้องการการประสานเครื่องมือแบบหลายขั้นตอน แต่คุณควรรันกระบวนการประเมินประสิทธิภาพและพรอมต์เชิงโต้ตอบที่เกี่ยวข้องกับโดเมนของคุณด้วยตนเอง

บทสรุป — DeepSeek-V3.1-Terminus มีความสำคัญหรือไม่?

DeepSeek-V3.1-Terminus เป็นที่เข้าใจกันดีที่สุดว่าเป็นการเปิดตัวที่มุ่งเน้นคุณภาพและความน่าเชื่อถือ: มันไม่ได้ปรับเปลี่ยนสถาปัตยกรรมหรือปรับขนาดตระกูลใหม่อย่างสิ้นเชิง แต่ได้แก้ไขปัญหาเร่งด่วนในทางปฏิบัติที่ส่งผลกระทบต่อการใช้งานจริง เช่น ความเสถียรของภาษา ความน่าเชื่อถือของเครื่องมือเอเจนต์ และผลลัพธ์จากการเปรียบเทียบประสิทธิภาพเล็กน้อยแต่สำคัญในงานเอเจนต์ สำหรับนักพัฒนาที่ต้องพึ่งพาโฟลว์เครื่องมือแบบหลายขั้นตอนที่ผสานรวม (การประสานการค้นหา การสร้างโค้ดและการรันโค้ด การทำงานอัตโนมัติของเทอร์มินัล) Terminus ถือเป็นก้าวสำคัญไปข้างหน้า สำหรับผู้ที่มุ่งเน้นเฉพาะการประเมินประสิทธิภาพการใช้เหตุผลแบบ Single-Pass เพียงอย่างเดียว ผลลัพธ์ที่ได้จะอยู่ในระดับปานกลาง

เริ่มต้นใช้งาน

CometAPI เป็นแพลตฟอร์ม API แบบรวมที่รวบรวมโมเดล AI มากกว่า 500 โมเดลจากผู้ให้บริการชั้นนำ เช่น ซีรีส์ GPT ของ OpenAI, Gemini ของ Google, Claude ของ Anthropic, Midjourney, Suno และอื่นๆ ไว้ในอินเทอร์เฟซเดียวที่เป็นมิตรกับนักพัฒนา ด้วยการนำเสนอการตรวจสอบสิทธิ์ การจัดรูปแบบคำขอ และการจัดการการตอบสนองที่สอดคล้องกัน CometAPI จึงทำให้การรวมความสามารถของ AI เข้ากับแอปพลิเคชันของคุณง่ายขึ้นอย่างมาก ไม่ว่าคุณจะกำลังสร้างแชทบ็อต เครื่องกำเนิดภาพ นักแต่งเพลง หรือไพพ์ไลน์การวิเคราะห์ที่ขับเคลื่อนด้วยข้อมูล CometAPI ช่วยให้คุณทำซ้ำได้เร็วขึ้น ควบคุมต้นทุน และไม่ขึ้นอยู่กับผู้จำหน่าย ทั้งหมดนี้ในขณะที่ใช้ประโยชน์จากความก้าวหน้าล่าสุดในระบบนิเวศ AI

นักพัฒนาสามารถเข้าถึง DeepSeek-V3.1-Terminus ผ่าน CometAPI รุ่นใหม่ล่าสุด ได้รับการอัปเดตอยู่เสมอจากเว็บไซต์อย่างเป็นทางการ เริ่มต้นด้วยการสำรวจความสามารถของโมเดลใน สนามเด็กเล่น และปรึกษา คู่มือ API สำหรับคำแนะนำโดยละเอียด ก่อนเข้าใช้งาน โปรดตรวจสอบให้แน่ใจว่าคุณได้เข้าสู่ระบบ CometAPI และได้รับรหัส API แล้ว โคเมทเอพีไอ เสนอราคาที่ต่ำกว่าราคาอย่างเป็นทางการมากเพื่อช่วยคุณบูรณาการ

พร้อมไปหรือยัง?→ ลงทะเบียน CometAPI วันนี้ !