DeepSeek-V3.1-Terminus: Tính năng, Điểm chuẩn và Ý nghĩa

CometAPI
AnnaSep 23, 2025
DeepSeek-V3.1-Terminus: Tính năng, Điểm chuẩn và Ý nghĩa

DeepSeek-V3.1-Terminus là phiên bản cải tiến mới nhất của dòng DeepSeek — một mô hình ngôn ngữ lớn (LLM) lai, hướng đến tác nhân, được DeepSeek định vị là cầu nối giữa các mô hình trò chuyện truyền thống và các hệ thống tác nhân mạnh mẽ hơn. Thay vì một mạng lưới cơ sở hoàn toàn mới, Terminus được trình bày như một bản cập nhật theo phong cách gói dịch vụ được nhắm mục tiêu cho dòng V3.1, tập trung vào tính ổn định, tính nhất quán ngôn ngữ và hiệu suất tác nhân/công cụ mạnh mẽ hơn (đặc biệt là các tác nhân Mã và Tìm kiếm). Bản phát hành hiện đã có sẵn thông qua API của DeepSeek, bản phân phối Hugging Face, và đã được tích hợp vào nhiều hệ sinh thái nhà cung cấp.

Sau đây tôi sẽ giải thích chi tiết về mô hình này.

DeepSeek-V3.1-Terminus là gì?

DeepSeek-V3.1-Terminus là bản phát hành điểm mới nhất từ ​​dòng V3 của DeepSeek — một bản tinh chỉnh hướng đến tính ổn định và tác nhân của các mô hình Hỗn hợp Chuyên gia (MoE) dung lượng cao của công ty. Bản cập nhật DeepSeek-V3.1-Terminus tập trung vào hai vấn đề thực tế, thường gặp ở người dùng, được báo cáo trong các bản dựng V3 trước đó: lỗi trộn ngôn ngữ/lỗi ký tự không thường xuyên và hành vi tác nhân/công cụ không nhất quán. DeepSeek mô tả bản phát hành này là một bước bảo trì và củng cố, giúp duy trì các khả năng thô sơ của V3 đồng thời cải thiện tính ổn định, khả năng sử dụng công cụ tác nhân (đặc biệt là Code Agent và Search Agent) và độ tin cậy so sánh chéo; mô hình và trọng số có sẵn thông qua các kênh của DeepSeek và trên Hugging Face.

Về mặt thực tế, điều đó có nghĩa là:

  • Đây là bản nâng cấp gia tăng của DeepSeek V3.1 tập trung vào việc sử dụng tác nhân/công cụ (Code Agent, Search Agent) và cải tiến suy luận nhiều bước.
  • Nhóm nghiên cứu báo cáo ít lỗi pha trộn ngôn ngữ hơn và đầu ra ổn định hơn so với V3.1 trước đó.
  • Nó hỗ trợ cả mẫu trò chuyện "suy nghĩ" và "không suy nghĩ" (chế độ lý luận kết hợp) và công cụ có cấu trúc gọi cho quy trình làm việc của tác nhân.

Thiết kế kiến ​​trúc tổng quát là gì?

DeepSeek-V3.1 (và mở rộng ra là bản cập nhật Terminus) là một mô hình lập luận lai lớn: họ này kết hợp phương pháp mở rộng theo kiểu hỗn hợp chuyên gia (MoE) với định tuyến tham số chủ động để hệ thống có thể hoạt động ở cả chế độ "suy nghĩ" (suy luận nội bộ nặng, lập kế hoạch công cụ) và chế độ trò chuyện "không suy nghĩ" (độ trễ thấp hơn, phản hồi trực tiếp). Thiết kế lai này được các nhà phát triển tiếp cận thông qua các mẫu trò chuyện và chế độ thời gian chạy khác nhau thay vì thông qua các mô hình riêng biệt — cùng một mạng lưới cơ bản hỗ trợ cả hai hành vi.

“Các tác nhân” được tích hợp vào kiến ​​trúc như thế nào?

Khả năng tác tử của DeepSeek được nâng cao hơn so với suy luận mô hình cốt lõi: các mô-đun tác tử chuyên biệt (Tác tử Mã, Tác tử Tìm kiếm, Tác tử Duyệt, Tác tử Đầu cuối) được triển khai dưới dạng các hành vi sử dụng công cụ được hướng dẫn mà mô hình có thể học cách gọi. DeepSeek-V3.1-Terminus cải thiện độ tin cậy và sự phối hợp của các tác tử đó thông qua tối ưu hóa sau đào tạo và các mẫu nhắc nhở được cải thiện. Trên thực tế, các tác tử này không phải là các mạng nơ-ron riêng biệt mà là các mẫu hành vi được đào tạo (và đôi khi là các bộ điều khiển nhẹ) hướng dẫn mô hình cơ sở khi nào và cách gọi các công cụ hoặc hành động bên ngoài.

Những cải tiến chính trong V3.1-Terminus là gì?

Terminus giải quyết những vấn đề nào của người dùng?

DeepSeek-V3.1-Terminus được phát hành chủ yếu để đáp ứng hai loại phản hồi thực tế của người dùng:

  1. Tính ổn định của ngôn ngữ: Người dùng đã báo cáo tình trạng đôi khi bị lẫn lộn ngôn ngữ (các điểm mã tiếng Trung/tiếng Anh bị lẫn vào đầu ra), các ký tự lạc hoặc "bị bóp méo", và các hiện tượng mã hóa không nhất quán trong các ngữ cảnh đa ngôn ngữ. DeepSeek-V3.1-Terminus bao gồm các bản sửa lỗi nhằm giảm thiểu những sự cố này.
  2. Độ tin cậy của tác nhân: Người dùng yêu cầu mô hình có hành vi mạnh mẽ hơn, có thể lặp lại khi nó gọi các chuỗi công cụ (Code Agent, Search Agent, Terminal Agent). DeepSeek-V3.1-Terminus bao gồm các thay đổi sau đào tạo và nhắc nhở/mẫu nhằm mục đích ổn định việc sử dụng công cụ và giảm thiểu ảo giác của tác nhân hoặc việc thực hiện kế hoạch không đầy đủ.

Dung dịch

DeepSeek-V3.1-Terminus được thiết kế như một bản phát hành chất lượng và mạnh mẽ. Công ty liệt kê một số bản sửa lỗi và tối ưu hóa cụ thể:

  • Sửa lỗi về tính nhất quán của ngôn ngữ: Giảm hiện tượng trộn lẫn tiếng Trung/tiếng Anh không mong muốn và loại bỏ các ký tự bất thường hiếm gặp đôi khi xuất hiện trong bản đầu ra.
  • Độ mạnh của tác nhân: Cải tiến đáng chú ý cho Code Agent và Search Agent, với độ chính xác khi gọi công cụ tốt hơn và ít lệnh gọi công cụ ảo hơn. Terminus thắt chặt việc chuyển giao từ nhắc nhở đến thực thi của Code Agent, cải thiện việc diễn giải kết quả tìm kiếm của Search Agent và giảm thiểu các hiện tượng mã hóa giả mạo trong các thao tác nối tiếp — tất cả đều nhằm mục đích làm cho quy trình làm việc của tác nhân đầu cuối (ví dụ: truy vấn → tìm kiếm → tạo mã → thực thi) mang tính quyết định hơn và ít xảy ra lỗi hơn.
  • Độ ổn định trên các chuẩn mực: Nhóm báo cáo điểm số ổn định hơn (phương sai thấp hơn) trên các tiêu chuẩn chung so với các bản dựng V3 trước đó.

DeepSeek định hình Terminus tương thích với các điểm tích hợp V3.1 hiện có — các điểm cuối trò chuyện và "lý luận" đã được nâng cấp tại chỗ. Về mặt kỹ thuật, điều này khiến Terminus trở thành một bản phát hành bổ sung về độ tin cậy/chất lượng chứ không phải là một thay đổi API đột phá, mặc dù có thể xảy ra một số hành vi cụ thể của dịch vụ (ví dụ: sự khác biệt nhỏ về độ trễ trong chế độ suy nghĩ) đối với các ứng dụng dựa trên thời gian chính xác.

DeepSeek-V3.1-Terminus hoạt động như thế nào trên các bài kiểm tra chuẩn?

DeepSeek đã công bố những số liệu chuẩn nào?

DeepSeek đã công bố điểm chuẩn so sánh cho V3.1 và V3.1-Terminus trên hỗn hợp các bài kiểm tra lý luận, mã, tác nhân và đa ngôn ngữ. Các mục tiêu biểu từ bảng công khai bao gồm:

  • MMLU-Pro (lý luận): V3.1 = 84.8 → Điểm cuối = 85.0.
  • GPQA-Kim cương: 80.1 → 80.7.
  • Kỳ thi cuối cùng của nhân loại: 15.9 → 21.7 (sự nâng cao đáng kể trên một chuẩn mực chuyên biệt).
  • LiveCodeBench / Mã: 74.8 → 74.9 (lợi nhuận nhỏ).
  • Codeforces (điểm): 2091 → 2046 (có sự thay đổi nhỏ về tổng điểm cuộc thi lập trình).

Tiêu chuẩn sử dụng công cụ/tác nhân cho thấy sự cải thiện tương đối lớn hơn:

  • BrowseComp (điều hướng web đại lý): 30.0 → 38.5.
  • Terminal-bench (năng lực dòng lệnh): 31.3 → 36.7.
  • SWE Verified (xác minh kỹ thuật phần mềm): 66.0 → 68.4.
  • SimpleQA (độ chính xác của QA): 93.4 → 96.8.

Những con số này cho thấy rằng mặc dù khả năng lập luận thô còn khiêm tốn, nhưng năng lực sử dụng công cụ và tác nhân đã được cải thiện đáng kể — chính xác là những lĩnh vực mà DeepSeek nhắm tới cho Terminus.

Về mặt thực tế, điểm chuẩn có ý nghĩa như sau:

  • Lợi ích lý luận nhỏ đề xuất rằng trọng số mô hình cốt lõi không thay đổi đáng kể; những cải tiến đến từ việc quản lý dữ liệu đào tạo tốt hơn và quy trình suy luận.
  • Lợi nhuận tác nhân lớn hơn chỉ ra rằng mô hình hiện nay lựa chọn và sử dụng các công cụ đáng tin cậy hơn, chuyển thành các tác vụ thực tế tốt hơn như nghiên cứu web nhiều bước, tạo mã + chu kỳ thử nghiệm và tự động hóa dòng lệnh.

DeepSeek-V3.1-Terminus có những tính năng nâng cao nào?

Bộ công cụ Agentic: Code Agent, Search Agent, Terminal Agent

Terminus tăng gấp đôi các tính năng đại lý cho phép các nhà phát triển sắp xếp các quy trình làm việc bên ngoài nhiều bước:

  • Đại lý mã: tạo mã chạy được, điều khiển vòng lặp thực thi (trong hộp cát của nhà cung cấp) và cung cấp hỗ trợ gỡ lỗi lặp lại. Bản cập nhật này hướng đến việc giảm thiểu các đoạn mã lỗi và cải thiện khả năng suy luận từng bước cho các tác vụ thuật toán.
  • Tìm kiếm đại lý / Duyệt đại lý: sắp xếp các truy vấn web nhiều bước, tích hợp kết quả tìm kiếm và tổng hợp câu trả lời từ dữ liệu thu thập được. Các delta BrowseComp đã công bố cho thấy tính ổn định duyệt web tốt hơn.
  • Đại lý thiết bị đầu cuối: được thiết kế để giao tiếp với các tác vụ shell/terminal (ví dụ: xây dựng chuỗi lệnh đa, phân tích cú pháp đầu ra), được sử dụng trong các đánh giá kiểu "terminal-bench", trong đó mô hình phải lập kế hoạch và thực thi chuỗi lệnh. Terminus cho thấy hiệu suất Terminal-bench được cải thiện.

Chế độ thời gian chạy kết hợp suy nghĩ/không suy nghĩ

Một chi tiết thiết kế thực tế là mô hình hỗ trợ mẫu "suy nghĩ" (tính toán nội bộ nhiều hơn, lập kế hoạch nhiều hơn) và mẫu "không suy nghĩ" hoặc mẫu trò chuyện (độ trễ thấp hơn). DeepSeek hiển thị cả hai thông qua các biến thể điểm cuối (deepseek-chatdeepseek-reasoner) để các nhà tích hợp có thể chọn cấu hình chất lượng/độ trễ theo yêu cầu. Terminus chuẩn hóa và tinh chỉnh các mẫu này để giảm thiểu những khác biệt về hành vi thường thấy trong các bản triển khai V3.1 trước đó.

Công thái học của nhà phát triển: mẫu, bản demo và cây mô hình

DeepSeek đã công bố các ví dụ suy luận được cập nhật, một cây mô hình rõ ràng hơn về Hugging Face và các trọng số lượng tử hóa để cho phép thử nghiệm cục bộ hoặc biên. Việc tập trung vào các hiện vật triển khai (mô hình lượng tử hóa, mã demo suy luận) giúp giảm thiểu sự khó khăn cho các nhà tích hợp muốn thử nghiệm mô hình trong môi trường của riêng họ.

Terminus có ý nghĩa gì đối với các nhà phát triển

  • Nếu bạn đã sử dụng DeepSeek V3.1: DeepSeek-V3.1-Terminus sẽ là một bản nâng cấp ít ma sát, tập trung vào độ tin cậy. Các nhóm dựa vào các tính năng của agent (tìm kiếm, thực thi mã, quy trình làm việc của thiết bị đầu cuối) có nhiều khả năng sẽ thấy những cải tiến thiết thực nhất. Công ty đã nâng cấp các điểm cuối tại chỗ nên các thay đổi tích hợp sẽ ở mức tối thiểu.
  • Nếu bạn đánh giá các mô hình cho các ứng dụng có nhiều công cụ: DeepSeek-V3.1-Terminus nhấn mạnh tính ổn định của tác nhân — đáng để thêm vào danh sách rút gọn của bạn nếu ứng dụng của bạn cần điều phối công cụ nhiều bước. Tuy nhiên, bạn vẫn nên chạy các quy trình chuẩn và lời nhắc đối kháng của riêng mình phù hợp với lĩnh vực của bạn.

Kết luận — DeepSeek-V3.1-Terminus có quan trọng không?

DeepSeek-V3.1-Terminus được hiểu rõ nhất là một bản phát hành chất lượng và độ tin cậy được nhắm mục tiêu: nó không tái cấu trúc hoặc thay đổi quy mô toàn diện dòng sản phẩm, nhưng nó giải quyết các vấn đề thực tế cấp bách ảnh hưởng đến việc triển khai sản xuất — tính ổn định của ngôn ngữ, độ tin cậy của công cụ tác nhân, và những cải thiện nhỏ nhưng đáng kể về điểm chuẩn trong các tác vụ tác nhân. Đối với các nhà phát triển phụ thuộc vào các luồng công cụ tích hợp, nhiều bước (điều phối tìm kiếm, tạo + thực thi mã, tự động hóa thiết bị đầu cuối), Terminus đại diện cho một bước tiến đáng kể. Đối với những người tập trung hoàn toàn vào các điểm chuẩn suy luận đơn giản, những cải thiện sẽ không đáng kể.

Bắt đầu

CometAPI là một nền tảng API hợp nhất tổng hợp hơn 500 mô hình AI từ các nhà cung cấp hàng đầu—chẳng hạn như dòng GPT của OpenAI, Gemini của Google, Claude của Anthropic, Midjourney, Suno, v.v.—thành một giao diện duy nhất thân thiện với nhà phát triển. Bằng cách cung cấp xác thực nhất quán, định dạng yêu cầu và xử lý phản hồi, CometAPI đơn giản hóa đáng kể việc tích hợp các khả năng AI vào ứng dụng của bạn. Cho dù bạn đang xây dựng chatbot, trình tạo hình ảnh, nhà soạn nhạc hay đường ống phân tích dựa trên dữ liệu, CometAPI cho phép bạn lặp lại nhanh hơn, kiểm soát chi phí và không phụ thuộc vào nhà cung cấp—tất cả trong khi khai thác những đột phá mới nhất trên toàn bộ hệ sinh thái AI.

Các nhà phát triển có thể truy cập DeepSeek-V3.1-Terminus thông qua CometAPI, phiên bản mẫu mới nhất luôn được cập nhật trên trang web chính thức. Để bắt đầu, hãy khám phá các khả năng của mô hình trong Sân chơi và tham khảo ý kiến Hướng dẫn API để biết hướng dẫn chi tiết. Trước khi truy cập, vui lòng đảm bảo bạn đã đăng nhập vào CometAPI và lấy được khóa API. Sao chổiAPI cung cấp mức giá thấp hơn nhiều so với giá chính thức để giúp bạn tích hợp.

Sẵn sàng chưa?→ Đăng ký CometAPI ngay hôm nay !

Đọc thêm

500+ Mô hình trong Một API

Giảm giá lên đến 20%