Vào tháng 2025 năm XNUMX, công ty khởi nghiệp AI Trung Quốc DeepSeek đã công bố phát hành DeepSeek-V3.1, một bản nâng cấp giữa thế hệ mà công ty coi là bước đầu tiên "hướng tới kỷ nguyên tác nhân". Bản cập nhật mang đến chế độ suy luận kết hợp (một mô hình duy nhất có thể chạy ở chế độ "suy nghĩ" hoặc "không suy nghĩ"), cửa sổ ngữ cảnh dài hơn đáng kể và các cải tiến sau đào tạo có mục tiêu đối với việc gọi công cụ và hành vi tác nhân nhiều bước.
DeepSeek-V3.1 là gì và tại sao nó lại quan trọng?
DeepSeek-V3.1 là bản cập nhật sản xuất mới nhất cho dòng DeepSeek V3. Ở cấp độ cao, đây là một họ mô hình ngôn ngữ MoE lai (dòng V3) được DeepSeek đào tạo hậu kỳ và mở rộng để hỗ trợ hai chế độ hoạt động hiển thị cho người dùng. Bạn sẽ tìm thấy hai biến thể chính: DeepSeek-V3.1-Base và DeepSeek-V3.1 đầy đủ:
- Không suy nghĩ (deepseek-chat): chế độ hoàn thành trò chuyện tiêu chuẩn được tối ưu hóa cho tốc độ và mục đích sử dụng khi đàm thoại.
- Suy nghĩ (deepseek-reasoner): chế độ lý luận tác nhân ưu tiên lý luận có cấu trúc, nhiều bước và phối hợp công cụ/tác nhân.
Bản phát hành tập trung vào ba cải tiến rõ ràng: đường ống suy luận kết hợp cân bằng giữa độ trễ và khả năng, công cụ gọi/điều phối tác nhân thông minh hơn và cửa sổ ngữ cảnh mở rộng đáng kể (được quảng cáo là 128K mã thông báo).
Tại sao nó quan trọng: DeepSeek-V3.1 tiếp tục xu hướng chung của ngành là kết hợp các kiến trúc MoE quy mô lớn hiệu quả với các nguyên mẫu công cụ và cửa sổ ngữ cảnh rất dài. Sự kết hợp này rất quan trọng đối với các tác nhân doanh nghiệp, quy trình làm việc tìm kiếm kết hợp với suy luận, tóm tắt tài liệu dài và tự động hóa dựa trên công cụ, nơi cần cả thông lượng và khả năng "gọi ra" các công cụ bên ngoài một cách xác định.
Điểm khác biệt của DeepSeek-V3.1 so với các phiên bản DeepSeek trước đây là gì?
Suy luận lai: một mô hình, hai chế độ hoạt động
Tiêu đề thay đổi kiến trúc là suy luận laiDeepSeek mô tả V3.1 hỗ trợ cả chế độ "suy nghĩ" và chế độ "không suy nghĩ" bên trong cùng một thể hiện mô hình, có thể lựa chọn bằng cách thay đổi mẫu trò chuyện hoặc chuyển đổi giao diện người dùng (nút "DeepThink" của DeepSeek). Trên thực tế, điều này có nghĩa là mô hình có thể được hướng dẫn để tạo ra các dấu vết suy luận nội bộ (hữu ích cho quy trình làm việc của tác nhân theo kiểu chuỗi suy nghĩ) hoặc phản hồi trực tiếp mà không để lộ các mã thông báo suy luận trung gian — tùy thuộc vào nhu cầu của nhà phát triển. DeepSeek trình bày điều này như một hướng đi hướng tới các quy trình làm việc mang tính tác nhân hơn, đồng thời cho phép các ứng dụng lựa chọn giữa độ trễ/độ dài.
Cửa sổ ngữ cảnh lớn hơn và các nguyên mẫu mã thông báo
Ghi chú phát hành chính thức báo cáo một cửa sổ ngữ cảnh lớn hơn nhiều trong V3.1; thử nghiệm cộng đồng và bài đăng của công ty đặt bối cảnh mở rộng tại 128k mã thông báo Đối với một số biến thể được lưu trữ, DeepSeek cho phép các cuộc hội thoại dài hơn đáng kể, lập luận nhiều tài liệu hoặc cơ sở mã dài được đưa vào một phiên duy nhất. Bổ sung cho điều đó, DeepSeek được cho là đã giới thiệu một số mã thông báo kiểm soát đặc biệt (ví dụ: <|search_begin|>/<|search_end|>, <think> / </think>) nhằm mục đích cấu trúc các lệnh gọi công cụ và phân định các phân đoạn “suy nghĩ” bên trong — một mẫu thiết kế giúp đơn giản hóa việc phối hợp với các công cụ bên ngoài.
Cải thiện khả năng của tác nhân/công cụ và độ trễ
DeepSeek tuyên bố rằng V3.1 được hưởng lợi từ tối ưu hóa sau đào tạo tập trung vào việc gọi công cụ và các tác vụ tác nhân đa bước: mô hình được cho là đạt được câu trả lời nhanh hơn ở chế độ "suy nghĩ" so với các bản dựng DeepSeek R1 trước đây, và đáng tin cậy hơn khi gọi API bên ngoài hoặc thực hiện các kế hoạch đa bước. Định vị đó — suy luận nhanh hơn nhưng có khả năng tác nhân hơn — là một điểm khác biệt rõ ràng của sản phẩm đối với các nhóm xây dựng trợ lý, tự động hóa hoặc quy trình làm việc của tác nhân.
Kiến trúc đằng sau DeepSeek-V3.1 là gì?
DeepSeek-V3.1 được xây dựng dựa trên nghiên cứu cốt lõi của họ DeepSeek-V3: a Hỗn hợp chuyên gia (MoE) Nền tảng xương sống với một loạt cải tiến về kiến trúc được thiết kế để đạt hiệu quả và quy mô. Báo cáo kỹ thuật công khai cho DeepSeek-V3 (họ nền tảng) mô tả:
- Một thiết kế MoE lớn với hàng trăm tỷ tham số tổng thể và một kích hoạt số lượng tham số trên mỗi mã thông báo (thẻ mô hình liệt kê tổng cộng 671B tham số với khoảng 37B được kích hoạt trên mỗi mã thông báo).
- Phương pháp định tuyến và mở rộng quy mô DeepSeekMoE tùy chỉnh cùng với sự chú ý tiềm ẩn đa đầu (MLA) giúp giảm chi phí suy luận trong khi vẫn duy trì được dung lượng.
- Mục tiêu đào tạo và chiến lược cân bằng tải loại bỏ nhu cầu về các điều khoản mất cân bằng tải phụ trợ và áp dụng các mục tiêu dự đoán đa mã thông báo để cải thiện thông lượng và mô hình hóa trình tự.
Tại sao lại là MoE + MLA?
Mixture-of-Experts cho phép mô hình duy trì số lượng tham số lý thuyết cao trong khi chỉ kích hoạt một tập hợp con các chuyên gia trên mỗi token — điều này giúp giảm thiểu khối lượng tính toán trên mỗi token. MLA là biến thể tập trung của DeepSeek, giúp mô hình mở rộng quy mô hoạt động của tập trung một cách hiệu quả trên nhiều chuyên gia và bối cảnh dài. Những lựa chọn này kết hợp lại giúp việc đào tạo và phục vụ các điểm kiểm tra rất lớn trở nên khả thi, đồng thời vẫn duy trì chi phí suy luận hữu ích cho nhiều lần triển khai.
DeepSeek-V3.1 hoạt động như thế nào trong các bài kiểm tra chuẩn và thực tế?
So sánh V3.1 bằng lời
- Trên V3 (0324): Phiên bản 3.1 là bản nâng cấp rõ ràng trên mọi phương diện—đặc biệt là trong mã hóa và các tác vụ liên quan. Ví dụ: LiveCodeBench nhảy từ 43.0 → 56.4 (không suy nghĩ) và → 74.8 (suy nghĩ); Aider-Polyglot từ 55.1 → 68.4 / 76.3.
- So với R1-0528: R1 vẫn là một điểm so sánh “được điều chỉnh theo lý luận” mạnh mẽ, nhưng V3.1-Suy nghĩ thường xuyên bằng hoặc vượt quá R1-0528 (AIME/HMMT, LiveCodeBench), đồng thời cung cấp một lộ trình không cần suy nghĩ để sử dụng với độ trễ thấp.
- Kiến thức chung (biến thể MMLU): V3.1 nằm ngay dưới R1-0528 khi xét đến yếu tố “suy nghĩ”, nhưng cao hơn V3 cũ hơn.
Kiến thức chung & học thuật
| Điểm chuẩn (số liệu) | V3.1-Không suy nghĩ | Động cơ V3 (0324) | V3.1-Suy nghĩ | R1-0528 |
|---|---|---|---|---|
| MMLU-Redux (Kết quả chính xác) | 91.8 | 90.5 | 93.7 | 93.4 |
| MMLU-Pro (Kết quả chính xác) | 83.7 | 81.2 | 84.8 | 85.0 |
| GPQA-Kim cương (Đạt @1) | 74.9 | 68.4 | 80.1 | 81.0 |
Điều này có nghĩa là: V3.1 cải thiện hơn V3 về kiến thức/nhiệm vụ học thuật; “suy nghĩ” thu hẹp khoảng cách với R1 về các câu hỏi khoa học khó (GPQA-Diamond).
Mã hóa (không phải tác nhân)
| Điểm chuẩn (số liệu) | V3.1-Không suy nghĩ | Động cơ V3 (0324) | V3.1-Suy nghĩ | R1-0528 |
|---|---|---|---|---|
| LiveCodeBench (2408–2505) (Đạt @1) | 56.4 | 43.0 | 74.8 | 73.3 |
| Aider-Polyglot (Sự chính xác) | 68.4 | 55.1 | 76.3 | 71.6 |
| Codeforces-Div1 (Xếp hạng) | - | - | 2091 | 1930 |
Ghi chú:
- LiveCodeBench (2408–2505) biểu thị một cửa sổ tổng hợp (tháng 2024 năm 2025 → tháng 1 năm XNUMX). Pass@XNUMX cao hơn phản ánh độ chính xác cao hơn ngay lần thử đầu tiên trên nhiều tác vụ mã hóa khác nhau.
- Aider-Polyglot mô phỏng việc chỉnh sửa mã theo kiểu trợ lý trên nhiều ngôn ngữ; V3.1-Thinking dẫn đầu bộ, V3.1-NonThinking là bước tiến đáng kể so với V3 (0324).
- Thẻ mô hình cho thấy V3 (0324) ở mức 55.1% trên Aider—phù hợp với bảng xếp hạng công khai của Aider cho phiên bản đó. (Điểm số cao hơn của V3.1 là điểm mới trên thẻ mô hình.)
Mã hóa (nhiệm vụ của tác nhân)
| Điểm chuẩn (số liệu) | V3.1-Không suy nghĩ | Động cơ V3 (0324) | V3.1-Suy nghĩ | R1-0528 |
|---|---|---|---|---|
| SWE đã xác minh (Chế độ đại lý) | 66.0 | 45.4 | - | 44.6 |
| SWE-bench Đa ngôn ngữ (Chế độ đại lý) | 54.5 | 29.3 | - | 30.5 |
| Thiết bị đầu cuối-băng ghế (Khung Terminus 1) | 31.3 | 13.3 | - | 5.7 |
Lưu ý quan trọng: đó là đánh giá tác nhân bằng cách sử dụng các khuôn khổ nội bộ của DeepSeek (công cụ, thực thi nhiều bước), không phải là các bài kiểm tra giải mã token tiếp theo thuần túy. Chúng nắm bắt khả năng "LLM + điều phối". Hãy coi chúng như hệ thống kết quả (khả năng tái tạo có thể phụ thuộc vào ngăn xếp tác nhân và cài đặt chính xác).
Toán học và lý luận cạnh tranh
| Điểm chuẩn (số liệu) | V3.1-Không suy nghĩ | Động cơ V3 (0324) | V3.1-Suy nghĩ | R1-0528 |
|---|---|---|---|---|
| AIME 2024 (Đạt @1) | 66.3 | 59.4 | 93.1 | 91.4 |
| AIME 2025 (Đạt @1) | 49.8 | 51.3 | 88.4 | 87.5 |
| HMMT 2025 (Đạt @1) | 33.5 | 29.2 | 84.2 | 79.4 |
Lấy đi: Chế độ "Suy nghĩ" thúc đẩy rất lớn nâng cao trên các bộ đề thi toán—V3.1-Thinking vượt qua R1-0528 trên AIME/HMMT trong các lần chạy được báo cáo.
QA tăng cường tìm kiếm / "đại lý"
| Điểm chuẩn (số liệu) | V3.1-Không suy nghĩ | Động cơ V3 (0324) | V3.1-Suy nghĩ | R1-0528 |
|---|---|---|---|---|
| BrowseComp | - | - | 30.0 | 8.9 |
| DuyệtComp_zh | - | - | 49.2 | 35.7 |
| Bài kiểm tra cuối cùng của nhân loại (Python + Tìm kiếm) | - | - | 29.8 | 24.8 |
| Đơn giảnQA | - | - | 93.4 | 92.3 |
| Bài kiểm tra cuối cùng của nhân loại (chỉ có văn bản) | - | - | 15.9 | 17.7 |
Lưu ý: DeepSeek tuyên bố kết quả của tác nhân tìm kiếm sử dụng khuôn khổ tìm kiếm nội bộ của nó (API tìm kiếm thương mại + lọc trang, ngữ cảnh 128K). Phương pháp luận rất quan trọng ở đây; việc tái tạo đòi hỏi công cụ tương tự.
Những hạn chế và con đường phía trước là gì?
DeepSeek-V3.1 là một bước tiến quan trọng về kỹ thuật và sản phẩm: nó kết hợp đào tạo ngữ cảnh dài, các mẫu lai và kiến trúc MoE thành một điểm kiểm tra có thể sử dụng rộng rãi. Tuy nhiên, vẫn còn một số hạn chế:
- Sự an toàn của tác nhân trong thế giới thực, ảo giác trong tóm tắt ngữ cảnh dài và hành vi nhanh chóng mang tính đối kháng vẫn cần có biện pháp giảm thiểu ở cấp độ hệ thống.
- Các tiêu chuẩn rất đáng khích lệ nhưng không đồng nhất: hiệu suất thay đổi tùy theo miền, ngôn ngữ và bộ đánh giá; cần có xác thực độc lập.
- Các yếu tố địa chính trị và chuỗi cung ứng — tính khả dụng của phần cứng và khả năng tương thích của chip — trước đây đã ảnh hưởng đến lịch trình của DeepSeek và có thể ảnh hưởng đến cách khách hàng triển khai ở quy mô lớn.
Bắt đầu thông qua CometAPI
CometAPI là một nền tảng API hợp nhất tổng hợp hơn 500 mô hình AI từ các nhà cung cấp hàng đầu—chẳng hạn như dòng GPT của OpenAI, Gemini của Google, Claude của Anthropic, Midjourney, Suno, v.v.—thành một giao diện duy nhất thân thiện với nhà phát triển. Bằng cách cung cấp xác thực nhất quán, định dạng yêu cầu và xử lý phản hồi, CometAPI đơn giản hóa đáng kể việc tích hợp các khả năng AI vào ứng dụng của bạn. Cho dù bạn đang xây dựng chatbot, trình tạo hình ảnh, nhà soạn nhạc hay đường ống phân tích dựa trên dữ liệu, CometAPI cho phép bạn lặp lại nhanh hơn, kiểm soát chi phí và không phụ thuộc vào nhà cung cấp—tất cả trong khi khai thác những đột phá mới nhất trên toàn bộ hệ sinh thái AI.
Các nhà phát triển có thể truy cập DeepSeek R1(deepseek-r1-0528) và DeepSeek-V3.1 thông qua Sao chổiAPI, các phiên bản mẫu mới nhất được liệt kê là tính đến ngày xuất bản bài viết. Để bắt đầu, hãy khám phá các khả năng của mẫu trong Sân chơi và tham khảo ý kiến Hướng dẫn API để biết hướng dẫn chi tiết. Trước khi truy cập, vui lòng đảm bảo bạn đã đăng nhập vào CometAPI và lấy được khóa API. Sao chổiAPI cung cấp mức giá thấp hơn nhiều so với giá chính thức để giúp bạn tích hợp.
Kết luận
DeepSeek-V3.1 đại diện cho một bản cập nhật thực dụng, hướng tới kỹ thuật: cửa sổ ngữ cảnh rộng hơn, suy luận kết hợp giữa suy nghĩ và không suy nghĩ, tương tác công cụ được cải thiện và API tương thích với OpenAI khiến nó trở thành một lựa chọn hấp dẫn cho các nhóm xây dựng trợ lý đại lý, ứng dụng ngữ cảnh dài và quy trình làm việc theo hướng mã chi phí thấp.
