DeepSeek-Reasoner là gì?

DeepSeek-Reasoner là chế độ/ tên API “reasoning” (hay “thinking”) cho các mô hình ưu tiên lập luận của DeepSeek (hiện được căn chỉnh với dòng DeepSeek-V3.2). Nó được thiết kế để tạo ra chuỗi suy luận (CoT) rõ ràng trước khi đưa ra câu trả lời cuối cùng—tức là mô hình cố ý tạo lập lập luận nội bộ theo từng bước và được hiển thị (hoặc có thể được hiển thị) qua API để bên gọi có thể kiểm tra hoặc chưng cất. DeepSeek định vị biến thể reasoner như đối tác “thinking” của mô hình chat không-thinking và tiếp thị nó cho các bài toán nhiều bước, toán học, lập trình và quy trình tác tử (agent).

Tính năng chính (dành cho người dùng)

Đầu ra Chain-of-Thought (CoT) rõ ràng. API trả về trường reasoning_content riêng chứa suy luận theo từng bước nội bộ của mô hình cùng với content cuối cùng. Điều này phục vụ cho khả năng kiểm tra và logic tác tử ở các bước phía sau.
Chế độ “Thinking” vs “Chat”. deepseek-reasoner (chế độ thinking) khác với deepseek-chat (chế độ không-thinking); cả hai đều đã được nâng cấp lên thế hệ V3.2.
Cửa sổ ngữ cảnh lớn. DeepSeek hỗ trợ độ dài ngữ cảnh rất lớn. Các biến thể Reasoner được hướng tới lập luận dài và bộ nhớ cho tác tử.
Đầu ra JSON / phản hồi có cấu trúc. Hỗ trợ phản hồi JSON có cấu trúc, hữu ích cho mục đích xử lý lập trình.
Tập trung vào tác tử/nhà xây dựng tác tử. V3.2 và biến thể Speciale được mô tả rõ là “các mô hình ưu tiên lập luận được xây dựng cho tác tử.”

Năng lực kỹ thuật

Inputs: lời nhắc văn bản thuần, JSON có cấu trúc cho các cuộc gọi công cụ/tác tử, tệp hoặc tài liệu dài (qua ngữ cảnh dài); token là các token NLP tiêu chuẩn.
Outputs: API trả về cả reasoning_content (văn bản CoT) và content (câu trả lời cuối). Khách hàng API có thể yêu cầu chỉ CoT hoặc chỉ câu trả lời cuối bằng cách điều chỉnh max_tokens hoặc các tham số phản hồi. (Lưu ý thực tế: trích xuất CoT vẫn có thể bị tính phí như đầu ra của mô hình.)
DeepSeek đã lặp tiến qua một lộ trình chuyên về lập luận: các mô hình lớn nền tảng (họ R1) tiếp theo là hậu huấn luyện tập trung/ tăng cường học củng cố (kiểu RLHF) và tinh chỉnh theo phong cách chính sách để tăng chiều sâu lập luận. Nhóm cũng sử dụng chưng cất (distillation) để nén năng lực lập luận vào các mô hình nhỏ hơn, có thể triển khai.
Dòng V3.2 bổ sung hậu huấn luyện theo hướng tác tử cho việc dùng công cụ, suy luận lai (Think / Non-Think), và các tối ưu hóa để tăng tốc vòng lặp “thinking”.
Hiệu quả suy luận được hỗ trợ bởi phương pháp chú ý thưa (các báo cáo gọi là DeepSeek Sparse Attention — DSA) tập trung tính toán vào các đoạn liên quan thay vì chú ý dày đặc trên toàn bộ chuỗi rất dài; điều này giảm chi phí cho các ngữ cảnh rất dài.

Cách truy cập API deepseek-reasoner

Bước 1: Đăng ký lấy khóa API

Đăng nhập vào cometapi.com. Nếu bạn chưa phải là người dùng của chúng tôi, vui lòng đăng ký trước. Đăng nhập vào bảng điều khiển CometAPI. Lấy khóa API thông tin xác thực truy cập của giao diện. Nhấp “Add Token” tại mục API token trong trung tâm cá nhân, lấy khóa token: sk-xxxxx và gửi.

Bước 2: Gửi yêu cầu tới API deepseek-reasoner

Chọn endpoint “deepseek-reasoner” để gửi yêu cầu API và thiết lập phần thân yêu cầu. Phương thức và nội dung yêu cầu được lấy từ tài liệu API trên website của chúng tôi. Website cũng cung cấp thử nghiệm Apifox để bạn tiện sử dụng. Thay <YOUR_API_KEY> bằng khóa CometAPI thực tế từ tài khoản của bạn. base url là định dạng Chat.

Chèn câu hỏi hoặc yêu cầu của bạn vào trường content—đó là nội dung mô hình sẽ phản hồi. Xử lý phản hồi API để lấy câu trả lời được tạo.

Bước 3: Truy xuất và xác minh kết quả

Xử lý phản hồi API để lấy câu trả lời được tạo. Sau khi xử lý, API phản hồi trạng thái tác vụ và dữ liệu đầu ra.