DeepSeek v3.2 là gì?
DeepSeek v3.2 là bản phát hành sản xuất mới nhất trong họ DeepSeek V3: một họ mô hình ngôn ngữ mở trọng số, ưu tiên suy luận, được thiết kế cho hiểu ngữ cảnh dài, sử dụng tác tử/công cụ vững chắc, suy luận nâng cao, lập trình và toán. Bản phát hành bao gồm nhiều biến thể (V3.2 dùng sản xuất và V3.2-Speciale hiệu năng cao). Dự án nhấn mạnh suy luận ngữ cảnh dài hiệu quả về chi phí thông qua cơ chế chú ý thưa mới gọi là DeepSeek Sparse Attention (DSA) và các quy trình tác tử/“suy nghĩ” (“Thinking in Tool-Use”).
Tính năng chính (tổng quan)
- DeepSeek Sparse Attention (DSA): một cơ chế chú ý thưa nhằm giảm mạnh chi phí tính toán trong các kịch bản ngữ cảnh dài đồng thời bảo toàn suy luận tầm xa. (Tuyên bố nghiên cứu cốt lõi; dùng trong
V3.2-Exp.) - Tư duy tác tử + tích hợp sử dụng công cụ: V3.2 nhấn mạnh việc nhúng “suy nghĩ” vào quá trình dùng công cụ: mô hình có thể vận hành ở chế độ suy luận–tư duy và chế độ không tư duy (bình thường) khi gọi công cụ, cải thiện quyết định trong tác vụ nhiều bước và việc phối hợp công cụ.
- Quy trình tổng hợp dữ liệu tác tử quy mô lớn: DeepSeek báo cáo một kho dữ liệu huấn luyện và đường ống tổng hợp tác tử bao phủ hàng nghìn môi trường và hàng chục nghìn chỉ dẫn phức tạp nhằm tăng độ bền cho tác vụ tương tác.
- DeepSeek Sparse Attention (DSA): DSA là phương pháp chú ý thưa tinh chỉnh được giới thiệu trong dòng V3.2 (đầu tiên ở
V3.2-Exp), giúp giảm độ phức tạp của chú ý (từ O(L²) ngây thơ xuống kiểu O(L·k) với k ≪ L), chọn một tập nhỏ hơn các token key/value cho mỗi token query. Kết quả là giảm đáng kể bộ nhớ/tính toán cho ngữ cảnh rất dài (128K), khiến suy luận ngữ cảnh dài rẻ hơn đáng kể. - Xương sống Mixture-of-Experts (MoE) và Multi-head Latent Attention (MLA): Họ V3 sử dụng MoE để tăng dung lượng một cách hiệu quả (số tham số danh nghĩa lớn với kích hoạt trên mỗi token hạn chế) cùng các phương pháp MLA để duy trì chất lượng và kiểm soát chi phí tính toán.
Thông số kỹ thuật (bản rút gọn)
- Khoảng số tham số danh nghĩa: ~671B – 685B (tùy biến thể).
- Cửa sổ ngữ cảnh (tham chiếu được ghi nhận): 128.000 token (128K) trong cấu hình vLLM/reference.
- Chú ý: DeepSeek Sparse Attention (DSA) + MLA; giảm độ phức tạp chú ý cho ngữ cảnh dài.
- Độ chính xác số học & huấn luyện: BF16 / F32 và các định dạng lượng tử hóa nén (F8_E4M3, v.v.) có sẵn để phân phối.
- Họ kiến trúc: Xương sống MoE (mixture-of-experts) với kích hoạt trên mỗi token gọn nhẹ.
- Đầu vào/đầu ra: văn bản đã được token hóa tiêu chuẩn (hỗ trợ định dạng chat/tin nhắn); hỗ trợ gọi công cụ (các nguyên thủy API dùng công cụ) và cả cuộc gọi tương tác kiểu chat lẫn completions theo lập trình qua API.
- Các biến thể cung cấp:
v3.2,v3.2-Exp(thử nghiệm, ra mắt DSA),v3.2-Speciale(ưu tiên suy luận, chỉ qua API trong ngắn hạn).
Hiệu năng trên benchmark
Biến thể tính toán cao V3.2-Speciale đạt ngang bằng hoặc vượt các mô hình cao cấp đương thời trên nhiều benchmark suy luận/toán/lập trình, và đạt điểm hàng đầu trên một số bộ đề toán hạng cao. Bản preprint nêu bật mức tương đương với các mô hình như GPT-5 / Kimi K2 trên các benchmark suy luận được chọn, các cải thiện cụ thể so với các dòng DeepSeek R1/V3 trước đó:
- AIME: tăng từ 70.0 lên 87.5 (Δ +17.5).
- GPQA: 71.5 → 81.0 (Δ +9.5).
- LCB_v6: 63.5 → 73.3 (Δ +9.8).
- Aider: 57.0 → 71.6 (Δ +14.6).
So sánh với các mô hình khác (tổng quan)
- So với GPT-5 / Gemini 3 Pro (tuyên bố công khai): Tác giả DeepSeek và một số trang tin cho biết đạt mức tương đương hoặc vượt trội trên các tác vụ suy luận và lập trình đối với biến thể Speciale, đồng thời nhấn mạnh hiệu quả chi phí và giấy phép mở là điểm khác biệt.
- So với các mô hình mở (Olmo, Nemotron, Moonshot, v.v.): DeepSeek nhấn mạnh huấn luyện mang tính tác tử và DSA là khác biệt chính cho hiệu quả ngữ cảnh dài.
Trường hợp sử dụng tiêu biểu
- Hệ thống tác tử / điều phối: các tác tử đa công cụ (API, trình thu thập web, kết nối thực thi mã) hưởng lợi từ “tư duy” ở cấp mô hình + các nguyên thủy gọi công cụ rõ ràng.
- Suy luận/phân tích tài liệu dài: tài liệu pháp lý, kho nghiên cứu lớn, bản ghi cuộc họp — biến thể ngữ cảnh dài (128k token) cho phép giữ ngữ cảnh rất lớn trong một lần gọi.
- Hỗ trợ toán & lập trình phức tạp:
V3.2-Specialeđược quảng bá cho suy luận toán nâng cao và gỡ lỗi mã ở quy mô lớn theo các benchmark của nhà cung cấp. - Triển khai sản xuất nhạy cảm về chi phí: DSA + thay đổi về giá hướng tới giảm chi phí suy luận cho khối lượng công việc ngữ cảnh cao.
Bắt đầu sử dụng API DeepSeek v3.2
Giá API DeepSeek v3.2 trong CometAPI, rẻ hơn 20% so với giá chính thức:
| Token đầu vào | $0.22 |
|---|---|
| Token đầu ra | $0.35 |
Các bước cần thiết
- Đăng nhập vào cometapi.com. Nếu bạn chưa phải là người dùng của chúng tôi, vui lòng đăng ký trước.
- Lấy khóa API (thông tin truy cập) của giao diện. Nhấp “Add Token” tại mục API token trong trung tâm cá nhân, lấy khóa token: sk-xxxxx và gửi.
- Lấy URL của trang này: https://api.cometapi.com/
Cách sử dụng
- Chọn endpoint “
deepseek-v3.2” để gửi yêu cầu API và thiết lập request body. Phương thức yêu cầu và request body được lấy từ tài liệu API trên trang web của chúng tôi. Trang web của chúng tôi cũng cung cấp Apifox test để bạn thuận tiện thử nghiệm. - Thay thế <YOUR_API_KEY> bằng khóa CometAPI thực của bạn từ tài khoản.
- Chọn định dạng Chat: Chèn câu hỏi hoặc yêu cầu của bạn vào trường content — đây là nội dung mà mô hình sẽ phản hồi.
- Xử lý phản hồi API để lấy câu trả lời được tạo.