DeepSeek-V3.2

DeepSeek
deepseek-v3.2
Đầu vào:$0.22/M
Đầu ra:$0.35/M
Bối cảnh:128K
Đầu ra tối đa:4K
DeepSeek v3.2 là bản phát hành chính thức mới nhất trong dòng DeepSeek V3: một họ mô hình ngôn ngữ mở trọng số quy mô lớn, ưu tiên suy luận, được thiết kế để hiểu ngữ cảnh dài, hỗ trợ sử dụng agent/công cụ mạnh mẽ, suy luận nâng cao, lập trình và toán học.

DeepSeek v3.2 là gì?

DeepSeek v3.2 là bản phát hành sản xuất mới nhất trong họ DeepSeek V3: họ mô hình ngôn ngữ trọng số mở ưu tiên suy luận, được thiết kế cho hiểu ngữ cảnh dài, sử dụng tác tử/công cụ mạnh mẽ, suy luận nâng cao, lập trình và toán học. Bản phát hành gộp nhiều biến thể (V3.2 sản xuất và V3.2-Speciale hiệu năng cao). Dự án nhấn mạnh suy luận ngữ cảnh dài tiết kiệm chi phí thông qua cơ chế chú ý thưa mới gọi là DeepSeek Sparse Attention (DSA) và các quy trình tác tử/“suy nghĩ” (“Thinking in Tool-Use”).

Tính năng chính (tổng quan)

  • DeepSeek Sparse Attention (DSA): cơ chế chú ý thưa nhằm giảm mạnh chi phí tính toán trong kịch bản ngữ cảnh dài đồng thời vẫn giữ khả năng suy luận tầm xa. (Tuyên bố nghiên cứu cốt lõi; dùng trong V3.2-Exp.)
  • Tư duy theo hướng tác tử + tích hợp sử dụng công cụ: V3.2 nhấn mạnh nhúng “suy nghĩ” vào việc sử dụng công cụ: mô hình có thể hoạt động ở chế độ suy nghĩ (reasoning-thinking) và chế độ không suy nghĩ (bình thường) khi gọi công cụ, cải thiện ra quyết định trong tác vụ nhiều bước và điều phối công cụ.
  • Pipeline tổng hợp dữ liệu tác tử quy mô lớn: DeepSeek báo cáo một kho huấn luyện và pipeline tổng hợp tác tử bao phủ hàng nghìn môi trường và hàng chục nghìn hướng dẫn phức tạp để tăng độ bền vững cho tác vụ tương tác.
  • DeepSeek Sparse Attention (DSA): DSA là phương pháp chú ý thưa hạt mịn được giới thiệu trong dòng V3.2 (đầu tiên ở V3.2-Exp) giúp giảm độ phức tạp chú ý (từ O(L²) ngây thơ xuống dạng O(L·k) với k ≪ L), chọn một tập nhỏ token key/value cho mỗi token query. Kết quả là giảm đáng kể bộ nhớ/tính toán cho ngữ cảnh rất dài (128K), giúp suy luận ngữ cảnh dài rẻ hơn đáng kể.
  • Mixture-of-Experts (MoE) backbone và Multi-head Latent Attention (MLA): Họ V3 dùng MoE để tăng dung lượng hiệu quả (số tham số danh nghĩa lớn với kích hoạt mỗi token hạn chế) cùng các phương pháp MLA để duy trì chất lượng và kiểm soát chi phí tính toán.

Thông số kỹ thuật (tóm lược)

  • Phạm vi tham số danh nghĩa: ~671B – 685B (tùy biến thể).
  • Cửa sổ ngữ cảnh (tham chiếu tài liệu): 128.000 token (128K) trong cấu hình vLLM/tham chiếu.
  • Chú ý: DeepSeek Sparse Attention (DSA) + MLA; giảm độ phức tạp chú ý cho ngữ cảnh dài.
  • Độ chính xác số & huấn luyện: BF16 / F32 và các định dạng lượng tử nén (F8_E4M3, v.v.) sẵn sàng phân phối.
  • Họ kiến trúc: backbone MoE (mixture-of-experts) với kích hoạt trên mỗi token tiết kiệm.
  • Đầu vào/đầu ra: văn bản đã token hóa tiêu chuẩn (hỗ trợ định dạng chat/tin nhắn); hỗ trợ gọi công cụ (primitive API sử dụng công cụ) và cả gọi tương tác kiểu chat lẫn completions theo lập trình qua API.
  • Biến thể cung cấp: v3.2, v3.2-Exp (thử nghiệm, ra mắt DSA), v3.2-Speciale (ưu tiên suy luận, chỉ API trong ngắn hạn).

Hiệu năng benchmark

V3.2-Speciale cấu hình tính toán cao đạt ngang bằng hoặc vượt các mô hình cao cấp đương thời trên nhiều benchmark suy luận/toán/lập trình, và đạt mức hàng đầu trên một số bộ bài toán toán học tinh tuyển. Bản thảo sơ bộ nêu bật mức ngang bằng với các mô hình như GPT-5 / Kimi K2 trên một số benchmark suy luận, cùng các cải thiện cụ thể so với các baseline DeepSeek R1/V3 trước đó:

  • AIME: tăng từ 70.0 lên 87.5 (Δ +17.5).
  • GPQA: 71.5 → 81.0 (Δ +9.5).
  • LCB_v6: 63.5 → 73.3 (Δ +9.8).
  • Aider: 57.0 → 71.6 (Δ +14.6).

So sánh với các mô hình khác (tổng quan)

  • So với GPT-5 / Gemini 3 Pro (tuyên bố công khai): Tác giả DeepSeek và một số kênh báo chí tuyên bố ngang bằng hoặc vượt trội trên các tác vụ suy luận và lập trình cho biến thể Speciale, đồng thời nhấn mạnh lợi thế chi phí và giấy phép mở là điểm khác biệt.
  • So với mô hình mở (Olmo, Nemotron, Moonshot, v.v.): DeepSeek nêu bật huấn luyện theo hướng tác tử và DSA như các khác biệt chủ chốt về hiệu quả ngữ cảnh dài.

Trường hợp sử dụng tiêu biểu

  • Hệ thống tác tử/điều phối: tác tử đa công cụ (API, web scraper, kết nối thực thi mã) hưởng lợi từ “tư duy” ở cấp mô hình + primitive gọi công cụ rõ ràng.
  • Suy luận/phân tích văn bản dài: tài liệu pháp lý, tập hợp nghiên cứu lớn, bản ghi họp — các biến thể ngữ cảnh dài (128k token) cho phép giữ ngữ cảnh rất lớn trong một lần gọi.
  • Hỗ trợ toán học phức tạp & lập trình: V3.2-Speciale được quảng bá cho suy luận toán nâng cao và gỡ lỗi mã mở rộng theo benchmark của nhà cung cấp.
  • Triển khai sản xuất nhạy cảm chi phí: DSA + điều chỉnh giá nhằm giảm chi phí suy luận cho khối lượng công việc ngữ cảnh cao.

Bắt đầu sử dụng API DeepSeek v3.2

Giá API DeepSeek v3.2 trên CometAPI, rẻ hơn 20% so với giá chính thức:

Token đầu vào$0.22
Token đầu ra$0.35

Các bước bắt buộc

  • Đăng nhập vào cometapi.com. Nếu bạn chưa là người dùng của chúng tôi, vui lòng đăng ký trước
  • Lấy khóa API thông tin truy cập của giao diện. Nhấp “Add Token” tại mục API token trong trung tâm cá nhân, lấy khóa token: sk-xxxxx và gửi.
  • Lấy URL của trang này: https://api.cometapi.com/

Cách sử dụng

  1. Chọn endpoint “deepseek-v3.2” để gửi yêu cầu API và thiết lập phần thân yêu cầu. Phương thức yêu cầu và phần thân yêu cầu được lấy từ tài liệu API trên website của chúng tôi. Website của chúng tôi cũng cung cấp bài kiểm thử Apifox để bạn tiện sử dụng.
  2. Thay <YOUR_API_KEY> bằng khóa CometAPI thực tế từ tài khoản của bạn.
  3. Chọn định dạng Chat: Chèn câu hỏi hoặc yêu cầu của bạn vào trường content — đây là nội dung mà mô hình sẽ phản hồi.
  4. .Xử lý phản hồi API để lấy câu trả lời được tạo.

Thêm mô hình