Thông số kỹ thuật
| Hạng mục | DeepSeek-V4-Pro |
|---|---|
| Nhà cung cấp | DeepSeek |
| Tên mô hình API | deepseek-v4-pro |
| URL cơ sở | https://api.deepseek.com and https://api.deepseek.com/anthropic |
| Kiểu đầu vào | Text |
| Kiểu đầu ra | Text, tool calls, reasoning output |
| Độ dài ngữ cảnh | 1,000,000 tokens |
| Đầu ra tối đa | 384,000 tokens |
| Chế độ suy luận | Non-thinking, thinking (default) |
| Mặc định agent/lập mã | reasoning_effort có thể đặt ở mức cao; các yêu cầu agent phức tạp có thể dùng max |
| Tính năng được hỗ trợ | JSON Output, Tool Calls, Chat Prefix Completion (beta), FIM Completion (beta in non-thinking mode) |
| Bản phát hành local/open-weights | 1.6T total parameters, 49B activated parameters, FP4 + FP8 mixed precision |
| Giấy phép (model card) | MIT |
| Model card tham chiếu | DeepSeek-V4-Pro preview on Hugging Face |
DeepSeek-V4-Pro là gì?
DeepSeek-V4-Pro là thành viên mạnh hơn trong dòng xem trước V4 của DeepSeek. Model card chính thức mô tả đây là mô hình MoE với 1,6T tham số, 49B tham số được kích hoạt và cửa sổ ngữ cảnh một triệu token, hướng đến công việc tri thức dài hạn, sinh mã và các tác vụ agent. Tài liệu API cung cấp mô hình qua bề mặt chat-completions chuẩn của DeepSeek và hỗ trợ cả phong cách SDK của OpenAI và Anthropic.
Tính năng chính
- Ngữ cảnh một triệu token: DeepSeek công bố độ dài ngữ cảnh 1M token, giúp mô hình phù hợp với tập tài liệu rất lớn, kho mã và các phiên agent nhiều bước.
- Hai chế độ suy luận: API hỗ trợ chế độ non-thinking và thinking; thinking là mặc định, và tài liệu lưu ý rằng các yêu cầu agent phức tạp như Claude Code hoặc OpenCode có thể tự động dùng nỗ lực
max. - Hỗ trợ gọi công cụ: Chế độ thinking của DeepSeek hỗ trợ tool calls, quan trọng cho các agent cần tìm kiếm, thao tác tệp hoặc gọi hàm bên ngoài.
- Hiệu quả với ngữ cảnh dài: Model card cho biết V4 dùng thiết kế attention lai với Compressed Sparse Attention và Heavily Compressed Attention để giảm chi phí tính toán ngữ cảnh dài và KV cache so với V3.2. citeturn980363view2
- Tập trung vào lập mã và suy luận: DeepSeek cho biết chế độ suy luận V4-Pro-Max cải thiện các chuẩn lập mã và thu hẹp phần lớn khoảng cách với các mô hình đóng hàng đầu về nhiệm vụ suy luận và tác tử. citeturn980363view2
- Tính linh hoạt về SDK: Có thể truy cập qua chat completions tương thích OpenAI chuẩn hoặc qua endpoint tương thích Anthropic của DeepSeek cho các quy trình định hướng công cụ.
Hiệu năng trên benchmark
Model card chính thức của DeepSeek báo cáo kết quả đánh giá sau cho họ mô hình cơ sở và tập so sánh V4-Pro-Max. Trong bảng mô hình cơ sở, V4-Pro đạt điểm cao hơn V3.2-Base trên một số benchmark về tri thức và ngữ cảnh dài, bao gồm MMLU-Pro (73.5 so với 65.5), FACTS Parametric (62.6 so với 27.1) và LongBench-V2 (51.5 so với 40.2).
| Benchmark | V3.2-Base | V4-Flash-Base | V4-Pro-Base |
|---|---|---|---|
| MMLU-Pro (EM) | 65.5 | 68.3 | 73.5 |
| FACTS Parametric (EM) | 27.1 | 33.9 | 62.6 |
| HumanEval (Pass@1) | 62.8 | 69.5 | 76.8 |
| LongBench-V2 (EM) | 40.2 | 44.7 | 51.5 |
Model card tương tự cũng cho thấy V4-Pro-Max vẫn cạnh tranh với các mô hình tiên phong hàng đầu ở một số tác vụ đã chọn. Ví dụ, mô hình đạt 87.5 trên MMLU-Pro, 57.9 trên SimpleQA-Verified, 90.1 trên GPQA Diamond và 67.9 trên Terminal Bench 2.0 trong bảng so sánh đã công bố.
DeepSeek-V4-Pro vs DeepSeek-V4-Flash vs DeepSeek-V3.2
| Mô hình | Phù hợp nhất | Ngữ cảnh | Ghi chú |
|---|---|---|---|
| DeepSeek-V4-Pro | Suy luận nặng, lập mã, agent, tài liệu lớn | 1M | Mô hình V4 lớn nhất, 49B tham số được kích hoạt, năng lực tổng thể mạnh nhất trong dòng. citeturn980363view2turn980363view0 |
| DeepSeek-V4-Flash | Nhanh hơn, nhẹ hơn cho sử dụng chung | 1M | Mô hình nhỏ hơn 284B/13B, vẫn hỗ trợ thinking và tool calls. citeturn980363view2turn980363view0 |
| DeepSeek-V3.2 | Baseline thế hệ trước cho ngữ cảnh dài | 128K trong tài liệu API trước; V4 dùng thiết kế ngữ cảnh 1M khác | Hữu ích làm điểm tham chiếu cho cải thiện hiệu suất; model card của V4-Pro báo cáo giảm lớn FLOPs ngữ cảnh dài và KV cache so với V3.2. citeturn321011view1turn980363view2 |
Trường hợp sử dụng phù hợp nhất
- Trợ lý lập mã và công cụ tái cấu trúc ở quy mô kho mã
- Phân tích và tổng hợp tài liệu dài
- Agent sử dụng công cụ cần suy luận đa lượt
- Quy trình hỗ trợ kỹ thuật hưởng lợi từ bộ nhớ dài và đầu ra có cấu trúc
- Nhiệm vụ kiến thức tiếng Trung và đa ngôn ngữ nơi model card cho thấy hiệu năng benchmark mạnh
Cách truy cập và sử dụng API Deepseek v4 pro
Bước 1: Đăng ký khóa API
Đăng nhập vào cometapi.com. Nếu bạn chưa là người dùng của chúng tôi, vui lòng đăng ký trước. Đăng nhập vào CometAPI console. Lấy khóa API (thông tin xác thực truy cập) của giao diện. Nhấp “Add Token” tại mục API token trong trung tâm cá nhân, lấy khóa token: sk-xxxxx và gửi.
Bước 2: Gửi yêu cầu tới Deepseek v4 pro API
Chọn endpoint “deepseek-v4-pro” để gửi yêu cầu API và thiết lập nội dung body. Phương thức và body của yêu cầu được lấy từ tài liệu API trên trang web của chúng tôi. Trang web của chúng tôi cũng cung cấp thử nghiệm Apifox để bạn tiện sử dụng. Thay thế <YOUR_API_KEY> bằng CometAPI key thực tế từ tài khoản của bạn. Nơi để gọi: Anthropic Messages format và Chat format.
Chèn câu hỏi hoặc yêu cầu của bạn vào trường content — đây là nội dung mà mô hình sẽ phản hồi. Xử lý phản hồi API để lấy câu trả lời được tạo.
Bước 3: Truy xuất và xác minh kết quả
Xử lý phản hồi API để lấy câu trả lời được tạo. Sau khi xử lý, API sẽ phản hồi trạng thái tác vụ và dữ liệu đầu ra. Bật các tính năng như streaming, prompt caching hoặc xử lý ngữ cảnh dài thông qua tham số chuẩn.