Thông số kỹ thuật của DeepSeek-V4-Flash
| Hạng mục | Chi tiết |
|---|---|
| Mô hình | DeepSeek-V4-Flash |
| Nhà cung cấp | DeepSeek |
| Dòng sản phẩm | Dòng xem trước DeepSeek-V4 |
| Kiến trúc | Mixture-of-Experts (MoE) |
| Tổng số tham số | 284B |
| Tham số được kích hoạt | 13B |
| Độ dài ngữ cảnh | 1,000,000 tokens |
| Độ chính xác | FP4 + FP8 mixed |
| Chế độ suy luận | Non-think, Think, Think Max |
| Trạng thái phát hành | Mô hình xem trước |
| Giấy phép | Giấy phép MIT |
DeepSeek-V4-Flash là gì?
DeepSeek-V4-Flash là mô hình xem trước tập trung vào hiệu suất trong dòng V4 của DeepSeek. Mô hình được xây dựng theo kiến trúc ngôn ngữ Mixture-of-Experts với lượng tham số hoạt động tương đối nhỏ so với tổng quy mô, giúp giữ độ phản hồi tốt trong khi vẫn hỗ trợ cửa sổ ngữ cảnh rất lớn tới 1M token.
Tính năng chính của DeepSeek-V4-Flash
- Ngữ cảnh hàng triệu token: Mô hình hỗ trợ cửa sổ ngữ cảnh 1,000,000 token, phù hợp cho tài liệu rất dài, codebase lớn và các phiên tác tử nhiều bước.
- Thiết kế MoE ưu tiên hiệu suất: Dùng tổng 284B tham số nhưng chỉ 13B tham số được kích hoạt cho mỗi yêu cầu, nhằm suy luận nhanh và hiệu quả hơn.
- Ba chế độ suy luận: Non-think, Think và Think Max cho phép bạn đánh đổi tốc độ lấy suy luận sâu hơn khi tác vụ trở nên khó hơn.
- Kiến trúc ngữ cảnh dài mạnh mẽ: DeepSeek cho biết dòng V4 kết hợp Compressed Sparse Attention và Heavily Compressed Attention để cải thiện hiệu quả với ngữ cảnh dài.
- Khả năng lập trình và hành vi tác tử cạnh tranh: Thẻ mô hình báo cáo kết quả mạnh trên các benchmark về lập trình và tác tử, bao gồm HumanEval, SWE Verified, Terminal Bench 2.0 và BrowseComp.
- Trọng số mở và triển khai cục bộ: Bản phát hành bao gồm trọng số mô hình, hướng dẫn suy luận cục bộ và Giấy phép MIT, giúp tự lưu trữ và thử nghiệm trở nên khả thi.
Hiệu năng benchmark của DeepSeek-V4-Flash
Các kết quả chọn lọc từ thẻ mô hình chính thức cho thấy DeepSeek-V4-Flash cải thiện so với DeepSeek-V3.2-Base trên nhiều benchmark cốt lõi:
| Benchmark | DeepSeek-V3.2-Base | DeepSeek-V4-Flash-Base | DeepSeek-V4-Pro-Base |
|---|---|---|---|
| AGIEval (EM) | 80.1 | 82.6 | 83.1 |
| MMLU (EM) | 87.8 | 88.7 | 90.1 |
| MMLU-Pro (EM) | 65.5 | 68.3 | 73.5 |
| HumanEval (Pass@1) | 62.8 | 69.5 | 76.8 |
| LongBench-V2 (EM) | 40.2 | 44.7 | 51.5 |
Trong bảng về suy luận và tác tử, biến thể Flash cũng đạt kết quả vững trên các tác vụ terminal và phần mềm, với Flash Max đạt 56.9 trên Terminal Bench 2.0 và 79.0 trên SWE Verified, dù vẫn kém hơn mẫu Pro lớn hơn ở các tác vụ tác tử phức tạp nhất và đòi hỏi nhiều kiến thức.
DeepSeek-V4-Flash so với DeepSeek-V4-Pro và DeepSeek-V3.2
| Model | Phù hợp nhất | Đánh đổi |
|---|---|---|
| DeepSeek-V4-Flash | Công việc nhanh, ngữ cảnh dài, trợ lý lập trình và luồng tác tử thông lượng cao | Hơi kém Pro ở các tác vụ thuần kiến thức và tác vụ tác tử phức tạp nhất |
| DeepSeek-V4-Pro | Tác vụ năng lực cao nhất, suy luận sâu hơn và quy trình tác tử khó hơn | Nặng hơn và ít tập trung vào hiệu suất hơn so với Flash |
| DeepSeek-V3.2 | Baseline cũ để so sánh và lập kế hoạch di chuyển | Hiệu năng benchmark thấp hơn V4-Flash theo các bảng chính thức |
Trường hợp sử dụng điển hình cho DeepSeek-V4-Flash
- Phân tích tài liệu dài cho hợp đồng, gói nghiên cứu, kho tri thức hỗ trợ và wiki nội bộ.
- Trợ lý lập trình cần xem xét repo lớn, làm theo hướng dẫn trên nhiều tệp và giữ ngữ cảnh liên tục.
- Quy trình tác tử nơi mô hình cần suy luận, gọi công cụ và lặp lại mà không mất mạch.
- Hệ thống chat doanh nghiệp hưởng lợi từ cửa sổ ngữ cảnh rất lớn và triển khai ít ma sát.
- Triển khai thử nghiệm cục bộ cho các đội muốn đánh giá hành vi DeepSeek-V4 trước khi đưa vào sản xuất.
Cách truy cập và sử dụng Deepseek v4 Flash API
Bước 1: Đăng ký API Key
Đăng nhập vào cometapi.com. Nếu bạn chưa là người dùng của chúng tôi, vui lòng đăng ký trước. Đăng nhập vào CometAPI console. Lấy API key xác thực truy cập của giao diện. Nhấp “Add Token” tại mục API token trong trung tâm cá nhân, lấy khóa token: sk-xxxxx và gửi.
Bước 2: Gửi yêu cầu tới deepseek v4 flash API
Chọn endpoint “deepseek-v4-flash” để gửi yêu cầu API và thiết lập body của yêu cầu. Phương thức yêu cầu và body được lấy từ tài liệu API trên website của chúng tôi. Website cũng cung cấp Apifox để bạn thử nghiệm. Thay thế <YOUR_API_KEY> bằng CometAPI key thực tế từ tài khoản của bạn. Ở đâu để gọi: định dạng Anthropic Messages và định dạng Chat.
Chèn câu hỏi hoặc yêu cầu của bạn vào trường content — đây là nội dung mà mô hình sẽ phản hồi. Xử lý phản hồi API để lấy câu trả lời được tạo.
Bước 3: Truy xuất và xác minh kết quả
Xử lý phản hồi API để lấy câu trả lời được tạo. Sau khi xử lý, API sẽ trả về trạng thái tác vụ và dữ liệu đầu ra. Bật các tính năng như streaming, lưu đệm prompt hoặc xử lý ngữ cảnh dài thông qua các tham số tiêu chuẩn.