Thông số kỹ thuật của DeepSeek-V4-Flash
| Hạng mục | Chi tiết |
|---|---|
| Mô hình | DeepSeek-V4-Flash |
| Nhà cung cấp | DeepSeek |
| Dòng | Dòng xem trước DeepSeek-V4 |
| Kiến trúc | Hỗn hợp chuyên gia (MoE) |
| Tổng số tham số | 284B |
| Tham số được kích hoạt | 13B |
| Độ dài ngữ cảnh | 1,000,000 tokens |
| Độ chính xác | FP4 + FP8 mixed |
| Chế độ suy luận | Non-think, Think, Think Max |
| Trạng thái phát hành | Mô hình bản xem trước |
| Giấy phép | MIT License |
DeepSeek-V4-Flash là gì?
DeepSeek-V4-Flash là mô hình bản xem trước tập trung vào hiệu suất của DeepSeek trong dòng V4. Mô hình được xây dựng theo kiến trúc ngôn ngữ Mixture-of-Experts với phần kích hoạt tương đối nhỏ so với tổng quy mô, giúp duy trì độ phản hồi nhanh trong khi vẫn hỗ trợ cửa sổ ngữ cảnh rất lớn 1M-token.
Các tính năng chính của DeepSeek-V4-Flash
- Ngữ cảnh một triệu token: Mô hình hỗ trợ cửa sổ ngữ cảnh 1,000,000 token, phù hợp với tài liệu rất dài, kho mã lớn và các phiên tác tử nhiều bước.
- Thiết kế MoE ưu tiên hiệu suất: Sử dụng tổng 284B tham số nhưng chỉ kích hoạt 13B tham số cho mỗi yêu cầu, nhằm mang lại suy luận nhanh hơn và hiệu quả hơn.
- Ba chế độ suy luận: Non-think, Think và Think Max cho phép bạn đánh đổi tốc độ để có suy luận sâu hơn khi nhiệm vụ trở nên khó hơn.
- Kiến trúc ngữ cảnh dài mạnh mẽ: DeepSeek cho biết dòng V4 kết hợp Compressed Sparse Attention và Heavily Compressed Attention để cải thiện hiệu quả cho ngữ cảnh dài.
- Khả năng lập trình và hành vi tác tử cạnh tranh: model card báo cáo kết quả mạnh trên các benchmark về lập trình và tác tử, bao gồm HumanEval, SWE Verified, Terminal Bench 2.0 và BrowseComp.
- Mở trọng số và triển khai cục bộ: Bản phát hành bao gồm trọng số mô hình, hướng dẫn suy luận cục bộ và MIT License, giúp tự lưu trữ và thử nghiệm trở nên khả thi.
Hiệu năng benchmark của DeepSeek-V4-Flash
Các kết quả được chọn từ model card chính thức cho thấy DeepSeek-V4-Flash cải thiện so với DeepSeek-V3.2-Base trên một số benchmark cốt lõi:
| Benchmark | DeepSeek-V3.2-Base | DeepSeek-V4-Flash-Base | DeepSeek-V4-Pro-Base |
|---|---|---|---|
| AGIEval (EM) | 80.1 | 82.6 | 83.1 |
| MMLU (EM) | 87.8 | 88.7 | 90.1 |
| MMLU-Pro (EM) | 65.5 | 68.3 | 73.5 |
| HumanEval (Pass@1) | 62.8 | 69.5 | 76.8 |
| LongBench-V2 (EM) | 40.2 | 44.7 | 51.5 |
Trong bảng về suy luận và tác tử, biến thể Flash cũng đạt kết quả vững trên các tác vụ terminal và phần mềm, với Flash Max đạt 56.9 trên Terminal Bench 2.0 và 79.0 trên SWE Verified, dù vẫn thua kém mẫu Pro lớn hơn ở các tác vụ nặng kiến thức và tác tử khó nhất.
DeepSeek-V4-Flash so với DeepSeek-V4-Pro và DeepSeek-V3.2
| Mô hình | Phù hợp nhất | Đánh đổi |
|---|---|---|
| DeepSeek-V4-Flash | Công việc nhanh, ngữ cảnh dài, trợ lý lập trình và luồng tác tử thông lượng cao | Hơi kém Pro ở các tác vụ thuần kiến thức và tác vụ tác tử phức tạp nhất |
| DeepSeek-V4-Pro | Các tác vụ đòi hỏi năng lực cao nhất, suy luận sâu hơn và quy trình tác tử khó hơn | Nặng hơn và ít tối ưu hiệu suất hơn Flash |
| DeepSeek-V3.2 | Đường cơ sở cũ hơn để so sánh và lập kế hoạch di chuyển | Hiệu năng benchmark thấp hơn V4-Flash trên các bảng chính thức |
Trường hợp sử dụng điển hình cho DeepSeek-V4-Flash
- Phân tích tài liệu dài cho hợp đồng, gói nghiên cứu, cơ sở tri thức hỗ trợ và wiki nội bộ.
- Trợ lý lập trình cần kiểm tra kho mã lớn, làm theo hướng dẫn trên nhiều tệp và duy trì ngữ cảnh.
- Quy trình tác tử nơi mô hình cần suy luận, gọi công cụ và lặp lại mà không mất mạch.
- Hệ thống chat doanh nghiệp hưởng lợi từ cửa sổ ngữ cảnh rất lớn và triển khai thuận tiện.
- Triển khai cục bộ dạng nguyên mẫu cho các đội ngũ muốn đánh giá hành vi DeepSeek-V4 trước khi gia cố cho môi trường sản xuất.
Cách truy cập và sử dụng Deepseek v4 Flash API
Bước 1: Đăng ký API Key
Đăng nhập vào cometapi.com. Nếu bạn chưa phải là người dùng của chúng tôi, vui lòng đăng ký trước. Đăng nhập vào CometAPI console. Lấy API key thông tin xác thực truy cập của giao diện. Nhấp “Add Token” tại mục API token trong trung tâm cá nhân, lấy token key: sk-xxxxx và gửi.
Bước 2: Gửi yêu cầu tới deepseek v4 flash API
Chọn endpoint “deepseek-v4-flash” để gửi yêu cầu API và thiết lập request body. Phương thức yêu cầu và request body được lấy từ tài liệu API trên website của chúng tôi. Website cũng cung cấp bài kiểm thử Apifox để bạn tiện sử dụng. Thay thế <YOUR_API_KEY> bằng CometAPI key thực tế từ tài khoản của bạn. Nơi gọi: định dạng Anthropic Messages và định dạng Chat.
Chèn câu hỏi hoặc yêu cầu của bạn vào trường content—đây là nội dung mà mô hình sẽ phản hồi. Xử lý phản hồi API để lấy câu trả lời được tạo ra.
Bước 3: Truy xuất và xác minh kết quả
Xử lý phản hồi API để lấy câu trả lời được tạo ra. Sau khi xử lý, API sẽ phản hồi trạng thái tác vụ và dữ liệu đầu ra. Bật các tính năng như streaming, lưu cache prompt hoặc xử lý ngữ cảnh dài thông qua các tham số tiêu chuẩn.