Cách sử dụng Deepseek V4 API

CometAPI
AnnaApr 24, 2026
Cách sử dụng Deepseek V4 API

DeepSeek V4 không còn chỉ là tin đồn hay bản nhá hàng. Tính đến April 24, 2026, tài liệu chính thức của DeepSeek cho biết bản xem trước V4 đã hoạt động, được mở nguồn và có sẵn trên API, với hai biến thể: DeepSeek-V4-ProDeepSeek-V4-Flash. Bản phát hành chính thức nhấn mạnh cửa sổ ngữ cảnh 1M token, hai chế độ lập luận, và khả năng tương thích API với cả định dạng OpenAI ChatCompletionsAnthropic. DeepSeek cũng cho biết các tên mô hình kế thừa deepseek-chatdeepseek-reasoner sẽ ngừng hoạt động vào July 24, 2026.

Với nhà phát triển, sự kết hợp đó quan trọng vì một lý do đơn giản: nó giảm ma sát khi di trú đồng thời nâng trần những gì bạn có thể xây dựng. Bạn không phải học một hình dạng API hoàn toàn mới. Bạn cập nhật tên mô hình, giữ nguyên base URL, và triển khai trên một cửa sổ ngữ cảnh lớn hơn với hành vi lập luận mới hơn. Tài liệu chính thức của DeepSeek nêu rõ hãy giữ nguyên base URL và đổi tham số model thành deepseek-v4-pro hoặc deepseek-v4-flash.

Ở cấp sản phẩm, V4-Pro là mô hình mạnh hơn cho lập trình dựa trên tác tử, tri thức thế giới và lập luận khó, trong khi V4-Flash nhanh hơn và kinh tế hơn nhưng vẫn hoạt động tốt cho các tác vụ tác tử đơn giản. CometAPI cung cấp quyền truy cập cả hai mô hình với chi phí rất thấp.

DeepSeek V4 Performance Benchmarks

Bản xem trước mô tả V4-Pro là mô hình 1.6T tổng / 49B tham số hoạt độngV4-Flash284B tổng / 13B tham số hoạt động. Trong cùng thông báo, DeepSeek nói V4-Pro đạt kết quả SOTA mã nguồn mở trên các thang đo lập trình tác tử, dẫn đầu các mô hình mở hiện tại về tri thức thế giới (ngoại trừ Gemini 3.1 Pro), và vượt các mô hình mở hiện tại ở toán, STEM và lập trình đồng thời tiệm cận các mô hình đóng hàng đầu. V4-Flash được mô tả là tiệm cận chất lượng lập luận của V4-Pro và bắt kịp ở các tác vụ tác tử đơn giản, đồng thời nhỏ hơn, nhanh hơn và rẻ hơn để vận hành.

V4-Pro cải thiện so với V3.2-Base trên nhiều tác vụ đại diện, gồm MMLU-Pro, FACTS Parametric, HumanEval, và LongBench-V2. Điều đó khiến bản phát hành đặc biệt phù hợp cho các nhóm xây dựng trợ lý ngữ cảnh dài, quy trình nặng về code, và ứng dụng đòi hỏi nhiều tri thức.

Benchmark table: V3.2 vs V4-Flash vs V4-Pro

BenchmarkV3.2-BaseV4-Flash-BaseV4-Pro-Base
AGIEval (EM)80.182.683.1
MMLU (EM)87.888.790.1
MMLU-Pro (EM)65.568.373.5
HumanEval (Pass@1)62.869.576.8
LongBench-V2 (EM)40.244.751.5

Ý nghĩa thực tế của các con số

Nếu bạn đang xây chatbot, chênh lệch điểm benchmark có thể mang tính trừu tượng. Nếu bạn xây trợ lý lập trình ở quy mô kho mã, công cụ phân tích hợp đồng, hoặc tác tử nội bộ cần theo dõi một tác vụ dài với nhiều lượt gọi công cụ, hồ sơ benchmark trở nên rất cụ thể. Điểm số ngữ cảnh dài cao hơn có thể chuyển hóa thành ít chi tiết bị bỏ sót hơn, năng lực lập luận xuyên tài liệu tốt hơn, và ít lỗi “vui lòng lặp lại” trong quy trình thực tế. Đó chính là lý do DeepSeek nhấn mạnh hiệu quả ngữ cảnh dài và hành vi tác tử thay vì chỉ chất lượng hội thoại thô.

Cách sử dụng DeepSeek V4 API

Đây là cách đơn giản nhất để nghĩ về tích hợp:

DeepSeek V4 dùng cùng bề mặt API như các mô hình chat DeepSeek trước đó, nhưng bạn chuyển sang tên mô hình V4 mới, giữ nguyên base URL, và chọn V4-Pro hoặc V4-Flash. CometAPI cũng xác nhận hỗ trợ cả giao diện kiểu OpenAI và kiểu Anthropic.

Step 1 — Get API access

Tài liệu “first-call” của DeepSeek cho biết bạn cần một API key từ nền tảng DeepSeek trước khi gọi mô hình. Tài liệu chính thức hiển thị endpoint chat, mẫu bearer token, và các tên mô hình V4 hiện tại.

Step 2 — Set the base URL and model name

Với API chính thức của DeepSeek, các base URL được ghi nhận là:

Tên mô hình là deepseek-v4-flashdeepseek-v4-pro. DeepSeek cũng lưu ý rằng deepseek-chatdeepseek-reasoner là các tên kế thừa được ánh xạ sang hành vi V4-Flash trong giai đoạn chuyển tiếp và sẽ ngừng hoạt động vào 2026-07-24.

Step 3 — Send your first request

Một yêu cầu tối thiểu tương thích OpenAI trông như sau:

curl https://api.deepseek.com/chat/completions \  -H "Content-Type: application/json" \  -H "Authorization: Bearer $DEEPSEEK_API_KEY" \  -d '{    "model": "deepseek-v4-pro",    "messages": [      {"role": "system", "content": "You are a helpful assistant."},      {"role": "user", "content": "Explain the difference between V4-Pro and V4-Flash."}    ],    "stream": false  }'

Tài liệu chính thức của DeepSeek cho thấy cùng mẫu yêu cầu và xác nhận có thể bật streaming bằng cách đặt stream thành true.

Step 4 — Enable thinking mode, tool calls, and streaming

Các mô hình V4 hỗ trợ chế độ suy nghĩ/không suy nghĩ, đầu ra JSON, gọi công cụ, và chat prefix completion. Các mô hình cũng hỗ trợ tới ngữ cảnh 1Mđầu ra tối đa 384K token.

Ví dụ Python thực tiễn:

from openai import OpenAIclient = OpenAI(
    base_url="https://api.cometapi.com",
    api_key="YOUR_DEEPSEEK_API_KEY",
)response = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[
        {"role": "system", "content": "You are a senior coding assistant."},
        {"role": "user", "content": "Review this architecture for bottlenecks."}
    ],
    stream=False,
    extra_body={
        "thinking": {"type": "enabled"},
        "reasoning_effort": "high"
    }
)print(response.choices[0].message.content)

Mẫu này phản ánh hỗ trợ đã được ghi nhận của DeepSeek cho các điều khiển lập luận và chế độ suy nghĩ.

Step 5 — Test and productionize

Trước khi đưa vào sản xuất, hãy xác thực ba điều:

  1. Khối lượng công việc của bạn có thực sự hưởng lợi từ cửa sổ ngữ cảnh lớn hơn hay không.
  2. Mô hình nên mặc định “suy nghĩ” hay trả lời nhanh ở chế độ không suy nghĩ.
  3. Gọi công cụ có thiết yếu cho quy trình hay không, đặc biệt với tác tử và trợ lý lập trình.

V4 được thiết kế cho các trường hợp tác tử và đã tích hợp với các công cụ như Claude Code và OpenCode.

DeepSeek V4-Pro vs V4-Flash vs V3.2

Với hầu hết nhóm, câu hỏi đúng không phải “Mô hình nào tốt nhất?” mà là “Mô hình nào tốt nhất cho khối lượng công việc này?”. Câu trả lời phụ thuộc vào độ trễ, chi phí, độ sâu lập luận và độ dài ngữ cảnh. DeepSeek định vị V4-Pro là đầu bảng cho lập luận khó và lập trình dựa trên tác tử, còn V4-Flash là lựa chọn hiệu quả cho khối lượng công việc thông lượng cao vẫn cần khả năng ngữ cảnh dài mạnh. V3.2 vẫn là đường cơ sở cũ để so sánh và lập kế hoạch di trú.

ModelPhù hợp nhất choThế mạnhĐánh đổi
DeepSeek V4-ProLập luận nặng, lập trình, tác tử, nghiên cứuNăng lực tổng thể mạnh nhất trong V4; tốt nhất cho bài khóChi phí cao hơn và dấu chân tính toán nặng hơn
DeepSeek V4-FlashTrợ lý nhanh, quy trình tài liệu dài, thông lượng caoPhản hồi nhanh; kinh tế; vẫn hỗ trợ ngữ cảnh 1MHơi yếu hơn ở các tác vụ tri thức khó nhất
DeepSeek V3.2So sánh cơ sở, kế hoạch chuyển đổiHữu ích làm điểm tham chiếuThế hệ cũ; không phải trạng thái mục tiêu cho bản mới

Đây là lăng kính thực tế tôi sẽ dùng cho các đội sản phẩm:
Nếu quy trình là nhiệm vụ trọng yếu, hãy bắt đầu với V4-Pro.
Nếu quy trình dựa trên khối lượng và nhạy cảm với độ trễ, hãy bắt đầu với V4-Flash.
Nếu bạn đang di trú một hệ thống hiện có, dùng V3.2 làm điểm tham chiếu benchmark, không phải đích đến cuối.

DeepSeek V4 phù hợp nhất ở đâu

Trợ lý lập trình

Bản phát hành của DeepSeek nhấn mạnh hiệu năng lập trình dựa trên tác tử và tích hợp với các công cụ như Claude Code và OpenCode. Điều đó khiến V4 đặc biệt hấp dẫn cho các copilots review code, trợ lý tái cấu trúc quy mô kho mã, và tác tử hướng tới lập trình viên cần ghi nhớ trạng thái tác vụ dài qua nhiều lượt.

Phân tích tài liệu dài

Cửa sổ ngữ cảnh 1M token là tính năng tiêu đề, nhưng chiến thắng thực sự là những gì nó mở khóa: hợp đồng dài, bộ tài liệu thẩm định, log sự cố, wiki hỗ trợ và kho tri thức nội bộ có thể được xử lý mà không phải chặt nhỏ quá mức. Tài liệu của DeepSeek đóng khung bản phát hành quanh hiệu quả ngữ cảnh siêu cao và giảm chi phí tính toán/bộ nhớ.

Quy trình tác tử

Nếu sản phẩm của bạn dùng gọi công cụ, lập kế hoạch nhiều bước, hoặc chuỗi hành động, V4 thú vị hơn một mô hình chat chung. DeepSeek nói cả hai biến thể V4 hỗ trợ gọi công cụ và chế độ suy nghĩ, và bản xem trước cho biết V4 được tối ưu cho năng lực tác tử.

Hệ thống tìm kiếm, nghiên cứu và hỗ trợ

Các đội xây công cụ nghiên cứu nặng về tìm kiếm hoặc hệ thống hỗ trợ khách hàng thường cần cả khả năng gợi nhớ lẫn cấu trúc. Hỗ trợ đã ghi nhận của DeepSeek cho đầu ra JSON và độ dài đầu ra lớn khiến V4 phù hợp cho các hệ thống này, đặc biệt khi trải nghiệm người dùng phụ thuộc vào phản hồi có cấu trúc, ổn định thay vì câu trả lời hội thoại ngắn.

Thực hành tốt khi dùng API DeepSeek-V4 trong môi trường sản xuất

Thứ nhất, chọn mô hình theo khối lượng công việc thay vì theo thói quen. Dùng V4-Flash cho phân tích tài liệu dài, trợ lý thông lượng cao và vòng lặp tác tử nhanh. Dùng V4-Pro khi nhiệm vụ phụ thuộc vào lập luận khó hơn, tri thức phong phú hơn, hoặc hiệu năng đáng tin cậy hơn trên quy trình lập trình và nghiên cứu phức tạp. Ghi chú bản xem trước của chính DeepSeek và các trang mô hình bên thứ ba đều chỉ theo hướng đó.

Thứ hai, thiết kế xoay quanh cửa sổ ngữ cảnh 1M token, nhưng đừng giả định nhiều ngữ cảnh luôn có nghĩa câu trả lời tốt hơn. Ngữ cảnh lớn có giá trị với hợp đồng, codebase, bộ tài liệu nghiên cứu, và kho tri thức hỗ trợ; tuy vậy vẫn hưởng lợi từ truy xuất tốt, chia khối hợp lý và kỷ luật tóm tắt. DeepSeek đóng khung V4 quanh hiệu quả ngữ cảnh dài và nói 1M context là mặc định trên các dịch vụ chính thức của họ.

Thứ ba, giữ prompt có cấu trúc. Vì V4 hỗ trợ đầu ra JSON và gọi công cụ, nó là ứng viên tốt cho các quy trình như trích xuất, phân loại, phân luồng tài liệu, định tuyến tác tử, và trợ lý code. Đây là những nơi mô hình có ngữ cảnh dài và lập luận tường minh thường tỏa sáng nhất.

Thứ tư, giám sát thời điểm di trú cẩn thận. Nếu hệ thống của bạn vẫn gọi deepseek-chat hoặc deepseek-reasoner, hãy lập kế hoạch nâng cấp ngay. DeepSeek nêu rằng các tên kế thừa này sẽ ngừng hoạt động vào 2026-07-24, và hiện đang ánh xạ sang chế độ V4-Flash để tương thích.

Sai lầm thường gặp cần tránh

Đối xử với V4 như một mô hình chat chung

Sai lầm phổ biến nhất là coi DeepSeek V4 như một bot Hỏi-Đáp bình thường và dừng lại ở đó. Như vậy là bỏ phí hiệu năng. Bản phát hành rõ ràng nói về lập luận, lập trình, công cụ và ngữ cảnh dài. Nếu bạn không dùng các khả năng đó, bạn chủ yếu đang trả cho dung lượng bạn không bao giờ khai thác.

Phớt lờ giới hạn ngữ cảnh và chế độ lập luận

Sai lầm khác là giả định “ngữ cảnh 1M” nghĩa là có thể bỏ qua thiết kế prompt. Bạn vẫn cần cấu trúc sạch, lọc liên quan, và chiến lược bộ nhớ hợp lý. DeepSeek hỗ trợ chế độ suy nghĩ và không suy nghĩ, vì vậy ứng dụng của bạn nên quyết định có chủ đích khi nào dùng thêm token cho lập luận sâu và khi nào trả lời nhanh.

Di trú quá muộn khỏi các tên mô hình kế thừa

DeepSeek đã thông báo deepseek-chatdeepseek-reasoner sẽ ngừng hoạt động vào 2026-07-24. Nếu sản phẩm của bạn vẫn hard-code các tên này, nợ di trú không còn lý thuyết nữa. Đó là lịch cứng.

Gọi công cụ, đầu ra JSON và quy trình tác tử

DeepSeek-V4 hỗ trợ gọi công cụđầu ra JSON, khiến nó phù hợp cho tự động hóa có cấu trúc thay vì chỉ chat thuần, sử dụng gọi công cụ ở cả chế độ không suy nghĩ lẫn chế độ suy nghĩ, nghĩa là mô hình có thể lập luận, gọi một công cụ, rồi tiếp tục phản hồi với thông tin mới.

Với quy trình tác tử, một chi tiết đặc biệt quan trọng: khi một lượt suy nghĩ bao gồm gọi công cụ, reasoning_content phải được truyền lại đầy đủ trong các yêu cầu tiếp theo. Đó là chi tiết triển khai cấp sản xuất, không phải tiểu tiết, vì hệ thống tác tử thường thất bại khi cắt ngắn hoặc xử lý sai trạng thái lập luận trung gian.

Kết luận

DeepSeek V4 là một nâng cấp có ý nghĩa cho các đội quan tâm tới lập luận ngữ cảnh dài, trợ lý lập trình và quy trình tác tử. Bản phát hành chính thức đặt trọng lượng thực sự phía sau lần ra mắt: hai biến thể mô hình, tương thích OpenAI và Anthropic, ngữ cảnh 1M, hỗ trợ gọi công cụ, và lộ trình di trú rõ ràng từ các tên mô hình DeepSeek cũ.

Nếu trường hợp sử dụng của bạn phức tạp, nhạy cảm độ trễ, hoặc xoay quanh lập luận nhiều bước, V4-Pro là mô hình nên thử đầu tiên. Nếu ưu tiên của bạn là tốc độ, thông lượng và kỷ luật chi phí, V4-Flash là điểm xuất phát tốt hơn. Và nếu bạn muốn triển khai nhanh hơn qua nhiều nhà cung cấp mô hình mà không thêm hỗn loạn tích hợp, CometAPI được định vị như một lớp thực tế cho truy cập, quan sát và khả năng di động giữa các mô hình.

Sẵn sàng giảm 20% chi phí phát triển AI?

Bắt đầu miễn phí trong vài phút. Bao gồm tín dụng dùng thử miễn phí. Không cần thẻ tín dụng.

Đọc thêm