DeepSeek-V3.1 là mô hình trò chuyện Hỗn hợp chuyên gia (MoE) lai được DeepSeek phát hành vào tháng 2025 năm XNUMX hỗ trợ hai chế độ suy luận — chế độ "không suy nghĩ" nhanh và chế độ "suy nghĩ" có chủ đích — từ cùng một điểm kiểm tra. Mô hình này có sẵn trên Hugging Face và có thể chạy cục bộ thông qua nhiều đường dẫn (vLLM, Ollama/llama.cpp, GGUF kiểu Ollama, hoặc các thiết lập đa GPU quy mô lớn). Dưới đây, tôi sẽ hướng dẫn bạn qua các yêu cầu, cách thức hoạt động của chế độ suy nghĩ, một số tùy chọn chạy cục bộ (với các đoạn mã có thể chạy được) và hướng dẫn từng bước "triển khai Chế độ Suy nghĩ" kèm theo các ví dụ về cách gọi công cụ và mẫu mã thông báo.
DeepSeek-V3.1 là gì và tại sao nó lại quan trọng?
DeepSeek-V3.1 là bản cập nhật họ v3 từ DeepSeek giới thiệu một thiết kế suy luận lai: cùng một mô hình có thể được chạy trong Suy nghĩ (thảo luận, nhiều bước) hoặc không suy nghĩ (trả lời trực tiếp, nhanh hơn) bằng cách thay đổi mẫu trò chuyện. Về mặt kiến trúc, đây là một dòng MoE lớn (điểm kiểm tra cơ sở khoảng 671 tỷ tham số, khoảng 37 tỷ tham số được kích hoạt cho mỗi mã thông báo) với khả năng huấn luyện ngữ cảnh dài được mở rộng lên 128 nghìn mã thông báo và hỗ trợ vi mô hóa FP8. DeepSeek định vị V3.1 là bản phát hành sẵn sàng cho tác nhân: khả năng gọi công cụ tốt hơn, kỹ năng tác nhân được cải thiện và hiệu quả tư duy cao hơn so với các bản phát hành R1 trước đó. Bản phát hành được công bố vào tháng 2025 năm XNUMX và đã được tích hợp vào Hugging Face, công cụ CFD/OSS và hướng dẫn triển khai đám mây.
Mô hình lai hoạt động như thế nào (ngắn gọn)
- Một điểm kiểm tra, hai mẫu: Chế độ suy nghĩ so với chế độ không suy nghĩ được kiểm soát bởi mẫu trò chuyện và
<think>/</think>quy ước mã thông báo trong lời nhắc. Thẻ mẫu ghi lại các tiền tố chính xác. - Cải tiến tác nhân/công cụ: Tăng cường sau đào tạo cho phép gọi công cụ thông minh hơn — mô hình mong đợi định dạng JSON gọi công cụ nghiêm ngặt để thực thi công cụ an toàn và xác định.
- Đánh đổi hiệu suất: Chế độ suy nghĩ sử dụng token cho lập luận theo kiểu chuỗi suy nghĩ nội bộ và có thể chậm hơn/tiêu tốn token hơn; chế độ không suy nghĩ nhanh hơn và rẻ hơn. Các điểm chuẩn trong thẻ mô hình cho thấy những cải tiến đáng kể về lập luận và điểm chuẩn mã cho V3.1.
Mô hình được cấu trúc như thế nào
- Xương sống của MoE: tổng số tham số lớn với tập hợp con được kích hoạt nhỏ hơn trên mỗi mã thông báo (suy luận kinh tế).
- Đào tạo ngữ cảnh dài: V3.1 mở rộng đáng kể các giai đoạn ngữ cảnh dài (32k → đào tạo lớn hơn trên các tài liệu dài) để hỗ trợ 128K+ cửa sổ trong một số bản dựng.
- Quy trình làm việc gốc FP8: DeepSeek sử dụng rộng rãi các định dạng FP8 (w8a8 / UE8M0) để tăng hiệu quả về trọng lượng/kích hoạt; có các tập lệnh chuyển đổi cộng đồng nếu bạn thích BF16/FP16.
Yêu cầu để chạy DeepSeek-V3.1 cục bộ là gì? (Phần cứng, lưu trữ và phần mềm)
Chạy Full Mô hình V3.1 (chưa lượng tử hóa) là một dự án lớn. Dưới đây là các loại thiết lập thực tế và những yêu cầu thường gặp.
Xô thực tế
- Cụm / phòng thí nghiệm nghiên cứu (mô hình đầy đủ): nhiều GPU bộ nhớ cao (lớp H100/H800 hoặc nhiều GPU Ada/Hopper), nhiều nút với hàng chục GPU, nhiều bộ nhớ NVMe (hàng trăm GB) và các khuôn khổ suy luận chuyên dụng (SGLang, vLLM, LMDeploy, TRT-LLM).
- Máy chủ đơn cao cấp (lượng tử hóa): có thể thực hiện được với lượng tử hóa lớn (INT4/AWQ/AWQ2/gguf) và các khung như Ollama (đóng gói sẵn) hoặc GGUF cộng đồng — vẫn cần ~hàng chục đến hàng trăm GB RAM GPU hoặc chuyển tải CPU+GPU thông minh.
- Máy tính xách tay dành cho nhà phát triển / hộp phát triển: không khả thi đối với mô hình đầy đủ; sử dụng các biến thể nhỏ được tinh chỉnh/chắt lọc hoặc kết nối với máy chủ cục bộ/phiên bản Ollama.
Danh sách kiểm tra phần cứng (thực tế)
- GPU: Để đạt được thông lượng suy luận thực tế của toàn bộ V3.1: các cụm đa GPU (H100 / H800 / Ada Lovelace+). Để thực thi FP8, cần có GPU có khả năng tính toán và hỗ trợ trình điều khiển.
- RAM và bộ nhớ: Dự kiến hàng trăm GB dung lượng đĩa trống cho các tệp mô hình (trang mô hình liệt kê vài trăm GB tùy thuộc vào định dạng/lượng tử hóa), cộng với dung lượng làm việc cho các định dạng đã chuyển đổi. Siêu dữ liệu Ollama liệt kê dung lượng khoảng 400 GB cho gói Ollama DeepSeek V3.1 trong thư viện.
- mạng: Đối với suy luận đa nút, bạn cần các kết nối có độ trễ thấp (NVLink / InfiniBand) và công cụ điều phối cho các thiết lập song song tenxơ.
Danh sách kiểm tra phần mềm
- OS: Linux được khuyến nghị sử dụng cho các công cụ suy luận cộng đồng (bản demo DeepSeek-Infer liệt kê Linux/Python).
- Python: 3.10+ (trong nhiều ví dụ DeepSeek). Các phiên bản gói điển hình được ghim trong kho lưu trữ
requirements.txt. - Khung và công cụ (chọn một hoặc nhiều): SGLang, vLLM, LMDeploy, TRT-LLM/TensorRT-LLM, LightLLM hoặc Ollama để cài đặt cục bộ đơn giản hơn. Mỗi phiên bản đều có hướng dẫn và hỗ trợ độ chính xác/lượng tử hóa khác nhau.
Lưu ý thực tế: Nếu bạn chỉ có một GPU dành cho người dùng (ví dụ: 24–48 GB), bạn có thể sẽ sử dụng GGUF lượng tử hóa hoặc suy luận từ xa; nếu bạn có máy trạm có RAM >128 GB cộng với cụm GPU loại H100/H200, bạn có thể nhắm mục tiêu suy luận FP8/FP16 có độ trung thực cao hơn với vLLM.
Làm thế nào để chạy DeepSeek-V3.1 cục bộ?
Dưới đây là một số cách thực tế bạn có thể sử dụng, từ cách thủ công/linh hoạt nhất đến cách dễ nhất cho một hộp nhà phát triển duy nhất. Tôi sẽ cung cấp các hướng dẫn từng bước và ví dụ về mã
Tùy chọn A — Bản demo DeepSeek-Infer chính thức (lộ trình phát triển/cụm)
Đây là ví dụ/bản demo của kho lưu trữ cho suy luận FP8/BF16. Hãy sử dụng nếu bạn dự định triển khai đa nút hoặc muốn thử nghiệm với mã suy luận chính thức.
- Nhân bản, chuẩn bị môi trường
git clone https://github.com/deepseek-ai/DeepSeek-V3.git
cd DeepSeek-V3/inference
# Create a dedicated venv / conda env
python -m venv venv && source venv/bin/activate
pip install -r requirements.txt
(Kho lưu trữ inference/requirements.txt liệt kê các phiên bản torch/triton/transformers được nhóm đề xuất.)
- Tải xuống trọng lượng mô hình
- Tải xuống từ trang mẫu Hugging Face (
deepseek-ai/DeepSeek-V3.1) và đặt chúng dưới/path/to/DeepSeek-V3. Thẻ mô hình và ghi chú kho lưu trữ đều là liên kết lưu trữ chính thức của Hugging Face.
- Chuyển đổi trọng số cho bản demo
# example conversion command shown in the repo
python convert.py --hf-ckpt-path /path/to/DeepSeek-V3 --save-path /path/to/DeepSeek-V3-Demo --n-experts 256 --model-parallel 16
- Chạy thế hệ tương tác (phân tán)
torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR \
generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json \
--interactive --temperature 0.7 --max-new-tokens 200
Đây là ví dụ chuẩn từ kho lưu trữ DeepSeek cho các lần chạy theo kiểu cụm.
Tùy chọn B — vLLM (được khuyến nghị cho việc triển khai máy chủ và API tương thích với OpenAI)
vLLM hỗ trợ DeepSeek ở chế độ FP8/BF16 và cung cấp cho bạn một máy chủ tương thích với OpenAI. Đây là giải pháp sản xuất phổ biến cho các mô hình lớn nhờ khả năng tối ưu hóa bộ nhớ và khả năng tương thích API.
Khởi động máy chủ vLLM để lấy mô hình từ Hugging Face (mẫu ví dụ):
# this will download/serve the model (replace with exact model id if needed)
vllm serve deepseek-ai/DeepSeek-V3.1 --host 0.0.0.0 --port 8000
Sau đó yêu cầu hoàn thành bằng curl hoặc ứng dụng khách tương thích với OpenAI:
curl -s -X POST "http://localhost:8000/v1/completions" \
-H "Content-Type: application/json" \
-d '{"model":"DeepSeek-V3.1","prompt":"Explain the QuickSort algorithm", "max_tokens":200}'
Công thức và tài liệu vLLM bao gồm các ví dụ DeepSeek và ghi chú về khả năng tương thích FP8 và tính song song đa GPU/đường ống. Đối với các mô hình nặng, bạn vẫn cần nhiều GPU hoặc một biến thể lượng tử hóa.
Tùy chọn C — LMDeploy / SGLang / LightLLM & TensorRT-LLM (hiệu suất cao)
Kho lưu trữ DeepSeek khuyến nghị rõ ràng SGlang, Triển khai LMDvà TenorRT-LLM là những công cụ được tối ưu hóa cho DeepSeek V3. Chúng cung cấp độ trễ suy luận, thông lượng và hạt nhân FP8 được cải thiện.
Một lệnh gọi LMDeploy thông thường (tham khảo tài liệu LMDeploy để biết CLI chính xác):
# pseudo-example; refer to LMDeploy docs for exact options
lmdeploy serve --model /path/to/deepseek_v3.1 --precision fp8 --port 8080
Tiêu chuẩn SGLang và công thức ra mắt có sẵn trong kho lưu trữ và trong dự án SGLang benchmark/deepseek_v3 thư mục. Sử dụng các ngăn xếp này khi bạn kiểm soát cụm GPU và muốn đạt thông lượng sản xuất.
Tùy chọn D — Ollama (tuyến phát triển cục bộ dễ nhất, thường là máy đơn)
Nếu bạn muốn chạy DeepSeek cục bộ theo cách ít tốn kém nhất (và bạn có thể tiết kiệm đĩa), Ollama cung cấp các mô hình đóng gói và một CLI đơn giản (ollama pull, ollama run). DeepSeek-V3.1 xuất hiện trong thư viện Ollama và có thể chạy cục bộ (Ollama có thể yêu cầu phiên bản gần đây/trước khi phát hành cho một số tính năng).
Ví dụ (Ollama CLI):
# Pull the model (downloads the model artifacts to your disk)
ollama pull deepseek-v3.1
# Start an interactive session:
ollama run deepseek-v3.1
# Or run as a local API server (Ollama supports a local API)
# Example: POSTing to Ollama's local API (adjust host/port to your setup)
curl -X POST http://localhost:11434/api/generate \
-H 'Content-Type: application/json' \
-d '{"model":"deepseek-v3.1","prompt":"Summarize the following paper: ..."}'
Ollama loại bỏ nhiều chi tiết phân phối/lượng tử hóa và có thể là một cách tuyệt vời để kiểm tra hành vi của mô hình trên một máy chủ duy nhất. Lưu ý: trang mô hình liệt kê kích thước đóng gói ~404GB cho mục nhập Ollama, vì vậy hãy lên kế hoạch cho ổ đĩa và RAM cho phù hợp.
Chế độ suy nghĩ là gì và cách sử dụng nó
DeepSeek-V3.1 triển khai một mã thông báo tư duy lai cách tiếp cận: cùng một điểm kiểm tra có thể chạy trong Suy nghĩ chế độ (mã thông báo “chuỗi suy nghĩ” nội bộ) hoặc không suy nghĩ chế độ bằng cách chuyển đổi mẫu trò chuyện/nhắc nhở. Mô hình sử dụng các mã thông báo rõ ràng như <think> (và đóng cửa </think> (trong một số mẫu) để báo hiệu chuỗi suy nghĩ nội bộ so với việc tạo ra câu trả lời trực tiếp. Thẻ mẫu ghi lại các tiền tố không suy nghĩ và suy nghĩ, đồng thời cho thấy sự khác biệt giữa các mẫu.
Ví dụ: xây dựng một thông báo trong Python (trình trợ giúp mã thông báo)
Thẻ mẫu Hugging Face bao gồm một đoạn mã hữu ích hướng dẫn cách áp dụng mẫu trò chuyện thông qua trình phân tích cú pháp. Đây là mẫu được đề xuất để tạo Suy nghĩ or không suy nghĩ lời nhắc được định dạng:
import transformers
tokenizer = transformers.AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-V3.1")
messages = [
{"role": "system", "content": "You are a helpful assistant"},
{"role": "user", "content": "Who are you?"},
{"role": "assistant", "content": "<think>Hmm</think>I am DeepSeek"},
{"role": "user", "content": "1+1=?"}
]
# Thinking mode
tokenizer.apply_chat_template(messages, tokenize=False, thinking=True, add_generation_prompt=True)
# Non-thinking mode
tokenizer.apply_chat_template(messages, tokenize=False, thinking=False, add_generation_prompt=True)
Công tắc điện thinking=True để tạo ra một lời nhắc sử dụng <think> tiền tố; thinking=False tạo ra khuôn mẫu không suy nghĩ. Mô hình sẽ hoạt động khác nhau (suy nghĩ nội bộ so với phản ứng tức thời) tùy thuộc vào cờ này.
Tài liệu tham khảo nhanh — khắc phục sự cố nhỏ và các biện pháp thực hành tốt nhất
Nếu bạn hết bộ nhớ GPU: Hãy thử các bản dựng lượng tử hóa (AWQ/q4/INT4) hoặc GGUF cộng đồng; nhiều không gian cộng đồng xuất bản các bản dựng lượng tử hóa để sử dụng cục bộ. Ollama/vLLM cũng có thể phục vụ các bản dựng lượng tử hóa nhỏ hơn.
Nếu bạn cần mô hình để gọi các công cụ bên ngoài: Thông qua ToolCall schema trong mẫu trò chuyện chính xác. Kiểm tra định dạng JSON của công cụ ngoại tuyến và kiểm tra xem mã điều phối của bạn (phần thực thi công cụ) có trả về JSON đã được khử trùng và nhập liệu cho mô hình hay không.
Nếu bạn cần ngữ cảnh dài hơn: Sử dụng vLLM hoặc SGLang với các plugin ngữ cảnh dài; DeepSeek được đào tạo/mở rộng rõ ràng cho ngữ cảnh 32K/128K và các công cụ liên quan hỗ trợ cửa sổ đó. Dự kiến sẽ có sự đánh đổi về bộ nhớ.
Tôi có thể chạy DeepSeek-V3.1 trên máy tính xách tay hoặc máy chủ nhỏ không?
Câu trả lời ngắn: Có, nhưng có điều kiện. Lượng tử hóa cộng đồng (AWQ/GGUF/1-bit động) làm giảm đáng kể dung lượng lưu trữ và bộ nhớ và cho phép những người đam mê chạy các biến thể V3.1 trên máy tính để bàn cao cấp (tuyên bố có bộ làm việc ~170 GB). Tuy nhiên:
- Sự đánh đổi giữa độ trung thực và quy mô: Lượng tử hóa mạnh mẽ làm giảm bộ nhớ nhưng có thể ảnh hưởng đến hiệu suất suy luận/mã. Hãy thử nghiệm trên khối lượng công việc của bạn.
- Pháp lý và cấp phép: mô hình được cấp phép MIT theo thẻ mô hình, nhưng lượng tử hóa của bên thứ ba có thể có giấy phép riêng; hãy xem xét chúng trước khi sử dụng chính thức.
Kết luận
DeepSeek-V3.1 là một bước tiến đáng kể hướng tới các mô hình "tác nhân" lai với hành vi suy nghĩ/không suy nghĩ rõ ràng và cải thiện khả năng sử dụng công cụ. Nếu bạn muốn chạy nó cục bộ, hãy chọn đường dẫn phù hợp với phần cứng và khả năng chịu rủi ro của bạn:
Để nghiên cứu: transformers + các tenxơ an toàn lượng tử và gia tốc.
Đối với sản xuất và thông lượng: vLLM + đa GPU (H100/H200).
Đối với các thí nghiệm tại địa phương: Ollama/llama.cpp + GGUF cộng đồng (hợp nhất + chạy).
Bắt đầu
CometAPI là một nền tảng API hợp nhất tổng hợp hơn 500 mô hình AI từ các nhà cung cấp hàng đầu—chẳng hạn như dòng GPT của OpenAI, Gemini của Google, Claude của Anthropic, Midjourney, Suno, v.v.—thành một giao diện duy nhất thân thiện với nhà phát triển. Bằng cách cung cấp xác thực nhất quán, định dạng yêu cầu và xử lý phản hồi, CometAPI đơn giản hóa đáng kể việc tích hợp các khả năng AI vào ứng dụng của bạn. Cho dù bạn đang xây dựng chatbot, trình tạo hình ảnh, nhà soạn nhạc hay đường ống phân tích dựa trên dữ liệu, CometAPI cho phép bạn lặp lại nhanh hơn, kiểm soát chi phí và không phụ thuộc vào nhà cung cấp—tất cả trong khi khai thác những đột phá mới nhất trên toàn bộ hệ sinh thái AI.
Các nhà phát triển có thể truy cập DeepSeek-V3.1 Thông qua CometAPI, các phiên bản mô hình mới nhất được liệt kê là tính đến ngày xuất bản bài viết. Để bắt đầu, hãy khám phá các khả năng của mô hình trong Sân chơi và tham khảo ý kiến Hướng dẫn API để biết hướng dẫn chi tiết. Trước khi truy cập, vui lòng đảm bảo bạn đã đăng nhập vào CometAPI và lấy được khóa API. Sao chổiAPI cung cấp mức giá thấp hơn nhiều so với giá chính thức để giúp bạn tích hợp.
