Short answer: Yes. Public reports and tech notes indicate DeepSeek trained major recent models on NVIDIA GPUs (notably China-available variants like H800/A800), often via local cloud providers. They also focus on software efficiency to reduce GPU needs. Hardware choices can change; check DeepSeek’s latest papers/repos for current details. - CometAPI

Trong năm qua, DeepSeek — một startup AI của Trung Quốc có trụ sở tại Hàng Châu — đã gây chú ý toàn cầu nhờ phát hành các mô hình open-weight hiệu năng cao đồng thời khẳng định chi phí huấn luyện thấp hơn đáng kể so với đối thủ. Điều đó dẫn đến một câu hỏi kỹ thuật đơn giản nhưng hệ trọng: does DeepSeek use NVIDIA hardware and software? Câu trả lời ngắn gọn: yes — các mô hình và dịch vụ của DeepSeek có mối liên hệ rõ ràng với phần cứng và phần mềm của NVIDIA trên toàn bộ các khâu huấn luyện, triển khai và phân phối qua bên thứ ba. Nhưng câu chuyện tinh vi hơn: mối quan hệ này trải dài từ các GPU xuất hiện trong nhật ký huấn luyện đến cách đóng gói vi dịch vụ của NVIDIA và các lựa chọn triển khai hạ nguồn, đồng thời song hành với các tranh luận về kỹ thuật thuật toán (ví dụ: distillation và scaling) đã làm thay đổi số lượng GPU cần thiết.

DeepSeek là gì và vì sao câu hỏi “ai cung cấp sức mạnh” lại quan trọng?

DeepSeek là một họ mô hình ngôn ngữ lớn/lập luận nguồn mở nổi lên nhanh chóng nhờ sự kết hợp giữa các thủ thuật kiến trúc (distillation/hiệu quả tính toán “lúc suy luận”) và các tuyên bố hiệu năng táo bạo. Mã nguồn và tài liệu công khai của họ đã thúc đẩy việc tiếp nhận và thử nghiệm nhanh chóng từ các nhà phát triển bên thứ ba, tạo nên làn sóng trên thị trường và trong giới hoạch định chính sách về việc liệu biên giới của AI sẽ tiếp tục gắn chặt với các GPU đắt tiền, hiệu năng cao hay sẽ mở ra các phương pháp ít phụ thuộc phần cứng hơn.

Tại sao câu hỏi về phần cứng lại quan trọng? Đối với các nhà cung cấp chip (NVIDIA, AMD, các nhà máy đúc của Đài Loan), các nhà cung cấp đám mây (AWS, Azure, Google Cloud) và các nhà hoạch định chính sách, kiến trúc của DeepSeek và thực tế triển khai quyết định lượng nhu cầu tiếp tục đổ vào thị trường GPU đến mức nào, liệu kiểm soát xuất khẩu có phát huy tác dụng, và liệu các thiết kế bộ nhớ hoặc tính toán mới có thể làm lung lay các “đương kim vô địch” phần cứng hiện nay hay không. Các bài báo gần đây liên hệ hiệu quả của DeepSeek với nhu cầu GPU giảm bớt phần nào đã góp phần gây biến động giá cổ phiếu của các nhà sản xuất chip AI và làm dấy lên tranh luận về việc ngành có buộc phải tiếp tục mua các trang trại GPU ngày càng lớn hay không.

DeepSeek có chạy trên GPU của NVIDIA không?

Câu trả lời ngắn gọn: Yes — DeepSeek có thể và thực tế đang chạy trên GPU NVIDIA, và chính NVIDIA cũng đã công bố các benchmark và tối ưu hóa nhắm tới các mô hình DeepSeek. Bằng chứng gồm kho mã công khai của DeepSeek và các khung công tác hạ nguồn hỗ trợ rõ ràng phần cứng NVIDIA, cùng các benchmark từ nhà cung cấp cho thấy thông lượng suy luận kỷ lục trên hệ thống NVIDIA.

Mã và công cụ cho thấy hỗ trợ NVIDIA như thế nào?

Kho chính thức của DeepSeek và các chuỗi công cụ hỗ trợ bao gồm tham chiếu rõ ràng đến cả backend GPU của NVIDIA và không phải NVIDIA. Khuyến nghị suy luận của dự án và công cụ cộng đồng thể hiện khả năng tương thích với runtime dựa trên CUDA đồng thời hỗ trợ các lựa chọn thay thế (OpenCL/ROCm hoặc dự phòng CPU) khi có thể. Sự hiện diện của các đường tối ưu hóa và hướng dẫn README cho các đích thiết bị CUDA là bằng chứng trực tiếp rằng GPU NVIDIA là mục tiêu triển khai hạng nhất cho các kỹ sư vận hành mô hình DeepSeek.

Lập trường chính thức: Cụm H800

Theo báo cáo kỹ thuật chính thức của DeepSeek, việc huấn luyện DeepSeek-V3 được thực hiện trên một cụm gồm 2,048 Nvidia H800 GPU. Đây là điểm khác biệt quan trọng. H800 là phiên bản “tuân thủ trừng phạt” của H100 mạnh mẽ (kiến trúc Hopper), do Nvidia thiết kế để đáp ứng kiểm soát xuất khẩu của Bộ Thương mại Hoa Kỳ dành cho Trung Quốc.

Trong khi H800 giữ nguyên sức mạnh tính toán thô (hiệu năng nhân Tensor FP8/FP16) như H100, băng thông liên kết (tốc độ các chip giao tiếp với nhau) lại bị bóp nghẹt đáng kể — giảm còn khoảng 400 GB/s so với 900 GB/s của H100. Trong các cụm huấn luyện AI quy mô lớn, băng thông này thường là nút thắt, điều khiến thành tựu của DeepSeek càng gây bối rối và ấn tượng đối với giới quan sát phương Tây.

DeepSeek đã huấn luyện V3 hiệu quả như thế nào?

Thống kê gây sửng sốt nhất từ bản phát hành DeepSeek-V3 không phải là điểm benchmark, mà là chi phí: $5.58 triệu cho huấn luyện. So sánh, chi phí ước tính để huấn luyện GPT-4 vượt quá $100 triệu. Làm sao có thể giảm theo bậc độ lớn như vậy trên phần cứng H800 “yếu thế” hơn?

Đổi mới kiến trúc: Mixture-of-Experts (MoE)

DeepSeek sử dụng kiến trúc Mixture-of-Experts (MoE). Khác với mô hình dày đặc (như Llama 3) nơi mọi tham số đều hoạt động cho mỗi token sinh ra, một mô hình MoE chia mạng thành các “chuyên gia” nhỏ hơn.

Tổng số tham số: 671 tỷ
Tham số hoạt động: 37 tỷ

Với mỗi mẩu dữ liệu được xử lý, mô hình tạo tuyến động, chỉ kích hoạt một phần rất nhỏ “năng lực” tổng thể. Điều này cắt giảm mạnh số phép tính dấu chấm động (FLOPs), cho phép H800 xử lý dữ liệu nhanh hơn bất chấp hạn chế băng thông.

Vượt qua nút thắt băng thông với MLA

Để khắc phục tốc độ liên kết bị giới hạn của H800, DeepSeek giới thiệu Multi-head Latent Attention (MLA). Cơ chế attention tiêu chuẩn (bộ đệm Key-Value) tiêu tốn băng thông bộ nhớ rất lớn. MLA nén bộ nhớ đệm Khóa–Giá trị (KV) vào một vector ẩn, giảm đáng kể dấu chân bộ nhớ và lượng dữ liệu cần chuyển giữa các GPU.

Lựa chọn kiến trúc này về bản chất “hack” các ràng buộc phần cứng. Bằng cách yêu cầu ít di chuyển dữ liệu hơn, liên kết chậm hơn của H800 trở nên ít là trở ngại.

Truyền thông hai kênh và chồng lấp

Đội ngũ kỹ sư của DeepSeek viết các kernel CUDA tùy biến để quản lý truyền thông. Họ triển khai chiến lược Dual-Pipe chồng lấp hoàn hảo tính toán với truyền thông. Trong khi lõi GPU đang tính toán, lô dữ liệu tiếp theo đã được chuyển nền. Điều này đảm bảo lõi GPU đắt đỏ không bị rỗi chờ dữ liệu, tận dụng tối đa hiệu năng phần cứng.

DeepSeek có bị ảnh hưởng bởi kiểm soát xuất khẩu của Mỹ?

Khía cạnh địa chính trị của việc DeepSeek sử dụng phần cứng phức tạp không kém kỹ thuật.

Trò chơi “mèo vờn chuột”

Chính phủ Hoa Kỳ, cụ thể là Bộ Thương mại, đang siết chặt xuất khẩu chip AI sang Trung Quốc. H800, mà DeepSeek đã dùng, hợp pháp để mua trong năm 2023 nhưng sau đó bị cấm trong các cập nhật kiểm soát xuất khẩu cuối năm 2023.

Điều này đặt DeepSeek vào thế khó. Cụm hiện tại của họ nhiều khả năng là tài sản “kế thừa” mua trước lệnh cấm. Việc mở rộng cho “DeepSeek-V4” hoặc “V5” trong tương lai sẽ khó hơn nhiều nếu họ không thể hợp pháp mua thêm silicon của Nvidia. Điều này thổi bùng tin đồn rằng họ có thể tìm đến chuỗi cung ứng thay thế hoặc chip nội địa Trung Quốc (như dòng Ascend của Huawei), dù Nvidia vẫn là tiêu chuẩn vàng cho sự ổn định trong huấn luyện.

Điều tra của chính phủ Mỹ

Mỹ đang tích cực điều tra liệu DeepSeek có lách quy định để mua chip bị hạn chế hay không. Nếu có bằng chứng họ dùng H100 có được bất hợp pháp, công ty và nhà cung cấp của họ có thể chịu lệnh trừng phạt nặng. Tuy nhiên, nếu họ thực sự đạt hiệu năng này trên H800 tuân thủ, điều đó cho thấy kiểm soát xuất khẩu của Mỹ có thể kém hiệu quả hơn kỳ vọng trong việc làm chậm tiến bộ AI của Trung Quốc — buộc phải xem xét lại chiến lược “phong tỏa phần cứng”.

Yêu cầu phần cứng cho người dùng là gì?

Đối với nhà phát triển và các bộ tổng hợp API (như CometAPI), phần cứng huấn luyện kém liên quan hơn so với phần cứng suy luận — thứ bạn cần để chạy mô hình.

DeepSeek API vs. tự lưu trữ cục bộ

Do kích thước khổng lồ của DeepSeek-V3 (671B tham số), hầu hết người dùng không thể chạy đầy đủ mô hình cục bộ. Mô hình yêu cầu khoảng 1.5 TB VRAM ở độ chính xác FP16, hoặc khoảng 700 GB ở định lượng 8-bit. Điều này đòi hỏi một node máy chủ 8x H100 hoặc A100.

Tuy nhiên, các phiên bản DeepSeek-R1-Distill (dựa trên Llama và Qwen) nhỏ hơn nhiều và có thể chạy trên phần cứng tiêu dùng.

Mã: Chạy DeepSeek cục bộ

Dưới đây là ví dụ Python chuyên nghiệp cho thấy cách tải phiên bản định lượng của mô hình DeepSeek-distilled bằng thư viện transformers. Mẫu này tối ưu cho máy có một Nvidia RTX 3090 hoặc 4090.

python

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

# Configuration for 4-bit quantization to fit on consumer GPUs
# Requires 'bitsandbytes' and 'accelerate' libraries
model_name = "deepseek-ai/DeepSeek-R1-Distill-Llama-8B"

print(f"Loading {model_name} with 4-bit quantization...")

try:
    tokenizer = AutoTokenizer.from_pretrained(model_name)
    
    model = AutoModelForCausalLM.from_pretrained(
        model_name,
        torch_dtype=torch.float16,
        device_map="auto",
        load_in_4bit=True,  # 4-bit quantization for memory efficiency
        bnb_4bit_compute_dtype=torch.float16
    )
    
    print("Model loaded successfully.")

    # Example Inference Function
    def generate_thought(prompt):
        inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
        
        outputs = model.generate(
            **inputs,
            max_new_tokens=512,
            temperature=0.6,
            top_p=0.9
        )
        
        return tokenizer.decode(outputs[0], skip_special_tokens=True)

    # Test the model
    user_query = "Explain the significance of FP8 training in AI."
    response = generate_thought(user_query)
    
    print("\n--- Model Response ---\n")
    print(response)

except Exception as e:
    print(f"An error occurred: {e}")

Mã: Tích hợp DeepSeek API

Với mô hình 671B đầy đủ, dùng API là cách tiêu chuẩn. API của DeepSeek hoàn toàn tương thích với OpenAI SDK, giúp việc di chuyển trở nên liền mạch cho nhà phát triển.

Nếu bạn đang tìm một Deepseek API rẻ hơn, thì CometAPI là một lựa chọn tốt.

from openai import OpenAI
import os

# Initialize the client with DeepSeek's base URL and your API key
# Ensure DEEPSEEK_API_KEY is set in your environment variables
client = OpenAI(
    api_key=os.getenv("cometapi_API_KEY"), 
    base_url="https://api.cometapi.com"
)
def query_deepseek_reasoner(prompt):
    """
    Queries the DeepSeek-R1 (Reasoner) model.
    Note: The reasoner model outputs a 'Chain of Thought' before the final answer.
    [...](asc_slot://start-slot-15)"""
    try:
        response = client.chat.completions.create(
            model="deepseek-reasoner",  # Specific model tag for R1
            messages=[
                {"role": "system", "content": "You are a helpful AI expert."},
                {"role": "user", "content": prompt},
            ],
            stream=False
        )
        
        # Extracting the reasoning content (if available) and the final content
        reasoning = response.choices[0].message.reasoning_content
        answer = response.choices[0].message.content
        
        return reasoning, answer

    except Exception as e:
        return None, f"API Error: {e}"

# Example Usage
prompt_text = "Analyze the trade-offs between H100 and H800 GPUs for MoE models."
chain_of_thought, final_answer = query_deepseek_reasoner(prompt_text)

print(f"--- Chain of Thought ---\n{chain_of_thought[:500]}...\n") # Preview first 500 chars
print(f"--- Final Answer ---\n{final_answer}")

Liệu thành công của DeepSeek có chấm dứt thế độc tôn của Nvidia?

Đây là câu hỏi trị giá hàng tỷ đô làm cổ phiếu Nvidia chao đảo. Nếu một phòng thí nghiệm có thể tạo ra kết quả tối tân trên phần cứng “bị hạn chế” hoặc cũ hơn nhờ phần mềm thông minh (MoE, MLA), thế giới có thực sự cần chi hàng nghìn tỷ cho các H100 và Blackwell đời mới nhất không?

Cuộc tranh luận “Phần mềm vs. Phần cứng”

DeepSeek đã chứng minh rằng software optimization là một thay thế khả dĩ cho brute force phần cứng. Bằng cách tối ưu “đồng thiết kế mô hình–phần cứng”, họ đạt kết quả tốt hơn so với đối thủ chỉ đơn thuần ném thêm tài nguyên tính toán.

Tuy nhiên, điều này không báo hiệu hồi kết cho Nvidia.

Thực tế, nó có thể củng cố vị thế của họ. DeepSeek vẫn dùng các nhân CUDA của Nvidia; họ chỉ dùng hiệu quả hơn. “Hào lũy” của Nvidia không chỉ là tốc độ chip, mà còn là hệ sinh thái phần mềm CUDA. Kỹ sư của DeepSeek là bậc thầy CUDA, viết kernel cấp thấp để vượt qua giới hạn phần cứng. Sự phụ thuộc vào ngăn xếp phần mềm của Nvidia củng cố vị thế công ty, dù số lượng chip cần cho mỗi mô hình có thể giảm nhẹ nhờ tăng hiệu quả.

Kết luận

Cách diễn giải tốt nhất hiện nay từ hồ sơ công khai là DeepSeek vừa sử dụng GPU NVIDIA theo những cách có ý nghĩa (huấn luyện và suy luận), vừa khám phá các lựa chọn phần cứng nội địa thay thế. NVIDIA đã tích hợp các mô hình DeepSeek vào hệ sinh thái suy luận NIM và công bố các tuyên bố hiệu năng cũng như công cụ dành cho nhà phát triển để chạy các mô hình đó hiệu quả trên nền tảng NVIDIA. Nỗ lực chuyển hẳn sang tăng tốc phần cứng nội địa cho thấy khó khăn thực tiễn trong việc thay thế ngay lập tức một hệ sinh thái phần cứng–phần mềm trưởng thành: chỉ phần cứng thôi là chưa đủ — ngăn xếp phần mềm, liên kết và công cụ sản xuất ở cấp độ vận hành cũng quyết định không kém.

Nhà phát triển có thể truy cập Deepseek API như Deepseek V3.2 thông qua CometAPI, các mô hình mới nhất được liệt kê tính đến ngày xuất bản bài viết. Để bắt đầu, hãy khám phá khả năng của mô hình trong Playground và tham khảo API guide để biết hướng dẫn chi tiết. Trước khi truy cập, vui lòng đảm bảo bạn đã đăng nhập CometAPI và lấy API key. CometAPI cung cấp mức giá thấp hơn nhiều so với giá chính thức để hỗ trợ bạn tích hợp.

Sử dụng CometAPI để truy cập các chatgpt models, bắt đầu mua sắm ngay!

Sẵn sàng bắt đầu? → Sign up for deepseek API today!

Nếu bạn muốn biết thêm mẹo, hướng dẫn và tin tức về AI hãy theo dõi chúng tôi trên VK, X và Discord!