Sepanjang tahun lalu, DeepSeek — sebuah syarikat pemula AI dari China yang berpusat di Hangzhou — mencuri tajuk utama global dengan melancarkan model open-weight berprestasi tinggi sambil mendakwa kos latihan yang jauh lebih rendah berbanding rakan setara. Itu mendorong satu soalan teknikal yang ringkas tetapi berakibat: adakah DeepSeek menggunakan perkakasan dan perisian NVIDIA? Jawapan ringkas: ya — model dan perkhidmatan DeepSeek mempunyai pertalian jelas dengan perkakasan dan perisian NVIDIA merentas latihan, penempatan, dan pengedaran pihak ketiga. Namun ceritanya bernuansa: hubungan ini merangkumi daripada GPU yang dilaporkan dalam log latihan hingga pembungkusan mikroservis NVIDIA dan pilihan penempatan hiliran, dan ia wujud seiring perdebatan tentang teknik algoritma (cth., distillation dan scaling) yang mengubah jumlah GPU yang diperlukan.
Apakah DeepSeek dan mengapa persoalan "siapa yang memacunya" penting?
DeepSeek ialah keluarga model bahasa/penaakulan berskala besar sumber terbuka yang cepat mendapat perhatian umum kerana gabungan helah seni bina (distillation/kecekapan pengiraan masa inferens) dan tuntutan prestasi yang agresif. Kod dan dokumentasi awam keluarga model ini telah menggalakkan penggunaan pantas dan percubaan oleh pembangun pihak ketiga, mencetuskan gelombang di pasaran dan dalam kalangan pembuat dasar tentang sama ada sempadan AI akan kekal terikat rapat kepada GPU berprestasi tinggi yang mahal atau terbuka kepada pendekatan baharu yang kurang intensif perkakasan.
Mengapa persoalan perkakasan penting? Bagi vendor cip (NVIDIA, AMD, foundri Taiwan), penyedia awan (AWS, Azure, Google Cloud), dan pembuat dasar, seni bina DeepSeek serta praktikaliti penempatannya menentukan berapa banyak permintaan akan terus mengalir ke pasaran GPU, sama ada kawalan eksport akan benar‑benar memberi kesan, dan sama ada reka bentuk memori atau pengiraan baharu boleh secara material menyingkirkan penyandang perkakasan semasa. Laporan terkini yang mengaitkan kecekapan DeepSeek dengan keperluan GPU yang berkurang sebahagiannya bertanggungjawab atas volatiliti harga saham pembuat cip AI dan telah mencetuskan perdebatan sama ada industri mesti terus membeli ladang GPU yang semakin besar.
Adakah DeepSeek berjalan pada GPU NVIDIA?
Jawapan ringkas: Ya — DeepSeek boleh dan sememangnya berjalan pada GPU NVIDIA, dan NVIDIA sendiri telah menerbitkan penanda aras serta pengoptimuman yang disasarkan kepada model DeepSeek. Bukti termasuk repositori awam DeepSeek dan rangka kerja hiliran yang secara jelas menyokong perkakasan NVIDIA, di samping penanda aras vendor yang menunjukkan kadar inferens rekod pada sistem NVIDIA.
Bagaimana kod dan alat menunjukkan sokongan NVIDIA?
Repositori rasmi DeepSeek dan rantaian alat sokongannya merangkumi rujukan jelas kepada backend GPU NVIDIA dan bukan NVIDIA. Syor inferens projek dan perkakas komuniti menunjukkan keserasian dengan runtime berasaskan CUDA sambil turut menyokong alternatif (OpenCL/ROCm atau sandaran CPU) apabila mungkin. Kehadiran laluan pengoptimuman dan panduan README untuk sasaran peranti CUDA ialah bukti langsung bahawa GPU NVIDIA ialah sasaran penempatan kelas pertama bagi pengamal yang menjalankan model DeepSeek.
Pendekatan Rasmi: Kluster H800
Menurut laporan teknikal rasmi DeepSeek, latihan DeepSeek‑V3 dijalankan pada kluster 2,048 Nvidia H800 GPU. Ini satu perincian penting. H800 ialah versi "mematuhi sekatan" kepada H100 (seni bina Hopper), direka khusus oleh Nvidia untuk memenuhi kawalan eksport Jabatan Perdagangan AS bagi China.
Walaupun H800 mengekalkan kuasa pengiraan mentah yang sama (prestasi teras tensor FP8/FP16) seperti H100, lebar jalur interconnectnya (kelajuan cip berkomunikasi antara satu sama lain) dikekang dengan ketara—dikurangkan kepada kira‑kira 400 GB/s berbanding 900 GB/s pada H100. Dalam kluster latihan AI berskala besar, lebar jalur ini lazimnya menjadi penghalang, menjadikan pencapaian DeepSeek lebih membingungkan dan mengagumkan kepada pemerhati Barat.
Bagaimana DeepSeek Melatih V3 dengan Begitu Berkesan?
Statistik paling mengejutkan daripada keluaran DeepSeek‑V3 bukanlah markah penandaarasnya, tetapi tanda harganya: $5.58 juta kos latihan. Sebagai perbandingan, latihan GPT‑4 dianggarkan menelan kos melebihi $100 juta. Bagaimana pengurangan satu order magnitud ini boleh berlaku pada perkakasan H800 yang dianggap "lebih rendah"?
Inovasi Seni Bina: Mixture‑of‑Experts (MoE)
DeepSeek menggunakan seni bina Mixture‑of‑Experts (MoE). Tidak seperti model tumpat (seperti Llama 3) di mana setiap parameter aktif bagi setiap token yang dijana, model MoE memecahkan rangkaian kepada "pakar" yang lebih kecil.
- Jumlah Parameter: 671 Bilion
- Parameter Aktif: 37 Bilion
Bagi setiap data yang diproses, model mewujudkan laluan dinamik, mengaktifkan hanya sebahagian kecil kuasa pemprosesannya. Ini secara drastik mengurangkan operasi titik apung (FLOPs) yang diperlukan, membolehkan H800 memproses data dengan lebih pantas walaupun terdapat had lebar jalur.
Mengatasi Sekatan Lebar Jalur dengan MLA
Untuk mengimbangi kelajuan interconnect H800 yang dikekang, DeepSeek memperkenalkan Multi‑head Latent Attention (MLA). Mekanisme perhatian piawai (cache Kekunci‑Nilai) menggunakan lebar jalur memori yang amat besar. MLA memampatkan cache Kekunci‑Nilai (KV) ini ke dalam vektor laten, sekali gus mengurangkan jejak memori dan jumlah data yang perlu dipindahkan antara GPU dengan ketara.
Pilihan seni bina ini pada asasnya "menggodam" kekangan perkakasan. Dengan memerlukan pergerakan data yang lebih sedikit, interconnect yang lebih perlahan pada H800 menjadi kurang memudaratkan.
Komunikasi Dual‑Pipe dan Pertindihan
Pasukan kejuruteraan DeepSeek menulis kernel CUDA tersuai untuk mengurus komunikasi. Mereka melaksanakan strategi Dual‑Pipe yang menindan pengiraan dengan komunikasi secara sempurna. Ketika teras GPU melakukan pengiraan, kelompok data seterusnya sudah dipindahkan di latar belakang. Ini memastikan teras GPU yang mahal tidak pernah menganggur menunggu data, memerah setiap titisan prestasi daripada perkakasan.
Adakah DeepSeek Terjejas oleh Kawalan Eksport AS?
Dimensi geopolitik penggunaan perkakasan DeepSeek adalah sama kompleksnya dengan kejuruteraannya.
Permainan "Kucing dan Tikus"
Kerajaan AS, khususnya Jabatan Perdagangan, semakin mengetatkan eksport cip AI ke China. H800, yang digunakan DeepSeek, sah untuk dibeli pada 2023 tetapi kemudiannya diharamkan dalam kemas kini kawalan eksport lewat 2023.
Ini menempatkan DeepSeek dalam kedudukan yang genting. Kluster semasa mereka berkemungkinan sebuah aset "legasi" yang dibeli sebelum larangan. Penskalaan untuk "DeepSeek‑V4" atau "V5" pada masa hadapan akan menjadi jauh lebih sukar jika mereka tidak boleh memperoleh silikon Nvidia secara sah. Ini telah menyemarakkan khabar angin bahawa mereka mungkin melihat rantaian bekalan alternatif atau cip domestik China (seperti siri Ascend Huawei), walaupun Nvidia kekal sebagai piawaian emas untuk kestabilan latihan.
Siasatan Kerajaan AS
AS sedang aktif menyiasat sama ada DeepSeek memintas kawalan untuk mendapatkan cip terhad. Jika terdapat bukti bahawa mereka menggunakan H100 yang diperoleh secara haram, ia boleh membawa kepada sekatan berat terhadap syarikat dan pembekalnya. Namun, jika mereka benar‑benar mencapai prestasi ini pada H800 yang mematuhi peraturan, ini mencadangkan kawalan eksport AS mungkin kurang berkesan dalam memperlahankan kemajuan AI China daripada yang diharapkan oleh pembuat dasar—memaksa penilaian semula strategi "sekatan perkakasan".
Apakah Keperluan Perkakasan untuk Pengguna?
Bagi pembangun dan pengagregat API (seperti CometAPI), perkakasan latihan kurang relevan berbanding perkakasan inferens—iaitu apa yang anda perlukan untuk menjalankan model.
DeepSeek API vs. Hos Tempatan
Disebabkan saiz DeepSeek‑V3 yang amat besar (671B parameter), menjalankan model penuh secara tempatan adalah mustahil bagi kebanyakan pengguna. Ia memerlukan kira‑kira 1.5 TB VRAM dalam ketepatan FP16, atau kira‑kira 700 GB dalam pengkuantuman 8‑bit. Ini memerlukan nod pelayan 8x H100 atau A100.
Namun, versi DeepSeek‑R1‑Distill (berasaskan Llama dan Qwen) jauh lebih kecil dan boleh dijalankan pada perkakasan pengguna.
Kod: Menjalankan DeepSeek Secara Tempatan
Di bawah ialah contoh Python profesional yang menunjukkan cara memuatkan versi terkuantis model terdistilasi DeepSeek menggunakan perpustakaan transformers. Ini dioptimumkan untuk mesin dengan satu Nvidia RTX 3090 atau 4090.
python
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
# Configuration for 4-bit quantization to fit on consumer GPUs
# Requires 'bitsandbytes' and 'accelerate' libraries
model_name = "deepseek-ai/DeepSeek-R1-Distill-Llama-8B"
print(f"Loading {model_name} with 4-bit quantization...")
try:
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype=torch.float16,
device_map="auto",
load_in_4bit=True, # 4-bit quantization for memory efficiency
bnb_4bit_compute_dtype=torch.float16
)
print("Model loaded successfully.")
# Example Inference Function
def generate_thought(prompt):
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
outputs = model.generate(
**inputs,
max_new_tokens=512,
temperature=0.6,
top_p=0.9
)
return tokenizer.decode(outputs[0], skip_special_tokens=True)
# Test the model
user_query = "Explain the significance of FP8 training in AI."
response = generate_thought(user_query)
print("\n--- Model Response ---\n")
print(response)
except Exception as e:
print(f"An error occurred: {e}")
Kod: Integrasi DeepSeek API
Bagi model 671B penuh, menggunakan API ialah pendekatan piawai. API DeepSeek serasi sepenuhnya dengan SDK OpenAI, menjadikan migrasi lancar untuk pembangun.
Jika anda mencari Deepseek API yang lebih murah, maka CometAPI ialah pilihan yang baik.
from openai import OpenAI
import os
# Initialize the client with DeepSeek's base URL and your API key
# Ensure DEEPSEEK_API_KEY is set in your environment variables
client = OpenAI(
api_key=os.getenv("cometapi_API_KEY"),
base_url="https://api.cometapi.com"
)
def query_deepseek_reasoner(prompt):
"""
Queries the DeepSeek-R1 (Reasoner) model.
Note: The reasoner model outputs a 'Chain of Thought' before the final answer.
[...](asc_slot://start-slot-15)"""
try:
response = client.chat.completions.create(
model="deepseek-reasoner", # Specific model tag for R1
messages=[
{"role": "system", "content": "You are a helpful AI expert."},
{"role": "user", "content": prompt},
],
stream=False
)
# Extracting the reasoning content (if available) and the final content
reasoning = response.choices[0].message.reasoning_content
answer = response.choices[0].message.content
return reasoning, answer
except Exception as e:
return None, f"API Error: {e}"
# Example Usage
prompt_text = "Analyze the trade-offs between H100 and H800 GPUs for MoE models."
chain_of_thought, final_answer = query_deepseek_reasoner(prompt_text)
print(f"--- Chain of Thought ---\n{chain_of_thought[:500]}...\n") # Preview first 500 chars
print(f"--- Final Answer ---\n{final_answer}")
Adakah Kejayaan DeepSeek Akan Menamatkan Monopoli Nvidia?
Ini ialah persoalan bernilai berbilion dolar yang menyebabkan saham Nvidia merosot. Jika sebuah makmal boleh menghasilkan keputusan tercanggih pada perkakasan yang "disekat" atau lebih lama menggunakan perisian yang pintar (MoE, MLA), adakah dunia benar‑benar perlu membelanjakan trilion untuk H100 dan cip Blackwell terbaharu?
Perdebatan "Perisian vs. Perkakasan"
DeepSeek telah membuktikan bahawa pengoptimuman perisian ialah pengganti yang berdaya maju kepada kuasa mentah perkakasan. Dengan mengoptimumkan "Reka Bentuk Bersama Model‑Perkakasan", mereka mencapai hasil yang lebih baik berbanding pesaing yang sekadar menambah kuasa pengiraan.
Namun, ini tidak menandakan pengakhiran bagi Nvidia.
Malah, ia mungkin mengukuhkan dominasi mereka. DeepSeek masih menggunakan teras CUDA Nvidia; mereka hanya menggunakannya dengan lebih cekap. "Parit pertahanan" Nvidia bukan sekadar kelajuan cip, tetapi ekosistem perisian CUDA. Jurutera DeepSeek mahir dalam CUDA, menulis kernel aras rendah untuk memintas kekangan perkakasan. Kebergantungan pada timbunan perisian Nvidia ini memantapkan kedudukan syarikat, walaupun jumlah cip yang diperlukan bagi setiap model mungkin menurun sedikit akibat keuntungan kecekapan.
Kesimpulan
Bacaan terbaik terhadap rekod awam pada masa ini ialah DeepSeek telah menggunakan GPU NVIDIA dengan cara yang bermakna (latihan dan inferens) dan juga telah meneroka pilihan perkakasan domestik alternatif. NVIDIA telah mengintegrasikan model DeepSeek ke dalam ekosistem inferens NIM dan menerbitkan tuntutan prestasi serta perkakas pembangun untuk menjalankan model tersebut dengan cekap pada platform NVIDIA. Percubaan untuk beralih sepenuhnya kepada pemecut domestik memperlihatkan kesukaran praktikal untuk menggantikan ekosistem perkakasan‑perisian matang dalam sekelip mata: perkakasan sahaja tidak mencukupi — timbunan perisian, interconnect, dan perkakas bertaraf produksi sama‑sama menentukan.
Pembangun boleh mengakses Deepseek API seperti Deepseek V3.2 melalui CometAPI, model terbaharu yang disenaraikan adalah setakat tarikh penerbitan artikel. Untuk bermula, terokai keupayaan model dalam Playground dan rujuk panduan API untuk arahan terperinci. Sebelum mengakses, pastikan anda telah log masuk ke CometAPI dan memperoleh kunci API. CometAPI menawarkan harga jauh lebih rendah daripada harga rasmi untuk membantu anda mengintegrasi.
Gunakan CometAPI untuk mengakses model chatgpt, mula membeli-belah!
Sedia untuk bermula?→ Daftar untuk deepseek API hari ini !
Jika anda mahu mengetahui lebih banyak tip, panduan dan berita tentang AI ikuti kami di VK, X dan Discord!
