Selama setahun terakhir, DeepSeek—startup AI asal Tiongkok yang berbasis di Hangzhou—mencuri perhatian global dengan merilis model open-weight berkinerja tinggi sembari mengklaim biaya pelatihan yang jauh lebih rendah dibanding para pesaing. Hal itu memunculkan satu pertanyaan teknis sederhana namun penting: apakah DeepSeek menggunakan perangkat keras dan perangkat lunak NVIDIA? Jawaban singkat: ya—model dan layanan DeepSeek memiliki keterkaitan jelas dengan perangkat keras dan perangkat lunak NVIDIA di sepanjang proses pelatihan, penerapan, dan distribusi pihak ketiga. Namun ceritanya lebih bernuansa: hubungan tersebut mencakup mulai dari GPU yang tercatat di log pelatihan hingga pengemasan microservice NVIDIA dan opsi penerapan hilir, serta berdampingan dengan perdebatan tentang teknik algoritmik (mis. distilasi dan penskalaan) yang mengubah jumlah GPU yang dibutuhkan.
Apa itu DeepSeek dan mengapa pertanyaan "siapa yang mendukungnya" penting?
DeepSeek adalah keluarga model bahasa/penalaran berskala besar sumber terbuka yang cepat naik ke panggung publik karena kombinasi trik arsitektural (distilasi/efisiensi komputasi saat inferensi) dan klaim kinerja agresif. Kode dan dokumentasi publik keluarga model ini mendorong adopsi dan eksperimen cepat oleh pengembang pihak ketiga, memicu gelombang di pasar dan di kalangan pembuat kebijakan tentang apakah garis terdepan AI akan tetap erat bergantung pada GPU berperforma tinggi dan mahal atau terbuka pada pendekatan baru yang kurang intensif perangkat keras.
Mengapa pertanyaan perangkat keras itu penting? Bagi vendor chip (NVIDIA, AMD, foundry Taiwan), penyedia cloud (AWS, Azure, Google Cloud), dan pembuat kebijakan, arsitektur DeepSeek dan aspek praktis penerapannya menentukan seberapa besar permintaan akan terus mengalir ke pasar GPU, apakah kontrol ekspor akan berdampak, dan apakah desain memori atau komputasi baru dapat secara material menggoyang para incumbent perangkat keras saat ini. Pelaporan terbaru yang mengaitkan efisiensi DeepSeek dengan berkurangnya kebutuhan GPU sebagian bertanggung jawab atas volatilitas harga saham produsen chip AI dan memicu perdebatan apakah industri harus terus membeli peternakan GPU yang semakin besar.
Apakah DeepSeek berjalan di GPU NVIDIA?
Jawaban singkat: Ya—DeepSeek bisa dan memang berjalan di GPU NVIDIA, dan NVIDIA sendiri telah menerbitkan tolok ukur serta optimisasi yang ditargetkan pada model-model DeepSeek. Bukti mencakup repositori publik DeepSeek dan kerangka kerja hilir yang secara eksplisit mendukung perangkat keras NVIDIA, plus tolok ukur vendor yang menunjukkan throughput inferensi rekor di sistem NVIDIA.
Bagaimana kode dan tooling menunjukkan dukungan NVIDIA?
Repositori resmi DeepSeek dan toolchain pendukungnya menyertakan referensi eksplisit ke backend GPU NVIDIA maupun non-NVIDIA. Rekomendasi inferensi proyek dan tooling komunitas menunjukkan kompatibilitas dengan runtime berbasis CUDA sekaligus mendukung alternatif (OpenCL/ROCm atau fallback CPU) bila memungkinkan. Kehadiran jalur optimasi dan panduan README untuk target perangkat CUDA merupakan bukti langsung bahwa GPU NVIDIA adalah target penerapan kelas satu bagi praktisi yang menjalankan model DeepSeek.
Sikap Resmi: Klaster H800
Menurut laporan teknis resmi DeepSeek, pelatihan DeepSeek-V3 dilakukan pada klaster yang terdiri dari 2.048 GPU Nvidia H800. Ini adalah pembedaan yang krusial. H800 adalah versi “mematuhi sanksi” dari H100 yang bertenaga (arsitektur Hopper), dirancang khusus oleh Nvidia untuk memenuhi pengendalian ekspor Departemen Perdagangan AS untuk Tiongkok.
Meski H800 mempertahankan daya komputasi mentah yang sama (kinerja tensor core FP8/FP16) seperti H100, bandwidth interkoneksinya (kecepatan antarchip berkomunikasi) dibatasi secara signifikan—dipangkas menjadi sekitar 400 GB/detik dibanding 900 GB/detik pada H100. Di klaster pelatihan AI masif, bandwidth ini biasanya menjadi bottleneck, yang membuat pencapaian DeepSeek makin membingungkan sekaligus mengesankan bagi pengamat Barat.
Bagaimana DeepSeek melatih V3 dengan sangat efisien?
Statistik paling mencengangkan dari rilis DeepSeek-V3 bukan skor benchmark-nya, melainkan label harganya: $5,58 juta biaya pelatihan. Sebagai perbandingan, pelatihan GPT-4 diperkirakan menelan biaya lebih dari $100 juta. Bagaimana pengurangan skala besar ini mungkin terjadi pada perangkat keras H800 yang “inferior”?
Inovasi Arsitektural: Mixture-of-Experts (MoE)
DeepSeek memanfaatkan arsitektur Mixture-of-Experts (MoE). Berbeda dengan model dense (seperti Llama 3) di mana setiap parameter aktif untuk setiap token yang dihasilkan, model MoE memecah jaringan menjadi “pakar” yang lebih kecil.
- Total Parameter: 671 Miliar
- Parameter Aktif: 37 Miliar
Untuk setiap data yang diproses, model membuat rute dinamis, mengaktifkan hanya sebagian kecil dari seluruh “daya otak”-nya. Ini secara drastis mengurangi jumlah operasi floating-point (FLOPs) yang diperlukan, memungkinkan H800 memproses data lebih cepat meskipun ada keterbatasan bandwidth.
Mengatasi Bottleneck Bandwidth dengan MLA
Untuk mengatasi kecepatan interkoneksi H800 yang dibatasi, DeepSeek memperkenalkan Multi-head Latent Attention (MLA). Mekanisme attention standar (cache Key-Value) mengonsumsi bandwidth memori dalam jumlah besar. MLA mengompresi cache Key-Value (KV) ini menjadi vektor laten, secara signifikan mengurangi jejak memori dan jumlah data yang harus dipindahkan antargpu.
Pilihan arsitektural ini pada dasarnya “mengakali” batasan perangkat keras. Dengan membutuhkan lebih sedikit perpindahan data, interkoneksi H800 yang lebih lambat menjadi kurang bermasalah.
Komunikasi Dual-Pipe dan Overlap
Tim engineering DeepSeek menulis kernel CUDA kustom untuk mengelola komunikasi. Mereka menerapkan strategi Dual-Pipe yang secara sempurna menumpang-tindihkan komputasi dengan komunikasi. Saat inti GPU menghitung (komputasi), batch data berikutnya sudah ditransfer (komunikasi) di latar belakang. Ini memastikan inti GPU yang mahal tidak pernah menganggur menunggu data, memeras setiap tetes kinerja dari perangkat keras.
Apakah DeepSeek terdampak oleh kontrol ekspor AS?
Dimensi geopolitik dari penggunaan perangkat keras DeepSeek sama kompleksnya dengan rekayasanya.
Permainan “Kucing dan Tikus”
Pemerintah AS, khususnya Departemen Perdagangan, terus memperketat ekspor chip AI ke Tiongkok. H800, yang digunakan DeepSeek, legal dibeli pada 2023 tetapi kemudian dilarang dalam pembaruan kontrol ekspor akhir 2023.
Ini menempatkan DeepSeek pada posisi genting. Klaster mereka saat ini kemungkinan merupakan aset “warisan” yang dibeli sebelum larangan tersebut. Melakukan skala untuk “DeepSeek-V4” atau “V5” di masa depan akan jauh lebih sulit jika mereka tidak dapat secara legal memperoleh silikon Nvidia lagi. Hal ini memicu rumor bahwa mereka mungkin mencari rantai pasok alternatif atau chip domestik Tiongkok (seperti seri Ascend dari Huawei), meski Nvidia tetap menjadi standar emas untuk stabilitas pelatihan.
Investigasi Pemerintah AS
AS secara aktif menyelidiki apakah DeepSeek melewati kontrol untuk memperoleh chip yang dibatasi. Jika muncul bukti bahwa mereka menggunakan H100 yang diperoleh secara ilegal, itu dapat berujung pada sanksi berat bagi perusahaan dan para pemasoknya. Namun, jika mereka benar-benar mencapai kinerja ini pada H800 yang sesuai aturan, hal itu menyiratkan bahwa kontrol ekspor AS mungkin kurang efektif memperlambat kemajuan AI Tiongkok daripada yang diharapkan pembuat kebijakan—memaksa peninjauan ulang strategi “blokade perangkat keras”.
Apa persyaratan perangkat keras bagi pengguna?
Bagi pengembang dan agregator API (seperti CometAPI), perangkat keras pelatihan kurang relevan dibanding perangkat keras inferensi—apa yang Anda butuhkan untuk menjalankan model.
DeepSeek API vs. Hosting Lokal
Karena ukuran DeepSeek-V3 yang sangat besar (671B parameter), menjalankan model penuh secara lokal tidak mungkin bagi kebanyakan pengguna. Ini memerlukan sekitar 1,5 TB VRAM pada presisi FP16, atau kira-kira 700 GB pada kuantisasi 8-bit. Ini menuntut node server 8x H100 atau A100.
Namun, versi DeepSeek-R1-Distill (berbasis Llama dan Qwen) jauh lebih kecil dan dapat dijalankan pada perangkat keras konsumen.
Kode: Menjalankan DeepSeek Secara Lokal
Di bawah ini adalah contoh Python profesional yang menunjukkan cara memuat versi terkuantisasi dari model DeepSeek-distilled menggunakan library transformers. Ini dioptimalkan untuk mesin dengan satu Nvidia RTX 3090 atau 4090.
python
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
# Configuration for 4-bit quantization to fit on consumer GPUs
# Requires 'bitsandbytes' and 'accelerate' libraries
model_name = "deepseek-ai/DeepSeek-R1-Distill-Llama-8B"
print(f"Loading {model_name} with 4-bit quantization...")
try:
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype=torch.float16,
device_map="auto",
load_in_4bit=True, # 4-bit quantization for memory efficiency
bnb_4bit_compute_dtype=torch.float16
)
print("Model loaded successfully.")
# Example Inference Function
def generate_thought(prompt):
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
outputs = model.generate(
**inputs,
max_new_tokens=512,
temperature=0.6,
top_p=0.9
)
return tokenizer.decode(outputs[0], skip_special_tokens=True)
# Test the model
user_query = "Explain the significance of FP8 training in AI."
response = generate_thought(user_query)
print("\n--- Model Response ---\n")
print(response)
except Exception as e:
print(f"An error occurred: {e}")
Kode: Mengintegrasikan DeepSeek API
Untuk model 671B penuh, menggunakan API adalah pendekatan standar. API DeepSeek sepenuhnya kompatibel dengan SDK OpenAI, sehingga migrasi menjadi mulus bagi pengembang.
Jika Anda mencari Deepseek API yang lebih murah, maka CometAPI adalah opsi yang baik.
from openai import OpenAI
import os
# Initialize the client with DeepSeek's base URL and your API key
# Ensure DEEPSEEK_API_KEY is set in your environment variables
client = OpenAI(
api_key=os.getenv("cometapi_API_KEY"),
base_url="https://api.cometapi.com"
)
def query_deepseek_reasoner(prompt):
"""
Queries the DeepSeek-R1 (Reasoner) model.
Note: The reasoner model outputs a 'Chain of Thought' before the final answer.
[...](asc_slot://start-slot-15)"""
try:
response = client.chat.completions.create(
model="deepseek-reasoner", # Specific model tag for R1
messages=[
{"role": "system", "content": "You are a helpful AI expert."},
{"role": "user", "content": prompt},
],
stream=False
)
# Extracting the reasoning content (if available) and the final content
reasoning = response.choices[0].message.reasoning_content
answer = response.choices[0].message.content
return reasoning, answer
except Exception as e:
return None, f"API Error: {e}"
# Example Usage
prompt_text = "Analyze the trade-offs between H100 and H800 GPUs for MoE models."
chain_of_thought, final_answer = query_deepseek_reasoner(prompt_text)
print(f"--- Chain of Thought ---\n{chain_of_thought[:500]}...\n") # Preview first 500 chars
print(f"--- Final Answer ---\n{final_answer}")
Akankah kesuksesan DeepSeek mengakhiri monopoli Nvidia?
Ini adalah pertanyaan bernilai miliaran dolar yang menyebabkan saham Nvidia sempat turun. Jika sebuah lab dapat menghasilkan hasil kelas dunia pada perangkat keras yang “dibatasi” atau lebih lama dengan perangkat lunak yang cerdas (MoE, MLA), apakah dunia benar-benar perlu menghabiskan triliunan untuk H100 dan Blackwell terbaru?
Debat “Perangkat Lunak vs. Perangkat Keras”
DeepSeek telah membuktikan bahwa optimisasi perangkat lunak adalah pengganti yang layak untuk kekuatan perangkat keras mentah. Dengan mengoptimalkan “co-design Model-Perangkat Keras,” mereka mencapai hasil yang lebih baik daripada para pesaing yang sekadar menambah komputasi.
Namun, ini tidak serta-merta mengakhiri dominasi Nvidia.
Faktanya, ini bisa memperkuat dominasinya. DeepSeek tetap menggunakan inti CUDA Nvidia; mereka hanya menggunakannya dengan lebih efisien. “Parit” pertahanan yang dimiliki Nvidia bukan sekadar kecepatan chip, melainkan ekosistem perangkat lunak CUDA. Para engineer DeepSeek sangat piawai dengan CUDA, menulis kernel level-rendah untuk melewati keterbatasan perangkat keras. Ketergantungan pada stack perangkat lunak Nvidia ini mengukuhkan posisi perusahaan, meski volume chip yang dibutuhkan per model mungkin sedikit berkurang berkat peningkatan efisiensi.
Kesimpulan
Pembacaan terbaik atas catatan publik saat ini adalah bahwa DeepSeek telah menggunakan GPU NVIDIA secara bermakna (pelatihan dan inferensi) dan juga mengeksplorasi opsi perangkat keras domestik alternatif. NVIDIA telah mengintegrasikan model-model DeepSeek ke dalam ekosistem inferensi NIM dan menerbitkan klaim kinerja serta tooling pengembang untuk menjalankan model tersebut secara efisien di platform NVIDIA. Upaya untuk beralih sepenuhnya ke akselerator domestik menyingkap kesulitan praktis menggantikan ekosistem perangkat keras-perangkat lunak yang matang dalam semalam: perangkat keras saja tidak cukup—stack perangkat lunak, interkoneksi, dan tooling kelas produksi sama-sama menentukan.
Pengembang dapat mengakses Deepseek API seperti Deepseek V3.2 melalui CometAPI, model terbaru yang tercantum adalah per tanggal publikasi artikel. Untuk memulai, jelajahi kapabilitas model di Playground dan lihat panduan API untuk petunjuk terperinci. Sebelum mengakses, pastikan Anda telah masuk ke CometAPI dan memperoleh kunci API. CometAPI menawarkan harga yang jauh lebih rendah daripada harga resmi untuk membantu Anda melakukan integrasi.
Gunakan CometAPI untuk mengakses model chatgpt, mulai berbelanja!
Siap Mulai?→ Sign up for deepseek API today!
Jika Anda ingin mengetahui lebih banyak tips, panduan, dan berita tentang AI, ikuti kami di VK, X dan Discord!
