هل تستخدم DeepSeek NVIDIA؟

على مدار العام الماضي، تصدّرت DeepSeek — شركة ناشئة صينية في مجال الذكاء الاصطناعي مقرها هانغتشو — العناوين العالمية بإطلاقها نماذج ذات أوزان مفتوحة عالية الأداء مع ادعاءات بتكاليف تدريب أقل بكثير من نظرائها. وقد أثار ذلك سؤالًا تقنيًا بسيطًا لكنه بالغ الأثر: هل تستخدم DeepSeek عتاد وبرمجيات NVIDIA؟ الإجابة المختصرة: نعم — لنماذج وخدمات DeepSeek روابط واضحة بعتاد وبرمجيات NVIDIA عبر مراحل التدريب والنشر والتوزيع عبر جهات خارجية. لكن القصة أكثر تشعّبًا: تمتد العلاقة من وحدات GPU المذكورة في سجلات التدريب إلى حزم الخدمات المصغّرة من NVIDIA وخيارات النشر اللاحقة، وتقترن بنقاشات حول تقنيات خوارزمية (مثل التقطير والتوسيع) غيّرت عدد وحدات GPU المطلوبة.

ما هي DeepSeek ولماذا يهم سؤال «من يشغّلها»؟

DeepSeek هي عائلة مفتوحة المصدر من نماذج اللغة/الاستدلال كبيرة الحجم التي برزت بسرعة إلى الواجهة بفضل مزيج من الحيل المعمارية (التقطير/كفاءة الحوسبة أثناء الاستدلال) وادعاءات أداء جريئة. لقد شجّع الكود العام للعائلة ووثائقها على تبنٍ سريع وتجارب واسعة من مطوّرين تابعين لجهات خارجية، ما أحدث موجات في الأسواق ودوائر السياسات حول ما إذا كانت حدود الذكاء الاصطناعي المتقدّمة ستظل مرتبطة ارتباطًا وثيقًا بوحدات GPU باهظة وعالية الأداء أم ستنفتح على مناهج جديدة أقل اعتمادًا على العتاد.

لماذا يهم سؤال العتاد؟ بالنسبة إلى مورّدي الرقائق (NVIDIA وAMD ومسابك تايوان)، ومزوّدي السحابة (AWS وAzure وGoogle Cloud)، وواضعي السياسات، فإن بنية DeepSeek وعمليات نشرها العملية تحدّد مدى استمرار تدفق الطلب إلى سوق وحدات GPU، وما إذا كانت ضوابط التصدير ستؤتي مفعولها، وما إذا كانت تصاميم ذاكرة أو حوسبة جديدة يمكن أن تزيح اللاعبين الحاليين بشكل ملموس. وقد أسهمت التقارير الأخيرة التي تربط كفاءة DeepSeek بانخفاض الحاجة إلى وحدات GPU جزئيًا في تقلبات أسعار أسهم صانعي شرائح الذكاء الاصطناعي وأشعلت نقاشًا حول ضرورة مواصلة شراء مزارع وحدات GPU أكبر فأكبر.

هل تعمل DeepSeek على وحدات GPU من NVIDIA؟

الإجابة المختصرة: نعم — يمكن لـ DeepSeek أن تعمل على وحدات GPU من NVIDIA وهي تفعل ذلك بالفعل، وقد نشرت NVIDIA بنفسها نتائج قياس وتحسينات موجّهة لنماذج DeepSeek. تشمل الأدلة مستودع DeepSeek العام وأطر العمل الداعمة التي تدعم صراحة عتاد NVIDIA، إضافة إلى معايير vendor تظهر تحقيق معدلات استدلال قياسية على أنظمة NVIDIA.

كيف تُظهر الشفرة والأدوات دعم NVIDIA؟

يتضمّن المستودع الرسمي لـ DeepSeek وسلاسل الأدوات الداعمة إشارات صريحة لكلٍّ من خلفيات وحدات GPU التابعة لـ NVIDIA وغير التابعة لها. تُظهر توصيات الاستدلال الخاصة بالمشروع وأدوات المجتمع توافقًا مع بيئات تشغيل مبنية على CUDA، مع دعم بدائل (OpenCL/ROCm أو استخدام CPU) حيثما أمكن. وجود مسارات تحسين وإرشادات README لاستهداف أجهزة CUDA دليل مباشر على أن وحدات GPU من NVIDIA تُعد هدف نشر من الدرجة الأولى للممارسين الذين يشغّلون نماذج DeepSeek.

الموقف الرسمي: عنقود H800

وفقًا للتقرير التقني الرسمي لـ DeepSeek، تم تدريب DeepSeek-V3 على عنقود يضم 2,048 وحدة GPU من نوع Nvidia H800. وهذا تمييز بالغ الأهمية. إذ يُعد H800 إصدارًا «متوافقًا مع العقوبات» من الشريحة القوية H100 (معمارية Hopper)، صُمّم خصيصًا من Nvidia ليتوافق مع ضوابط التصدير الصادرة عن وزارة التجارة الأميركية إلى الصين.

وبينما يحتفظ H800 بنفس القدرة الحاسوبية الخام (أداء FP8/FP16 على Tensor Cores) الموجودة في H100، فإن عرض نطاق التوصيل البيني لديه — أي سرعة تواصل الشرائح — مخفّض بشكل كبير، إلى نحو 400 غيغابايت/ث مقارنةً بـ 900 غيغابايت/ث في H100. في عناقيد تدريب الذكاء الاصطناعي الضخمة، يكون هذا العرض غالبًا عنق الزجاجة، ما يجعل إنجاز DeepSeek أكثر إرباكًا وإعجابًا بنظر المراقبين في الغرب.

كيف درّبت DeepSeek الإصدار V3 بكفاءة عالية؟

إن الرقم الأكثر إدهاشًا في إصدار DeepSeek-V3 ليس درجات القياس، بل بطاقة السعر: 5.58 مليون دولار لتكاليف التدريب. للمقارنة، تُقدّر تكلفة تدريب GPT-4 بأكثر من 100 مليون دولار. كيف حدث هذا الخفض بمقدار مرتبة كاملة على عتاد H800 «الأضعف»؟

ابتكار معماري: مزيج الخبراء (MoE)

تستخدم DeepSeek بنية مزيج الخبراء MoE. على خلاف النموذج الكثيف (مثل Llama 3) حيث تكون كل المعلمات فعّالة لكل رمز يُولّد، يقسّم نموذج MoE الشبكة إلى «خبراء» أصغر.

إجمالي المعلمات: 671 مليار
المعلمات النشطة: 37 مليار

لكل قطعة بيانات، ينشئ النموذج مسارًا ديناميكيًا يفعّل جزءًا صغيرًا فقط من «قدراته الذهنية» الإجمالية. هذا يقلّل بشكل كبير عمليات الفاصلة العائمة (FLOPs) المطلوبة، ما يسمح لـ H800 بمعالجة البيانات أسرع رغم قيود عرض النطاق.

تجاوز عنق الزجاجة في عرض النطاق باستخدام MLA

لمواجهة سرعة التوصيل البيني المخفّضة في H800، قدّمت DeepSeek آلية الانتباه الكامن متعدّد الرؤوس (MLA). تستهلك آليات الانتباه القياسية (تخزين المفاتيح/القيم KV) قدرًا هائلًا من عرض النطاق للذاكرة. يقوم MLA بضغط مخزن المفاتيح والقيم (KV) إلى متجه كامن، ما يقلّل بشكل ملحوظ البصمة الذاكرية وكمية البيانات التي يجب نقلها بين وحدات GPU.

هذا القرار المعماري «يتلاعب» بقيود العتاد فعليًا. عبر تقليل حركة البيانات المطلوبة، يصبح التوصيل البيني الأبطأ في H800 أقل ضررًا.

قناة مزدوجة للاتصال والتراكب

كتب فريق هندسة DeepSeek نوى CUDA مخصّصة لإدارة الاتصال. وقد نفّذوا استراتيجية «قناتين» تتيح تراكبًا كاملًا بين الحوسبة والاتصال. بينما تنفّذ أنوية GPU الحسابات، تُنقل دفعة البيانات التالية في الخلفية. يضمن ذلك ألّا تبقى أنوية GPU الثمينة عاطلة تنتظر البيانات، ما يستخلص أقصى أداء من العتاد.

هل تتأثر DeepSeek بضوابط التصدير الأميركية؟

البعد الجيوسياسي لاستخدام DeepSeek للعتاد معقّد بقدر الهندسة نفسها.

لعبة «القط والفأر»

تعمل الحكومة الأميركية، وتحديدًا وزارة التجارة، على تشديد الخناق على صادرات شرائح الذكاء الاصطناعي إلى الصين. كانت وحدات H800 التي استخدمتها DeepSeek قانونية الشراء في 2023، لكنها حُظرت لاحقًا في تحديثات أواخر 2023 لضوابط التصدير.

هذا يضع DeepSeek في موقف دقيق. من المرجّح أن يكون عنقودها الحالي «أصلًا سابقًا» تم شراؤه قبل الحظر. وسيكون توسيعه لنسخة مستقبلية «DeepSeek-V4» أو «V5» أصعب بكثير إذا لم تتمكّن قانونيًا من الحصول على مزيد من شرائح Nvidia. وقد غذّى ذلك شائعات بأنهم قد ينظرون في سلاسل توريد بديلة أو شرائح محلية صينية (مثل سلسلة Ascend من Huawei)، رغم أن Nvidia لا تزال «المعيار الذهبي» لاستقرار التدريب.

تحقيقات الحكومة الأميركية

تُحقّق الولايات المتحدة فيما إذا كانت DeepSeek قد تجاوزت الضوابط للحصول على شرائح مقيّدة. إن ظهرت أدلة على استخدام H100 تم الحصول عليها بطرق غير مشروعة، فقد يؤدي ذلك إلى عقوبات صارمة على الشركة ومورديها. أمّا إذا كانت قد حقّقت هذا الأداء على وحدات H800 المتوافقة حقًا، فهذا يوحي بأن ضوابط التصدير الأميركية قد تكون أقل فعالية في إبطاء تقدم الذكاء الاصطناعي الصيني مما كان يأمل صانعو السياسات — ما قد يفرض إعادة التفكير في استراتيجية «حصار العتاد».

ما متطلبات العتاد للمستخدمين؟

بالنسبة للمطورين ومجمّعي واجهات البرمجة (مثل CometAPI)، فعتاد التدريب أقل أهمية من عتاد الاستدلال — أي ما تحتاجه لتشغيل النموذج.

واجهة DeepSeek API أم الاستضافة المحلية

نظرًا للحجم الهائل لـ DeepSeek-V3 (671 مليار معلمة)، فإن تشغيل النموذج الكامل محليًا مستحيل لمعظم المستخدمين. فهو يتطلب نحو 1.5 تيرابايت من ذاكرة الفيديو (VRAM) بدقة FP16، أو حوالي 700 غيغابايت مع التكميم 8-بت. وهذا يستلزم عقدة خادم مزودة بـ 8× H100 أو A100.

ومع ذلك، فإن إصدارات DeepSeek-R1-Distill (المبنية على Llama وQwen) أصغر بكثير ويمكن تشغيلها على عتاد استهلاكي.

شفرة: تشغيل DeepSeek محليًا

فيما يلي مثال Python احترافي يوضح كيفية تحميل نسخة مكمّمة من نموذج مُقطَّر من DeepSeek باستخدام مكتبة transformers. هذا مُحسّن لجهاز مزوّد ببطاقة Nvidia RTX 3090 أو 4090 واحدة.

python

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

# Configuration for 4-bit quantization to fit on consumer GPUs
# Requires 'bitsandbytes' and 'accelerate' libraries
model_name = "deepseek-ai/DeepSeek-R1-Distill-Llama-8B"

print(f"Loading {model_name} with 4-bit quantization...")

try:
    tokenizer = AutoTokenizer.from_pretrained(model_name)
    
    model = AutoModelForCausalLM.from_pretrained(
        model_name,
        torch_dtype=torch.float16,
        device_map="auto",
        load_in_4bit=True,  # 4-bit quantization for memory efficiency
        bnb_4bit_compute_dtype=torch.float16
    )
    
    print("Model loaded successfully.")

    # Example Inference Function
    def generate_thought(prompt):
        inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
        
        outputs = model.generate(
            **inputs,
            max_new_tokens=512,
            temperature=0.6,
            top_p=0.9
        )
        
        return tokenizer.decode(outputs[0], skip_special_tokens=True)

    # Test the model
    user_query = "Explain the significance of FP8 training in AI."
    response = generate_thought(user_query)
    
    print("\n--- Model Response ---\n")
    print(response)

except Exception as e:
    print(f"An error occurred: {e}")

شفرة: تكامل DeepSeek API

بالنسبة للنموذج الكامل ذو 671 مليار معلمة، يُعد استخدام الواجهة API النهج القياسي. تتوافق واجهة DeepSeek API بالكامل مع SDK الخاص بـ OpenAI، ما يجعل الانتقال سلسًا للمطورين.

إذا كنت تبحث عن Deepseek API أرخص، فإن CometAPI خيار جيد.

from openai import OpenAI
import os

# Initialize the client with DeepSeek's base URL and your API key
# Ensure DEEPSEEK_API_KEY is set in your environment variables
client = OpenAI(
    api_key=os.getenv("cometapi_API_KEY"), 
    base_url="https://api.cometapi.com"
)
def query_deepseek_reasoner(prompt):
    """
    Queries the DeepSeek-R1 (Reasoner) model.
    Note: The reasoner model outputs a 'Chain of Thought' before the final answer.
    [...](asc_slot://start-slot-15)"""
    try:
        response = client.chat.completions.create(
            model="deepseek-reasoner",  # Specific model tag for R1
            messages=[
                {"role": "system", "content": "You are a helpful AI expert."},
                {"role": "user", "content": prompt},
            ],
            stream=False
        )
        
        # Extracting the reasoning content (if available) and the final content
        reasoning = response.choices[0].message.reasoning_content
        answer = response.choices[0].message.content
        
        return reasoning, answer

    except Exception as e:
        return None, f"API Error: {e}"

# Example Usage
prompt_text = "Analyze the trade-offs between H100 and H800 GPUs for MoE models."
chain_of_thought, final_answer = query_deepseek_reasoner(prompt_text)

print(f"--- Chain of Thought ---\n{chain_of_thought[:500]}...\n") # Preview first 500 chars
print(f"--- Final Answer ---\n{final_answer}")

هل سينهي نجاح DeepSeek احتكار Nvidia؟

هذا هو السؤال بمليارات الدولارات الذي تسبب في تراجع سهم Nvidia. إذا كان بإمكان مختبر إنتاج نتائج في الصدارة على عتاد «مقيّد» أو أقدم عبر برمجيات ذكية (MoE وMLA)، فهل يحتاج العالم حقًا إلى إنفاق تريليونات على أحدث شرائح H100 وBlackwell؟

جدل «البرمجيات مقابل العتاد»

لقد أثبتت DeepSeek أن تحسين البرمجيات بديل ممكن للقوة الغاشمة للعتاد. عبر تحسين «التصميم التشاركي بين النموذج والعتاد»، حققوا نتائج أفضل من منافسين اعتمدوا ببساطة على مزيد من الحوسبة.

ومع ذلك، لا يعني ذلك نهاية نفوذ Nvidia.

في الواقع، قد يعزّز هيمنتها. فلا تزال DeepSeek تستخدم أنوية CUDA من Nvidia؛ لقد استخدموها فقط بكفاءة أعلى. «الخندق» الذي تملكه Nvidia ليس مجرد سرعة الشريحة، بل منظومة CUDA البرمجية. مهندسو DeepSeek بارعون في CUDA، يكتبون نوى منخفضة المستوى لتجاوز قيود العتاد. هذا الاعتماد على رزمة برمجيات Nvidia يرسّخ موقع الشركة، حتى لو انخفض عدد الشرائح المطلوبة لكل نموذج قليلًا بفعل مكاسب الكفاءة.

الخلاصة

أفضل قراءة حالية للسجل العام تفيد بأن DeepSeek استخدمت وحدات GPU من NVIDIA بطرق جوهرية (في التدريب والاستدلال)، كما استكشفت خيارات عتاد محلية بديلة. وقد دمجت NVIDIA نماذج DeepSeek في منظومة NIM للاستدلال ونشرت ادعاءات أداء وأدوات للمطورين لتشغيل تلك النماذج بكفاءة على منصاتها. تكشف محاولات الانتقال الكامل إلى المسرّعات المحلية عن صعوبة استبدال منظومة عتاد-برمجيات ناضجة بين ليلة وضحاها: العتاد وحده غير كافٍ — فالمكدس البرمجي وروابط التوصيل وأدوات الإنتاج بنفس القدر من الحسم.

يمكن للمطورين الوصول إلى واجهات Deepseek API مثل Deepseek V3.2 عبر CometAPI، والنماذج الأحدث مدرجة حتى تاريخ نشر المقال. للبدء، استكشف قدرات النموذج في Playground واطّلع على API guide للحصول على تعليمات مفصلة. قبل الوصول، يُرجى التأكد من تسجيل الدخول إلى CometAPI والحصول على مفتاح API. يوفّر CometAPI سعرًا أقل بكثير من السعر الرسمي لمساعدتك على التكامل.

استخدم CometAPI للوصول إلى نماذج chatgpt، وابدأ التسوق!

جاهز للانطلاق؟ → سجّل للحصول على deepseek API اليوم!

إذا أردت المزيد من النصائح والأدلة والأخبار حول الذكاء الاصطناعي، تابعنا على VK، وX، وDiscord!