Использует ли DeepSeek NVIDIA?

За последний год DeepSeek — китайский AI‑стартап из Ханчжоу — громко заявил о себе, выпустив высокопроизводительные модели с открытыми весами и одновременно заявив о кардинально более низкой стоимости обучения по сравнению с конкурентами. Это породило один простой, но значимый технический вопрос: курсивом выделенный вопрос: использует ли DeepSeek аппаратное и программное обеспечение NVIDIA? Короткий ответ: да — модели и сервисы DeepSeek имеют очевидные связи с оборудованием и ПО NVIDIA на этапах обучения, развёртывания и стороннего дистрибута. Но история тоньше: связь тянется от GPU, указанных в обучающих логах, до микросервисной упаковки NVIDIA и вариантов развёртывания «вниз по цепочке» и соседствует с дискуссиями об алгоритмических приёмах (например, дистилляция и масштабирование), которые изменили потребность в количестве GPU.

Что такое DeepSeek и почему важно, «кто её питает»?

DeepSeek — это открытая семейство языковых/рационализирующих моделей, которое быстро вышло в публичное поле благодаря сочетанию архитектурных приёмов (дистилляция/«эффективность вычислений во время вывода») и смелых заявлений о производительности. Публичный код и документация семейства стимулировали быстрое принятие и эксперименты со стороны сторонних разработчиков, вызвав волну на рынках и в политических кругах относительно того, сохранится ли лидерская зона ИИ жёстко привязанной к дорогим высокопроизводительным GPU или же откроется для новых, менее «железоёмких» подходов.

Почему вопрос про «железо» важен? Для производителей чипов (NVIDIA, AMD, тайваньских фабрик), для облачных провайдеров (AWS, Azure, Google Cloud) и для регуляторов архитектура DeepSeek и практики её развёртывания определяют, сколько спроса продолжит перетекать на рынок GPU, насколько действенны будут экспортные ограничения и смогут ли новые решения по памяти или вычислениям реально потеснить нынешних аппаратных «инкамбентов». Недавние сообщения, связывающие эффективность DeepSeek с сокращением потребности в GPU, отчасти стали причиной волатильности акций производителей AI‑чипов и подогрели спор о том, обязана ли индустрия и дальше скупать всё большие фермы GPU.

Запускается ли DeepSeek на GPU NVIDIA?

Короткий ответ: да — DeepSeek может и действительно запускается на GPU NVIDIA, и сама NVIDIA публиковала бенчмарки и оптимизации, нацеленные на модели DeepSeek. Доказательства включают публичный репозиторий DeepSeek и «даунстрим»‑фреймворки, явно поддерживающие оборудование NVIDIA, а также вендорские бенчмарки с рекордной пропускной способностью вывода на системах NVIDIA.

Как код и инструменты демонстрируют поддержку NVIDIA?

Официальный репозиторий DeepSeek и сопутствующие тулчейны содержат явные ссылки как на бэкенды NVIDIA, так и на ненвидиевские. Рекомендации по инференсу и инструменты сообщества показывают совместимость с рантаймами на базе CUDA при одновременной поддержке альтернатив (OpenCL/ROCm или CPU‑фолбэки), где это возможно. Наличие путей оптимизации и инструкции в README для целевых устройств CUDA — прямое свидетельство того, что GPU NVIDIA являются «первоклассной» целью развёртывания для практиков, запускающих модели DeepSeek.

Официальная позиция: кластер H800

Согласно официальному техническому отчёту DeepSeek, обучение DeepSeek‑V3 проводилось на кластере из 2,048 Nvidia H800 GPUs. Это важное уточнение. H800 — «санкционно‑совместимая» версия мощного H100 (архитектура Hopper), специально разработанная Nvidia для соответствия экспортному контролю Минторга США для Китая.

Хотя H800 сохраняет ту же «сырую» вычислительную мощность (производительность тензорных ядер FP8/FP16), что и H100, его пропускная способность межсоединений (скорость обмена между чипами) существенно урезана — примерно до 400 GB/s против 900 GB/s у H100. В крупных обучающих кластерах ИИ эта полоса часто является узким местом, что делает достижение DeepSeek ещё более интригующим и впечатляющим для западных наблюдателей.

Как DeepSeek обучил V3 настолько эффективно?

Самая поразительная цифра в релизе DeepSeek‑V3 — не её бенчмарки, а ценник: $5.58 million на обучение. Для сравнения, стоимость обучения GPT‑4 оценивается более чем в $100 million. Как возможно столь кратное снижение на «урезанном» H800?

Архитектурное новшество: Mixture‑of‑Experts (MoE)

DeepSeek использует архитектуру Mixture‑of‑Experts (MoE). В отличие от плотной модели (как Llama 3), где каждый параметр активен для каждого генерируемого токена, MoE разбивает сеть на меньшие «эксперты».

Общее число параметров: 671 Billion
Активные параметры: 37 Billion

Для каждого обрабатываемого фрагмента данных модель прокладывает динамический маршрут, активируя лишь малую долю «мозга». Это резко снижает число операций с плавающей точкой (FLOPs), позволяя H800 быстрее обрабатывать данные несмотря на ограничения по пропускной способности.

Преодоление узкого места по полосе пропускания с помощью MLA

Чтобы компенсировать урезанную скорость межсоединений H800, DeepSeek представил Multi‑head Latent Attention (MLA). Стандартные механизмы внимания (кэширование Key‑Value) потребляют колоссальную пропускную способность памяти. MLA сжимает этот KV‑кэш в латентный вектор, заметно уменьшая как объём памяти, так и объём данных, которые требуется перегонять между GPU.

Этот архитектурный выбор фактически «взламывает» аппаратные ограничения. Поскольку требуется меньше перемещений данных, более медленный межсоединительный канал H800 становится меньшей проблемой.

Dual‑Pipe‑коммуникации и оверлап

Инженеры DeepSeek написали кастомные CUDA‑ядра для управления коммуникациями. Они реализовали стратегию Dual‑Pipe, которая идеально перекрывает вычисления и обмен данными. Пока GPU‑ядра «жуют» вычисления, следующая порция данных уже передаётся в фоне. Это гарантирует, что дорогие GPU‑ресурсы не простаивают в ожидании данных, выжимая максимум из «железа».

Затрагивают ли DeepSeek экспортные ограничения США?

Геополитическое измерение использования «железа» DeepSeek столь же сложно, как и инженерное.

«Игра в кошки‑мышки»

Правительство США, в частности Министерство торговли, постепенно ужесточает экспорт AI‑чипов в Китай. H800, который использовал DeepSeek, можно было легально закупать в 2023 году, но он был запрещён в поздних обновлениях контроля экспорта 2023‑го.

Это ставит DeepSeek в шаткое положение. Их текущий кластер, вероятно, «унаследованный» актив, купленный до запрета. Масштабирование для возможных «DeepSeek‑V4» или «V5» будет значительно сложнее, если они не смогут легально приобретать новые чипы Nvidia. Это подпитывает слухи, что компания изучает альтернативные цепочки поставок или отечественные китайские чипы (например, серия Ascend от Huawei), хотя Nvidia остаётся золотым стандартом стабильности обучения.

Расследования правительства США

США активно проверяют, обходил ли DeepSeek контроль, чтобы получить ограниченные чипы. Если всплывут доказательства использования нелегально добытых H100, это может привести к серьёзным санкциям против компании и её поставщиков. Однако если заявленная производительность действительно достигнута на «комплаентных» H800, это может означать, что экспортный контроль США менее эффективен в замедлении прогресса китайского ИИ, чем надеялись политики — что вынудит переосмыслить стратегию «аппаратной блокады».

Каковы аппаратные требования для пользователей?

Для разработчиков и агрегаторов API (как CometAPI) «обучательное» железо менее важно, чем инференс‑железо — то, что нужно для запуска модели.

DeepSeek API против локального хостинга

Из‑за гигантского размера DeepSeek‑V3 (671B параметров) запуск полной модели локально невозможен для большинства. Требуется примерно 1.5 TB видеопамяти в точности FP16 или около 700 GB при 8‑битной квантизации. Это предполагает узел на 8x H100 или A100.

Однако версии DeepSeek‑R1‑Distill (на базе Llama и Qwen) значительно меньше и могут работать на потребительском железе.

Код: локальный запуск DeepSeek

Ниже приведён профессиональный пример на Python, показывающий, как загрузить квантованную версию дистиллированной модели DeepSeek с использованием библиотеки transformers. Он оптимизирован для машины с одной Nvidia RTX 3090 или 4090.

python

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

# Configuration for 4-bit quantization to fit on consumer GPUs
# Requires 'bitsandbytes' and 'accelerate' libraries
model_name = "deepseek-ai/DeepSeek-R1-Distill-Llama-8B"

print(f"Loading {model_name} with 4-bit quantization...")

try:
    tokenizer = AutoTokenizer.from_pretrained(model_name)
    
    model = AutoModelForCausalLM.from_pretrained(
        model_name,
        torch_dtype=torch.float16,
        device_map="auto",
        load_in_4bit=True,  # 4-bit quantization for memory efficiency
        bnb_4bit_compute_dtype=torch.float16
    )
    
    print("Model loaded successfully.")

    # Example Inference Function
    def generate_thought(prompt):
        inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
        
        outputs = model.generate(
            **inputs,
            max_new_tokens=512,
            temperature=0.6,
            top_p=0.9
        )
        
        return tokenizer.decode(outputs[0], skip_special_tokens=True)

    # Test the model
    user_query = "Explain the significance of FP8 training in AI."
    response = generate_thought(user_query)
    
    print("\n--- Model Response ---\n")
    print(response)

except Exception as e:
    print(f"An error occurred: {e}")

Код: интеграция DeepSeek API

Для полной модели на 671B стандартный путь — использовать API. API DeepSeek полностью совместим с OpenAI SDK, что делает миграцию для разработчиков бесшовной.

Если вы ищете более дешёвый Deepseek API, то CometAPI — хороший вариант.

from openai import OpenAI
import os

# Initialize the client with DeepSeek's base URL and your API key
# Ensure DEEPSEEK_API_KEY is set in your environment variables
client = OpenAI(
    api_key=os.getenv("cometapi_API_KEY"), 
    base_url="https://api.cometapi.com"
)
def query_deepseek_reasoner(prompt):
    """
    Queries the DeepSeek-R1 (Reasoner) model.
    Note: The reasoner model outputs a 'Chain of Thought' before the final answer.
    [...](asc_slot://start-slot-15)"""
    try:
        response = client.chat.completions.create(
            model="deepseek-reasoner",  # Specific model tag for R1
            messages=[
                {"role": "system", "content": "You are a helpful AI expert."},
                {"role": "user", "content": prompt},
            ],
            stream=False
        )
        
        # Extracting the reasoning content (if available) and the final content
        reasoning = response.choices[0].message.reasoning_content
        answer = response.choices[0].message.content
        
        return reasoning, answer

    except Exception as e:
        return None, f"API Error: {e}"

# Example Usage
prompt_text = "Analyze the trade-offs between H100 and H800 GPUs for MoE models."
chain_of_thought, final_answer = query_deepseek_reasoner(prompt_text)

print(f"--- Chain of Thought ---\n{chain_of_thought[:500]}...\n") # Preview first 500 chars
print(f"--- Final Answer ---\n{final_answer}")

Положит ли успех DeepSeek конец монополии Nvidia?

Это «вопрос на миллиарды», из‑за которого акции Nvidia просели. Если лаборатория может показывать уровень SOTA на «ограниченном» или более старом железе, используя умное ПО (MoE, MLA), действительно ли миру нужно тратить триллионы на самые новые H100 и Blackwell?

Дебаты «софт против железа»

DeepSeek показал, что оптимизация софта — жизнеспособная альтернатива грубой силе железа. Оптимизируя «совместное проектирование модель‑железо», они добились результатов лучше конкурентов, которые просто бросали больше вычислений в задачу.

Однако это не означает конца для Nvidia.

Фактически это может укрепить их доминирование. DeepSeek всё равно использовал CUDA‑ядра Nvidia, просто делал это эффективнее. «Ров» Nvidia — не только скорость чипа, но и экосистема ПО CUDA. Инженеры DeepSeek — мастера CUDA, пишущие низкоуровневые ядра, чтобы обходить аппаратные ограничения. Эта зависимость от программного стека Nvidia закрепляет позиции компании, даже если объём чипов на модель может слегка снизиться благодаря росту эффективности.

Заключение

Лучшее на сегодня чтение публичных источников таково: DeepSeek как использовал GPU NVIDIA в значимых аспектах (обучение и инференс), так и изучал альтернативные отечественные аппаратные варианты. NVIDIA интегрировала модели DeepSeek в свою экосистему NIM для инференса и опубликовала заявления о производительности и инструменты для эффективного запуска этих моделей на платформах NVIDIA. Попытки полностью перейти на отечественные ускорители показывают, насколько непросто одномоментно заменить зрелую аппаратно‑программную экосистему: одного железа недостаточно — программный стек, межсоединения и продакшн‑инструментарий не менее решающи.

Разработчики могут получить доступ к Deepseek API, например к Deepseek V3.2, через CometAPI; актуальные модели указаны на дату публикации статьи. Для начала изучите возможности модели в Playground и обратитесь к API guide за подробными инструкциями. Перед доступом убедитесь, что вы вошли в CometAPI и получили API‑ключ. CometAPI предлагает цену значительно ниже официальной, чтобы упростить интеграцию.

Используйте CometAPI для доступа к моделям chatgpt, начинайте покупки!

Готовы начать?→ Sign up for deepseek API today !

Если вы хотите узнавать больше советов, гайдов и новостей об ИИ, подписывайтесь на нас в VK, X и Discord!