Действительно ли DeepSeek имеет открытый исходный код?

CometAPI
AnnaJun 2, 2025
Действительно ли DeepSeek имеет открытый исходный код?

DeepSeek, китайский стартап в области искусственного интеллекта, впервые попавший в заголовки новостей со своей моделью рассуждений R1 в начале 2025 года, вызвал бурные дебаты о состоянии искусственного интеллекта с открытым исходным кодом и его более широких последствиях. Хотя основное внимание было сосредоточено на его впечатляющих показателях — конкурирующих моделях таких американских компаний, как OpenAI и Alibaba, — остаются вопросы о том, является ли DeepSeek действительно «открытым исходным кодом» по духу и практике. В этой статье рассматриваются последние разработки, связанные с DeepSeek, исследуются его полномочия в области открытого исходного кода, сравниваются с такими моделями, как GPT-4.1, и оцениваются последствия для глобального ландшафта искусственного интеллекта.

Что такое DeepSeek и как он появился?

Происхождение и амбиции DeepSeek

DeepSeek была основана под названием Hangzhou DeepSeek Artificial Intelligence Basic Technology Research Co., Ltd., а Лян Вэньфэн (также известный как Вэньфэн Лян) возглавлял ее как главный визионер. Ее этика отличалась от многих стартапов Кремниевой долины: вместо того, чтобы отдавать приоритет быстрой коммерциализации, DeepSeek делал упор на эффективность исследований и рентабельность. К началу 2025 года модель R1 от DeepSeek уже привлекла внимание за соответствие или превышение ведущих эталонов в области математических рассуждений и генерации кода, несмотря на то, что она была разработана в условиях ограничений экспортного контроля США на высокопроизводительные чипы ИИ.

Прорыв в моделях рассуждений

В январе 2025 года DeepSeek представила R1 по лицензии MIT — разрешительной лицензии с открытым исходным кодом — заявив, что R1 достиг «79.8% Pass@1 на AIME 2024, немного превзойдя OpenAI-o1-1217» и набрав «97.3% на MATH-500, наравне с o1 и превзойдя другие публичные модели». В задачах по кодированию R1 достиг рейтинга Эло 2,029 на Codeforces, превзойдя 96.3% участников-людей, что указывает на то, что модель была не просто теоретическим упражнением, а высокопроизводительным инструментом, подходящим для реальных приложений.

Используя такие методы, как слои смешения экспертов (MoE) и обучение на более слабых чипах ИИ, что было необходимо из-за торговых ограничений, DeepSeek значительно сократила затраты на обучение. Наблюдатели отметили, что его подход не только бросил вызов предполагаемой зависимости от оборудования высшего уровня, но и послал «ударные волны» по всей отрасли, в результате чего рыночная стоимость Nvidia упала примерно на 600 миллиардов долларов за одну сессию — «крупнейшее падение одной компании в истории фондового рынка США».

Действительно ли DeepSeek имеет открытый исходный код?

Лицензирование и доступность

Модель DeepSeek R1 была выпущена под лицензией MIT на Hugging Face в январе 2025 года, что позволяет неограниченное коммерческое использование, модификацию и распространение весов модели и связанного кода. Этот выбор лицензирования технически классифицирует R1 как проект с открытым исходным кодом, однако на практике возникают нюансы. Хотя веса модели и код вывода общедоступны, она не выпустила полный набор данных для обучения или точные конвейеры обучения. Это упущение поднимает вопросы о том, можно ли ее квалифицировать как «полностью» открытый исходный код в том же духе, что и проекты, которые разделяют детали сквозной воспроизводимости. Например, хотя любой может загрузить и настроить R1, он не может воспроизвести исходную процедуру обучения DeepSeek без доступа к запатентованным данным и конфигурациям кластера (например, кластеры Fire-Flyer, использующие 5,000 графических процессоров A100).

Прозрачность данных обучения

Сторонники открытого исходного кода часто подчеркивают не только доступность весов и кода модели, но и прозрачность в отношении данных обучения, сценариев предварительной обработки и оценочных показателей. В этом случае компания поделилась подробностями высокого уровня, такими как использование «синтетических данных, сгенерированных R1» для тонкой настройки очищенных вариантов и включение функций вознаграждения на основе правил для R1-Zero, но утаила подробности о происхождении данных и процессах курирования. Без этой информации внешние исследователи не могут полностью проверить потенциальные предубеждения, загрязнение данных или непреднамеренные утечки конфиденциальной информации, оставляя открытыми вопросы об этических и безопасных последствиях модели.

Участие сообщества и форки

С момента своего выпуска с открытым исходным кодом DeepSeek-R1 привлек форки и эксперименты, проводимые сообществом, на таких платформах, как Hugging Face. Разработчики сообщили об адаптации меньших «дистиллированных» вариантов (в диапазоне от 1.5 млрд до 70 млрд параметров) для работы на товарном оборудовании, таком как потребительские графические процессоры, тем самым расширяя доступ. Однако до сих пор не было полностью независимой задачи воспроизвести R1 с нуля, отчасти из-за огромных требуемых вычислительных ресурсов и отсутствия общедоступных необработанных наборов данных. В отличие от LLaMA, которая породила несколько попыток воспроизведения официальным сообществом, заявление DeepSeek об «открытом исходном коде» в первую очередь основано на предоставлении весов, а не на обеспечении полной прозрачности исследований под руководством сообщества.

Чем DeepSeek отличается от других моделей ИИ?

Сравнительный анализ с OpenAI o1, o3 и GPT-4.1

Показатели производительности DeepSeek-R1 ставят его в один ряд с моделями рассуждений высшего уровня. Согласно внутренним тестам LiveCodeBench (разработанным Калифорнийским университетом в Беркли, Массачусетским технологическим институтом и Корнеллом), обновленная DeepSeek R1-0528 занимает место чуть ниже OpenAI o4-mini и o3 в генерации кода, но превосходит Grok 3-mini от xAI и Qwen 3 mini от Alibaba. Между тем, GPT-4.1 от OpenAI, выпущенный 14 апреля 2025 года, может похвастаться окном контекста в один миллион токенов и превосходит его в кодировании, следовании инструкциям и задачах с длинным контекстом по сравнению со своим предшественником GPT-4o.

При сравнении R1 с GPT-4.1 выявляется несколько факторов:

  • Тесты производительности кода и математики: R1 набирает 79.8% Pass@1 на AIME 2024 и 97.3% баллов на MATH-500, немного превзойдя o1. GPT-4.1, в свою очередь, набирает ~54.6% по кодированию (SWE-bench Verified) и 72% по задачам с длинным контекстом — показатели, которые, хотя и впечатляют, не сопоставимы напрямую со специализированными тестами рассуждений R1.
  • Контекстное окно: GPT-4.1 поддерживает до миллиона токенов, что позволяет обрабатывать целые книги или длинные кодовые базы за один проход. DeepSeek R1 не соответствует этой длине контекста, вместо этого фокусируясь на эффективности рассуждений и выводов на более коротких входных данных.
  • Эффективность затрат: На Hugging Face стоимость доступа к API R1 на 95% ниже, чем у OpenAI o1, что делает его привлекательным для стартапов и исследователей с ограниченным бюджетом. Базовая цена GPT-4.1 составляет 2 доллара за миллион входных токенов и 8 долларов за миллион выходных токенов, а варианты mini и nano стоят еще дешевле (0.40/1.60 и 0.10/0.40 долларов соответственно). Упрощенные модели DeepSeek могут работать на ноутбуках, что обеспечивает еще один уровень экономии на этапе требований к оборудованию.

Архитектурные различия

Модель DeepSeek R1 использует архитектуру смешанного эксперта (MoE), в которой большие части сети активируются только по мере необходимости, что значительно снижает затраты на вычисления выводов. Эти слои MoE, в сочетании с библиотеками асинхронной связи (например, hfreduce) и фреймворк Fire-Flyer DDP позволяют DeepSeek масштабировать задачи рассуждения на более слабых аппаратных кластерах в условиях торговых ограничений.

Напротив, GPT-4.1 использует плотные слои трансформатора по всей своей сети для обработки контекстного окна в один миллион токенов. Хотя это обеспечивает превосходную производительность для задач с длинным контекстом, оно также требует значительных вычислений для обучения и вывода, отсюда и премиальная позиционируемая цена GPT-4.1 по сравнению с меньшими моделями, такими как GPT-4.1 mini и nano.

Каковы последствия подхода DeepSeek к открытому исходному коду?

Влияние на глобальную конкуренцию в области ИИ

Открытый исходный код DeepSeek подрывает традиционный сценарий Кремниевой долины с его проприетарными моделями и эмбарго на данные. Сделав R1 общедоступным по лицензии MIT, DeepSeek бросил вызов представлению о том, что высокопроизводительный ИИ должен оставаться закрытым или иметь эксклюзивную лицензию. Немедленные последствия были ощутимы: американские технологические гиганты скорректировали цены (например, OpenAI выпустила GPT-4.1 mini и nano по более низким ценам) и ускорили разработку собственных моделей, ориентированных на рассуждения, таких как o4-mini, чтобы сохранить долю рынка. Отраслевые комментаторы назвали появление DeepSeek возможным «моментом Спутника» для американского ИИ, что сигнализирует о смене гегемонистского контроля над основополагающими возможностями ИИ.

Стратегия открытого исходного кода DeepSeek также повлияла на настроения венчурного капитала. В то время как некоторые инвесторы опасались, что поддержка американских фирм ИИ может привести к снижению доходности, если китайские альтернативы с открытым исходным кодом будут распространяться, другие рассматривали это как возможность диверсифицировать глобальное сотрудничество в области исследований ИИ. Венчурный капиталист Марк Андрессен похвалил R1 как «один из самых удивительных и впечатляющих прорывов» и «глубокий дар миру». Между тем, выпуск OpenAI GPT-4.1 в апреле 2025 года можно рассматривать отчасти как контрмеру экономически эффективной модели открытого исходного кода DeepSeek, демонстрирующую, что открытый доступ не должен приносить в жертву передовую производительность.

Проблемы безопасности и конфиденциальности

Несмотря на энтузиазм по поводу демократизации ИИ с открытым исходным кодом, происхождение DeepSeek вызвало тревогу среди защитников конфиденциальности и государственных органов. В январе 2025 года Комиссия по защите личной информации Южной Кореи (PIPC) подтвердила, что ее онлайн-сервис отправлял данные южнокорейских пользователей на серверы ByteDance в Китае, что привело к запрету на загрузку новых приложений до тех пор, пока не будут устранены проблемы с соответствием. Последующая утечка данных в конце января 2025 года раскрыла более миллиона конфиденциальных записей — сообщений чата, ключей API и системных журналов — из-за неправильно настроенной базы данных облачного хранилища, что усилило опасения по поводу методов обеспечения безопасности данных DeepSeek.

Учитывая китайские правила, которые могут заставить компании делиться данными с государственными органами, некоторые западные правительства и предприятия по-прежнему опасаются интегрировать DeepSeek в критически важные рабочие процессы. Хотя DeepSeek предприняла шаги для защиты своей инфраструктуры (например, исправила уязвимую базу данных в течение часа), скептицизм сохраняется относительно потенциальных бэкдоров или неправомерного использования для операций влияния. Wired сообщил, что онлайн-сервис DeepSeek, отправляющий данные в свою родную страну, «может подготовить почву для более тщательного контроля», а регулирующие органы в Европе и США намекнули на более тщательную проверку в рамках GDPR и CCPA.

Влияние на стоимость оборудования и инфраструктуры

Способность DeepSeek обучать и развертывать высокопроизводительные модели рассуждений на неоптимальном оборудовании оказывает волновой эффект на более широкий рынок инфраструктуры ИИ. Демонстрируя, что слои MoE и оптимизированный параллелизм (например, HaiScale DDP) может обеспечить сопоставимую точность рассуждений с полностью плотными моделями, DeepSeek заставил основных поставщиков облачных услуг — Microsoft Azure, AWS и Google Cloud — оценить интеграцию методов оптимизации DeepSeek. Сообщается, что Microsoft и Amazon начали предлагать DeepSeek-R1 как часть своих каталогов услуг ИИ, обслуживая клиентов, ищущих более дешевые альтернативы API GPT-4.1 или o1.

Более того, NVIDIA, исторически доминирующий поставщик GPU, отреагировала на свою эффективность, обусловленную MoE, сделав акцент на специализированном оборудовании (например, GPU с поддержкой HBM3 и топологии NVLink) для сохранения своего конкурентного преимущества. Волатильность цены акций NVIDIA после ее роста подчеркивает, как прорывы в эффективности алгоритмов могут изменить прогнозы спроса на оборудование. Таким образом, даже не представляя фирменное оборудование, DeepSeek косвенно повлиял на дорожную карту будущих ускорителей ИИ.

Что говорит последнее обновление R1-0528 о приверженности DeepSeek принципу открытости?

Технические улучшения в R1-0528

Анонсированное 28 мая 2025 года обновление DeepSeek R1-0528 обещает значительные улучшения в математических рассуждениях, задачах программирования и смягчении галлюцинаций — ошибок в информации, генерируемой ИИ. Хотя DeepSeek описал этот выпуск как «незначительное пробное обновление», сравнительный анализ на UC Berkeley, MIT и LiveCodeBench Корнелла показывает, что R1-0528 работает на уровне моделей OpenAI o3 и o4-mini. Обновление также подтверждает свою прозрачную политику открытого исходного кода, выпуская новые веса и код вывода на Hugging Face вскоре после анонса, подкрепляя свою приверженность разработке, управляемой сообществом, и совместной оптимизации.

Прием и обратная связь от сообщества

Сообщество разработчиков положительно отреагировало на R1-0528, указав на снижение частоты галлюцинаций и улучшение логической согласованности в выходных данных. Обсуждения на таких форумах, как Hugging Face и GitHub, указывают на то, что исследователи ценят ощутимый прирост производительности, не жертвуя при этом вседозволенностью лицензии MIT. Однако некоторые участники выразили обеспокоенность по поводу непрозрачности данных обучения и потенциального влияния государственных директив на тонкую настройку, подчеркнув, что одно только лицензирование с открытым исходным кодом не гарантирует полной прозрачности. Эти диалоги подчеркивают необходимость постоянного взаимодействия с сообществом для обеспечения того, чтобы его дух с открытым исходным кодом трансформировался в проверяемые, заслуживающие доверия системы ИИ.

Выводы

Выход DeepSeek на рынок ИИ с открытым исходным кодом переопределил ожидания в отношении доступности, производительности и экономической эффективности. Хотя его модель R1 технически имеет открытый исходный код по лицензии MIT, отсутствие полных данных обучения и прозрачности конвейера усложняет его классификацию как «полностью» открытого. Тем не менее, его достижения — обучение мощных моделей рассуждений в условиях аппаратных ограничений и обеспечение их широкой доступности — вызвали как волнение, так и осторожное внимание в мировом сообществе ИИ.

Сравнение с OpenAI GPT-4.1 раскрывает нюансированную картину: DeepSeek преуспевает в целевых задачах рассуждения и чувствительных к затратам настройках, тогда как огромное контекстное окно GPT-4.1 и обширное превосходство в тестах делают его выбором для высокопроизводительных корпоративных приложений. Поскольку DeepSeek разрабатывает свою модель R2 и расширяет сотрудничество с поставщиками облачных услуг, его судьба будет зависеть от решения проблем конфиденциальности данных, обеспечения соответствия нормативным требованиям и потенциального принятия еще большей прозрачности в своем исследовательском процессе.

В конечном счете, рост DeepSeek подчеркивает, что ИИ с открытым исходным кодом больше не является теоретическим идеалом, а практической силой, меняющей конкуренцию. Бросая вызов устоявшимся должностным лицам, DeepSeek ускорил цикл инноваций, побуждая как устоявшиеся фирмы, так и новых участников переосмыслить то, как они разрабатывают, лицензируют и развертывают системы ИИ. В этой динамичной среде — где GPT-4.1 устанавливает один эталон, а DeepSeek-R1 — другой — будущее ИИ с открытым исходным кодом выглядит более многообещающим и бурным, чем когда-либо прежде.

Первые шаги

CometAPI предоставляет унифицированный интерфейс REST, который объединяет сотни моделей ИИ — в рамках единой конечной точки, со встроенным управлением ключами API, квотами использования и панелями выставления счетов. Вместо того, чтобы жонглировать несколькими URL-адресами поставщиков и учетными данными, вы указываете своему клиенту базовый URL-адрес и указываете целевую модель в каждом запросе.

Разработчики могут получить доступ к API DeepSeek, такому как DeepSeek-V3 (название модели: deepseek-v3-250324) и Deepseek R1 (название модели: deepseek-r1-0528) Через CometAPI.Для начала изучите возможности модели в Детская Площадка и проконсультируйтесь с API-руководство для получения подробных инструкций. Перед доступом убедитесь, что вы вошли в CometAPI и получили ключ API.

Впервые используете CometAPI? Начать бесплатную пробную версию за 1$ и дайте волю Соре в выполнении самых сложных задач.

Нам не терпится увидеть, что вы создадите. Если что-то не так, нажмите кнопку обратной связи — рассказать нам, что сломалось, — это самый быстрый способ сделать это лучше.

Читать далее

500+ моделей в одном API

Скидка до 20%