O DeepSeek é realmente de código aberto?

CometAPI
AnnaJun 2, 2025
O DeepSeek é realmente de código aberto?

A DeepSeek, startup chinesa de IA que ganhou as manchetes com seu modelo de raciocínio R1 no início de 2025, gerou intenso debate sobre o estado da IA ​​de código aberto e suas implicações mais amplas. Embora grande parte da atenção tenha se concentrado em seu desempenho impressionante — rivalizando com modelos de empresas americanas como OpenAI e Alibaba —, ainda há dúvidas sobre se a DeepSeek é genuinamente "código aberto" em espírito e prática. Este artigo analisa os últimos desenvolvimentos em torno da DeepSeek, explorando suas credenciais de código aberto, comparando-a a modelos como o GPT-4.1 e avaliando suas ramificações para o cenário global da IA.

O que é DeepSeek e como ele surgiu?

Origem e ambição do DeepSeek

A DeepSeek foi fundada sob o nome Hangzhou DeepSeek Artificial Intelligence Basic Technology Research Co., Ltd., com Liang Wenfeng (também conhecido como Wenfeng Liang) liderando o projeto como seu principal visionário. Sua filosofia divergia de muitas startups do Vale do Silício: em vez de priorizar a comercialização rápida, a DeepSeek enfatizava a eficiência da pesquisa e a relação custo-benefício. No início de 2025, o modelo R1 da DeepSeek já havia chamado a atenção por igualar ou superar os principais benchmarks em raciocínio matemático e geração de código, apesar de ter sido desenvolvido sob as restrições dos controles de exportação dos EUA para chips de IA de ponta.

Avanço em Modelos de Raciocínio

Em janeiro de 2025, a DeepSeek revelou o R1 sob uma licença do MIT — uma licença permissiva de código aberto —, alegando que o R1 alcançou "79.8% de aprovação no nível 1 no AIME 2024, superando ligeiramente o OpenAI-o1-1217" e obteve "97.3% de aprovação no MATH-500, igual ao o1 e superando outros modelos públicos". Em tarefas de codificação, o R1 alcançou uma classificação Elo de 2,029 no Codeforces, superando 96.3% dos participantes humanos, indicando que o modelo não era apenas um exercício teórico, mas uma ferramenta de alto desempenho adequada para aplicações do mundo real.

Ao alavancar técnicas como camadas de mistura de especialistas (MoE) e treinamento em chips de IA mais fracos — exigidos por restrições comerciais — a DeepSeek reduziu drasticamente os custos de treinamento. Observadores notaram que sua abordagem não apenas desafiou a suposta dependência de hardware de ponta, mas também provocou "ondas de choque" no setor, fazendo com que o valor de mercado da Nvidia caísse aproximadamente US$ 600 bilhões em uma única sessão — "a maior queda de uma única empresa na história do mercado de ações dos EUA".

O DeepSeek é realmente de código aberto?

Licenciamento e Disponibilidade

O modelo R1 do DeepSeek foi lançado sob a Licença MIT no Hugging Face em janeiro de 2025, permitindo o uso comercial irrestrito, modificação e redistribuição dos pesos do modelo e código associado. Essa escolha de licenciamento classifica tecnicamente o R1 como um projeto de código aberto, mas na prática surgem nuances. Embora os pesos do modelo e o código de inferência estejam disponíveis publicamente, ele não divulgou o conjunto de dados de treinamento completo ou os pipelines de treinamento precisos. Essa omissão levanta questões sobre se ele se qualifica como "totalmente" de código aberto no mesmo espírito dos projetos que compartilham detalhes de reprodutibilidade de ponta a ponta. Por exemplo, embora qualquer pessoa possa baixar e ajustar o R1, não pode replicar o procedimento de treinamento original do DeepSeek sem acesso aos dados proprietários e às configurações de cluster (por exemplo, os clusters Fire-Flyer usando 5,000 GPUs A100).

Transparência dos dados de treinamento

Os puristas do código aberto frequentemente enfatizam não apenas a disponibilidade de pesos e código do modelo, mas também a transparência em relação aos dados de treinamento, scripts de pré-processamento e benchmarks de avaliação. Em seu caso, a empresa compartilhou detalhes de alto nível – como o uso de "dados sintéticos gerados pelo R1" para ajustar variantes destiladas e a incorporação de funções de recompensa baseadas em regras para o R1-Zero – mas omitiu detalhes sobre a procedência dos dados e os processos de curadoria. Sem essas informações, pesquisadores externos não podem auditar completamente possíveis vieses, contaminação de dados ou vazamentos não intencionais de privacidade, deixando em aberto questões sobre as implicações éticas e de segurança do modelo.

Envolvimento da Comunidade e Forks

Desde seu lançamento em código aberto, o DeepSeek-R1 atraiu bifurcações e experimentos conduzidos pela comunidade em plataformas como a Hugging Face. Desenvolvedores relataram a adaptação de variantes menores "destiladas" (variando de 1.5 bilhão a 70 bilhões de parâmetros) para execução em hardware comum, como GPUs de consumo, ampliando assim o acesso. No entanto, ainda não houve um desafio totalmente independente para reproduzir o R1 do zero, em parte devido aos enormes recursos computacionais necessários e à ausência de conjuntos de dados brutos compartilhados publicamente. Em contraste com o LLaMA, que gerou múltiplos esforços de reprodução oficiais da comunidade, a alegação de "código aberto" do DeepSeek depende principalmente da disponibilização de pesos, em vez de permitir total transparência na pesquisa liderada pela comunidade.

Como o DeepSeek se compara a outros modelos de IA?

Comparação com OpenAI o1, o3 e GPT-4.1

As métricas de desempenho do DeepSeek-R1 o posicionam entre os principais modelos de raciocínio. De acordo com benchmarks internos do LiveCodeBench (desenvolvido pela UC Berkeley, MIT e Cornell), o R1-0528 atualizado do DeepSeek está logo abaixo do o4-mini e do o3 da OpenAI em geração de código, mas supera o Grok 3-mini da xAI e o Qwen 3 mini da Alibaba. Enquanto isso, o GPT-4.1 da OpenAI, lançado em 14 de abril de 2025, possui uma janela de contexto de um milhão de tokens e se destaca em codificação, acompanhamento de instruções e tarefas de contexto longo em comparação com seu antecessor, o GPT-4o.

Ao comparar R1 com GPT-4.1, vários fatores emergem:

  • Desempenho em benchmarks de código e matemática: O R1 atinge 79.8% de aprovação no AIME 1 e 2024% em MATH-97.3, superando ligeiramente o500. O GPT-1, por sua vez, atinge uma estimativa de ~4.1% em codificação (verificado pelo SWE-bench) e 54.6% em tarefas de contexto longo — métricas que, embora impressionantes, não são diretamente comparáveis ​​aos benchmarks de raciocínio especializado do R72.
  • Janela de contexto: O GPT-4.1 suporta até um milhão de tokens, permitindo processar livros inteiros ou bases de código extensas em uma única passagem. O R1 do DeepSeek não corresponde a esse contexto de comprimento, concentrando-se, em vez disso, na eficiência de raciocínio e inferência em entradas mais curtas.
  • Eficiência de custos: No Hugging Face, o acesso à API do R1 custa até 95% menos que o o1 da OpenAI, tornando-o atraente para startups e pesquisadores com orçamentos limitados. O preço base do GPT-4.1 é de US$ 2 por milhão de tokens de entrada e US$ 8 por milhão de tokens de saída, com variantes mini e nano com preços ainda mais baixos (US$ 0.40/US$ 1.60 e US$ 0.10/US$ 0.40, respectivamente). Os modelos destilados do DeepSeek podem ser executados em laptops, oferecendo outro nível de economia de custos na fase de requisitos de hardware.

Diferenças arquitetônicas

O modelo R1 da DeepSeek utiliza uma arquitetura de mistura de especialistas (MoE), na qual grandes porções da rede são ativadas apenas quando necessário, reduzindo significativamente os custos de computação de inferência. Essas camadas de MoE, combinadas com bibliotecas de comunicação assíncrona (por exemplo, hfreduce) e a estrutura Fire-Flyer DDP permitem que o DeepSeek dimensione tarefas de raciocínio em clusters de hardware mais fracos sob restrições comerciais.

Em contraste, o GPT-4.1 utiliza camadas de transformadores densas em toda a sua rede para lidar com a janela de contexto de um milhão de tokens. Embora isso leve a um desempenho superior em tarefas de contexto longo, também requer computação substancial para treinamento e inferência, daí o preço premium do GPT-4.1 em relação a modelos menores, como o GPT-4.1 mini e o nano.

Quais são as implicações da abordagem de código aberto do DeepSeek?

Impacto na competição global de IA

O lançamento de código aberto do DeepSeek contraria o manual tradicional do Vale do Silício de modelos proprietários e embargos de dados. Ao disponibilizar o R1 publicamente sob uma licença do MIT, o DeepSeek desafiou a noção de que a IA de alto desempenho deve permanecer fechada ou licenciada exclusivamente. As consequências imediatas foram palpáveis: gigantes da tecnologia dos EUA ajustaram os preços (por exemplo, a OpenAI lançou o GPT-4.1 mini e nano a custos mais baixos) e aceleraram o desenvolvimento de seus próprios modelos centrados no raciocínio, como o o4-mini, para manter a participação de mercado. Comentaristas do setor rotularam o surgimento do DeepSeek como um possível "momento Sputnik" para a IA dos EUA, sinalizando uma mudança no controle hegemônico sobre as capacidades fundamentais da IA.

A estratégia de código aberto da DeepSeek também influenciou o sentimento do capital de risco. Enquanto alguns investidores temiam que o apoio a empresas americanas de IA pudesse gerar retornos decrescentes se as alternativas chinesas de código aberto proliferassem, outros viam isso como uma oportunidade para diversificar as colaborações globais em pesquisa de IA. O capitalista de risco Marc Andreessen elogiou o R1 como "um dos avanços mais incríveis e impressionantes" e "um presente profundo para o mundo". Enquanto isso, o lançamento do GPT-4.1 da OpenAI em abril de 2025 pode ser visto em parte como uma contramedida ao modelo de código aberto econômico da DeepSeek, demonstrando que o acesso aberto não precisa sacrificar o desempenho de ponta.

Preocupações de segurança e privacidade

Apesar do entusiasmo com a democratização da IA ​​de código aberto, a origem do DeepSeek levantou suspeitas entre defensores da privacidade e agências governamentais. Em janeiro de 2025, a Comissão de Proteção de Informações Pessoais (PIPC) da Coreia do Sul confirmou que seu serviço online estava enviando dados de usuários sul-coreanos para servidores da ByteDance na China, o que levou à proibição de novos downloads de aplicativos até que problemas de conformidade fossem resolvidos. Uma violação de dados subsequente no final de janeiro de 2025 expôs mais de um milhão de entradas confidenciais — mensagens de bate-papo, chaves de API e logs do sistema — devido a um banco de dados de armazenamento em nuvem mal configurado, exacerbando as preocupações sobre as práticas de segurança de dados do DeepSeek.

Dadas as regulamentações chinesas que podem obrigar empresas a compartilhar dados com autoridades estatais, alguns governos e empresas ocidentais permanecem cautelosos quanto à integração do DeepSeek em fluxos de trabalho críticos. Embora o DeepSeek tenha tomado medidas para proteger sua infraestrutura (por exemplo, corrigindo o banco de dados exposto em até uma hora), o ceticismo persiste quanto a possíveis backdoors ou uso indevido para operações de influência. A Wired relatou que o serviço online DeepSeek, que envia dados para seu país de origem, "pode ​​abrir caminho para um escrutínio mais rigoroso", e órgãos reguladores na Europa e nos EUA sugeriram uma análise mais aprofundada sob as estruturas GDPR e CCPA.

Influência nos custos de hardware e infraestrutura

A capacidade do DeepSeek de treinar e implantar modelos de raciocínio de alto desempenho em hardware abaixo do ideal tem efeitos cascata no mercado mais amplo de infraestrutura de IA. Ao demonstrar que as camadas MoE e o paralelismo otimizado (por exemplo, HaiScale DDP) pode fornecer precisão de raciocínio comparável a modelos totalmente densos, o DeepSeek obrigou os principais provedores de nuvem — Microsoft Azure, AWS e Google Cloud — a avaliar a integração das técnicas de otimização do DeepSeek. A Microsoft e a Amazon teriam começado a oferecer o DeepSeek-R1 como parte de seus catálogos de serviços de IA, atendendo a clientes que buscam alternativas de menor custo às APIs GPT-4.1 ou O1.

Além disso, a NVIDIA, historicamente a fornecedora dominante de GPUs, reagiu à sua eficiência impulsionada pelo MoE enfatizando hardware especializado (por exemplo, GPUs habilitadas para HBM3 e topologias NVLink) para manter sua vantagem competitiva. A volatilidade do preço das ações da NVIDIA após sua alta ressalta como avanços na eficiência algorítmica podem remodelar as previsões de demanda por hardware. Assim, mesmo sem revelar hardware proprietário, a DeepSeek influenciou indiretamente o roteiro para futuros aceleradores de IA.

O que a última atualização R1-0528 revela sobre o comprometimento da DeepSeek com a abertura?

Melhorias técnicas no R1-0528

Anunciada em 28 de maio de 2025, a atualização R1-0528 da DeepSeek promete melhorias significativas no raciocínio matemático, em tarefas de programação e na mitigação de alucinações — erros em informações geradas por IA. Embora a DeepSeek tenha descrito esta versão como uma "pequena atualização de teste", benchmarks realizados na UC Berkeley, no MIT e no LiveCodeBench da Cornell indicam que a R1-0528 tem um desempenho competitivo com os modelos o3 e o4-mini da OpenAI. A atualização também reitera sua política transparente de código aberto ao lançar os novos pesos e código de inferência no Hugging Face logo após o anúncio, reforçando seu compromisso com o desenvolvimento orientado pela comunidade e a otimização colaborativa.

Recepção e feedback da comunidade

A comunidade de desenvolvedores respondeu positivamente à R1-0528, citando taxas reduzidas de alucinação e consistência lógica aprimorada nos resultados. Discussões em fóruns como Hugging Face e GitHub indicam que os pesquisadores apreciam os ganhos tangíveis de desempenho sem sacrificar a permissividade da Licença MIT. No entanto, alguns colaboradores sinalizaram preocupações sobre a opacidade dos dados de treinamento e a potencial influência das diretrizes estaduais no ajuste fino, enfatizando que o licenciamento de código aberto por si só não garante transparência total. Esses diálogos ressaltam a necessidade de engajamento contínuo da comunidade para garantir que sua filosofia de código aberto se traduza em sistemas de IA auditáveis ​​e confiáveis.

Conclusões

A incursão da DeepSeek em IA de código aberto redefiniu as expectativas de acessibilidade, desempenho e custo-benefício. Embora seu modelo R1 seja tecnicamente de código aberto sob uma licença do MIT, a ausência de dados de treinamento completos e transparência no pipeline complica sua classificação como "totalmente" aberto. No entanto, suas conquistas — treinar modelos de raciocínio poderosos sob restrições de hardware e torná-los amplamente disponíveis — geraram entusiasmo e um escrutínio cauteloso na comunidade global de IA.

Comparações com o GPT-4.1 da OpenAI revelam um cenário repleto de nuances: o DeepSeek se destaca em tarefas de raciocínio direcionadas e em cenários com custo-benefício, enquanto a enorme janela de contexto e a ampla superioridade em benchmarks do GPT-4.1 o tornam a escolha ideal para aplicações corporativas de ponta. À medida que o DeepSeek desenvolve seu modelo R2 e expande as colaborações com provedores de nuvem, seu destino dependerá da abordagem de questões de privacidade de dados, da garantia da conformidade regulatória e, potencialmente, de uma transparência ainda maior em seu processo de pesquisa.

Em última análise, a ascensão da DeepSeek destaca que a IA de código aberto não é mais um ideal teórico, mas uma força prática que remodela a concorrência. Ao desafiar empresas tradicionais consolidadas, a DeepSeek acelerou o ciclo de inovação, levando empresas estabelecidas e novas a repensar como desenvolvem, licenciam e implementam sistemas de IA. Neste ambiente dinâmico — onde o GPT-4.1 define um parâmetro e o DeepSeek-R1, outro — o futuro da IA ​​de código aberto parece mais promissor e turbulento do que nunca.

Começando a jornada

A CometAPI fornece uma interface REST unificada que agrega centenas de modelos de IA — em um endpoint consistente, com gerenciamento de chaves de API, cotas de uso e painéis de faturamento integrados. Em vez de manipular várias URLs e credenciais de fornecedores, você direciona seu cliente para a URL base e especifica o modelo de destino em cada solicitação.

Os desenvolvedores podem acessar a API do DeepSeek, como DeepSeek-V3 (nome do modelo: deepseek-v3-250324) e Deepseek R1 (nome do modelo: deepseek-r1-0528) Através CometAPIPara começar, explore as capacidades do modelo no Playground e consulte o Guia de API para obter instruções detalhadas. Antes de acessar, certifique-se de ter feito login no CometAPI e obtido a chave da API.

Novo no CometAPI? Comece um teste gratuito de $ 1 e libere Sora em suas tarefas mais difíceis.

Mal podemos esperar para ver o que você vai construir. Se algo parecer estranho, clique no botão de feedback — nos contar o que deu errado é a maneira mais rápida de melhorar.

Leia Mais

500+ Modelos em Uma API

Até 20% de Desconto