¿Es DeepSeek verdaderamente de código abierto?

CometAPI
AnnaJun 2, 2025
¿Es DeepSeek verdaderamente de código abierto?

DeepSeek, una startup china de IA que saltó a la fama con su modelo de razonamiento R1 a principios de 2025, ha generado un intenso debate sobre el estado de la IA de código abierto y sus implicaciones más amplias. Si bien gran parte de la atención se ha centrado en su impresionante rendimiento —comparando con modelos de empresas estadounidenses como OpenAI y Alibaba—, persisten las dudas sobre si DeepSeek es realmente de "código abierto" tanto en su espíritu como en la práctica. Este artículo profundiza en los últimos avances en torno a DeepSeek, explorando sus credenciales de código abierto, comparándolo con modelos como GPT-4.1 y evaluando sus implicaciones para el panorama global de la IA.

¿Qué es DeepSeek y cómo surgió?

El origen y la ambición de DeepSeek

DeepSeek se fundó bajo el nombre de Hangzhou DeepSeek Artificial Intelligence Basic Technology Research Co., Ltd., con Liang Wenfeng (también conocido como Wenfeng Liang) a la cabeza como su principal visionario. Su filosofía difería de la de muchas startups de Silicon Valley: en lugar de priorizar la comercialización rápida, DeepSeek priorizó la eficiencia y la rentabilidad de la investigación. A principios de 2025, el modelo R1 de DeepSeek ya había captado la atención por igualar o superar los principales estándares de razonamiento matemático y generación de código, a pesar de haberse desarrollado bajo las restricciones de los controles de exportación estadounidenses sobre chips de IA de alta gama.

Avance en los modelos de razonamiento

En enero de 2025, DeepSeek presentó R1 bajo una licencia MIT (licencia permisiva de código abierto), afirmando que R1 obtuvo un 79.8 % de aprobados en AIME 1, superando ligeramente a OpenAI-o2024-1, y un 1217 % en MATH-97.3, similar a o500 y con un rendimiento superior al de otros modelos públicos. En tareas de codificación, R1 obtuvo una puntuación Elo de 1 en Codeforces, superando al 2,029 % de los participantes humanos, lo que indica que el modelo no era un simple ejercicio teórico, sino una herramienta de alto rendimiento, adecuada para aplicaciones prácticas.

Al aprovechar técnicas como las capas de mezcla de expertos (MoE) y el entrenamiento en chips de IA más débiles, necesarios debido a las restricciones comerciales, DeepSeek redujo drásticamente los costos de entrenamiento. Los analistas señalaron que su enfoque no solo desafió la supuesta dependencia de hardware de primera línea, sino que también generó una gran conmoción en la industria, provocando una caída del valor de mercado de Nvidia de aproximadamente 600 XNUMX millones de dólares en una sola sesión, la mayor caída de una sola empresa en la historia del mercado bursátil estadounidense.

¿Es DeepSeek verdaderamente de código abierto?

Licencias y disponibilidad

El modelo R1 de DeepSeek se publicó bajo la licencia MIT en Hugging Face en enero de 2025, lo que permite el uso comercial sin restricciones, la modificación y la redistribución de los pesos del modelo y el código asociado. Esta elección de licencia clasifica técnicamente a R1 como un proyecto de código abierto, pero en la práctica surgen matices. Si bien los pesos del modelo y el código de inferencia están disponibles públicamente, no se ha publicado el conjunto de datos de entrenamiento completo ni las canalizaciones de entrenamiento precisas. Esta omisión plantea dudas sobre si califica como de código abierto "completamente" en el mismo espíritu que los proyectos que comparten detalles de reproducibilidad de extremo a extremo. Por ejemplo, si bien cualquiera puede descargar y ajustar R1, no puede replicar el procedimiento de entrenamiento original de DeepSeek sin acceso a los datos propietarios y las configuraciones de clúster (p. ej., los clústeres Fire-Flyer que utilizan 5,000 GPU A100).

Transparencia de los datos de formación

Los puristas del código abierto suelen enfatizar no solo la disponibilidad de los pesos y el código del modelo, sino también la transparencia en cuanto a los datos de entrenamiento, los scripts de preprocesamiento y los puntos de referencia de evaluación. En este caso, la empresa ha compartido detalles de alto nivel —como el uso de "datos sintéticos generados por R1" para ajustar las variantes destiladas y la incorporación de funciones de recompensa basadas en reglas para R1-Zero—, pero ha ocultado detalles sobre la procedencia de los datos y los procesos de curación. Sin esta información, los investigadores externos no pueden realizar una auditoría completa para detectar posibles sesgos, contaminación de datos o filtraciones de privacidad involuntarias, lo que deja preguntas abiertas sobre las implicaciones éticas y de seguridad del modelo.

Participación comunitaria y bifurcaciones

Desde su lanzamiento de código abierto, DeepSeek-R1 ha atraído bifurcaciones y experimentos impulsados ​​por la comunidad en plataformas como Hugging Face. Los desarrolladores han informado de la adaptación de variantes "destiladas" más pequeñas (que van desde 1.5 millones hasta 70 millones de parámetros) para ejecutarse en hardware de consumo, como las GPU de consumo, ampliando así el acceso. Sin embargo, aún no ha habido un desafío completamente independiente para reproducir R1 desde cero, en parte debido a los enormes recursos computacionales necesarios y a la ausencia de conjuntos de datos sin procesar compartidos públicamente. A diferencia de LLaMA, que generó múltiples esfuerzos de reproducción oficiales de la comunidad, la afirmación de "código abierto" de DeepSeek se basa principalmente en hacer que las ponderaciones estén disponibles en lugar de permitir una transparencia total de la investigación dirigida por la comunidad.

¿Cómo se compara DeepSeek con otros modelos de IA?

Evaluación comparativa con OpenAI o1, o3 y GPT-4.1

Las métricas de rendimiento de DeepSeek-R1 lo posicionan entre los mejores modelos de razonamiento. Según las pruebas de rendimiento internas de LiveCodeBench (desarrollado por UC Berkeley, MIT y Cornell), la versión actualizada R1-0528 de DeepSeek se sitúa justo por debajo de o4-mini y o3 de OpenAI en generación de código, pero supera a Grok 3-mini de xAI y Qwen 3 mini de Alibaba. Por otro lado, GPT-4.1 de OpenAI, lanzado el 14 de abril de 2025, cuenta con una ventana de contexto de un millón de tokens y destaca en codificación, seguimiento de instrucciones y tareas de contexto largo en comparación con su predecesor, GPT-4o.

Al comparar R1 con GPT-4.1, surgen varios factores:

  • Rendimiento en los puntos de referencia de código y matemáticasR1 obtiene un 79.8 % de aprobados en AIME 1 y un 2024 % en MATH-97.3, superando ligeramente a o500. GPT-1, a su vez, alcanza un estimado de ~4.1 % en codificación (verificado por SWE-bench) y un 54.6 % en tareas de contexto extenso; métricas que, si bien son impresionantes, no son directamente comparables con los parámetros de razonamiento especializado de R72.
  • Ventana de contextoGPT-4.1 admite hasta un millón de tokens, lo que le permite procesar libros completos o bases de código extensas en una sola pasada. El R1 de DeepSeek no se ajusta a esta longitud de contexto, centrándose en la eficiencia del razonamiento y la inferencia en entradas más cortas.
  • Reducción de costesEn Hugging Face, el acceso a la API de R1 cuesta hasta un 95 % menos que el de o1 de OpenAI, lo que lo hace atractivo para startups e investigadores con presupuestos limitados. El precio base de GPT-4.1 es de 2 $ por millón de tokens de entrada y 8 $ por millón de tokens de salida, con las variantes mini y nano con precios aún más bajos (0.40 $/1.60 $ y 0.10 $/0.40 $, respectivamente). Los modelos simplificados de DeepSeek pueden ejecutarse en portátiles, lo que ofrece un mayor ahorro en la etapa de requisitos de hardware.

Diferencias arquitectónicas

El modelo R1 de DeepSeek aprovecha una arquitectura de mezcla de expertos (MoE), en la que grandes porciones de la red se activan solo cuando es necesario, lo que reduce significativamente los costos de cómputo de inferencia. Estas capas de MoE, combinadas con bibliotecas de comunicación asíncrona (p. ej., hfreduce) y el marco Fire-Flyer DDP permiten a DeepSeek escalar tareas de razonamiento en clústeres de hardware más débiles bajo restricciones comerciales.

En cambio, GPT-4.1 utiliza densas capas de transformadores en toda su red para gestionar la ventana de contexto de un millón de tokens. Si bien esto se traduce en un rendimiento superior en tareas de contexto extenso, también requiere un alto consumo de recursos computacionales para el entrenamiento y la inferencia, de ahí el precio de GPT-4.1, que lo posiciona como premium en comparación con modelos más pequeños como GPT-4.1 mini y nano.

¿Cuáles son las implicaciones del enfoque de código abierto de DeepSeek?

Impacto en la competencia global de la IA

El lanzamiento de código abierto de DeepSeek socava la estrategia tradicional de Silicon Valley de modelos propietarios y embargos de datos. Al poner R1 a disposición del público bajo una licencia del MIT, DeepSeek ha desafiado la idea de que la IA de alto rendimiento debe permanecer cerrada o con licencia exclusiva. Las consecuencias inmediatas fueron palpables: los gigantes tecnológicos estadounidenses ajustaron sus precios (por ejemplo, OpenAI lanzó GPT-4.1 mini y nano a precios más bajos) y aceleraron el desarrollo de sus propios modelos centrados en el razonamiento, como o4-mini, para mantener su cuota de mercado. Los analistas del sector calificaron la aparición de DeepSeek como un posible "momento Sputnik" para la IA estadounidense, lo que indica un cambio en el control hegemónico sobre las capacidades fundamentales de la IA.

La estrategia de código abierto de DeepSeek también influyó en la percepción del capital riesgo. Mientras que algunos inversores temían que respaldar a empresas estadounidenses de IA pudiera generar una rentabilidad decreciente si proliferaban las alternativas chinas de código abierto, otros lo vieron como una oportunidad para diversificar las colaboraciones globales en investigación de IA. El inversor de riesgo Marc Andreessen elogió R1 como "uno de los avances más asombrosos e impresionantes" y "un gran regalo para el mundo". Por otro lado, el lanzamiento de GPT-4.1 de OpenAI en abril de 2025 puede considerarse, en parte, una contramedida al rentable modelo de código abierto de DeepSeek, lo que demuestra que el acceso abierto no tiene por qué sacrificar un rendimiento de vanguardia.

Preocupaciones de seguridad y privacidad

A pesar del entusiasmo por la democratización de la IA de código abierto, el origen de DeepSeek ha generado inquietud entre los defensores de la privacidad y las agencias gubernamentales. En enero de 2025, la Comisión de Protección de Información Personal (PIPC) de Corea del Sur confirmó que su servicio en línea enviaba datos de usuarios surcoreanos a servidores de ByteDance en China, lo que provocó la prohibición de nuevas descargas de la aplicación hasta que se resolvieran los problemas de cumplimiento normativo. Una filtración de datos posterior a finales de enero de 2025 expuso más de un millón de entradas sensibles (mensajes de chat, claves API y registros del sistema) debido a una base de datos de almacenamiento en la nube mal configurada, lo que agravó la preocupación sobre las prácticas de seguridad de datos de DeepSeek.

Dadas las regulaciones chinas que pueden obligar a las empresas a compartir datos con las autoridades estatales, algunos gobiernos y empresas occidentales se muestran reticentes a integrar DeepSeek en flujos de trabajo críticos. Si bien DeepSeek ha tomado medidas para proteger su infraestructura (por ejemplo, parcheando la base de datos expuesta en una hora), persiste el escepticismo respecto a posibles puertas traseras o uso indebido para operaciones de influencia. Wired informó que el servicio en línea DeepSeek, que envía datos a su país de origen, "podría sentar las bases para un mayor escrutinio", y los organismos reguladores de Europa y EE. UU. han insinuado un examen más minucioso bajo los marcos del RGPD y la CCPA.

Influencia en los costos de hardware e infraestructura

La capacidad de DeepSeek para entrenar e implementar modelos de razonamiento de alto rendimiento en hardware subóptimo tiene un impacto en el mercado de infraestructura de IA en general. Al demostrar que las capas de MoE y el paralelismo optimizado (p. ej., HaiScale DDP) puede ofrecer una precisión de razonamiento comparable a la de los modelos completamente densos, lo que obligó a los principales proveedores de servicios de nube (Microsoft Azure, AWS y Google Cloud) a evaluar la integración de sus técnicas de optimización. Según informes, Microsoft y Amazon han comenzado a ofrecer DeepSeek-R1 como parte de sus catálogos de servicios de IA, atendiendo a clientes que buscan alternativas más económicas a las API GPT-4.1 u o1.

Además, NVIDIA, históricamente el proveedor dominante de GPU, reaccionó a su eficiencia basada en MoE priorizando el hardware especializado (p. ej., GPU compatibles con HBM3 y topologías NVLink) para mantener su ventaja competitiva. La volatilidad del precio de las acciones de NVIDIA tras su ascenso pone de relieve cómo los avances en eficiencia algorítmica pueden redefinir las previsiones de demanda de hardware. Por lo tanto, incluso sin presentar hardware propietario, DeepSeek ha influido indirectamente en la hoja de ruta de los futuros aceleradores de IA.

¿Qué revela la última actualización R1-0528 sobre el compromiso de DeepSeek con la apertura?

Mejoras técnicas en R1-0528

Anunciada el 28 de mayo de 2025, la actualización R1-0528 de DeepSeek promete mejoras significativas en el razonamiento matemático, las tareas de programación y la mitigación de alucinaciones (errores en la información generada por IA). Si bien DeepSeek describió esta versión como una "actualización de prueba menor", las pruebas comparativas realizadas en UC Berkeley, MIT y LiveCodeBench de Cornell indican que la R1-0528 ofrece un rendimiento competitivo con los modelos o3 y o4-mini de OpenAI. La actualización también reitera su política de transparencia de código abierto al publicar los nuevos pesos y el código de inferencia en Hugging Face poco después del anuncio, lo que refuerza su compromiso con el desarrollo comunitario y la optimización colaborativa.

Recepción y retroalimentación de la comunidad

La comunidad de desarrolladores ha respondido positivamente a R1-0528, mencionando la reducción de las tasas de alucinación y la mejora de la consistencia lógica en los resultados. Las discusiones en foros como Hugging Face y GitHub indican que los investigadores aprecian las mejoras tangibles en el rendimiento sin sacrificar la permisividad de la licencia MIT. Sin embargo, algunos colaboradores han expresado su preocupación por la opacidad de los datos de entrenamiento y la posible influencia de las directivas estatales en el ajuste, enfatizando que las licencias de código abierto por sí solas no garantizan una transparencia total. Estos diálogos subrayan la necesidad de una participación continua de la comunidad para garantizar que su filosofía de código abierto se traduzca en sistemas de IA auditables y fiables.

Conclusiones

La incursión de DeepSeek en la IA de código abierto ha redefinido las expectativas de accesibilidad, rendimiento y rentabilidad. Si bien su modelo R1 es técnicamente de código abierto bajo una licencia del MIT, la ausencia de datos de entrenamiento completos y transparencia en el flujo de trabajo dificulta su clasificación como "totalmente" abierto. No obstante, sus logros —entrenar potentes modelos de razonamiento con limitaciones de hardware y ponerlos a disposición del público general— han generado tanto entusiasmo como un escrutinio cauteloso en la comunidad global de IA.

Las comparaciones con GPT-4.1 de OpenAI revelan un panorama con matices: DeepSeek destaca en tareas de razonamiento específico y entornos sensibles al coste, mientras que la enorme ventana de contexto de GPT-4.1 y su amplia superioridad en benchmarks lo convierten en la opción ideal para aplicaciones empresariales de alta gama. A medida que DeepSeek desarrolla su modelo R2 y amplía sus colaboraciones con proveedores de la nube, su futuro dependerá de abordar las preocupaciones sobre la privacidad de los datos, garantizar el cumplimiento normativo y, potencialmente, lograr una mayor transparencia en su proceso de investigación.

En definitiva, el auge de DeepSeek pone de manifiesto que la IA de código abierto ya no es un ideal teórico, sino una fuerza práctica que transforma la competencia. Al desafiar a las empresas consolidadas, DeepSeek ha acelerado el ciclo de innovación, impulsando tanto a empresas consolidadas como a nuevos participantes a replantear cómo desarrollan, licencian e implementan sistemas de IA. En este entorno dinámico —donde GPT-4.1 establece un punto de referencia y DeepSeek-R1 otro—, el futuro de la IA de código abierto se presenta más prometedor y turbulento que nunca.

Primeros Pasos

CometAPI proporciona una interfaz REST unificada que integra cientos de modelos de IA en un punto de conexión consistente, con gestión de claves de API, cuotas de uso y paneles de facturación integrados. En lugar de tener que lidiar con múltiples URL y credenciales de proveedores, dirige a tu cliente a la URL base y especifica el modelo de destino en cada solicitud.

Los desarrolladores pueden acceder a la API de DeepSeek, como DeepSeek-V3 (nombre del modelo: deepseek-v3-250324) y Deepseek R1 (nombre del modelo: deepseek-r1-0528) A través CometAPIPara comenzar, explore las capacidades del modelo en el Playground y consultar el Guía de API Para obtener instrucciones detalladas, consulte la sección "Antes de acceder, asegúrese de haber iniciado sesión en CometAPI y de haber obtenido la clave API".

¿Eres nuevo en CometAPI? Comience una prueba gratuita de 1$ y libera a Sora en tus tareas más difíciles.

Estamos deseando ver lo que construyes. Si algo no te convence, dale a "Comentarios". Cuéntanos qué falló: así podemos mejorarlo más rápido.

Leer Más

500+ Modelos en Una API

Hasta 20% de Descuento