DeepSeek có thực sự là mã nguồn mở không?

CometAPI
AnnaJun 2, 2025
DeepSeek có thực sự là mã nguồn mở không?

DeepSeek, một công ty khởi nghiệp AI của Trung Quốc lần đầu tiên gây chú ý với mô hình lý luận R1 vào đầu năm 2025, đã gây ra cuộc tranh luận gay gắt về tình trạng AI nguồn mở và những tác động rộng hơn của nó. Trong khi phần lớn sự chú ý tập trung vào hiệu suất ấn tượng của nó—các mô hình cạnh tranh từ các công ty Hoa Kỳ như OpenAI và Alibaba—vẫn còn những câu hỏi về việc liệu DeepSeek có thực sự là "nguồn mở" về mặt tinh thần và thực hành hay không. Bài viết này đi sâu vào những diễn biến mới nhất xung quanh DeepSeek, khám phá các thông tin xác thực về nguồn mở của nó, so sánh nó với các mô hình như GPT-4.1 và đánh giá những tác động đối với bối cảnh AI toàn cầu.

DeepSeek là gì và nó xuất hiện như thế nào?

Nguồn gốc và tham vọng của DeepSeek

DeepSeek được thành lập dưới tên Hangzhou DeepSeek Artificial Intelligence Basic Technology Research Co., Ltd., với Liang Wenfeng (còn được gọi là Wenfeng Liang) dẫn đầu với tư cách là người có tầm nhìn chính. Tinh thần của công ty khác biệt so với nhiều công ty khởi nghiệp ở Thung lũng Silicon: thay vì ưu tiên thương mại hóa nhanh chóng, DeepSeek nhấn mạnh vào hiệu quả nghiên cứu và hiệu quả về chi phí. Đến đầu năm 2025, mô hình R1 của DeepSeek đã thu hút được sự chú ý vì phù hợp hoặc vượt qua các chuẩn mực hàng đầu về lý luận toán học và tạo mã, mặc dù được phát triển trong bối cảnh hạn chế kiểm soát xuất khẩu của Hoa Kỳ đối với chip AI cao cấp.

Đột phá trong các mô hình lý luận

Vào tháng 2025 năm 1, DeepSeek đã công bố R1 theo giấy phép MIT—một giấy phép cho phép nguồn mở—tuyên bố rằng R79.8 đạt "1% Pass@2024 trên AIME 1, vượt qua một chút so với OpenAI-o1217-97.3" và đạt "500% trên MATH-1, ngang bằng với o1 và vượt trội hơn các mô hình công khai khác". Về các nhiệm vụ mã hóa, R2,029 đạt được xếp hạng Elo 96.3 trên Codeforces, vượt trội hơn XNUMX% so với người tham gia, cho thấy mô hình này không chỉ là một bài tập lý thuyết mà là một công cụ hiệu suất cao phù hợp cho các ứng dụng trong thế giới thực.

Bằng cách tận dụng các kỹ thuật như lớp hỗn hợp chuyên gia (MoE) và đào tạo trên các chip AI yếu hơn—do các hạn chế thương mại đòi hỏi—DeepSeek đã giảm đáng kể chi phí đào tạo. Các nhà quan sát lưu ý rằng cách tiếp cận của họ không chỉ thách thức sự phụ thuộc được cho là vào phần cứng hàng đầu mà còn tạo ra “làn sóng xung kích” trong toàn ngành, khiến giá trị thị trường của Nvidia giảm khoảng 600 tỷ đô la chỉ trong một phiên giao dịch—“mức giảm lớn nhất của một công ty trong lịch sử thị trường chứng khoán Hoa Kỳ”.

DeepSeek có thực sự là mã nguồn mở không?

Cấp phép và Tính khả dụng

Mô hình R1 của DeepSeek được phát hành theo Giấy phép MIT trên Hugging Face vào tháng 2025 năm 1, cho phép sử dụng thương mại không hạn chế, sửa đổi và phân phối lại các trọng số mô hình và mã liên quan. Về mặt kỹ thuật, lựa chọn cấp phép này phân loại R1 là một dự án nguồn mở, nhưng trên thực tế, vẫn nảy sinh các sắc thái. Mặc dù các trọng số mô hình và mã suy luận được công khai, nhưng dự án vẫn chưa phát hành toàn bộ tập dữ liệu đào tạo hoặc các đường ống đào tạo chính xác. Sự thiếu sót này đặt ra câu hỏi về việc liệu nó có đủ điều kiện là nguồn mở "hoàn toàn" theo cùng tinh thần với các dự án chia sẻ thông tin chi tiết về khả năng tái tạo đầu cuối hay không. Ví dụ, trong khi bất kỳ ai cũng có thể tải xuống và tinh chỉnh R5,000, họ không thể sao chép quy trình đào tạo ban đầu của DeepSeek mà không có quyền truy cập vào dữ liệu độc quyền và cấu hình cụm (ví dụ: cụm Fire-Flyer sử dụng 100 GPU AXNUMX).

Tính minh bạch của dữ liệu đào tạo

Những người theo chủ nghĩa thuần túy nguồn mở thường nhấn mạnh không chỉ tính khả dụng của trọng số mô hình và mã, mà còn cả tính minh bạch liên quan đến dữ liệu đào tạo, tập lệnh tiền xử lý và điểm chuẩn đánh giá. Trong trường hợp của mình, công ty đã chia sẻ các chi tiết cấp cao—chẳng hạn như việc sử dụng "dữ liệu tổng hợp do R1 tạo ra" để tinh chỉnh các biến thể đã chưng cất và việc kết hợp các hàm phần thưởng dựa trên quy tắc cho R1-Zero—nhưng đã giữ lại thông tin cụ thể về nguồn gốc dữ liệu và quy trình quản lý. Nếu không có thông tin này, các nhà nghiên cứu bên ngoài không thể kiểm toán đầy đủ các thành kiến ​​tiềm ẩn, ô nhiễm dữ liệu hoặc rò rỉ quyền riêng tư ngoài ý muốn, để lại những câu hỏi mở về các tác động về mặt đạo đức và bảo mật của mô hình.

Sự tham gia của cộng đồng và Fork

Kể từ khi phát hành mã nguồn mở, DeepSeek-R1 đã thu hút các nhánh và thử nghiệm do cộng đồng thúc đẩy trên các nền tảng như Hugging Face. Các nhà phát triển đã báo cáo việc điều chỉnh các biến thể "chưng cất" nhỏ hơn (dao động từ 1.5 tỷ đến 70 tỷ tham số) để chạy trên phần cứng hàng hóa, chẳng hạn như GPU của người tiêu dùng, do đó mở rộng khả năng truy cập. Tuy nhiên, vẫn chưa có một thách thức hoàn toàn độc lập nào để tái tạo R1 từ đầu, một phần là do các tài nguyên tính toán khổng lồ cần thiết và không có các tập dữ liệu thô được chia sẻ công khai. Trái ngược với LLaMA, nơi đã tạo ra nhiều nỗ lực tái tạo chính thức của cộng đồng, tuyên bố "mã nguồn mở" của DeepSeek chủ yếu xoay quanh việc cung cấp các trọng số thay vì cho phép minh bạch nghiên cứu hoàn toàn do cộng đồng lãnh đạo.

DeepSeek so sánh với các mô hình AI khác như thế nào?

So sánh với OpenAI o1, o3 và GPT-4.1

Các số liệu hiệu suất của DeepSeek-R1 đưa nó vào nhóm các mô hình lý luận hàng đầu. Theo các điểm chuẩn nội bộ trên LiveCodeBench (do UC Berkeley, MIT và Cornell phát triển), R1-0528 được cập nhật của DeepSeek xếp hạng ngay dưới o4-mini và o3 của OpenAI về khả năng tạo mã nhưng vượt trội hơn Grok 3-mini của xAI và Qwen 3 mini của Alibaba. Trong khi đó, GPT-4.1 của OpenAI, được phát hành vào ngày 14 tháng 2025 năm 4, tự hào có cửa sổ ngữ cảnh một triệu mã thông báo và vượt trội về mã hóa, tuân theo hướng dẫn và các tác vụ ngữ cảnh dài so với người tiền nhiệm GPT-XNUMXo.

Khi so sánh R1 với GPT-4.1, một số yếu tố nổi lên:

  • Hiệu suất trên Mã và Điểm chuẩn Toán học: R1 đạt 79.8% Pass@1 trong bài kiểm tra AIME 2024 và 97.3% trong bài kiểm tra MATH-500, vượt qua o1 một chút. Ngược lại, GPT-4.1 đạt khoảng 54.6% về mã hóa (đã được SWE-bench xác minh) và 72% về các tác vụ ngữ cảnh dài—các số liệu này tuy ấn tượng nhưng không thể so sánh trực tiếp với các điểm chuẩn lý luận chuyên biệt của R1.
  • Cửa sổ ngữ cảnh: GPT-4.1 hỗ trợ tới một triệu mã thông báo, cho phép xử lý toàn bộ sách hoặc cơ sở mã dài trong một lần chạy. R1 của DeepSeek không khớp với độ dài ngữ cảnh này, thay vào đó tập trung vào hiệu quả suy luận và lý luận trên các đầu vào ngắn hơn.
  • Hiệu quả chi phí: Trên Hugging Face, chi phí truy cập API của R1 thấp hơn tới 95% so với o1 của OpenAI, khiến nó trở nên hấp dẫn đối với các công ty khởi nghiệp và nhà nghiên cứu có ngân sách hạn chế. Giá cơ bản của GPT-4.1 là 2 đô la cho một triệu token đầu vào và 8 đô la cho một triệu token đầu ra, với các biến thể mini và nano có giá thậm chí còn thấp hơn (lần lượt là 0.40 đô la/1.60 đô la và 0.10 đô la/0.40 đô la). Các mô hình tinh chế của DeepSeek có thể chạy trên máy tính xách tay, mang lại mức tiết kiệm chi phí khác ở giai đoạn yêu cầu phần cứng.

Sự khác biệt về kiến ​​trúc

Mô hình R1 của DeepSeek tận dụng kiến ​​trúc hỗn hợp chuyên gia (MoE), trong đó các phần lớn của mạng chỉ được kích hoạt khi cần thiết, giúp giảm đáng kể chi phí tính toán suy luận. Các lớp MoE này, kết hợp với các thư viện giao tiếp không đồng bộ (ví dụ: hfreduce) và khuôn khổ Fire-Flyer DDP, cho phép DeepSeek mở rộng các tác vụ suy luận trên các cụm phần cứng yếu hơn theo các hạn chế thương mại.

Ngược lại, GPT-4.1 sử dụng các lớp biến áp dày đặc trên toàn bộ mạng của nó để xử lý cửa sổ ngữ cảnh một triệu mã thông báo. Mặc dù điều này dẫn đến hiệu suất vượt trội trên các tác vụ ngữ cảnh dài, nhưng nó cũng đòi hỏi khả năng tính toán đáng kể để đào tạo và suy luận, do đó, giá định vị cao cấp của GPT-4.1 so với các mô hình nhỏ hơn như GPT-4.1 mini và nano.

Ý nghĩa của phương pháp mã nguồn mở của DeepSeek là gì?

Tác động đến Cạnh tranh AI toàn cầu

Bản phát hành mã nguồn mở của DeepSeek làm suy yếu sách lược truyền thống của Thung lũng Silicon về các lệnh cấm vận dữ liệu và mô hình độc quyền. Bằng cách công khai R1 theo giấy phép MIT, DeepSeek đã thách thức quan niệm cho rằng AI hiệu suất cao phải vẫn đóng hoặc được cấp phép độc quyền. Hậu quả ngay lập tức là rõ ràng: các gã khổng lồ công nghệ Hoa Kỳ đã điều chỉnh giá (ví dụ: OpenAI tung ra GPT-4.1 mini và nano với chi phí thấp hơn) và đẩy nhanh quá trình phát triển các mô hình lấy lý luận làm trọng tâm của riêng họ, chẳng hạn như o4-mini, để giữ thị phần. Các nhà bình luận trong ngành đã dán nhãn sự xuất hiện của DeepSeek là một "khoảnh khắc Sputnik" có thể xảy ra đối với AI của Hoa Kỳ, báo hiệu sự thay đổi trong quyền kiểm soát bá quyền đối với các khả năng AI cơ bản.

Chiến lược nguồn mở của DeepSeek cũng ảnh hưởng đến tâm lý đầu tư mạo hiểm. Trong khi một số nhà đầu tư lo ngại rằng việc hỗ trợ các công ty AI của Hoa Kỳ có thể mang lại lợi nhuận giảm dần nếu các giải pháp thay thế nguồn mở của Trung Quốc gia tăng, những người khác lại coi đó là cơ hội để đa dạng hóa các hoạt động hợp tác nghiên cứu AI toàn cầu. Nhà đầu tư mạo hiểm Marc Andreessen ca ngợi R1 là "một trong những đột phá đáng kinh ngạc và ấn tượng nhất" và là "món quà sâu sắc cho thế giới". Trong khi đó, bản phát hành GPT-4.1 của OpenAI vào tháng 2025 năm XNUMX có thể được coi một phần là biện pháp đối phó với mô hình nguồn mở tiết kiệm chi phí của DeepSeek, chứng minh rằng quyền truy cập mở không cần phải hy sinh hiệu suất tiên tiến.

Mối quan tâm về Bảo mật và Quyền riêng tư

Bất chấp sự nhiệt tình về dân chủ hóa AI nguồn mở, nguồn gốc của DeepSeek đã dấy lên những lá cờ đỏ trong số những người ủng hộ quyền riêng tư và các cơ quan chính phủ. Vào tháng 2025 năm 2025, Ủy ban Bảo vệ Thông tin Cá nhân (PIPC) của Hàn Quốc đã xác nhận rằng dịch vụ trực tuyến của họ đang gửi dữ liệu người dùng Hàn Quốc đến các máy chủ ByteDance ở Trung Quốc, thúc đẩy lệnh cấm tải xuống ứng dụng mới cho đến khi các vấn đề tuân thủ được giải quyết. Một vụ vi phạm dữ liệu tiếp theo vào cuối tháng XNUMX năm XNUMX đã làm lộ hơn một triệu mục nhạy cảm—tin nhắn trò chuyện, khóa API và nhật ký hệ thống—do cơ sở dữ liệu lưu trữ đám mây được định cấu hình sai, làm trầm trọng thêm mối lo ngại về các hoạt động bảo mật dữ liệu của DeepSeek.

Với các quy định của Trung Quốc có thể buộc các công ty phải chia sẻ dữ liệu với các cơ quan nhà nước, một số chính phủ và doanh nghiệp phương Tây vẫn cảnh giác về việc tích hợp DeepSeek vào các quy trình công việc quan trọng. Mặc dù DeepSeek đã thực hiện các bước để bảo mật cơ sở hạ tầng của mình (ví dụ: vá cơ sở dữ liệu bị lộ trong vòng một giờ), nhưng vẫn còn sự hoài nghi về các cửa hậu tiềm ẩn hoặc việc sử dụng sai mục đích cho các hoạt động gây ảnh hưởng. Wired đưa tin rằng dịch vụ trực tuyến DeepSeek gửi dữ liệu về quốc gia của mình "có thể mở đường cho sự giám sát chặt chẽ hơn" và các cơ quan quản lý ở Châu Âu và Hoa Kỳ đã ám chỉ đến việc xem xét kỹ lưỡng hơn theo khuôn khổ GDPR và CCPA.

Ảnh hưởng đến chi phí phần cứng và cơ sở hạ tầng

Khả năng đào tạo và triển khai các mô hình lý luận hiệu suất cao trên phần cứng không tối ưu của DeepSeek có tác động lan tỏa đến thị trường cơ sở hạ tầng AI rộng lớn hơn. Bằng cách chứng minh rằng các lớp MoE và tính song song được tối ưu hóa (ví dụ: HaiScale DDP) có thể cung cấp độ chính xác suy luận tương đương với các mô hình hoàn toàn dày đặc, DeepSeek đã buộc các nhà cung cấp đám mây lớn—Microsoft Azure, AWS và Google Cloud—phải đánh giá việc tích hợp các kỹ thuật tối ưu hóa của DeepSeek. Microsoft và Amazon được cho là đã bắt đầu cung cấp DeepSeek-R1 như một phần trong danh mục dịch vụ AI của họ, phục vụ cho những khách hàng đang tìm kiếm các giải pháp thay thế có chi phí thấp hơn cho GPT-4.1 hoặc API o1.

Hơn nữa, NVIDIA, nhà cung cấp GPU thống trị trong lịch sử, đã phản ứng với hiệu quả do MoE thúc đẩy bằng cách nhấn mạnh phần cứng chuyên dụng (ví dụ: GPU hỗ trợ HBM3 và cấu trúc NVLink) để duy trì lợi thế cạnh tranh. Biến động giá cổ phiếu của NVIDIA sau khi tăng cho thấy những đột phá về hiệu quả thuật toán có thể định hình lại dự báo nhu cầu phần cứng. Do đó, ngay cả khi không tiết lộ phần cứng độc quyền, DeepSeek đã gián tiếp ảnh hưởng đến lộ trình cho các trình tăng tốc AI trong tương lai.

Bản cập nhật R1-0528 mới nhất tiết lộ điều gì về cam kết về tính minh bạch của DeepSeek?

Cải tiến kỹ thuật trong R1-0528

Được công bố vào ngày 28 tháng 2025 năm 1, bản cập nhật R0528-1 của DeepSeek hứa hẹn những cải tiến đáng kể trong lý luận toán học, nhiệm vụ lập trình và giảm thiểu ảo giác—lỗi trong thông tin do AI tạo ra. Trong khi DeepSeek mô tả bản phát hành này là "bản nâng cấp thử nghiệm nhỏ", thì việc đánh giá chuẩn trên UC Berkeley, MIT và LiveCodeBench của Cornell chỉ ra rằng R0528-3 hoạt động cạnh tranh với các mô hình o4 và oXNUMX-mini của OpenAI. Bản cập nhật cũng nhắc lại chính sách nguồn mở minh bạch của mình bằng cách phát hành các trọng số và mã suy luận mới trên Hugging Face ngay sau thông báo, củng cố cam kết của mình đối với phát triển do cộng đồng thúc đẩy và tối ưu hóa hợp tác.

Sự tiếp nhận và phản hồi của cộng đồng

Cộng đồng nhà phát triển đã phản hồi tích cực với R1-0528, trích dẫn tỷ lệ ảo giác giảm và tính nhất quán logic được cải thiện trong kết quả đầu ra. Các cuộc thảo luận trên các diễn đàn như Hugging Face và GitHub chỉ ra rằng các nhà nghiên cứu đánh giá cao những cải thiện hiệu suất hữu hình mà không phải hy sinh tính dễ dãi của Giấy phép MIT. Tuy nhiên, một số người đóng góp đã nêu bật mối quan ngại về tính không minh bạch của dữ liệu đào tạo và ảnh hưởng tiềm ẩn của các chỉ thị của tiểu bang trong việc tinh chỉnh, nhấn mạnh rằng chỉ cấp phép nguồn mở không đảm bảo tính minh bạch hoàn toàn. Những cuộc đối thoại này nhấn mạnh nhu cầu phải có sự tham gia liên tục của cộng đồng để đảm bảo rằng bản chất nguồn mở của nó được chuyển thành các hệ thống AI đáng tin cậy, có thể kiểm toán được.

Kết luận

Cuộc đột phá của DeepSeek vào AI nguồn mở đã định nghĩa lại kỳ vọng về khả năng truy cập, hiệu suất và hiệu quả chi phí. Mặc dù mô hình R1 của nó về mặt kỹ thuật là nguồn mở theo giấy phép MIT, nhưng việc không có dữ liệu đào tạo đầy đủ và tính minh bạch của đường ống làm phức tạp thêm việc phân loại nó là "hoàn toàn" mở. Tuy nhiên, những thành tựu của nó—đào tạo các mô hình lý luận mạnh mẽ dưới các hạn chế về phần cứng và làm cho chúng có sẵn rộng rãi—đã thúc đẩy cả sự phấn khích và sự giám sát thận trọng trong cộng đồng AI toàn cầu.

So sánh với GPT-4.1 của OpenAI cho thấy một bối cảnh sắc thái: DeepSeek vượt trội trong các nhiệm vụ lý luận có mục tiêu và các thiết lập nhạy cảm với chi phí, trong khi cửa sổ ngữ cảnh lớn và tính ưu việt của chuẩn mực rộng rãi của GPT-4.1 khiến nó trở thành lựa chọn cho các ứng dụng doanh nghiệp cao cấp. Khi DeepSeek phát triển mô hình R2 và mở rộng hợp tác với các nhà cung cấp đám mây, số phận của nó sẽ phụ thuộc vào việc giải quyết các mối quan ngại về quyền riêng tư dữ liệu, đảm bảo tuân thủ quy định và có khả năng áp dụng tính minh bạch hơn nữa trong quy trình nghiên cứu của mình.

Cuối cùng, sự trỗi dậy của DeepSeek nhấn mạnh rằng AI nguồn mở không còn là một lý tưởng lý thuyết nữa mà là một lực lượng thực tế định hình lại sự cạnh tranh. Bằng cách thách thức những người đương nhiệm cố hữu, DeepSeek đã đẩy nhanh chu kỳ đổi mới, thúc đẩy cả các công ty đã thành danh và những người mới tham gia phải suy nghĩ lại về cách họ phát triển, cấp phép và triển khai các hệ thống AI. Trong môi trường năng động này—nơi GPT-4.1 đặt ra một chuẩn mực và DeepSeek-R1 đặt ra một chuẩn mực khác—tương lai của AI nguồn mở có vẻ hứa hẹn và hỗn loạn hơn bao giờ hết.

Bắt đầu

CometAPI cung cấp giao diện REST thống nhất tổng hợp hàng trăm mô hình AI—dưới một điểm cuối nhất quán, với quản lý khóa API tích hợp, hạn ngạch sử dụng và bảng điều khiển thanh toán. Thay vì phải xử lý nhiều URL và thông tin xác thực của nhà cung cấp, bạn chỉ định khách hàng của mình tại url cơ sở và chỉ định mô hình mục tiêu trong mỗi yêu cầu.

Các nhà phát triển có thể truy cập API của DeepSeek như DeepSeek-V3(tên model: deepseek-v3-250324) và Deepseek R1 (tên model: deepseek-r1-0528) xuyên qua Sao chổiAPI.Để bắt đầu, hãy khám phá khả năng của mô hình trong Sân chơi và tham khảo ý kiến Hướng dẫn API để biết hướng dẫn chi tiết. Trước khi truy cập, vui lòng đảm bảo bạn đã đăng nhập vào CometAPI và lấy được khóa API.

Bạn mới biết đến CometAPI? Bắt đầu dùng thử miễn phí 1$ và giao cho Sora những nhiệm vụ khó khăn nhất.

Chúng tôi rất mong chờ được xem bạn xây dựng những gì. Nếu có gì đó không ổn, hãy nhấn nút phản hồi—nói cho chúng tôi biết điều gì bị hỏng là cách nhanh nhất để cải thiện.

Đọc thêm

500+ Mô hình trong Một API

Giảm giá lên đến 20%