Liệu GPT-OSS có thể là tương lai của việc triển khai AI cục bộ không?

OpenAI đã công bố việc phát hành GPT-OSS, một họ gồm hai mô hình ngôn ngữ có trọng lượng mở—gpt-oss-120b và gpt-oss-20b—theo giấy phép Apache 2.0 cho phép, đánh dấu lần đầu tiên cung cấp dịch vụ mở rộng quy mô lớn kể từ GPT-2. Thông báo được công bố vào ngày 5 tháng 2025 năm XNUMX, nhấn mạnh rằng các mô hình này mang lại hiệu suất suy luận tiên tiến với chi phí chỉ bằng một phần nhỏ so với các giải pháp độc quyền, và quan trọng là có thể được triển khai trên cả cơ sở hạ tầng cục bộ và đám mây.

Kiến trúc kỹ thuật

Dòng GPT-OSS tận dụng Hỗn hợp chuyên gia (MoE) Kiến trúc máy biến áp cân bằng giữa hiệu suất và hiệu quả.

gpt-oss-120b: Tổng cộng 117 tỷ tham số, kích hoạt 5.1 tỷ tham số cho mỗi mã thông báo, sử dụng 128 chuyên gia (4 chuyên gia hoạt động cho mỗi mã thông báo) và trải dài 36 lớp.
gpt-oss-20b: Tổng cộng 21 tỷ tham số, kích hoạt 3.6 tỷ tham số cho mỗi mã thông báo, sử dụng 32 chuyên gia (4 chuyên gia hoạt động cho mỗi mã thông báo) và trải dài 24 lớp.
Cả hai mô hình đều sử dụng các mẫu chú ý thưa thớt theo dải cục bộ và dày đặc xen kẽ và chú ý nhiều truy vấn được nhóm lại để suy luận hiệu quả về bộ nhớ.

Đánh giá hiệu suất và an toàn

OpenAI báo cáo rằng gpt-oss-120b Hiệu suất của nó ngang bằng hoặc vượt trội hơn so với mô hình o4-mini độc quyền của hãng trên nhiều tiêu chuẩn nội bộ, bao gồm mã hóa cạnh tranh (Codeforces), giải quyết vấn đề chung (MMLU và HLE) và các truy vấn liên quan đến sức khỏe (HealthBench). Trong khi đó, gpt-oss-20b vượt trội hơn o3-mini cũ về toán thi (AIME 2024 & 2025) và các nhiệm vụ sức khỏe, mặc dù kích thước nhỏ hơn.

Hơn nữa, các chuyên gia bên ngoài đã xem xét phương pháp luận an toàn, xác nhận rằng nó tuân thủ các tiêu chuẩn an toàn nghiêm ngặt tương tự như các sản phẩm đóng gói trọng số của OpenAI. Nhóm Cố vấn An toàn của OpenAI cũng đã tinh chỉnh gpt-oss-120b để thăm dò các khả năng rủi ro cao (sinh học, hóa học, an ninh mạng), nhưng không tìm thấy bằng chứng nào cho thấy việc phát hành gói mở làm tăng đáng kể các vectơ đe dọa này vượt xa các mô hình mở hiện có.

Khả năng truy cập và triển khai

Một cột mốc quan trọng của GPT OSS là thực hiện cục bộ:

gpt-oss-20b có thể chạy trên máy tính xách tay cao cấp có GPU hiện đại, cho phép chạy các ứng dụng ngoại tuyến hoặc tại chỗ.
gpt-oss-120b được tối ưu hóa để chạy trên một GPU cấp doanh nghiệp duy nhất, giúp các tổ chức có quy mô vừa không cần cụm máy tính lớn có thể tiếp cận được.
Chủ quyền dữ liệu và quyền riêng tư: Bằng cách lưu trữ mọi suy luận tại chỗ, GPT-OSS giảm thiểu rủi ro về quy định và bảo mật - điều quan trọng đối với các lĩnh vực như tài chính, chăm sóc sức khỏe và chính phủ.
Tích hợp liền mạch: Hỗ trợ được cấu hình sẵn trong Hugging Face Transformers (v4.55.0) và hướng dẫn triển khai dạng container từ Northflank giúp việc khởi chạy GPT-OSS trở nên đơn giản như chạy máy chủ cục bộ.

"Với GPT OSS, chúng tôi trao quyền cho các nhà phát triển và tổ chức khai thác AI tiên tiến như những tài sản hoàn toàn sở hữu và có thể tùy chỉnh", Sam Altman, CEO của OpenAI, cho biết. "Bản phát hành này đánh dấu một bước ngoặt trong việc dân chủ hóa quyền truy cập vào các mô hình ngôn ngữ tiên tiến, đồng thời duy trì các tiêu chuẩn cao nhất về an toàn và hiệu suất."

Bằng cách cung cấp mã nguồn mở các mô hình mạnh mẽ này, OpenAI mong muốn thúc đẩy một hệ sinh thái đổi mới năng động hơn—khuyến khích tinh chỉnh riêng, các plug-in mới và các ứng dụng sáng tạo thúc đẩy AI phát triển. Các nhà phát triển và doanh nghiệp có thể tải xuống các mô hình ngay lập tức từ kho lưu trữ GitHub của OpenAI và bắt đầu thử nghiệm với suy luận cục bộ, tích hợp tùy chỉnh và đánh giá an toàn chuyên biệt.

Bắt đầu

CometAPI là một nền tảng API hợp nhất tổng hợp hơn 500 mô hình AI từ các nhà cung cấp hàng đầu—chẳng hạn như dòng GPT của OpenAI, Gemini của Google, Claude của Anthropic, Midjourney, Suno, v.v.—thành một giao diện duy nhất thân thiện với nhà phát triển. Bằng cách cung cấp xác thực nhất quán, định dạng yêu cầu và xử lý phản hồi, CometAPI đơn giản hóa đáng kể việc tích hợp các khả năng AI vào ứng dụng của bạn. Cho dù bạn đang xây dựng chatbot, trình tạo hình ảnh, nhà soạn nhạc hay đường ống phân tích dựa trên dữ liệu, CometAPI cho phép bạn lặp lại nhanh hơn, kiểm soát chi phí và không phụ thuộc vào nhà cung cấp—tất cả trong khi khai thác những đột phá mới nhất trên toàn bộ hệ sinh thái AI.

Các nhà phát triển có thể truy cập GPT-OSS-20B và GPT-OSS-120B thông qua Sao chổiAPI, các phiên bản mẫu mới nhất được liệt kê là tính đến ngày xuất bản bài viết. Để bắt đầu, hãy khám phá các khả năng của mẫu trong Sân chơi và tham khảo ý kiến Hướng dẫn API để biết hướng dẫn chi tiết. Trước khi truy cập, vui lòng đảm bảo bạn đã đăng nhập vào CometAPI và lấy được khóa API. Sao chổiAPI cung cấp mức giá thấp hơn nhiều so với giá chính thức để giúp bạn tích hợp.

Kiến trúc kỹ thuật

Đánh giá hiệu suất và an toàn

Khả năng truy cập và triển khai

Bắt đầu

Đọc thêm

500+ Mô hình trong Một API