OpenAI's gpt-oss-120b đánh dấu bản phát hành mở đầu tiên của tổ chức kể từ GPT-2, cung cấp cho các nhà phát triển minh bạch, tùy biếnvà hiệu suất cao Khả năng AI dưới Giấy phép Apache 2.0. Được thiết kế cho sự tinh tế lý luận và đại lý ứng dụng, mô hình này dân chủ hóa quyền truy cập vào các công nghệ ngôn ngữ lớn tiên tiến, cho phép triển khai tại chỗ và tinh chỉnh chuyên sâu.
Các tính năng cốt lõi và triết lý thiết kế
Các mô hình GPT-OSS được thiết kế như các LLM đa năng, chỉ có văn bản. Chúng hỗ trợ các nhiệm vụ nhận thức cấp cao, bao gồm lập luận toán học, phân tích có cấu trúc và hiểu ngôn ngữ. Không giống như các mô hình thương mại đóng như GPT-4, GPT-OSS cho phép tải xuống và sử dụng đầy đủ các trọng số mô hình, mang đến cho các nhà nghiên cứu và nhà phát triển quyền truy cập chưa từng có để kiểm tra, tinh chỉnh và triển khai các mô hình hoàn toàn trên cơ sở hạ tầng của họ.
Thông tin cơ bản
- Thông số Kỹ thuật : Tổng cộng 117 tỷ, 5.1 tỷ hoạt động thông qua Hỗn hợp chuyên gia (MoE)
- Giấy phép: Apache 2.0 dành cho mục đích thương mại và học thuật không hạn chế
- Cửa sổ ngữ cảnh: Lên đến 128 nghìn mã thông báo, hỗ trợ các đầu vào dạng dài và lý luận nhiều tài liệu
- Chuỗi suy nghĩ: Đầy CoT đầu ra cho khả năng kiểm toán và kiểm soát chi tiết
- Đầu ra có cấu trúc: Hỗ trợ gốc cho JSON, XML và lược đồ tùy chỉnh.
Chi tiết kỹ thuật
GPT-OSS tận dụng một Transformer xương sống được tăng cường với một Hỗn hợp chuyên gia (MoE) kiến trúc để đạt được kích hoạt thưa thớt và giảm chi phí suy luận. gpt-oss-120b mô hình chứa Chuyên gia 128 phân phối trên khắp 36 lớp, kích hoạt 4 chuyên gia cho mỗi mã thông báo (5.1 B tham số hoạt động), trong khi gpt-oss-20b sử dụng Chuyên gia 32 kết thúc 24 lớp, kích hoạt 4 chuyên gia cho mỗi mã thông báo (3.6 B tham số hoạt động). Nó sử dụng sự chú ý thưa thớt xen kẽ dày đặc và cục bộ, nhóm nhiều truy vấn chú ý (kích thước nhóm 8) và hỗ trợ một 128 k Cửa sổ ngữ cảnh mã thông báo—chưa từng có trong các dịch vụ mở cho đến nay. Hiệu quả bộ nhớ được cải thiện hơn nữa thông qua **lượng tử hóa độ chính xác hỗn hợp 4 bit**, cho phép sử dụng ngữ cảnh lớn hơn trên phần cứng thông dụng.
Các mô hình GPT‑OSS đã trải qua quá trình đánh giá nghiêm ngặt so với các tập dữ liệu nổi tiếng, cho thấy hiệu suất cạnh tranh, thậm chí vượt trội, khi so sánh với các mô hình độc quyền có quy mô tương tự.
Đánh giá chuẩn và hiệu suất
Trên các tiêu chuẩn chuẩn mực, gpt-oss-120b phù hợp hoặc vượt quá độc quyền của OpenAI o4-mini mô hình:
- MMLU (Hiểu ngôn ngữ đa nhiệm lớn): Độ chính xác ~88%
- Codeforces Elo (lý luận mã hóa): ~ 2205
- AIME (cuộc thi toán học có công cụ): ~87.9%
- Sức khỏe: Vượt trội hơn đáng kể so với o4-mini trong các nhiệm vụ chẩn đoán và đảm bảo chất lượng lâm sàng
- Tau-Bench (Bán lẻ + Nhiệm vụ lý luận): ~62% trung bình
Phiên bản mô hình
- Biến thể mặc định:
gpt-oss-120b(V1.0) - Tham số hoạt động: 5.1 B (lựa chọn MoE động)
- Bản phát hành tiếp theo: Các bản vá được lên kế hoạch để cải thiện bộ lọc an toàn và tinh chỉnh miền chuyên biệt
Hạn chế
Mặc dù có sức mạnh như vậy, các mô hình GPT‑OSS vẫn có một số hạn chế nhất định:
- Giao diện chỉ có văn bản: Không giống như GPT-4o hoặc Gemini, GPT‑OSS không hỗ trợ đầu vào đa phương thức (hình ảnh, âm thanh, video).
- Không có sự minh bạch về bộ đào tạo:OpenAI chưa công bố thông tin chi tiết về các tập dữ liệu cụ thể được sử dụng, điều này có thể gây ra lo ngại về khả năng tái tạo trong học thuật hoặc kiểm toán thiên vị.
- Hiệu suất không nhất quán: Một số chuẩn mực cộng đồng (ví dụ: Simple-Bench) báo cáo kết quả kém trong các bài kiểm tra lý luận cụ thể (~22% đối với một số nhiệm vụ cho 120b), cho thấy hiệu suất có thể thay đổi đáng kể trên các miền.
- Giới hạn phần cứng:Mô hình 120B yêu cầu khả năng tính toán đáng kể để suy luận cục bộ, khiến các nhà phát triển thông thường không thể truy cập mà không có GPU.
- Sự đánh đổi về an toàn:Mặc dù đã được thử nghiệm trong các tình huống tinh chỉnh đối nghịch, bản chất trọng số mở có nghĩa là các mô hình này vẫn có thể bị sử dụng sai mục đích—ví dụ, để spam, thông tin sai lệch hoặc bẻ khóa mô hình—nếu không được quản lý đúng cách.
Tuy nhiên, OpenAI báo cáo rằng các mô hình gpt‑oss không nêu ra các rủi ro an toàn ở cấp độ biên giới hiện tại, đặc biệt là trong lĩnh vực rủi ro sinh học hoặc an ninh mạng.
Cách gọi gpt-oss-120b API từ CometAPI
gpt-oss-120b Giá API trong CometAPI,giảm giá 20% so với giá chính thức:
| Mã thông báo đầu vào | $0.16 |
| Mã thông báo đầu ra | $0.80 |
Các bước cần thiết
- Đăng nhập vào " cometapi.com. Nếu bạn chưa phải là người dùng của chúng tôi, vui lòng đăng ký trước
- Nhận khóa API thông tin xác thực truy cập của giao diện. Nhấp vào “Thêm mã thông báo” tại mã thông báo API trong trung tâm cá nhân, nhận khóa mã thông báo: sk-xxxxx và gửi.
- Lấy url của trang web này: https://api.cometapi.com/
Phương pháp sử dụng
- Chọn “
gpt-oss-120b” điểm cuối để gửi yêu cầu API và thiết lập nội dung yêu cầu. Phương thức yêu cầu và nội dung yêu cầu được lấy từ tài liệu API của trang web của chúng tôi. Trang web của chúng tôi cũng cung cấp thử nghiệm Apifox để thuận tiện cho bạn. - Thay thế bằng khóa CometAPI thực tế từ tài khoản của bạn.
- Chèn câu hỏi hoặc yêu cầu của bạn vào trường nội dung—đây là nội dung mà mô hình sẽ phản hồi.
- . Xử lý phản hồi API để nhận được câu trả lời đã tạo.
CometAPI cung cấp một API REST hoàn toàn tương thích—cho việc di chuyển liền mạch. Chi tiết chính để Tài liệu API:
- Điểm cuối: https://api.cometapi.com/v1/chat/completions
- Thông số mô hình: gpt-oss-120b
- Xác thực:
Bearer YOUR_CometAPI_API_KEY - Loại-Nội dung:
application/json. - Tham số cốt lõi:
prompt,max_tokens_to_sample,temperature,stop_sequences
Trong khi GPT‑OSS có thể được sử dụng hoàn toàn ngoại tuyến, nó cũng hỗ trợ API trò chuyện tương thích với OpenAI khi được lưu trữ trên các dịch vụ như Hugging Face hoặc AWS Bedrock.
Sau đây là một ví dụ tích hợp sử dụng Python:
from openai import OpenAI
import os
client = OpenAI(
base_url="https://api.cometapi.com/v1/chat/completions", # or AWS/Azure provider
api_key=cometapi_key
)
response = client.chat.completions.create(
model="gpt-oss-120b",
messages=[
{"role": "user", "content": "Explain how quantum tunneling works."}
]
)
print(response.choices.message.content)
Ngoài ra, bạn có thể chạy các mô hình cục bộ bằng các công cụ như Triển khai LMD, Suy luận tạo văn bản (TGI), hoặc là vLLM.
Xem thêm GPT-OSS-20B


