gpt-oss-20b là một mô hình suy luận trọng lượng mở, di động cung cấp hiệu suất cấp độ o3 mini, sử dụng công cụ thân thiện với tác nhân, và đầy đủ hỗ trợ chuỗi suy nghĩ theo giấy phép cho phép. Mặc dù không mạnh bằng phiên bản 120 B, nhưng nó đặc biệt phù hợp với triển khai trên thiết bị, độ trễ thấp và nhạy cảm với quyền riêng tư. Các nhà phát triển nên cân nhắc những gì đã biết hạn chế về thành phần, đặc biệt là đối với các nhiệm vụ đòi hỏi nhiều kiến thức và điều chỉnh các biện pháp phòng ngừa an toàn cho phù hợp.
Thông tin cơ bản
gpt-oss-20b là một Mô hình suy luận trọng số mở 21 tỷ tham số được phát hành bởi OpenAI theo Giấy phép Apache 2.0, Cho phép quyền truy cập toàn diện để tải xuống, tinh chỉnh và phân phối lại. Nó đánh dấu lần phát hành mô hình trọng số mở đầu tiên của OpenAI kể từ GPT‑2 vào năm 2019 và được tối ưu hóa cho triển khai cạnh và suy luận cục bộ trên các hệ thống với ≥ 16 GB VRAM.
- Tham số: Tổng cộng 21 tỷ, trong đó 3.6 tỷ đang hoạt động trên mỗi mã thông báo
- Kiến trúc: Máy biến áp với hỗn hợp các chuyên gia (MoE)
- Cửa sổ ngữ cảnh: Lên đến 128 mã thông báo để hiểu dạng dài
- Giấy phép: Apache 2.0, cho phép sử dụng không hạn chế cho mục đích học thuật và thương mại ().
Tính năng & Kiến trúc Kỹ thuật
Thông số kỹ thuật mô hình
- Thông số Kỹ thuật : Tổng cộng 21 B, 3.6 B hoạt động trên mỗi mã thông báo thông qua kiến trúc Hỗn hợp chuyên gia (MoE) với 32 chuyên gia mỗi lớp, 4 hoạt động cho mỗi mã thông báo .
- Layers: 24, cửa sổ ngữ cảnh lên đến 128 nghìn mã thông báo, mã thông báo đầu ra tối đa lên tới 32K trong một số lần triển khai.
- Sự chú ý và trí nhớ: Các mẫu chú ý dày đặc + thưa thớt xen kẽ; nhóm chú ý nhiều truy vấn (kích thước nhóm = 8) để tăng hiệu quả suy luận.
Kiểm soát đào tạo và lý luận
- Được đào tạo về văn bản tiếng Anh chủ yếu tập trung vào STEM, lập trình, kiến thức chung.
- Hỗ trợ chuỗi suy nghĩ (CoT) lý luận và điều chỉnh mức độ lý luận (Thấp, Trung bình, Cao) tùy thuộc vào độ phức tạp của nhiệm vụ.
Hiệu suất chuẩn
- phù hợp hoặc vượt trội hơn hiệu suất của mô hình o3‑mini của OpenAI trên các điểm chuẩn như MMLU, AIME, HLE, HealthBench, Codeforces, Tau‑Bench ngay cả khi kích thước của nó nhỏ hơn.
- Vượt trội hơn các mô hình độc quyền như OpenAI o1, GPT‑4o và o4‑mini trong suy luận toán học và sức khỏe nhiệm vụ ở mức độ lý luận cao.
- So với GPT-OSS-120B lớn hơn (117 B), nó chậm hơn trong các nhiệm vụ dựa trên lý luận biểu tượng sâu sắc hoặc kiến thức rộng (ví dụ GPQA), nhưng vẫn hiệu quả trong lĩnh vực mã hóa và sức khỏe.
20 B biến thể cũng gây ấn tượng: nó cạnh tranh o3-mini trên cùng một bộ phần mềm mặc dù có diện tích nhỏ hơn, thể hiện khả năng mở rộng hiệu quả của khả năng suy luận với MoE.
- MMLU (Hiểu ngôn ngữ đa nhiệm lớn): Độ chính xác ~88%
- Codeforces Elo (lý luận mã hóa): ~ 2205
- AIME (cuộc thi toán học có công cụ): ~87.9%
- Sức khỏe: Vượt trội hơn đáng kể so với o4-mini trong các nhiệm vụ chẩn đoán và đảm bảo chất lượng lâm sàng
- Tau-Bench (Bán lẻ + Nhiệm vụ lý luận): ~62% trung bình
Phiên bản mẫu & So sánh
| Mẫu | Thông số | Tham số hoạt động | Nhu cầu phần cứng | Hiệu suất chuẩn |
|---|---|---|---|---|
gpt-oss-20b | 21 tỷ | 3.6 tỷ | ≥ 16 GB GPU hoặc trên thiết bị | Có thể so sánh với o3‑mini |
| gpt‑oss‑120b | 117 tỷ | 5.1 tỷ | GPU 80 GB+ | Phù hợp hoặc vượt quá o4‑mini |
Được thiết kế như một đối tác nhẹ của gpt‑oss‑120BGPT-OSS-20B mang lại khả năng di động trong khi vẫn duy trì hiệu suất tác vụ mạnh mẽ khi tài nguyên bị hạn chế. Nó nổi bật so với các mô hình OpenAI độc quyền nhờ khả năng truy cập và điều chỉnh mở.
Hạn chế
- Giảm khả năng nhớ lại kiến thức về các nhiệm vụ phức tạp như GPQA so với các mô hình lớn hơn.
- Báo cáo từ người dùng chỉ ra sự thay đổi trong hiệu suất thực tế, đặc biệt là đối với mã hóa hoặc lời nhắc kiến thức chung; một số người cho rằng điều này là do triển khai sớm hoặc sử dụng lời nhắc sai cách.
- Rủi ro về an toàn và sử dụng sai mục đích:Mặc dù OpenAI đã đánh giá các biến thể gpt-oss được tinh chỉnh để chống đối, nhưng ngay cả những biến thể này cũng không đạt được khả năng cao trong các lĩnh vực rủi ro sinh học hoặc an ninh mạng; tuy nhiên, người dùng triển khai các trường hợp sử dụng quy mô lớn có thể cần các biện pháp bảo vệ bổ sung.
Trường hợp sử dụng
OpenAI đã thiết kế GPT‑OSS để hỗ trợ phạm vi rộng các trường hợp sử dụng, từ ứng dụng tiêu dùng đến phân tích cấp doanh nghiệp. Phiên bản 20B được tối ưu hóa cho việc thực thi cục bộ, có khả năng chạy trên các thiết bị chỉ cần 16GB RAM, Chẳng hạn như máy tính xách tay cao cấp hoặc MacBook có chip dòng M. GPT-OSS-20B lý tưởng cho:
- Suy luận cục bộ/ngoại tuyến trên PC Windows (thông qua Windows AI Foundry), macOS hoặc các thiết bị biên chạy Snapdragon.
- Quy trình làm việc của Agentic: thực thi mã, sử dụng công cụ, tác nhân dựa trên trình duyệt hoặc trợ lý tự động trong cài đặt băng thông hạn chế.
- Tạo mẫu nhanh và tinh chỉnh, đặc biệt đối với các nhà phát triển làm việc mà không có cơ sở hạ tầng đám mây hoặc có hạn chế về quyền riêng tư.
So sánh các mô hình khác
gpt-oss-20bso với o3‑mini / o4‑mini: GPT‑OSS‑20B cạnh tranh với o3‑mini về độ chính xác và khả năng suy luận đồng tư duy; nó hiệu quả và mở hơn o4‑mini nhưng hoạt động kém hơn so với gpt‑oss‑120B về các nhiệm vụ lý luận đòi hỏi nhiều kỹ năng.gpt-oss-20bso với LLaMA 4, GLM‑4.5, DeepSeek: GPT‑OSS‑20B mang lại tính minh bạch trọng lượng mở hoàn toàn theo Apache 2.0, không giống như các mô hình bán mở; nhưng trong một số trường hợp, người dùng báo cáo thích GLM‑4.5‑AIR hơn về chất lượng suy luận.
Cách gọi gpt-oss-20b API từ CometAPI
gpt-oss-20b Giá API trong CometAPI,giảm giá 20% so với giá chính thức:
| Mã thông báo đầu vào | $0.08 |
| Mã thông báo đầu ra | $0.32 |
Các bước cần thiết
- Đăng nhập vào " cometapi.com. Nếu bạn chưa phải là người dùng của chúng tôi, vui lòng đăng ký trước
- Nhận khóa API thông tin xác thực truy cập của giao diện. Nhấp vào “Thêm mã thông báo” tại mã thông báo API trong trung tâm cá nhân, nhận khóa mã thông báo: sk-xxxxx và gửi.
- Lấy url của trang web này: https://api.cometapi.com/
Phương pháp sử dụng
- Chọn hàng
gpt-oss-20b” điểm cuối để gửi yêu cầu API và thiết lập nội dung yêu cầu. Phương thức yêu cầu và nội dung yêu cầu được lấy từ tài liệu API của trang web của chúng tôi. Trang web của chúng tôi cũng cung cấp thử nghiệm Apifox để thuận tiện cho bạn. - Thay thế bằng khóa CometAPI thực tế từ tài khoản của bạn.
- Chèn câu hỏi hoặc yêu cầu của bạn vào trường nội dung—đây là nội dung mà mô hình sẽ phản hồi.
- . Xử lý phản hồi API để nhận được câu trả lời đã tạo.
CometAPI cung cấp một API REST hoàn toàn tương thích—cho việc di chuyển liền mạch. Chi tiết chính để Tài liệu API:
- Tham số cốt lõi:
prompt,max_tokens_to_sample,temperature,stop_sequences - Điểm cuối: https://api.cometapi.com/v1/chat/completions
- Thông số mô hình: "
gpt-oss-20b" - Xác thực:
Bearer YOUR_CometAPI_API_KEY - Loại-Nội dung:
application/json.
Ví dụ về cuộc gọi API
Mặc dù có trọng lượng mở, các mô hình GPT-OSS có thể được truy cập thông qua các API như CometAPI và các API khác. Đối với gpt‑oss‑20B, một lệnh gọi điển hình tới CometAPI trông như thế này:
POST https://api.cometapi.com/v1/chat/completions
{
"model": "gpt-oss-20b",
"messages": [{ "role": "system", "content": "Reasoning: high" },
{ "role": "user", "content": "Solve bilateral integral…" }],
"max_tokens": 2048,
"temperature": 0.0
}
Điều này hỗ trợ chức năng gọi hàm, lược đồ đầu ra có cấu trúc, tích hợp công cụ và kiểm soát lý luận thông qua lời nhắc hệ thống.
Xem thêm GPT-OSS-120B


