gpt-oss-20b 是一款便携的、开放权重的推理模型,在宽松许可下提供 o3‑mini 级性能、适配代理的工具使用,以及完整的链式思维(Chain-of-Thought)支持。尽管不如其 120 B 版本强大,但它在端侧、低时延与注重隐私的部署中有独特优势。开发者应权衡其已知的组合性局限,尤其在知识密集型任务上,并相应定制安全防护。
基本信息
gpt-oss-20b 是由 OpenAI 在 Apache 2.0 许可证下发布的21B 参数开放权重推理模型,支持权重下载、微调与再分发。这是 OpenAI 自 2019 年的 GPT‑2 以来首次发布开放权重模型,并针对具备 ≥ 16 GB VRAM 的系统进行边缘部署与本地推理优化。
- 参数: 共 21B,其中每个 token 激活 3.6B
- 架构: 采用 Transformer 与 专家混合(MoE)
- 上下文窗口: 最多 128 000 tokens,用于长文本理解
- 许可: Apache 2.0,支持不受限制的学术与商业使用()
特性与技术架构
模型规格
- 参数:总计 21 B,通过专家混合(MoE)架构实现每个 token 激活 3.6 B,每层 32 个专家,每个 token 激活 4 个专家。
- 层数:24,支持上下文窗口至 128K tokens,在部分部署中最大输出 tokens 可达 32K。
- 注意力与记忆:交替的稠密 + 稀疏注意力模式;分组多查询注意力(组大小 = 8)以提升推理效率。
训练与推理控制
- 以英语为主的语料,侧重 STEM、编程与通识知识。
- 支持链式思维(CoT)推理,并可根据任务复杂度调整推理等级(低、中、高)。
基准表现
- 在 MMLU、AIME、HLE、HealthBench、Codeforces、Tau‑Bench 等基准上与 OpenAI 的 o3‑mini 匹配或超越,即使在更小的规模下亦如此。
- 在高推理等级下,在健康与数学推理任务上优于诸如 OpenAI o1、GPT‑4o 与 o4‑mini 等专有模型。
- 与更大的 GPT‑OSS‑120B(117 B)相比,在依赖深度符号推理或广泛知识的任务(如 GPQA)上有所落后,但在编码与医疗领域仍保持高效。
该 20 B 变体也令人印象深刻:尽管体量更小,却在同一测试套件上与 o3‑mini 不相上下,展示了基于 MoE 的推理能力高效扩展。
- MMLU(多任务语言理解):约 88% 准确率
- Codeforces Elo(编程推理):约 2205
- AIME(带工具的数学竞赛):约 87.9%
- HealthBench:在临床问答与诊断任务上显著优于 o4-mini
- Tau-Bench(零售 + 推理任务):平均约 62%
模型版本与对比
| Model | Params | Active Params | Hardware Need | Benchmark Performance |
|---|---|---|---|---|
gpt-oss-20b | 21 B | 3.6 B | ≥ 16 GB GPU 或端侧设备 | 与 o3‑mini 相当 |
| gpt‑oss‑120b | 117 B | 5.1 B | 80 GB+ GPU | 匹配或超越 o4‑mini |
作为 gpt‑oss‑120B 的轻量化对应版本,GPT‑OSS‑20B 在资源受限场景中保持强劲任务性能,同时具备出色的可携性。与专有的 OpenAI 模型不同,它因开放可访问与可调优而脱颖而出。
局限性
- 在 GPQA 等复杂任务上的知识召回低于更大模型。
- 用户反馈显示在真实世界场景中表现存在波动,尤其在编程或通识类提示词任务上;部分归因于早期实现或提示词误用。
- 安全与滥用风险:尽管 OpenAI 对对抗性微调的 gpt‑oss 变体进行了评估,甚至这些变体在生物风险或网络领域也未达到高能力,但在大规模部署场景中仍需额外的安全保障。
典型用例
OpenAI 将 GPT‑OSS 设计为可覆盖广泛用例,从消费级应用到企业级分析。20B 变体针对本地执行进行了优化,可在至少 16GB RAM 的设备上运行,例如高端笔记本或搭载 M 系列芯片的 MacBook。GPT‑OSS‑20B 适用于:
- 本地/离线推理:Windows PC(通过 Windows AI Foundry)、macOS 或基于 Snapdragon 的边缘设备。
- 代理式工作流:代码执行、工具使用、基于浏览器的代理或在带宽受限环境中的自治助手。
- 快速原型与微调:尤其适合无需云基础设施或具有隐私约束的开发者。
其他模型对比
gpt-oss-20b** vs. o3‑mini / o4‑mini**:GPT‑OSS‑20B 在准确性与链式思维方面与 o3‑mini 旗鼓相当;相较 o4‑mini 更高效且开放,但在高强度推理任务上不及 gpt‑oss‑120B。gpt-oss-20bvs. LLaMA 4、GLM‑4.5、DeepSeek:GPT‑OSS‑20B 在 Apache 2.0 许可下提供完整开放权重透明性,不同于半开放模型;但一些用户在某些场景中更偏好 GLM‑4.5‑AIR 的推理质量。
如何通过 CometAPI 调用 gpt-oss-20b API
gpt-oss-20b 在 CometAPI 的 API 定价,较官方价格优惠 20%:
| 输入 Tokens | $0.08 |
| 输出 Tokens | $0.32 |
必要步骤
- 登录 cometapi.com。如果您尚未成为我们的用户,请先注册
- 获取接口的访问凭证 API key。在个人中心的 API token 处点击“Add Token”,获取 token key:sk-xxxxx 并提交。
- 获取本站点的 URL:https://api.cometapi.com/
使用方法
- 选择 “
gpt-oss-20b” 端点发送 API 请求并设置请求体。请求方法与请求体可在我们网站的 API 文档获取。我们的网站也提供 Apifox 测试以便您使用。 - 将 <YOUR_API_KEY> 替换为您账号中的实际 CometAPI key。
- 将您的问题或请求插入到 content 字段中——模型将对其做出响应。
- . 处理 API 响应以获得生成的答案。
CometAPI 提供完全兼容的 REST API——便于无缝迁移。关键细节参见 API doc:
- 核心参数:
prompt、max_tokens_to_sample、temperature、stop_sequences - Endpoint: https://api.cometapi.com/v1/chat/completions
- Model 参数: “
gpt-oss-20b“ - Authentication:
Bearer YOUR_CometAPI_API_KEY - Content-Type:
application/json。
API 调用示例
虽然是开放权重,GPT‑OSS 模型也可通过 CometAPI 等 API 进行访问。对于 gpt‑oss‑20B,一个典型的 CometAPI 调用如下:
POST https://api.cometapi.com/v1/chat/completions
{
"model": "gpt-oss-20b",
"messages": [{ "role": "system", "content": "Reasoning: high" },
{ "role": "user", "content": "Solve bilateral integral…" }],
"max_tokens": 2048,
"temperature": 0.0
}
该方式支持函数调用、结构化输出模式、工具集成,以及通过系统提示进行推理控制。
另请参阅 GPT-OSS-120B
