GPT-OSS-20B API

CometAPI
AnnaAug 6, 2025
GPT-OSS-20B API

gpt-oss-20b 是一款便携的、开放权重的推理模型,在宽松许可下提供 o3‑mini 级性能适配代理的工具使用,以及完整的链式思维(Chain-of-Thought)支持。尽管不如其 120 B 版本强大,但它在端侧、低时延与注重隐私的部署中有独特优势。开发者应权衡其已知的组合性局限,尤其在知识密集型任务上,并相应定制安全防护。

基本信息

gpt-oss-20b 是由 OpenAI 在 Apache 2.0 许可证下发布的21B 参数开放权重推理模型,支持权重下载、微调与再分发。这是 OpenAI 自 2019 年的 GPT‑2 以来首次发布开放权重模型,并针对具备 ≥ 16 GB VRAM 的系统进行边缘部署与本地推理优化。

  • 参数: 共 21B,其中每个 token 激活 3.6B
  • 架构: 采用 Transformer 与 专家混合(MoE)
  • 上下文窗口: 最多 128 000 tokens,用于长文本理解
  • 许可: Apache 2.0,支持不受限制的学术与商业使用()

特性与技术架构

模型规格

  • 参数:总计 21 B,通过专家混合(MoE)架构实现每个 token 激活 3.6 B,每层 32 个专家每个 token 激活 4 个专家
  • 层数:24,支持上下文窗口至 128K tokens,在部分部署中最大输出 tokens 可达 32K
  • 注意力与记忆:交替的稠密 + 稀疏注意力模式;分组多查询注意力(组大小 = 8)以提升推理效率。

训练与推理控制

  • 以英语为主的语料,侧重 STEM、编程与通识知识。
  • 支持链式思维(CoT)推理,并可根据任务复杂度调整推理等级(低、中、高)。

基准表现

  • MMLU、AIME、HLE、HealthBench、Codeforces、Tau‑Bench 等基准上与 OpenAI 的 o3‑mini 匹配或超越,即使在更小的规模下亦如此。
  • 在高推理等级下,在健康与数学推理任务上优于诸如 OpenAI o1、GPT‑4o 与 o4‑mini 等专有模型。
  • 与更大的 GPT‑OSS‑120B(117 B)相比,在依赖深度符号推理或广泛知识的任务(如 GPQA)上有所落后,但在编码与医疗领域仍保持高效。

20 B 变体也令人印象深刻:尽管体量更小,却在同一测试套件上与 o3‑mini 不相上下,展示了基于 MoE 的推理能力高效扩展。

  • MMLU(多任务语言理解):约 88% 准确率
  • Codeforces Elo(编程推理):约 2205
  • AIME(带工具的数学竞赛):约 87.9%
  • HealthBench:在临床问答与诊断任务上显著优于 o4-mini
  • Tau-Bench(零售 + 推理任务):平均约 62%

模型版本与对比

ModelParamsActive ParamsHardware NeedBenchmark Performance
gpt-oss-20b21 B3.6 B≥ 16 GB GPU 或端侧设备o3‑mini 相当
gpt‑oss‑120b117 B5.1 B80 GB+ GPU匹配或超越 o4‑mini

作为 gpt‑oss‑120B 的轻量化对应版本,GPT‑OSS‑20B 在资源受限场景中保持强劲任务性能,同时具备出色的可携性。与专有的 OpenAI 模型不同,它因开放可访问与可调优而脱颖而出。


局限性

  • 在 GPQA 等复杂任务上的知识召回低于更大模型。
  • 用户反馈显示在真实世界场景中表现存在波动,尤其在编程或通识类提示词任务上;部分归因于早期实现或提示词误用。
  • 安全与滥用风险:尽管 OpenAI 对对抗性微调的 gpt‑oss 变体进行了评估,甚至这些变体在生物风险或网络领域也未达到高能力,但在大规模部署场景中仍需额外的安全保障。

典型用例

OpenAI 将 GPT‑OSS 设计为可覆盖广泛用例,从消费级应用到企业级分析。20B 变体针对本地执行进行了优化,可在至少 16GB RAM 的设备上运行,例如高端笔记本或搭载 M 系列芯片的 MacBook。GPT‑OSS‑20B 适用于:

  • 本地/离线推理:Windows PC(通过 Windows AI Foundry)、macOS 或基于 Snapdragon 的边缘设备。
  • 代理式工作流:代码执行、工具使用、基于浏览器的代理或在带宽受限环境中的自治助手。
  • 快速原型与微调:尤其适合无需云基础设施或具有隐私约束的开发者。

其他模型对比

  • gpt-oss-20b** vs. o3‑mini / o4‑mini**:GPT‑OSS‑20B 在准确性与链式思维方面与 o3‑mini 旗鼓相当;相较 o4‑mini 更高效且开放,但在高强度推理任务上不及 gpt‑oss‑120B
  • gpt-oss-20b vs. LLaMA 4、GLM‑4.5、DeepSeek:GPT‑OSS‑20B 在 Apache 2.0 许可下提供完整开放权重透明性,不同于半开放模型;但一些用户在某些场景中更偏好 GLM‑4.5‑AIR 的推理质量。

如何通过 CometAPI 调用 gpt-oss-20b API

gpt-oss-20b 在 CometAPI 的 API 定价,较官方价格优惠 20%:

输入 Tokens$0.08
输出 Tokens$0.32

必要步骤

  • 登录 cometapi.com。如果您尚未成为我们的用户,请先注册
  • 获取接口的访问凭证 API key。在个人中心的 API token 处点击“Add Token”,获取 token key:sk-xxxxx 并提交。
  • 获取本站点的 URL:https://api.cometapi.com/

使用方法

  1. 选择 “gpt-oss-20b” 端点发送 API 请求并设置请求体。请求方法与请求体可在我们网站的 API 文档获取。我们的网站也提供 Apifox 测试以便您使用。
  2. 将 <YOUR_API_KEY> 替换为您账号中的实际 CometAPI key。
  3. 将您的问题或请求插入到 content 字段中——模型将对其做出响应。
  4. . 处理 API 响应以获得生成的答案。

CometAPI 提供完全兼容的 REST API——便于无缝迁移。关键细节参见 API doc

  • 核心参数promptmax_tokens_to_sampletemperaturestop_sequences
  • Endpoint: https://api.cometapi.com/v1/chat/completions
  • Model 参数:gpt-oss-20b
  • Authentication: Bearer YOUR_CometAPI_API_KEY
  • Content-Type: application/json

API 调用示例

虽然是开放权重,GPT‑OSS 模型也可通过 CometAPI 等 API 进行访问。对于 gpt‑oss‑20B,一个典型的 CometAPI 调用如下:

POST  https://api.cometapi.com/v1/chat/completions
{
  "model": "gpt-oss-20b",
  "messages": [{ "role": "system", "content": "Reasoning: high" },
               { "role": "user", "content": "Solve bilateral integral…" }],
  "max_tokens": 2048,
  "temperature": 0.0
}

该方式支持函数调用、结构化输出模式、工具集成,以及通过系统提示进行推理控制。

另请参阅 GPT-OSS-120B

阅读更多

一个 API 中超 500 个模型

最高 20% 折扣