GPT-OSS-20B API

gpt-oss-20b 是一款便携的、开放权重的推理模型，在宽松许可下提供 o3‑mini 级性能、适配代理的工具使用，以及完整的链式思维（Chain-of-Thought）支持。尽管不如其 120 B 版本强大，但它在端侧、低时延与注重隐私的部署中有独特优势。开发者应权衡其已知的组合性局限，尤其在知识密集型任务上，并相应定制安全防护。

基本信息

gpt-oss-20b 是由 OpenAI 在 Apache 2.0 许可证下发布的21B 参数开放权重推理模型，支持权重下载、微调与再分发。这是 OpenAI 自 2019 年的 GPT‑2 以来首次发布开放权重模型，并针对具备 ≥ 16 GB VRAM 的系统进行边缘部署与本地推理优化。

参数： 共 21B，其中每个 token 激活 3.6B
架构： 采用 Transformer 与 专家混合（MoE）
上下文窗口： 最多 128 000 tokens，用于长文本理解
许可： Apache 2.0，支持不受限制的学术与商业使用()

特性与技术架构

模型规格

参数：总计 21 B，通过专家混合（MoE）架构实现每个 token 激活 3.6 B，每层 32 个专家，每个 token 激活 4 个专家。
层数：24，支持上下文窗口至 128K tokens，在部分部署中最大输出 tokens 可达 32K。
注意力与记忆：交替的稠密 + 稀疏注意力模式；分组多查询注意力（组大小 = 8）以提升推理效率。

训练与推理控制

以英语为主的语料，侧重 STEM、编程与通识知识。
支持链式思维（CoT）推理，并可根据任务复杂度调整推理等级（低、中、高）。

基准表现

在 MMLU、AIME、HLE、HealthBench、Codeforces、Tau‑Bench 等基准上与 OpenAI 的 o3‑mini 匹配或超越，即使在更小的规模下亦如此。
在高推理等级下，在健康与数学推理任务上优于诸如 OpenAI o1、GPT‑4o 与 o4‑mini 等专有模型。
与更大的 GPT‑OSS‑120B（117 B）相比，在依赖深度符号推理或广泛知识的任务（如 GPQA）上有所落后，但在编码与医疗领域仍保持高效。

该 20 B 变体也令人印象深刻：尽管体量更小，却在同一测试套件上与 o3‑mini 不相上下，展示了基于 MoE 的推理能力高效扩展。

MMLU（多任务语言理解）：约 88% 准确率
Codeforces Elo（编程推理）：约 2205
AIME（带工具的数学竞赛）：约 87.9%
HealthBench：在临床问答与诊断任务上显著优于 o4-mini
Tau-Bench（零售 + 推理任务）：平均约 62%

模型版本与对比

Model	Params	Active Params	Hardware Need	Benchmark Performance
`gpt-oss-20b`	21 B	3.6 B	≥ 16 GB GPU 或端侧设备	与 o3‑mini 相当
gpt‑oss‑120b	117 B	5.1 B	80 GB+ GPU	匹配或超越 o4‑mini

作为 gpt‑oss‑120B 的轻量化对应版本，GPT‑OSS‑20B 在资源受限场景中保持强劲任务性能，同时具备出色的可携性。与专有的 OpenAI 模型不同，它因开放可访问与可调优而脱颖而出。

局限性

在 GPQA 等复杂任务上的知识召回低于更大模型。
用户反馈显示在真实世界场景中表现存在波动，尤其在编程或通识类提示词任务上；部分归因于早期实现或提示词误用。
安全与滥用风险：尽管 OpenAI 对对抗性微调的 gpt‑oss 变体进行了评估，甚至这些变体在生物风险或网络领域也未达到高能力，但在大规模部署场景中仍需额外的安全保障。

典型用例

OpenAI 将 GPT‑OSS 设计为可覆盖广泛用例，从消费级应用到企业级分析。20B 变体针对本地执行进行了优化，可在至少 16GB RAM 的设备上运行，例如高端笔记本或搭载 M 系列芯片的 MacBook。GPT‑OSS‑20B 适用于：

本地/离线推理：Windows PC（通过 Windows AI Foundry）、macOS 或基于 Snapdragon 的边缘设备。
代理式工作流：代码执行、工具使用、基于浏览器的代理或在带宽受限环境中的自治助手。
快速原型与微调：尤其适合无需云基础设施或具有隐私约束的开发者。

其他模型对比

gpt-oss-20b** vs. o3‑mini / o4‑mini**：GPT‑OSS‑20B 在准确性与链式思维方面与 o3‑mini 旗鼓相当；相较 o4‑mini 更高效且开放，但在高强度推理任务上不及 gpt‑oss‑120B。
gpt-oss-20b vs. LLaMA 4、GLM‑4.5、DeepSeek：GPT‑OSS‑20B 在 Apache 2.0 许可下提供完整开放权重透明性，不同于半开放模型；但一些用户在某些场景中更偏好 GLM‑4.5‑AIR 的推理质量。

如何通过 CometAPI 调用 gpt-oss-20b API

`gpt-oss-20b` 在 CometAPI 的 API 定价，较官方价格优惠 20%：


输入 Tokens	$0.08
输出 Tokens	$0.32

必要步骤

登录 cometapi.com。如果您尚未成为我们的用户，请先注册
获取接口的访问凭证 API key。在个人中心的 API token 处点击“Add Token”，获取 token key：sk-xxxxx 并提交。
获取本站点的 URL：https://api.cometapi.com/

使用方法

选择 “gpt-oss-20b” 端点发送 API 请求并设置请求体。请求方法与请求体可在我们网站的 API 文档获取。我们的网站也提供 Apifox 测试以便您使用。
将 <YOUR_API_KEY> 替换为您账号中的实际 CometAPI key。
将您的问题或请求插入到 content 字段中——模型将对其做出响应。
. 处理 API 响应以获得生成的答案。

CometAPI 提供完全兼容的 REST API——便于无缝迁移。关键细节参见 API doc：

核心参数：prompt、max_tokens_to_sample、temperature、stop_sequences
Endpoint： https://api.cometapi.com/v1/chat/completions
Model 参数： “gpt-oss-20b“
Authentication： Bearer YOUR_CometAPI_API_KEY
Content-Type： application/json。

API 调用示例

虽然是开放权重，GPT‑OSS 模型也可通过 CometAPI 等 API 进行访问。对于 gpt‑oss‑20B，一个典型的 CometAPI 调用如下：

POST  https://api.cometapi.com/v1/chat/completions
{
  "model": "gpt-oss-20b",
  "messages": [{ "role": "system", "content": "Reasoning: high" },
               { "role": "user", "content": "Solve bilateral integral…" }],
  "max_tokens": 2048,
  "temperature": 0.0
}

该方式支持函数调用、结构化输出模式、工具集成，以及通过系统提示进行推理控制。

另请参阅 GPT-OSS-120B

基本信息

特性与技术架构

模型规格

训练与推理控制

基准表现

模型版本与对比

局限性

典型用例

其他模型对比

如何通过 CometAPI 调用 gpt-oss-20b API

`gpt-oss-20b` 在 CometAPI 的 API 定价，较官方价格优惠 20%：

必要步骤

使用方法

API 调用示例

阅读更多

一个 API 中超 500 个模型

GPT-OSS-20B API

基本信息

特性与技术架构

模型规格

训练与推理控制

基准表现

模型版本与对比

局限性

典型用例

其他模型对比

如何通过 CometAPI 调用 gpt-oss-20b API

gpt-oss-20b 在 CometAPI 的 API 定价，较官方价格优惠 20%：

必要步骤

使用方法

API 调用示例

阅读更多

一个 API 中超 500 个模型

`gpt-oss-20b` 在 CometAPI 的 API 定价，较官方价格优惠 20%：