GPT-OSS-120B API

CometAPI
AnnaAug 6, 2025
GPT-OSS-120B API

OpenAI 的 gpt-oss-120b 是该组织自 GPT-2 以来首次发布的开放权重模型,在 Apache 2.0 license 下为开发者提供透明可定制高性能的 AI 能力。面向复杂的推理具备代理能力的应用而设计,该模型让先进大语言技术的获取更加民主化,支持本地部署与深度微调。

核心特性与设计理念

GPT‑OSS 模型被设计为通用型、仅文本的大语言模型(LLM)。它们支持高阶认知任务,包括数学推理、结构化分析与语言理解。与 GPT‑4 等封闭商用模型不同,GPT‑OSS 允许完整下载与使用模型权重,使研究人员与开发者能够以前所未有的方式在自有基础设施上检查、微调并完全部署模型。

基本信息

  • Parameters: 总计 117 billion,采用 Mixture-of-Experts (MoE) 激活 5.1 billion
  • License: Apache 2.0,适用于不受限制的商业与学术用途
  • Context Window: 最多 128 K tokens,支持长文本输入与多文档推理
  • Chain-of-Thought: 提供完整 CoT 输出,便于审计与细粒度控制
  • Structured Outputs: 原生支持 JSON、XML 与自定义模式(schemas)

技术细节

GPT-OSS 采用 Transformer 主干,并融合 Mixture-of-Experts (MoE) 架构,实现稀疏激活以降低推理成本。gpt-oss-120b 含有 128 个专家(experts),分布于 36 层,每个 token 激活 4 个专家(5.1 B 激活参数);而 gpt-oss-20b24 层中使用 32 个专家,每个 token 同样激活 4 个专家(3.6 B 激活参数)。其采用稠密与局部带状稀疏注意力交替分组多查询注意力(组大小 8),并支持 128 k token 的上下文窗口——在当前开放权重发行中尚无可比。通过 **4-bit mixed-precision quantization ** 进一步提升内存效率,使通用硬件上可支持更大的上下文。

GPT‑OSS 模型已在知名数据集上进行严格基准测试,显示出与同等规模的专有模型相当甚至更优的性能。

基准测试与性能评估

在标准基准上,gpt-oss-120b 与 OpenAI 的专有模型 o4-mini 相当或更优:

  • MMLU (Massive Multitask Language Understanding): ~88% 准确率
  • Codeforces Elo (coding reasoning): ~2205
  • AIME (math competition with tools): ~87.9%
  • HealthBench: 在临床问答与诊断任务上显著优于 o4-mini
  • Tau-Bench (Retail + Reasoning tasks): 平均约 ~62%

模型版本

  • 默认变体: gpt-oss-120b (v1.0)
  • 激活参数: 5.1 B(动态 MoE 选择)
  • 后续发布: 计划推出补丁以改进安全过滤专业领域微调

局限性

尽管功能强大,GPT‑OSS 模型仍存在一些限制:

  • 仅文本接口:不同于 GPT-4o 或 Gemini,GPT‑OSS 不支持多模态输入(图像、音频、视频)。
  • 训练集不透明:OpenAI 未公布具体数据集细节,可能引发学术可复现性或偏见审计方面的担忧。
  • 性能不一致:部分社区基准(如 Simple-Bench)在特定推理测试上表现较差(120b 在某些任务仅 ~22%),表明跨领域性能可能显著波动
  • 硬件限制:120B 模型本地推理需要大量算力,没有 GPU 的普通开发者难以使用。
  • 安全权衡:尽管已在对抗性微调场景下测试,开放权重仍可能被滥用——例如用于垃圾信息、错误信息或越狱攻击——若缺乏适当治理。

尽管如此,OpenAI 报告称 gpt‑oss 模型在前沿级安全风险方面(尤其是生物风险或网络安全领域)目前并未构成风险。

如何通过 CometAPI 调用 gpt-oss-120b API

CometAPI 中 gpt-oss-120b API 定价,较官方价优惠 20%:

输入 Token$0.16
输出 Token$0.80

必要步骤

  • 登录 cometapi.com。若您尚未成为我们的用户,请先注册
  • 获取接口的访问凭证 API key。点击个人中心的 API token 处的“Add Token”,获取令牌密钥:sk-xxxxx 并提交。
  • 获取本站的 url:https://api.cometapi.com/

使用方法

  1. 选择 “gpt-oss-120b” 端点发送 API 请求并设置请求体。请求方法与请求体可从我们网站的 API 文档获取。我们的网站也提供 Apifox 测试以便使用。
  2. 将 <YOUR_API_KEY> 替换为您账号中的实际 CometAPI 密钥。
  3. 将您的问题或请求插入 content 字段——模型将对此作出响应。
  4. . 处理 API 响应以获取生成的答案。

CometAPI 提供完全兼容的 REST API——实现无缝迁移。关键细节参见 API 文档:

  • Endpoint: https://api.cometapi.com/v1/chat/completions
  • Model Parameter: gpt-oss-120b
  • Authentication: Bearer YOUR_CometAPI_API_KEY
  • Content-Type: application/json .
  • Core Parameters: prompt, max_tokens_to_sample, temperature, stop_sequences

虽然 GPT‑OSS 可完全离线使用,但在诸如 Hugging Face 或 AWS Bedrock 等服务上托管时,也支持与 OpenAI 兼容的聊天 API

以下是使用 Python 的集成示例:

from openai import OpenAI
import os

client = OpenAI(
    base_url="https://api.cometapi.com/v1/chat/completions",  # or AWS/Azure provider

    api_key=cometapi_key
)

response = client.chat.completions.create(
    model="gpt-oss-120b",
    messages=[
        {"role": "user", "content": "Explain how quantum tunneling works."}
    ]
)

print(response.choices.message.content)

或者,你也可以使用 LMDeployText Generation Inference (TGI)vLLM 等工具在本地运行这些模型。

另请参见 GPT-OSS-20B

阅读更多

一个 API 中超 500 个模型

最高 20% 折扣