GPT-5.3 Codex:功能、基准测试以及如何获取

CometAPI
AnnaFeb 6, 2026
GPT-5.3 Codex:功能、基准测试以及如何获取

2026 年 2 月 5 日,OpenAI 宣布推出 GPT-5.3-Codex,这是对其 Codex 系列的一次聚焦升级,将先进的编码能力与更广泛的专业推理、更快的推理速度以及更深入的“代理化”工作流相结合。此次发布带来了全新的 Codex 桌面应用,并将可用范围扩展至整个 Codex 生态(CLI、IDE 扩展、Web),API 访问(承诺“即将推出”)。

什么是 GPT-5.3-Codex?

GPT-5.3-Codex 是 OpenAI Codex 系列中最新的代理化编码模型:该模型经过专门训练与调优,能够在开发者工作流中运作,使用工具(终端、编辑器、Web 端点),并执行需要规划、工具使用与迭代调试的长周期工程任务。OpenAI 将 GPT-5.3-Codex 定位为继任者,将 GPT-5.2-Codex 的编码优势与 GPT-5.2 的推理与专业知识改进相结合,打造一个更像协作式工程队友的单一模型。

起源与设计目标

  • 代理化工作流: 模型被调优以便在一段时间内编排一系列动作(例如运行测试、修补代码、重新运行),而不仅仅是生成单一答案。
  • 工具集成: Codex 旨在安全、可靠地使用开发者工具——CLI、调试器、包管理器——并在会话间保留状态。
  • 面向实用的开发者帮助: 目标务实:减少上下文切换、加速故障排除、自动化常规工作(测试、重构、代码检索),并支持人与模型的协作引导。

GPT-5.3-Codex 有哪些新变化?

与其直接前代相比,GPT-5.3-Codex 带来了若干具体改动与产品层面的改进:

1. 为 Codex 用户带来更快的推理

OpenAI 称,得益于推理栈与基础设施优化,GPT-5.3-Codex 对 Codex 用户而言大约快 25%。这一提速既意味着交互式调试时更低的延迟,也意味着更长、更顺滑的代理化运行。

2. 统一推理与编码优势

GPT-5.3-Codex 不再是纯粹的“仅编码”模型,而是将 GPT-5.2-Codex 的前沿编码性能与(来自 GPT-5.2 的)增强专业推理相融合,使其在研究密集型任务上表现更好:阅读文档、规划多步骤迁移,并在产出代码的同时给出论证与测试证据。

3. 运行期间更好的协作与可引导性

面向用户的一大变化是当模型“工作”时具备更强的协作者式交互:Codex 会更频繁地报告进度,可在运行过程中接受引导指令,并在多步骤任务中保留上下文与状态——因此用户可以在执行过程中打断、纠正或引导代理。产品说明显示,这种“引导”行为正在 Codex 各工具中趋于稳定。

4. Codex 桌面应用(以及更紧密的跨客户端同步)

OpenAI 推出了Codex 应用,可与 Codex CLI 与 IDE 扩展同步会话历史与配置——开发者可在编辑器或终端中开始,在桌面应用中无缝接力而不丢失状态。该应用被定位为代理化工作流的协调中枢。

5. 代理化的长时运行行为

GPT-5.3-Codex 专门针对可长时间运行、与工具调用交错、并需要中途引导(暂停/恢复、改变目标)的任务进行优化。这提升了其在复杂重构、多模块特性开发与跨仓库任务中的能力。

基准测试上的 GPT-5.3-Codex

GPT-5.3-Codex (xhigh)GPT-5.2-Codex (xhigh)GPT-5.2 (xhigh)
SWE-Bench Pro(公开)56.8%56.4%55.6%
Terminal-Bench 2.077.3%64.0%62.2%
OSWorld-Verified64.7%38.2%37.9%
GDPval(胜或平)70.9%-70.9% (高)
网络安全夺旗挑战77.6%67.4%67.7%
SWE-Lancer IC Diamond81.4%76.0%74.6%

代表性基准结果

  • Terminal-Bench 2.0: GPT-5.3-Codex 据称得分**≈77.3%**,这是一次大幅跃升,表明其在命令行与终端工作流方面较上一代有更强的熟练度。
  • SWE-Bench Pro: OpenAI 报告在覆盖多种语言与工业挑战的严苛软件工程基准上取得**≈56.8%**,相较前代有温和但实用的提升。
  • OSWorld-Verified 与网络安全 CTF 指标: OpenAI 的系统卡与报告指出,在通用“计算机使用”基准(OSWorld)与网络安全夺旗类任务上(相较 GPT-5.2-Codex)有显著提升。

开发者与组织如何获取 GPT-5.3-Codex?

目前在哪些产品与界面可用?

  • Codex 应用(桌面与 Web): OpenAI 推出了专门的 Codex 应用,可保留会话并与 CLI、IDE 扩展同步配置。对许多用户而言,该应用是以 GUI 和持久状态运行代理工作流的主要方式。
  • Codex CLI: 以终端为先的用户可通过命令行界面与 Codex 交互,将其与本地代码库与工作流集成。
  • IDE 扩展: 面向常见 IDE(Visual Studio Code、JetBrains 家族)的插件,让 Codex 在编辑器内运行,提出代码、运行本地测试并就地执行更改。
  • Web 界面: 通过 ChatGPT/Codex 页面进行标准的 Web 访问,为许多用户提供免安装选项。

重要可用性说明: OpenAI 表示,GPT-5.3-Codex 已在 Codex 各界面向付费 ChatGPT 方案开放,且API 访问尚未启用,正等待安全相关工作完成。

在等待 GPT-5.3 Codex API 期间,开发者可以先在 CometAPI 上使用同样功能丰富的 GPT-5.2 Codex,为迁移至 GPT-5.3 Codex 做准备。待 GPT-5.3 Codex API 发布后,你可以在数分钟内完成升级,而无需从头开始。

1. Codex 应用(桌面)

  • 谁: 希望使用以 GUI 为中心的协调界面的个人开发者与团队。
  • 内容: 同步来自 CLI 与 IDE 的会话历史与配置,呈现正在运行的代理任务与日志,充当长时操作的枢纽。
  • 如何开始: 在 Codex 应用中使用你的 ChatGPT 账号登录;在 IDE/CLI 中启动的会话会出现在应用内。

2. Codex CLI(终端)

  • 谁: 终端优先的开发者、DevOps 工程师、SRE。
  • 内容: 运行 Codex 动作、执行命令、运行测试,并在你的项目中以结构化形式接收反馈。CLI 适用于将模型作为工具进行自动化与脚本化。
  • 如何开始: 安装 Codex CLI(安装包与说明见 OpenAI 开发者文档),使用你的 ChatGPT 账号或团队凭据登录,并指向你的代码仓库。

3. IDE 扩展(VS Code 等)

  • 谁: 以编辑器为中心的开发者。
  • 内容: 编辑器内助理、拉取请求审查自动化(例如在 PR 上标签 @codex 以请求自动审查),以及无需离开编辑器即可运行代理化流程。扩展支持基于账号的登录——许多工作流无需处理 API Key。
  • 如何开始: 在你的 IDE 中安装扩展,使用账号登录,并在项目内启用代理化能力。

4. Web/ChatGPT

  • 谁: 轻量或探索型用户、产品经理,以及希望通过 Web 访问的团队。
  • 内容: 付费订阅者可通过 ChatGPT 界面使用 GPT-5.3-Codex。Web 界面可在浏览器中即时访问 Codex 功能。

5. API(即将推出)

  • 谁: 希望将 Codex 嵌入 CI/CD 流水线、自动化工具或专有平台的公司。
  • 预期: OpenAI 表示正在准备 GPT-5.3-Codex 的 API 访问。

GPT-5.3-Codex 对开发者生态意味着什么?

短期影响

  • 常规工作的生产力提升: 许多团队将在测试、重构与调试上加快迭代。IDE 与 CLI 集成降低了采用代理化工作流的门槛。
  • 新的协作模式: 工程师将愈发以“队友”的方式与 AI 交互——发出引导指令、审阅代理输出,并将模型用于重复但关键的任务,如代码格式化、脚手架与常规修复。

长期行业影响

  • 工具链整合: 集成的代理化工具(应用 + CLI + IDE)或将减少工具碎片化,只要团队拥抱以 Codex 为中心的单一工作流。
  • 竞争与专业化: 同周 Anthropic 等发布显示,供应商正在划分不同细分领域(例如巨大的上下文窗口 vs. 代理化编码速度),这将推动企业基于用例而非品牌选择模型。

角色与劳动力

  • 增强而非替代(目前): 尽管 Codex 将自动化许多开发者任务,但在人涉及架构、安全、关键推理与治理时——尤其在生产安全攸关时——人类工程师仍至关重要。Codex 改变的是工作量分配,而非直接消除岗位。

开发者现在即可通过 CometAPI 访问 GPT-5.2 Codex。要开始,请在 Playground 探索模型能力,并查阅 API 指南 获取详细说明。访问前,请确保已登录 CometAPI 并获取 API Key。CometAPI 提供远低于官方价的优惠,帮助你完成集成。

准备好了吗?→ Sign up fo code today

如果你想获得更多技巧、指南与新闻,欢迎关注我们的 VKXDiscord

阅读更多

一个 API 中超 500 个模型

最高 20% 折扣