GPT 5.2 Codex 发布:功能、基准测试与访问

CometAPI
AnnaDec 22, 2025
GPT 5.2 Codex 发布:功能、基准测试与访问

OpenAI 发布了 GPT-5.2-Codex,这是针对 Codex 优化的 GPT-5.2 版本,专为长时程、智能体化编码任务、大规模重构与迁移、在终端环境中的可靠工具使用、改进的 Windows 原生行为,以及更强的网络安全能力而设计。SWE-Bench Pro 和 Terminal-Bench 2.0 等基准测试显示,GPT-5.2-Codex 在智能体化编码模型中处于最先进水平。

什么是 GPT-5.2-Codex?

GPT-5.2-Codex 是 OpenAI 的 GPT-5.2 系列中的专用模型变体,明确针对智能体化编码工作流进行优化。在此语境下,“agentic”意味着该模型被设计为能够在真实开发者环境中稳健地作为自主或半自主的参与者运行:执行终端命令、与代码仓库交互、调用开发者工具,并在多步骤任务与长会话中保持上下文。该模型建立在 GPT-5.2 的通用推理与科学能力之上,同时继承了最初由 GPT-5.1-Codex-Max 展示的智能体化与终端优势。

GPT-5.2-Codex 的 4 项核心特性

长时程上下文压缩与令牌效率

GPT-5.2-Codex 的一个关键技术改进是上下文压缩:随着会话增长,系统会自动将较旧的上下文压缩为在令牌上更高效但语义上忠实的摘要。这让模型在长时间交互(数小时甚至数天)中保留项目层面的知识,对于在超大型代码库上执行大规模重构或迁移至关重要。结果是在多步骤计划中更少的上下文丢失与更少的“遗忘”失败。

大规模代码变更的可靠性提升

OpenAI 指出,GPT-5.2-Codex 在大规模代码变更方面显著更好——例如仓库级重构、跨模块迁移和特性重写。该模型展现出更强的能力来生成连贯的补丁、维护项目不变量,并在测试失败时进行迭代——延续既有工作流而非从头开始。这使其更适合以往在早期智能体模型中较为脆弱的代码库维护任务。

更佳的 Windows 原生行为与终端性能

对某些工程团队而言,Windows 环境中的行为不一致(路径约定、Shell 差异、工具链)是一大痛点。GPT-5.2-Codex 针对原生 Windows 的智能体化使用进行了优化,降低了在 Windows 技术栈上开发或部署的摩擦。当模型需要运行命令、编译或编排环境时,它还提升了 Bash、PowerShell 及其他 Shell 的通用终端可靠性。

更强的视觉与 UI 解析能力

Codex 之前已能处理图像;GPT-5.2-Codex 在此基础上改进,使其对在调试或设计交接中共享的屏幕截图、技术图表、模型图和 UI 工件的解读更为准确。这帮助开发者将设计模型转化为可运行的原型,也让安全团队在分诊中更可靠地解读 UI 证据。

GPT-5.2-Codex 在基准与真实测试中的表现

基准结果显示了什么

GPT-5.2-Codex 在两个旨在模拟真实开发者任务的智能体化编码基准上的表现:

  • SWE-Bench Pro —— 一个仓库级评估,模型必须生成能解决真实工程任务的代码补丁。GPT-5.2-Codex 取得了最高分,显示出更高的准确性与补丁质量。
  • Terminal-Bench 2.0 —— 一个针对智能体终端使用的评估,包括编译、训练、服务器搭建和其他交互式终端工作流。GPT-5.2-Codex 在该项中也领先,这与真实的智能体开发者场景高度相关。

在 SWE-Bench Pro 上,GPT-5.2-Codex 达到56.4% 准确率(相比 GPT-5.2 的 55.6% 与 GPT-5.1 的 50.8%);在 Terminal-Bench 2.0 为 64.0%(相比 GPT-5.2 的 62.2% 与 GPT-5.1-Codex-Max 的 58.1%)。这些数字体现出在智能体工程表现上的可衡量、渐进式提升。

这如何转化为真实工程工作?

聚焦智能体能力的基准很有价值,因为它们测试模型串联操作、对系统状态做出反应并产出可执行输出的能力——这更贴近开发者希望助手能在其环境中有意义地运作的实际价值。更高的基准分数往往与更少的工具调用失败、更少工程师手动干预,以及在执行仓库级变更时更好的维护流程相关。

GPT-5.2-Codex 与 GPT-5.1-Codex-Max 有何不同?

GPT-5.1-Codex-Max 的设计目标是什么?

GPT-5.1-Codex-Max 是 OpenAI 先前的 Codex 重点产品,强调改进的长时程编码、令牌效率与智能体工具使用。它在补丁生成与终端工作流方面带来了显著的生产力提升,并为新的 GPT-5.2-Codex 优化奠定了基础。OpenAI 报告称,在 GPT-5.1 时代,内部对 Codex 工作流的使用提高了工程师产出与 Pull Request 的合并速度。

具体有哪些差异?

OpenAI 将 GPT-5.2-Codex 定位为相较 GPT-5.1-Codex-Max 的迭代但有意义的升级。新变体将 GPT-5.2 的基础推理提升与 5.1-Codex-Max 引入的智能体工程能力相结合。关键的对比改进包括:

  • 更长且更稳定的上下文处理 —— 5.2-Codex 能在比 5.1 变体更长的交互中维持计划。
  • 更高的 Windows 终端一致性 —— 在此前版本有时处理平台细节不当的地方,5.2-Codex 被调优得更像人类 Windows 操作员。
  • 更好的令牌效率 —— 意味着它能用更少的令牌进行推理,从而将上下文保留给关键的仓库状态。
  • 在智能体测试上的更高基准表现。

GPT-5.1-Codex-Max 仍具备哪些价值?

GPT-5.1-Codex-Max 引入了第一代具备智能体与终端能力的 Codex 模型;它在许多团队中仍然有用并在生产中运行,尤其是那些已在工作流或针对该模型定制的工具集成上投入的团队。实际来看,5.2-Codex 应被视为当团队需要更长会话、更好的 Windows 支持或更强的安全敏感行为时的迁移机会——但并非未经测试即可在所有环境中自动替换。

GPT-5.2-Codex vs GPT-5.1-Codex-Max(实践差异)

在实际使用中,曾经试验过 GPT-5.1-Codex-Max 的人会注意到:

更稳健的安全分诊辅助,使安全工程师能够加速漏洞复现与分诊,同时 OpenAI 对风险用例实施更严格的访问控制。

更少的会话重置:GPT-5.2-Codex 在多次迭代后不太容易“忘记”项目意图。

在终端任务与自动化构建/测试循环上成功率更高,减少 CI 任务的人工救火时间。

如果你的团队已经使用 GPT-5.1-Codex-Max,切换到 GPT-5.2-Codex 的体验应当是渐进但有益的:在长任务中更少中断、更好的端到端自动化,以及在安全相关活动中更安全、更可靠的伙伴。对于尚未使用 Codex 的团队,GPT-5.2-Codex 因为被专门调优以在长序列交互中保持状态与意图,从而降低了进行更大、更具风险自动化的技术摩擦。

使用场景:从原型到生产支持

快速原型与从模型到代码的转换

设计团队可以交付模型图或截图;Codex 能够解读并生成功能性原型,从而加速 UX → 工程迭代。改进的视觉与 UI 解析让这些转换更贴近真实、更少人工干预。

大型重构与迁移

维护长期存续代码库(monorepos、多服务架构)的团队可以利用 Codex 进行计划性重构与迁移。模型改进的补丁连贯性与会话记忆帮助在多步骤变更中保持意图,减少需要人类回滚的次数。

自动化 CI 故障排查与终端编排

Codex 能运行构建序列、复现失败、提出并应用修复、重新运行测试——全部在可观测的环境中完成。这使其在有人类监督的情况下,适用于 CI 分诊与批量修复工作流。

防御性安全研究与分诊

OpenAI 强调防御性网络安全为优先用例:在可信访问试点中,经过审核的研究者可以使用 Codex 搭建模糊测试框架、分析攻击面,并加速负责任披露的漏洞 PoC 创建。公司指出有真实案例显示,Codex 辅助的工作流帮助发现了此前未知的问题。

代码评审增强与策略执行

Codex 支持更丰富、感知仓库上下文的代码评审,可将 PR 与明确意图进行比对、运行测试以验证行为改变,并提供修复建议——有效地充当可扩展到大量 Pull Request 的智能评审者。

人类监督仍然至关重要

尽管取得进展,GPT-5.2-Codex 并不是专业工程师或安全团队的替代品。仍需人类专家来验证语义、保证架构一致性、核实非功能性需求,并批准生产变更。对安全而言,为避免意外暴露或误用,红队评审与威胁建模仍是必需的。OpenAI 自身的发布计划——先对付费用户逐步开放、并对安全能力采用邀请制试点——也体现了这种谨慎立场。

如何立即开始使用 GPT-5.2-Codex?

Codex 用户的即时步骤

  • 如果你是付费 ChatGPT 用户:GPT-5.2-Codex 现已在 Codex 各入口(CLI、IDE 插件、Codex Web)可用。已登录用户的 Codex CLI 与 IDE 将默认使用 gpt-5.2-codex;你可以在下拉菜单中选择模型,或在 Codex 的 config.toml 中更改默认值。
  • 如果你依赖 API:OpenAI 正在推动在“未来几周”启用 API 访问。与此同时,考虑在 Codex IDE/CLI 中进行试点,以便在具有代表性的代码仓与 CI 流水线上评估其行为。
  • 如果你是安全研究者:如果你的工作偏向防御,并具备负责任披露的记录,请表达对 OpenAI 可信访问试点的兴趣。OpenAI 正在为经过审核的参与者进行入驻,以安全地扩展防御性能力。

结论

GPT-5.2-Codex 代表着面向软件开发的务实、工程聚焦的智能体 AI 进步。它带来了针对性的改进——用于长任务的上下文压缩、在执行大规模代码变更时的稳健性提升、更好的 Windows 支持,以及更高的网络安全能力——同时 OpenAI 试图在可访问性与审慎治理和分阶段开放之间取得平衡。对于依赖大型单仓、广泛自动化与持续交付的团队,GPT-5.2-Codex 能在多步骤工程任务上降低摩擦并加速开发者工作流。与此同时,此次发布再次强调模型是需要纪律化集成的工具:强有人类在环的控制、沙箱化与可观测性仍然必不可少。

要开始,请在 GPT-5.1 Codex maxGPT-5.1 CodexPlayground 中探索其能力,并参阅 API guide 获取详细说明。在访问前,请确保你已登录 CometAPI 并获得 API 密钥。CometAPI 提供远低于官方价格的方案,帮助你完成集成。

Ready to Go?→ Free trial of GPT-5 Codex series !

阅读更多

一个 API 中超 500 个模型

最高 20% 折扣