GPT-5-Codex 是 OpenAI 推出的全新、面向工程的 GPT-5 变体,专为 Codex 产品家族中的代理式软件工程而调优。它旨在应对大型真实工程工作流:从零创建完整项目、添加功能与测试、调试、重构,并在与外部工具和测试套件交互的同时进行代码评审。此版本是一次有针对性的产品打磨,而非全新的基础模型:OpenAI 已将 GPT-5-Codex 集成进 Codex CLI、Codex IDE 扩展、Codex Cloud、GitHub 工作流以及 ChatGPT 移动端体验;API 将提供,但不是立即开放。
什么是 GPT-5-Codex —— 它为何存在?
GPT-5-Codex 是 GPT-5 的“专门用于编码”的变体。它不再只是通用的对话助手,而是通过强化学习与工程特定数据集进行调优训练,以更好地支持迭代、工具辅助的编码任务(例如:运行测试、根据失败结果迭代、重构模块,并遵循 PR 规范)。OpenAI 将其定位为早期 Codex 努力的继任者,但构建于 GPT-5 的骨干之上,以提升对大型代码库的推理深度,并更可靠地执行多步工程任务。
动机是务实的:开发者工作流日益依赖不仅仅提供单段代码建议的代理。通过让模型专门对齐于“生成 → 运行测试 → 修复 → 重复”的闭环,以及组织的 PR 规范,OpenAI 旨在打造一个更像队友而非一次性补全来源的 AI。从“生成一个函数”到“交付一个特性”的转变,正是该模型的独特价值。
GPT-5-Codex 的架构与训练方式是什么?
高层架构
GPT-5-Codex 是 GPT-5 架构(更广泛的 GPT-5 系列)的一个变体,而非从零开始的新架构。这意味着它继承 GPT-5 的核心 Transformer 设计、可扩展性与推理改进,同时增加面向 Codex 的特定训练与基于强化学习的微调,专注于软件工程任务。OpenAI 的补充材料指出,GPT-5-Codex 训练于复杂、真实的工程任务,并强调在代码可执行与可验证的环境中进行强化学习。
如何针对代码进行训练与优化?
GPT-5-Codex 的训练方案强调“真实世界工程任务”。它在由具体软件开发工作流构建的数据集与环境中进行类似强化学习的微调:多文件重构、PR diff、运行测试套件、调试会话,以及人类评审信号。训练目标是最大化代码编辑的正确性、通过测试,并产生高精度、相关性强的评审评论。这个重点让 Codex 有别于通用聊天微调:其损失函数、评估框架与奖励信号对齐于工程结果(测试通过、diff 正确、更少冗余评论)。
“代理式”训练是什么样的
- 基于执行的微调:在模型生成的代码会被执行、测试与评估的上下文中训练。反馈环来自测试结果与人类偏好信号,鼓励模型迭代直至测试套件通过。
- 来自人类反馈的强化学习(RLHF):精神上类似以往的 RLHF,但应用到多步编码任务(创建 PR、运行测试、修复失败),使模型学会在一系列动作中进行时间维度的归因分配。
- 仓库规模的上下文:训练与评估涵盖大型仓库与重构,帮助模型学习跨文件推理、命名约定与代码库级影响。()
GPT-5-Codex 如何处理工具使用与环境交互?
一个关键的架构特性是模型在调用与协调工具方面的能力提升。历史上的 Codex 将模型输出与一个小型运行时/代理系统结合,可运行测试、打开文件或调用搜索。GPT-5-Codex 进一步扩展,学习何时调用工具,并更好地将测试反馈融入后续代码生成——有效闭合了合成与验证的循环。这通过在训练中加入模型既发出行动(如“运行测试 X”),又在后续生成中条件化于测试输出与 diff 的轨迹来实现。
GPT-5-Codex 实际能做什么 —— 它的特性是什么?
一个标志性产品创新是自适应思考时长。GPT-5-Codex 会根据任务调整其隐藏推理的时长:简单请求运行快速、成本更低,而复杂重构或长时任务则允许模型“思考”更久。同时,对于小型、交互式回合,该模型消耗的 token 显著少于通用 GPT-5 实例;相较于 GPT-5,节省 93.7% 的 token(包括推理与输出)。这种可变的推理策略意在在需要时提供敏捷响应,在必要时进行深入、全面的执行。
核心能力
- 项目生成与引导:从高层提示创建包含 CI、测试与基础文档的完整项目骨架。
- 代理式测试与迭代:生成代码、运行测试、分析失败、打补丁并重跑,自动化开发者的编辑 → 测试 → 修复循环的部分环节。
- 大规模重构:在保持行为与测试的前提下,跨众多文件进行系统化重构。这是 GPT-5-Codex 相较于通用 GPT-5 的重点优化领域。
- 代码评审与 PR 生成:生成 PR 描述、带 diff 的建议更改,以及符合项目约定与人类评审预期的评审评论。
- 大上下文代码推理:比通用聊天模型更擅长在多文件代码库、依赖图与 API 边界中导航与推理。
- 视觉输入与输出:在云端工作时,GPT-5-Codex 可接受图像/截图,进行视觉检查,并为任务附加视觉工件(已构建 UI 的截图)——对前端调试与视觉 QA 工作流具有实际助益。
编辑器与工作流集成
Codex 深度集成进开发者工作流:
- Codex CLI —— 以终端为先的交互,支持截图、待办跟踪与代理审批。CLI 开源,并针对代理式编码工作流进行调优。
- Codex IDE 扩展 —— 将代理嵌入 VS Code(及其分支),可预览本地 diff、创建云端任务,并在云端与本地上下文间移动工作且保留状态。
- Codex Cloud / GitHub —— 云端任务可配置为自动评审 PR、启动临时容器进行测试,并将任务日志与截图附加到 PR 讨论串。
显著限制与权衡
- 优化面更窄:在一些非编码类生产评测中,GPT-5-Codex 的表现略低于通用 GPT-5 变体——提醒我们专业化可能会牺牲通用性。
- 依赖测试:代理式行为依赖可用的自动化测试。测试覆盖不足的代码库会暴露自动验证的局限,可能需要人类监督。
GPT-5-Codex 特别擅长或不擅长哪些任务?
**擅长:**复杂重构、为大型项目创建脚手架、编写与修复测试、遵循 PR 期望,以及诊断多文件运行时问题。
**不太擅长:**需要工作空间之外的最新或专有内部知识的任务,或需要在人类评审之外确保高度正确性的任务(安全关键系统仍需专家)。独立评审也指出,在原始代码质量方面与其他专业编码模型相比呈现混合表现——在代理式工作流上的优势并不等同于在所有基准上的最佳正确性。
基准测试揭示了 GPT-5-Codex 的性能如何?
SWE-bench / SWE-bench Verified:OpenAI 表示,GPT-5-Codex 在 SWE-bench Verified 等代理式编码基准上优于 GPT-5,并在来自大型仓库的代码重构任务上取得提升。在包含 500 个真实软件工程任务的 SWE-bench Verified 数据集中,GPT-5-Codex 的成功率为 74.5%。这超过了 GPT-5 在同一基准上的 72.8%,凸显了该代理能力的提升。来自真实开源项目的 500 个编程任务。此前只能测试 477 个任务,但现在可测试全部 500 个任务 → 更完整的结果。

从早期 GPT-5 设置到 GPT-5-Codex,代码重构评估得分显著上升——早期分析强调了某个高详尽度重构指标从约 ~34% 提升到 ~51% 这样的数字)。这些增益的意义在于它们反映的是对大型、现实重构的改进,而非玩具示例——但关于可重复性与具体测试框架的警示仍然存在。
开发者与团队如何访问 GPT-5-Codex?
OpenAI 已将 GPT-5-Codex 融入 Codex 的产品界面:它现已在所有 Codex 运行的地方上线(例如 Codex CLI 与集成的 Codex 体验)。对于通过 CLI 与 ChatGPT 登录使用 Codex 的开发者,更新后的 Codex 体验将呈现 GPT-5-Codex 模型。OpenAI 表示该模型将“很快”在更广泛的 API 中提供给使用 API 密钥的用户,但在初期推广时,主要访问路径仍是通过 Codex 工具而非公共 API 端点。
Codex CLI
在沙箱仓库中启用 Codex 审阅草稿 PR,以便在无风险的前提下评估评论质量。谨慎使用审批模式。
- 围绕代理式编码工作流重新设计。
- 支持附加图像(如线框图、设计稿与 UI 缺陷截图),为模型提供上下文。
- 新增任务列表功能以跟踪复杂任务的进度。
- 提供外部工具支持(网络搜索、MCP 连接)。
- 全新的终端界面改进了工具调用与 diff 格式化,权限模式简化为三级(只读、自动、完全访问)。

IDE 扩展
集成到 IDE 工作流: 适合希望获得内联预览与更快迭代的开发者,添加 Codex IDE 扩展即可。在云端与本地之间移动任务并保持上下文,可降低复杂特性上的摩擦。
- 支持 VS Code、Cursor 等。
- 直接从编辑器调用 Codex,利用当前打开文件与代码的上下文以获得更准确的结果。
- 在本地与云端环境间无缝切换任务,保持上下文连续性。
- 在编辑器内查看与处理云端任务结果,无需切换平台。

GitHub 集成与云函数
- 自动化 PR 评审:自动触发从草稿到就绪的推进。
- 支持开发者在 PR 的 @codex 分区中请求定向评审。
- 显著加速的云基础设施:通过容器缓存将任务响应时间减少 90%。
- 自动化环境配置:执行设置脚本并安装依赖(例如 pip install)。
- 自动运行浏览器、检查前端实现,并将截图附加到任务或 PR。

安全、安保与限制方面的考量是什么?
OpenAI 强调对 Codex 代理的多层缓解:
- 模型级训练:针对性安全训练,以抵御提示注入并限制有害或高风险行为。
- 产品级控制:默认沙箱化行为、可配置的网络访问、运行命令的审批模式、终端日志与引用以便可追溯,以及对敏感操作要求人类审批的能力。OpenAI 还发布了“系统卡片附录”,描述这些缓解措施及其风险评估,尤其涉及生物与化学领域能力。
这些控制反映了一个能够运行命令与安装依赖的代理具有现实世界的攻击面与风险——OpenAI 的方法是将模型训练与产品约束相结合以限制误用。
已知限制是什么?
- 并非人类评审的替代品:OpenAI 明确建议将 Codex 作为“额外”的评审者,而非替代。人类监督依然关键,尤其是安全、许可与架构决策。
- 基准与声明需谨慎阅读:评审者指出,在比较模型时评估子集、详尽度设置与成本权衡存在差异。早期独立测试显示结果不一:Codex 在代理式工作流与重构方面表现强劲,但与其他厂商的相对准确性因基准与配置而异。
- 幻觉与不稳定行为:与所有 LLM 一样,Codex 可能产生幻觉(编造 URL、误述依赖图),其持续数小时的代理运行在边缘情况下仍可能出现脆弱性。应预期用测试与人类评审验证其输出。
对软件工程更广泛的影响是什么?
GPT-5-Codex 展示了 LLM 设计的成熟转向:与其仅提升纯语言能力,厂商正在为长时、代理式任务(多小时执行、测试驱动开发、集成评审流水线)优化“行为”。这将生产力的单位从单个生成片段转变为“任务完成”——模型接收一个工单、运行一套测试,并迭代产生经验证的实现。如果这些代理变得稳定且治理良好,它们将重塑工作流(更少手动重构、更快的 PR 周期、开发者时间更多聚焦于设计与策略)。但这一转变需要谨慎的流程设计、人类监督与安全治理。
结论 —— 你应该记住什么?
GPT-5-Codex 是迈向“工程级”LLM 的聚焦一步:一个在 Codex 生态中被训练、调优与产品化的 GPT-5 变体,能够作为胜任的编码代理。它带来了切实的新行为——自适应推理时长、长时间自主运行、集成沙箱执行,以及有针对性的代码评审改进——同时也保留了语言模型的熟悉注意事项(需要人类监督、评估细微差别与偶发幻觉)。对于团队而言,审慎的路径是有度试验:在安全仓库试点、监控结果指标,并将代理渐进式地纳入评审工作流。随着 OpenAI 扩展 API 访问与第三方基准的增多,我们应期待更清晰的比较与更具体的成本、准确性与治理最佳实践指南。
入门
CometAPI 是一个统一的 API 平台,将来自领先提供商的 500 多个 AI 模型(如 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude、Midjourney、Suno 等)聚合到一个对开发者友好的接口中。通过提供一致的身份验证、请求格式化与响应处理,CometAPI 大幅简化了将 AI 能力集成到你的应用中的过程。无论你是在构建聊天机器人、图像生成器、音乐创作工具,还是数据驱动的分析管道,CometAPI 都能让你更快迭代、控制成本并保持供应商无关,同时充分利用 AI 生态的最新突破。
开发者可通过 CometAPI 访问 GPT-5-Codex API,cometAPI 的最新模型列表以本文发表日期为准。访问前,请确保已登录 CometAPI 并获取 API 密钥。
