OpenAI 的 Codex:是什么、如何工作以及如何使用

CometAPI
AnnaMay 21, 2025
OpenAI 的 Codex:是什么、如何工作以及如何使用

Codex 作为一款变革性的 AI 代理,旨在通过自主处理编写代码、调试、运行测试和生成拉取请求等任务,来增强软件工程工作流。它是一个基于云的代理,由 codex‑1 驱动——这是 OpenAI 的 o3 推理模型在编程语境下的专用改编与微调版本。Codex 率先面向 ChatGPT Pro、Team 和 Enterprise 用户提供,直接集成到 ChatGPT 界面,使开发者能够分配在预加载其代码库的沙盒环境中运行的离散任务。自 2025 年 5 月 16 日研究预览发布以来,OpenAI 将 Codex 定位为与 Google、Anthropic 及其他 AI 创新者的产品竞争,同时通过受控环境和人类反馈循环强调安全性、对齐与现实可用性。

什么是 Codex?

起源与演进

Codex 是 OpenAI 最新的 AI 驱动软件工程代理,于 2025 年 5 月 16 日以研究预览形式正式发布。不同于其前身 GPT 系列主要优化于自然语言任务,Codex 植根于名为 codex-1 的 o3 模型专用衍生版本,专为编程工作流进行微调。其谱系可追溯到 OpenAI 在 GPT-3 以及为 GitHub Copilot 提供支持的早期 Codex 模型上的工作,但 codex‑1 代表了代理能力的重大飞跃,能够并行执行任务并与开发环境进行自主交互。

核心架构

Codex 的核心是一个托管在云端的多代理系统。每个编码任务——无论是编写新特性、调试、测试,还是提出拉取请求——都会被派发到预加载用户代码库的独立沙盒环境中。这种沙盒化确保更改可控且可复现,并使 Codex 能够迭代运行测试、代码规范检查器和类型检查器,直到任务通过验证。底层 codex-1 模型利用源自真实编码任务的强化学习,使其输出与人类编码风格和最佳实践高度一致。

目的与定位

OpenAI 将 Codex 定位为面向软件工程团队的变革性工具,旨在将开发者的关注点从常规实现转向更高层次的设计与编排工作。通过自动化重复且明确的任务,Codex 期望提升生产力、减少上下文切换,并嵌入现有 CI/CD 流水线。面对来自 Google 的 Gemini、Anthropic 的 Claude 以及新兴代理式 AI 初创公司的竞争,Codex 是 OpenAI 为保持在 AI 驱动开发者工具领域领先地位所做出的战略回应。


Codex 如何运作?

模型架构与训练

Codex 由 codex-1 提供支持,这是针对软件工程优化的 o3 推理模型变体。训练包含两个阶段:先在大规模代码与文本语料上进行广泛预训练,随后在真实世界开发者任务上进行强化学习,提升其遵循指令、遵从代码库特定约定以及生成通过测试代码的能力。最终模型在代码生成准确性、对代码库上下文的理解以及通过迭代测试循环进行自我纠错方面表现更优。

并行任务处理

Codex 的亮点之一是其代理式并行任务执行能力。不同于单线程代码生成工具,Codex 能在同一项目内并行处理多个任务。每个任务封装在各自类似 Docker 的沙盒中,使开发者能够队列多个任务——如实现功能、生成文档片段或重构模块——并独立接收结果;通常根据复杂度与算力可用性在 1 到 30 分钟内完成。

沙盒执行环境

安全与可复现性至关重要。Codex 的沙盒环境模拟开发者的本地设置,预加载代码库、依赖与配置文件。在这一隔离上下文中,Codex 可以运行构建命令、执行测试套件、调用代码规范检查器,甚至与包管理器交互。任务完成后,它会返回代码更改、详细测试日志与调用结果,确保开发者对修改内容及其原因具有完整可见性。

与 ChatGPT 和 CLI 的集成

为提升可达性,Codex 直接集成在 ChatGPT 界面中,面向 Pro、Team 和 Enterprise 订阅用户开放。用户可通过 ChatGPT 侧边栏输入自然语言提示——“编写一个函数来解析 JSON 日志”或“修复失败的用户认证测试”——并在“Code”和“Ask”模式间进行选择。此外,Codex 提供命令行界面(CLI),支持在本地开发环境中的脚本与自动化,实现与既有工作流与 CI/CD 流水线的无缝集成。

Codex


如何使用 Codex?

访问与可用性

Codex 目前以研究预览形式面向 ChatGPT Pro、Team 和 Enterprise 用户提供,预计在未来几个月向 Plus 与 EDU 用户推出。访问需要有效订阅(Pro 为 $200/月)并通过 OpenAI 仪表板报名参加 Codex 预览计划。用户将根据订阅等级获得配额分配,以反映运行 codex‑1 的计算强度。随着 OpenAI 扩展其基础设施,可用性与速率限制预计将扩大。

入门:创建任务

  1. 选择代码库:在 ChatGPT 界面中,导航至 Codex 侧边栏并选择代码库(来自 GitHub 或上传的 ZIP)。
  2. 定义任务:输入用自然语言描述所需更改或查询的提示。为任务添加清晰的行动动词前缀——“实现”“重构”“测试”或“解释”。
  3. 选择模式:点击 Code 修改代码或 Ask 查询文档或代码库洞察。
  4. 执行:Codex 分配沙盒并开始处理。状态指示器显示进度,完成后将收到差异、日志与执行摘要。
  5. 评审并合并:检查建议的更改,必要时在本地运行额外测试,并通过常用的拉取请求工作流进行合并。

最佳实践与提示

  • 细粒度提示:较小、范围明确的任务比宽泛的多步骤请求更容易产生准确结果。
  • 上下文清晰:提供编码标准、偏好库与测试框架等上下文,以使 Codex 输出与团队约定保持一致。
  • 迭代优化:使用后续提示完善不完整或次优的建议——Codex 在会话内保留上下文。
  • 沙盒检查:在接受更改前,审阅沙盒日志以诊断故障或异常行为。

限制与注意事项

尽管强大,Codex 并非完美无误。它可能在高度专业化框架上生成次优代码、错处理边缘情况或产生低效。网络受限的沙盒无法访问外部 API,从而限制依赖实时数据获取的任务。此外,计算成本与排队时间会随高峰需求而变化。组织应将 Codex 的输出视为建议,在部署前进行严格的代码审查与测试。


真实世界的应用是什么?

功能开发

Codex 可通过搭建常规组件——数据模型、API 端点与 UI 模板——来加速功能开发。开发者得以专注于核心业务逻辑,而 Codex 自动生成样板代码并贯彻项目约定。

缺陷修复与测试

自动化缺陷分诊与补丁生成是 Codex 最受称赞的能力之一。通过提供失败的测试用例或错误日志,开发者可提示 Codex 识别根因、提出修复,并通过沙盒化测试运行进行验证,从而显著缩短调试周期。

代码评审与重构

Codex 能执行全局重构任务——重命名变量、模块化单体函数或在整个代码库应用安全补丁。它还能撰写详尽的拉取请求说明,突出更改及其理由,从而加速代码评审吞吐量。

非传统用法

除纯软件工程之外,Codex 与外部服务交互的能力解锁了创意性应用,例如自动提交网页表单、集成工单平台以提交问题,或编排诸如通过在线 API 点外卖等简单工作流——全部由自然语言提示驱动。


Codex 的下一步是什么?

计划特性与路线图

  • 具备网络能力的沙盒:允许为动态数据任务安全地发出 HTTP 出站请求。
  • 扩展语言支持:除 Python、JavaScript 与 TypeScript 之外,目标覆盖 Go、Rust 等。
  • 本地部署方案:面向具有严格数据驻留与合规需求的组织。
  • 低时延模式:利用 o3-mini 变体提供更快但较为简化的任务执行。

竞争格局

Codex 直接与 Google 的 Gemini Code、Anthropic 的 Sonnet 模型以及 Windsurf 等新兴专业初创公司竞争。各平台各具优势——有的优先开放源码集成,有的专注低代码/无代码范式——但 Codex 与 ChatGPT 的紧密集成与并行沙盒能力使其脱颖而出。

对软件工程的影响

随着代理式 AI 工具成熟,软件工程师的角色正从实现代码转向监督 AI 代理、定义高层需求并确保系统可靠性。这一演进可能重塑开发团队,更强调设计、安全与跨职能协作,而非手工编码任务。

Codex CLI 与轻量版 codex-mini

OpenAI 同时发布了一个终端工具:Codex CLI,面向本地开发者使用。

其特性包括:

  • 无需云服务——可在本地访问 Codex 能力;
  • 支持快速问答、自动补全与重构等任务;
  • 引入全新轻量模型:codex-mini-latest
  • 运行更快、时延更低;
  • 仍保持强指令理解与高质量代码输出;
  • 适合对实时性能要求较高的任务。

此外,CLI 用户现可直接使用其 ChatGPT 账户登录并配置 API,无需手动生成令牌。Plus/Pro 用户在登录后将获得免费用量额度。


结论

凭借其代理式设计、沙盒化执行以及与 ChatGPT 的深度集成,Codex 代表了 AI 驱动软件工程的关键进步。尽管仍处于研究预览阶段,它已开始重塑开发者处理日常任务的方式——简化工作流、减少手工劳动,并为生产力与创新开辟新路径。随着 Codex 的演进与成熟,其对软件开发生命周期的影响可能持续增长,预示着一个 AI 代理成为构建数字世界不可或缺伙伴的新纪元。

入门

CometAPI 提供统一的 REST 接口,将包括 ChatGPT 家族在内的数百种 AI 模型聚合到一致的端点之下,内置 API 密钥管理、用量配额与计费仪表板。无需同时处理多个厂商的 URL 与凭据。

开发者可通过 CometAPI 访问最新的 ChatGPT API GPT-4.1 API。开始之前,请在 Playground 中探索模型能力,并查阅 API 指南 以获取详细说明。请注意,部分开发者在使用该模型前可能需要完成组织验证。

阅读更多

一个 API 中超 500 个模型

最高 20% 折扣