Что такое GPT-5.1-Codex-Max и как его использовать?

CometAPI
AnnaNov 19, 2025
Что такое GPT-5.1-Codex-Max и как его использовать?

2025 年 11 月 19–20 日,OpenAI 发布了两项相关但彼此不同的升级:GPT-5.1-Codex-Max,这是一款面向 Codex 的新型代理式编程模型,强调长时程编码、令牌效率以及用于维持多窗口会话的“压缩(compaction)”;以及 GPT-5.1 Pro,这是面向 ChatGPT Pro 层级的更新模型,针对复杂、专业工作中的更清晰、更强大的回答进行了调优。

什么是 GPT-5.1-Codex-Max,它试图解决什么问题?

GPT-5.1-Codex-Max 是 OpenAI 推出的一款专用于 Codex 的模型,针对需要持续、长时程推理与执行的编码工作流进行了调优。普通模型在面对极长上下文时往往容易出错——例如多文件重构、复杂代理循环或持续性的 CI/CD 任务——而 Codex-Max 则被设计为能够在多个上下文窗口之间自动压缩并管理会话状态,从而在单个项目跨越数千乃至更多 token 时,依然保持连贯工作。OpenAI 将 Codex-Max 定位为让具备代码能力的代理真正适用于长期工程工作的下一步。

什么是 GPT-5.1-Codex-Max,它试图解决什么问题?

GPT-5.1-Codex-Max 是 OpenAI 推出的一款专用于 Codex 的模型,针对需要持续、长时程推理与执行的编码工作流进行了调优。普通模型在面对极长上下文时往往容易出错——例如多文件重构、复杂代理循环或持续性的 CI/CD 任务——而 Codex-Max 被设计为能够在多个上下文窗口之间自动压缩并管理会话状态,从而使其在单个项目跨越数千乃至更多 token 时仍能连贯地继续工作。

OpenAI 将其描述为“在开发周期的每个阶段都更快、更智能、且更具令牌效率”,并明确表示它将取代 GPT-5.1-Codex,成为 Codex 各使用界面的默认模型。

功能概览

  • **用于多窗口连续性的压缩机制:**裁剪并保留关键上下文,从而能够在数百万 token 和数小时的跨度上保持连贯工作。0
  • **相较 GPT-5.1-Codex 更高的令牌效率:**在某些代码基准测试中,以相似推理投入实现同等推理效果时,“思考”token 最多可减少约 ~30%。
  • **长时程代理式耐久性:**内部观察显示其可持续运行多小时/多天的代理循环(OpenAI 记录了超过 24 小时的内部运行)。
  • **平台集成:**目前已可在 Codex CLI、IDE 扩展、云端及代码审查工具中使用;API 访问即将推出。
  • **Windows 环境支持:**OpenAI 特别指出,Codex 工作流首次支持 Windows,从而扩大了真实世界开发者的覆盖范围。

它与竞品(例如 GitHub Copilot、其他编程 AI)相比如何?

相较于按请求逐次补全的工具,GPT-5.1-Codex-Max 被定位为更具自主性、适合长时程协作的伙伴。Copilot 及类似助手擅长编辑器内的短期补全,而 Codex-Max 的优势在于编排多步骤任务、跨会话维持连贯状态,以及处理需要规划、测试和迭代的工作流。尽管如此,大多数团队的最佳方案仍将是混合使用:用 Codex-Max 处理复杂自动化和持续性代理任务,用更轻量的助手处理行级补全。

GPT-5.1-Codex-Max 如何工作?

什么是“压缩(compaction)”,它如何支持长时间运行的工作?

其核心技术进展之一是压缩(compaction)——一种内部机制,会在裁剪会话历史的同时保留最关键的上下文内容,使模型能够跨多个上下文窗口继续保持连贯工作。实际而言,这意味着当 Codex 会话接近上下文上限时,会进行压缩(较早或价值较低的 token 会被总结/保留),从而为代理腾出一个新的窗口,并能够反复继续迭代直到任务完成。OpenAI 报告称,在内部运行中,该模型曾连续工作超过 24 小时。

自适应推理与令牌效率

GPT-5.1-Codex-Max 采用了改进的推理策略,从而提升了令牌效率:在 OpenAI 报告的内部基准中,Max 模型在使用显著更少“思考”token 的情况下,取得了与 GPT-5.1-Codex 相当或更好的表现——OpenAI 表示,在相同推理投入下运行 SWE-bench Verified 时,思考 token 大约减少了 30%。该模型还引入了面向非低延迟敏感任务的 “Extra High (xhigh)” 推理强度模式,使其能够投入更多内部推理以获得更高质量输出。

系统集成与代理式工具链

Codex-Max 正通过 Codex 工作流(CLI、IDE 扩展、云端及代码审查界面)进行分发,以便与真实开发者工具链交互。早期集成包括 Codex CLI 和 IDE 代理(VS Code、JetBrains 等),API 访问计划随后推出。其设计目标不仅是更智能的代码生成,更是打造一个能够执行多步骤工作流的 AI:打开文件、运行测试、修复失败、重构并重新运行。

GPT-5.1-Codex-Max 在基准测试和真实工作中的表现如何?

持续推理与长时程任务

评估显示,它在持续推理与长时程任务方面有可衡量的提升:

  • **OpenAI 内部评估:**在内部实验中,Codex-Max 可在任务上持续工作“超过 24 小时”,且将 Codex 集成到开发者工具链后,提高了内部工程生产力指标(例如使用率和拉取请求吞吐量)。这些是 OpenAI 的内部说法,表明其在真实生产力层面带来了任务级改进。
  • 独立评估(METR):METR 的独立报告测得 GPT-5.1-Codex-Max 的观测到的 50% 时间跨度(即模型能够连贯维持长任务的中位持续时间)约为 2 小时 40 分钟(置信区间较宽),相比 GPT-5 在可比测量中的 2 小时 17 分钟有所提升——这是在持续连贯性方面具有意义且符合趋势的改进。METR 的方法论和置信区间强调了波动性,但该结果支持了 Codex-Max 提升实际长时程表现的叙述。

代码基准

OpenAI 报告称,在前沿编码评测中结果有所提升,尤其是在 SWE-bench Verified 上,GPT-5.1-Codex-Max 以更高的令牌效率优于 GPT-5.1-Codex。公司强调,在相同“中等”推理投入下,Max 模型能产出更好的结果,同时“思考”token 使用量减少约 30%;对于允许更长内部推理的用户,xhigh 模式可以以增加延迟为代价进一步提升答案质量。

GPT‑5.1-Codex (high)GPT‑5.1-Codex-Max (xhigh)
SWE-bench Verified (n=500)73.7%77.9%
SWE-Lancer IC SWE66.3%79.9%
Terminal-Bench 2.052.8%58.1%

Что такое GPT-5.1-Codex-Max и как его использовать?

GPT-5.1-Codex-Max 与 GPT-5.1-Codex 相比如何?

性能与定位差异

  • **范围:**GPT-5.1-Codex 是 GPT-5.1 家族中的高性能编码变体;Codex-Max 则明确是其代理式、长时程方向的继任者,旨在成为 Codex 及类似环境中的推荐默认模型。
  • **令牌效率:**Codex-Max 在 SWE-bench 和内部使用中展现出显著的令牌效率提升(OpenAI 声称“思考”token 减少约 ~30%)。
  • **上下文管理:**Codex-Max 引入了压缩和原生多窗口处理能力,以维持超出单一上下文窗口的任务;Codex 并未以相同规模原生提供这一能力。
  • **工具链就绪度:**Codex-Max 作为默认 Codex 模型在 CLI、IDE 和代码审查界面中发布,表明生产级开发者工作流正在向其迁移。

何时使用哪种模型?

  • **使用 GPT-5.1-Codex:**适合交互式编码辅助、快速修改、小型重构,以及所有相关上下文都能轻松放入单一窗口的低延迟使用场景。
  • **使用 GPT-5.1-Codex-Max:**适合多文件重构、需要多轮迭代的自动化代理任务、类似 CI/CD 的工作流,或当你需要模型在多次交互中保持项目级视角时。

实用提示模式与最佳实践示例?

效果较好的提示方式

  • 明确目标与约束:“重构 X,保留公共 API,保持函数名不变,并确保测试 A、B、C 通过。”
  • **提供最小可复现上下文:**链接失败测试,附上堆栈跟踪和相关文件片段,而不是直接倾倒整个仓库。Codex-Max 会在需要时压缩历史。
  • **对复杂任务使用分步指令:**将大型工作拆分为一系列子任务,并让 Codex-Max 迭代处理(例如:“1) 运行测试 2) 修复最严重的 3 个失败测试 3) 运行 linter 4) 总结改动”)。
  • **要求解释与 diff:**同时请求补丁和简短理由,以便人工审查者快速评估安全性和意图。

示例提示模板

重构任务

“将 payment/ 模块重构为把支付处理提取到 payment/processor.py。为现有调用方保持公共函数签名稳定。为 process_payment() 创建单元测试,覆盖成功、网络失败和无效卡片场景。运行测试套件,并以 unified diff 格式返回失败的测试和补丁。”

修复缺陷 + 测试

“测试 tests/test_user_auth.py::test_token_refresh 失败,并出现 traceback 。调查根因,以最小改动提出修复,并添加一个单元测试以防止回归。应用补丁并运行测试。”

迭代式 PR 生成

“实现功能 X:添加已认证的 POST /api/export 端点,用于流式返回导出结果。创建该端点,补充文档,编写测试,并提交一个包含摘要和人工检查项清单的 PR。”

对于大多数此类任务,从 medium 强度开始;当你需要模型跨多个文件和多轮测试迭代进行深度推理时,再切换到 xhigh

如何访问 GPT-5.1-Codex-Max

当前可用位置

OpenAI 现已将 GPT-5.1-Codex-Max 集成到Codex 工具链中:Codex CLI、IDE 扩展、云端和代码审查流程默认使用 Codex-Max(你也可以选择 Codex-Mini)。API 可用性仍在准备中;GitHub Copilot 已提供包含 GPT-5.1 和 Codex 系列模型的公开预览。

开发者可以通过 CometAPI 访问 GPT-5.1-Codex-Max 和 GPT-5.1-Codex API。要开始使用,请在 Playground 中探索 CometAPI 的模型能力,并查阅 API 指南以获取详细说明。在访问之前,请确保你已登录 CometAPI 并获得 API 密钥。CometAPI 提供远低于官方价格的价格,以帮助你完成集成。

准备好开始了吗?→ 立即注册 CometAPI

如果你想了解更多关于 AI 的技巧、指南和新闻,请在 VKXDiscord 上关注我们!

快速开始(实用分步指南)

  1. **确认你拥有访问权限:**确认你的 ChatGPT/Codex 产品方案(Plus、Pro、Business、Edu、Enterprise)或开发者 API 方案支持 GPT-5.1/Codex 系列模型。
  2. **安装 Codex CLI 或 IDE 扩展:**如果你想在本地运行代码任务,请根据需要安装 Codex CLI 或适用于 VS Code / JetBrains / Xcode 的 Codex IDE 扩展。在受支持的配置中,工具会默认使用 GPT-5.1-Codex-Max。
  3. **选择推理强度:**大多数任务从 medium 强度开始。对于深度调试、复杂重构,或当你希望模型进行更多思考且不在意响应延迟时,切换到 highxhigh 模式。对于快速的小修复,low 也是合理的。
  4. **提供仓库上下文:**给模型一个清晰的起点——仓库 URL,或一组文件加上一条简短指令(例如,“将 payment 模块重构为使用 async I/O 并添加单元测试,保持函数级契约不变”)。Codex-Max 会在接近上下文上限时压缩历史,并继续任务。
  5. **结合测试迭代:**当模型生成补丁后,运行测试套件,并将失败结果作为持续会话的一部分反馈回来。压缩机制和多窗口连续性使 Codex-Max 能保留重要的失败测试上下文并继续迭代。

结论:

GPT-5.1-Codex-Max 代表着代理式编程助手向前迈出的重要一步:它能够以更高效率和更强推理能力,持续处理复杂、长期运行的工程任务。其技术进展(压缩机制、推理强度模式、Windows 环境训练)使其非常适合现代工程组织——前提是团队为其配套保守的运营控制、清晰的人类参与策略以及健全的监控机制。对于谨慎采用它的团队而言,Codex-Max 有潜力改变软件设计、测试和维护的方式——将重复性的工程苦活,转变为人类与模型之间更高价值的协作。

Доступ к топовым моделям по низкой цене

Читать далее