在 2025 年 11 月 19–20 日,OpenAI 发布了两个相关但不同的升级:GPT-5.1-Codex-Max,一个面向 Codex 的新型代理型编码模型,强调长时程编码、Token 效率与“压缩”,以支撑多窗口会话;以及 GPT-5.1 Pro,一款面向复杂专业工作的 Pro 级 ChatGPT 模型,经过调优以提供更清晰、更强大的回答。
什么是 GPT-5.1-Codex-Max,它要解决什么问题?
GPT-5.1-Codex-Max 是 OpenAI 推出的专门 Codex 模型,针对需要“持续、长时程推理与执行”的编码工作流进行了调优。普通模型在极长上下文中容易出错——例如跨多文件重构、复杂代理循环或持续的 CI/CD 任务——而 Codex-Max 旨在在多个上下文窗口间自动压缩并管理会话状态,使其在单个项目跨越成千上万(甚至更多)Token 时仍能连贯地工作。OpenAI 将 Codex-Max 定位为让具备编码能力的代理真正适用于长时间工程工作的下一步。
什么是 GPT-5.1-Codex-Max,它要解决什么问题?
GPT-5.1-Codex-Max 是 OpenAI 推出的专门 Codex 模型,针对需要“持续、长时程推理与执行”的编码工作流进行了调优。普通模型在极长上下文中容易出错——例如跨多文件重构、复杂代理循环或持续的 CI/CD 任务——而 Codex-Max 旨在在多个上下文窗口间自动压缩并管理会话状态,使其在单个项目跨越成千上万(甚至更多)Token 时仍能连贯地工作。
OpenAI 将其描述为“在开发周期的每个阶段都更快、更智能、且 Token 更高效”,并明确意在取代 GPT-5.1-Codex,成为 Codex 界面的默认模型。
功能速览
- 面向多窗口连续性的压缩: 修剪并保留关键上下文,在数百万 Token 与数小时的跨度内连贯工作。0
- 相较 GPT-5.1-Codex 的 Token 效率改进: 在部分代码基准上,以相近推理强度实现约 30% 更少的思考 Token。
- 长时程代理耐久性: 内部观测可维持数小时/数天的代理循环(OpenAI 记录了超过 24 小时的内部运行)。
- 平台集成: 今日已可在 Codex CLI、IDE 扩展、云端与代码评审工具中使用;API 访问即将推出。
- Windows 环境支持: OpenAI 特别指出 Codex 工作流首次支持 Windows,扩大真实世界开发者覆盖面。
与竞品(如 GitHub Copilot、其他编码 AI)相比如何?
与按次请求的补全工具相比,GPT-5.1-Codex-Max 被定位为更自主、长时程的协作者。尽管 Copilot 等助手在编辑器内的短期补全上表现出色,Codex-Max 的强项在于编排多步骤任务、跨会话维持连贯状态,以及处理需要规划、测试与迭代的工作流。话虽如此,多数团队的最佳实践将是混合:用 Codex-Max 处理复杂自动化与持续代理任务,用更轻量的助手完成行级补全。
GPT-5.1-Codex-Max 如何工作?
什么是“压缩”,它如何支持长时间运行的工作?
核心技术进步是压缩——一种内部机制,在保留要点上下文的同时修剪会话历史,从而让模型能在“多个”上下文窗口之间持续连贯地工作。实际上,这意味着当 Codex 会话接近其上下文上限时,会进行压缩(较旧或价值较低的 Token 被总结/保留),从而为代理提供新的窗口,反复迭代直至任务完成。OpenAI 报告了超过 24 小时的连续运行内部案例。
自适应推理与 Token 效率
GPT-5.1-Codex-Max 采用改进的推理策略以提升 Token 效率:在 OpenAI 报告的内部基准中,Max 模型在与 GPT-5.1-Codex 相当的推理强度下,使用显著更少的“思考”Token 即可达到相近或更好的表现——OpenAI 称在 SWE-bench Verified 上思考 Token 减少约30%。该模型还引入了“Extra High (xhigh)”推理强度模式,用于非延迟敏感任务,使其能投入更多内部推理以获得更高质量输出。
系统集成与代理工具链
Codex-Max 正在 Codex 工作流(CLI、IDE 扩展、云端与代码评审界面)中分发,以便与实际开发者工具链交互。早期集成包括 Codex CLI 与 IDE 代理(VS Code、JetBrains 等),API 访问计划随后提供。其设计目标不只是更聪明的代码合成,更是能运行多步骤工作流的 AI:打开文件、运行测试、修复失败、重构并再次运行。
GPT-5.1-Codex-Max 在基准与实际工作中的表现如何?
持续推理与长时程任务
评估显示在持续推理与长时程任务上有可衡量改进:
- OpenAI 内部评估: Codex-Max 在内部实验中可在“超过 24 小时”的时间里工作,并且将 Codex 与开发者工具链集成后,内部工程生产力指标(如使用率与 Pull Request 吞吐等)有所提升。这些是 OpenAI 的内部声明,指向真实世界生产力在任务层面的改进。
- 独立评估(METR): METR 的独立报告测得 GPT-5.1-Codex-Max 的观察到的 50% 时间视界(表示模型连贯地维持长任务的中位时长)约为2 小时 40 分钟(置信区间较宽),在可比测量中高于 GPT-5 的 2 小时 17 分钟——这是在持续连贯性上的有意义改进。METR 的方法与 CI 强调可变性,但该结果支持 Codex-Max 提升实际长时程表现的叙述。
代码基准
OpenAI 报告在前沿编码评测上有所提升,尤其是 SWE-bench Verified 上,GPT-5.1-Codex-Max 在 Token 效率更高的情况下胜过 GPT-5.1-Codex。公司强调在相同“medium”推理强度下,Max 模型在使用约少 30% 的思考 Token 的同时产出更好的结果;对允许更长内部推理的用户,xhigh 模式可在牺牲延迟的情况下进一步提升答案质量。
| GPT‑5.1-Codex (high) | GPT‑5.1-Codex-Max (xhigh) | |
| SWE-bench Verified (n=500) | 73.7% | 77.9% |
| SWE-Lancer IC SWE | 66.3% | 79.9% |
| Terminal-Bench 2.0 | 52.8% | 58.1% |

GPT-5.1-Codex-Max 与 GPT-5.1-Codex 有何不同?
表现与目的差异
- 范围: GPT-5.1-Codex 是 GPT-5.1 系列的高性能编码变体;而 Codex-Max 明确是面向长时程代理的继任者,旨在成为 Codex 及类 Codex 环境的推荐默认模型。
- Token 效率: Codex-Max 在 SWE-bench 与内部使用中显示出显著 Token 效率提升(OpenAI 声称思考 Token 减少约 30%)。
- 上下文管理: Codex-Max 引入压缩与原生多窗口处理,以支撑超出单个上下文窗口的任务;Codex 未在同等规模上原生提供此能力。
- 工具链就绪度: Codex-Max 作为默认 Codex 模型在 CLI、IDE 与代码评审界面中发布,标志着生产级开发工作流的迁移。
何时使用哪种模型?
- 使用 GPT-5.1-Codex: 用于交互式编码辅助、快速修改、小型重构,以及所有相关上下文轻松容纳于单个窗口、对延迟更敏感的场景。
- 使用 GPT-5.1-Codex-Max: 用于跨多文件的重构、需要多轮迭代的自动化代理任务、类 CI/CD 的工作流,或需要模型在多次交互中保持项目级视角的情形。
实用提示词模式与最佳实践示例?
有效的提示模式
- 明确目标与约束: “重构 X,保留公共 API,保持函数名不变,并确保测试 A、B、C 通过。”
- 提供最小可复现上下文: 链接到失败测试,包含堆栈跟踪与相关文件片段,而非倾倒整个仓库。Codex-Max 会在需要时压缩历史。
- 对复杂任务使用分步指令: 将大任务拆分为子任务序列,让 Codex-Max 按步骤迭代(例如,“1) run tests 2) fix top 3 failing tests 3) run linter 4) summarize changes”)。
- 请求解释与 diff: 同时请求补丁与简短理由,便于人工审阅者快速评估安全性与意图。
示例提示模板
重构任务
“Refactor the
payment/module to extract payment processing intopayment/processor.py. Keep public function signatures stable for existing callers. Create unit tests forprocess_payment()that cover success, network failure, and invalid card. Run the test suite and return failing tests and a patch in unified diff format.”
缺陷修复 + 测试
“A test
tests/test_user_auth.py::test_token_refreshfails with traceback . Investigate root cause, propose a fix with minimal changes, and add a unit test to prevent regression. Apply patch and run tests.”
迭代生成 PR
“Implement feature X: add endpoint
POST /api/exportwhich streams export results and is authenticated. Create the endpoint, add docs, create tests, and open a PR with summary and checklist of manual items.”
对于大多数任务,从 medium 强度开始;当需要模型在多文件与多次测试迭代间进行更深入推理时切换到 xhigh。
如何访问 GPT-5.1-Codex-Max
今日可用范围
OpenAI 已将 GPT-5.1-Codex-Max 集成进 Codex 工具链:Codex CLI、IDE 扩展、云端与代码评审流程默认使用 Codex-Max(你可以选择 Codex-Mini)。API 访问尚在准备中;GitHub Copilot 有包含 GPT-5.1 与 Codex 系列模型的公开预览。
开发者可通过 CometAPI 访问 GPT-5.1-Codex-Max 与 GPT-5.1-Codex API。开始之前,先在 CometAPI 的 Playground 中探索模型能力,并查阅 API 指南获取详细说明。访问前请确保已登录 CometAPI 并获取 API key。CometAPI 提供远低于官方价格的定价,帮助你完成集成。
准备好了吗?→ Sign up for CometAPI today!
若想获取更多技巧、指南与最新动态,关注我们的 VK、X 与 Discord。
快速开始(实用分步)
- 确认你具备访问权限: 确认你的 ChatGPT/Codex 产品计划(Plus、Pro、Business、Edu、Enterprise)或开发者 API 计划支持 GPT-5.1/Codex 系列模型。
- 安装 Codex CLI 或 IDE 扩展: 如需在本地运行代码任务,安装适用于 VS Code/JetBrains/Xcode 的 Codex CLI 或 Codex IDE 扩展。在受支持的环境中,工具将默认使用 GPT-5.1-Codex-Max。
- 选择推理强度: 大多数任务从 medium 开始。对深度调试、复杂重构或不关心响应延迟、希望模型思考更充分的情况,切换到 high 或 xhigh。对小修小改,low 即可。
- 提供仓库上下文: 给出清晰的起点——仓库 URL 或一组文件以及简短说明(例如,“refactor the payment module to use async I/O and add unit tests, keep function-level contracts”)。当接近上下文上限时,Codex-Max 会压缩历史并继续工作。
- 结合测试迭代: 在模型产出补丁后运行测试套件,并将失败反馈到持续会话中。压缩与多窗口连续性使 Codex-Max 能保留关键的失败测试上下文并持续迭代。
结论:
GPT-5.1-Codex-Max 朝着能在复杂、长时间工程任务中保持可持续性的代理型编码助手迈出了重要一步,并带来更高的效率与推理能力。其技术进步(压缩、推理强度模式、Windows 环境训练)使其非常适合现代工程组织——前提是团队配以保守的运营控制、清晰的人在环策略与健壮的监控。对谨慎采用的团队而言,Codex-Max 有潜力改变软件的设计、测试与维护方式——将重复的“苦活”转化为人与模型之间更高价值的协作。
