Что такое GPT-5.1-Codex-Max и как его использовать?

2025 年 11 月 19–20 日，OpenAI 发布了两项相关但彼此不同的升级：GPT-5.1-Codex-Max，这是一款面向 Codex 的新型代理式编程模型，强调长时程编码、令牌效率以及用于维持多窗口会话的“压缩（compaction）”；以及 GPT-5.1 Pro，这是面向 ChatGPT Pro 层级的更新模型，针对复杂、专业工作中的更清晰、更强大的回答进行了调优。

什么是 GPT-5.1-Codex-Max，它试图解决什么问题？

GPT-5.1-Codex-Max 是 OpenAI 推出的一款专用于 Codex 的模型，针对需要持续、长时程推理与执行的编码工作流进行了调优。普通模型在面对极长上下文时往往容易出错——例如多文件重构、复杂代理循环或持续性的 CI/CD 任务——而 Codex-Max 则被设计为能够在多个上下文窗口之间自动压缩并管理会话状态，从而在单个项目跨越数千乃至更多 token 时，依然保持连贯工作。OpenAI 将 Codex-Max 定位为让具备代码能力的代理真正适用于长期工程工作的下一步。

什么是 GPT-5.1-Codex-Max，它试图解决什么问题？

GPT-5.1-Codex-Max 是 OpenAI 推出的一款专用于 Codex 的模型，针对需要持续、长时程推理与执行的编码工作流进行了调优。普通模型在面对极长上下文时往往容易出错——例如多文件重构、复杂代理循环或持续性的 CI/CD 任务——而 Codex-Max 被设计为能够在多个上下文窗口之间自动压缩并管理会话状态，从而使其在单个项目跨越数千乃至更多 token 时仍能连贯地继续工作。

OpenAI 将其描述为“在开发周期的每个阶段都更快、更智能、且更具令牌效率”，并明确表示它将取代 GPT-5.1-Codex，成为 Codex 各使用界面的默认模型。

功能概览

**用于多窗口连续性的压缩机制：**裁剪并保留关键上下文，从而能够在数百万 token 和数小时的跨度上保持连贯工作。0
**相较 GPT-5.1-Codex 更高的令牌效率：**在某些代码基准测试中，以相似推理投入实现同等推理效果时，“思考”token 最多可减少约 ~30%。
**长时程代理式耐久性：**内部观察显示其可持续运行多小时/多天的代理循环（OpenAI 记录了超过 24 小时的内部运行）。
**平台集成：**目前已可在 Codex CLI、IDE 扩展、云端及代码审查工具中使用；API 访问即将推出。
**Windows 环境支持：**OpenAI 特别指出，Codex 工作流首次支持 Windows，从而扩大了真实世界开发者的覆盖范围。

它与竞品（例如 GitHub Copilot、其他编程 AI）相比如何？

相较于按请求逐次补全的工具，GPT-5.1-Codex-Max 被定位为更具自主性、适合长时程协作的伙伴。Copilot 及类似助手擅长编辑器内的短期补全，而 Codex-Max 的优势在于编排多步骤任务、跨会话维持连贯状态，以及处理需要规划、测试和迭代的工作流。尽管如此，大多数团队的最佳方案仍将是混合使用：用 Codex-Max 处理复杂自动化和持续性代理任务，用更轻量的助手处理行级补全。

GPT-5.1-Codex-Max 如何工作？

什么是“压缩（compaction）”，它如何支持长时间运行的工作？

其核心技术进展之一是压缩（compaction）——一种内部机制，会在裁剪会话历史的同时保留最关键的上下文内容，使模型能够跨多个上下文窗口继续保持连贯工作。实际而言，这意味着当 Codex 会话接近上下文上限时，会进行压缩（较早或价值较低的 token 会被总结/保留），从而为代理腾出一个新的窗口，并能够反复继续迭代直到任务完成。OpenAI 报告称，在内部运行中，该模型曾连续工作超过 24 小时。

自适应推理与令牌效率

GPT-5.1-Codex-Max 采用了改进的推理策略，从而提升了令牌效率：在 OpenAI 报告的内部基准中，Max 模型在使用显著更少“思考”token 的情况下，取得了与 GPT-5.1-Codex 相当或更好的表现——OpenAI 表示，在相同推理投入下运行 SWE-bench Verified 时，思考 token 大约减少了 30%。该模型还引入了面向非低延迟敏感任务的 “Extra High (xhigh)” 推理强度模式，使其能够投入更多内部推理以获得更高质量输出。

系统集成与代理式工具链

Codex-Max 正通过 Codex 工作流（CLI、IDE 扩展、云端及代码审查界面）进行分发，以便与真实开发者工具链交互。早期集成包括 Codex CLI 和 IDE 代理（VS Code、JetBrains 等），API 访问计划随后推出。其设计目标不仅是更智能的代码生成，更是打造一个能够执行多步骤工作流的 AI：打开文件、运行测试、修复失败、重构并重新运行。

GPT-5.1-Codex-Max 在基准测试和真实工作中的表现如何？

持续推理与长时程任务

评估显示，它在持续推理与长时程任务方面有可衡量的提升：

**OpenAI 内部评估：**在内部实验中，Codex-Max 可在任务上持续工作“超过 24 小时”，且将 Codex 集成到开发者工具链后，提高了内部工程生产力指标（例如使用率和拉取请求吞吐量）。这些是 OpenAI 的内部说法，表明其在真实生产力层面带来了任务级改进。
独立评估（METR）：METR 的独立报告测得 GPT-5.1-Codex-Max 的观测到的 50% 时间跨度（即模型能够连贯维持长任务的中位持续时间）约为 2 小时 40 分钟（置信区间较宽），相比 GPT-5 在可比测量中的 2 小时 17 分钟有所提升——这是在持续连贯性方面具有意义且符合趋势的改进。METR 的方法论和置信区间强调了波动性，但该结果支持了 Codex-Max 提升实际长时程表现的叙述。

代码基准

OpenAI 报告称，在前沿编码评测中结果有所提升，尤其是在 SWE-bench Verified 上，GPT-5.1-Codex-Max 以更高的令牌效率优于 GPT-5.1-Codex。公司强调，在相同“中等”推理投入下，Max 模型能产出更好的结果，同时“思考”token 使用量减少约 30%；对于允许更长内部推理的用户，xhigh 模式可以以增加延迟为代价进一步提升答案质量。


	GPT‑5.1-Codex (high)	GPT‑5.1-Codex-Max (xhigh)
SWE-bench Verified (n=500)	73.7%	77.9%
SWE-Lancer IC SWE	66.3%	79.9%
Terminal-Bench 2.0	52.8%	58.1%

Что такое GPT-5.1-Codex-Max и как его использовать?

GPT-5.1-Codex-Max 与 GPT-5.1-Codex 相比如何？

性能与定位差异

**范围：**GPT-5.1-Codex 是 GPT-5.1 家族中的高性能编码变体；Codex-Max 则明确是其代理式、长时程方向的继任者，旨在成为 Codex 及类似环境中的推荐默认模型。
**令牌效率：**Codex-Max 在 SWE-bench 和内部使用中展现出显著的令牌效率提升（OpenAI 声称“思考”token 减少约 ~30%）。
**上下文管理：**Codex-Max 引入了压缩和原生多窗口处理能力，以维持超出单一上下文窗口的任务；Codex 并未以相同规模原生提供这一能力。
**工具链就绪度：**Codex-Max 作为默认 Codex 模型在 CLI、IDE 和代码审查界面中发布，表明生产级开发者工作流正在向其迁移。

何时使用哪种模型？

**使用 GPT-5.1-Codex：**适合交互式编码辅助、快速修改、小型重构，以及所有相关上下文都能轻松放入单一窗口的低延迟使用场景。
**使用 GPT-5.1-Codex-Max：**适合多文件重构、需要多轮迭代的自动化代理任务、类似 CI/CD 的工作流，或当你需要模型在多次交互中保持项目级视角时。

实用提示模式与最佳实践示例？

效果较好的提示方式

明确目标与约束：“重构 X，保留公共 API，保持函数名不变，并确保测试 A、B、C 通过。”
**提供最小可复现上下文：**链接失败测试，附上堆栈跟踪和相关文件片段，而不是直接倾倒整个仓库。Codex-Max 会在需要时压缩历史。
**对复杂任务使用分步指令：**将大型工作拆分为一系列子任务，并让 Codex-Max 迭代处理（例如：“1) 运行测试 2) 修复最严重的 3 个失败测试 3) 运行 linter 4) 总结改动”）。
**要求解释与 diff：**同时请求补丁和简短理由，以便人工审查者快速评估安全性和意图。

示例提示模板

重构任务

“将 payment/ 模块重构为把支付处理提取到 payment/processor.py。为现有调用方保持公共函数签名稳定。为 process_payment() 创建单元测试，覆盖成功、网络失败和无效卡片场景。运行测试套件，并以 unified diff 格式返回失败的测试和补丁。”

修复缺陷 + 测试

“测试 tests/test_user_auth.py::test_token_refresh 失败，并出现 traceback 。调查根因，以最小改动提出修复，并添加一个单元测试以防止回归。应用补丁并运行测试。”

迭代式 PR 生成

“实现功能 X：添加已认证的 POST /api/export 端点，用于流式返回导出结果。创建该端点，补充文档，编写测试，并提交一个包含摘要和人工检查项清单的 PR。”

对于大多数此类任务，从 medium 强度开始；当你需要模型跨多个文件和多轮测试迭代进行深度推理时，再切换到 xhigh。

如何访问 GPT-5.1-Codex-Max

当前可用位置

OpenAI 现已将 GPT-5.1-Codex-Max 集成到Codex 工具链中：Codex CLI、IDE 扩展、云端和代码审查流程默认使用 Codex-Max（你也可以选择 Codex-Mini）。API 可用性仍在准备中；GitHub Copilot 已提供包含 GPT-5.1 和 Codex 系列模型的公开预览。

开发者可以通过 CometAPI 访问 GPT-5.1-Codex-Max 和 GPT-5.1-Codex API。要开始使用，请在 Playground 中探索 CometAPI 的模型能力，并查阅 API 指南以获取详细说明。在访问之前，请确保你已登录 CometAPI 并获得 API 密钥。CometAPI 提供远低于官方价格的价格，以帮助你完成集成。

准备好开始了吗？→ 立即注册 CometAPI！

如果你想了解更多关于 AI 的技巧、指南和新闻，请在 VK、X 和 Discord 上关注我们！

快速开始（实用分步指南）

**确认你拥有访问权限：**确认你的 ChatGPT/Codex 产品方案（Plus、Pro、Business、Edu、Enterprise）或开发者 API 方案支持 GPT-5.1/Codex 系列模型。
**安装 Codex CLI 或 IDE 扩展：**如果你想在本地运行代码任务，请根据需要安装 Codex CLI 或适用于 VS Code / JetBrains / Xcode 的 Codex IDE 扩展。在受支持的配置中，工具会默认使用 GPT-5.1-Codex-Max。
**选择推理强度：**大多数任务从 medium 强度开始。对于深度调试、复杂重构，或当你希望模型进行更多思考且不在意响应延迟时，切换到 high 或 xhigh 模式。对于快速的小修复，low 也是合理的。
**提供仓库上下文：**给模型一个清晰的起点——仓库 URL，或一组文件加上一条简短指令（例如，“将 payment 模块重构为使用 async I/O 并添加单元测试，保持函数级契约不变”）。Codex-Max 会在接近上下文上限时压缩历史，并继续任务。
**结合测试迭代：**当模型生成补丁后，运行测试套件，并将失败结果作为持续会话的一部分反馈回来。压缩机制和多窗口连续性使 Codex-Max 能保留重要的失败测试上下文并继续迭代。

结论：

GPT-5.1-Codex-Max 代表着代理式编程助手向前迈出的重要一步：它能够以更高效率和更强推理能力，持续处理复杂、长期运行的工程任务。其技术进展（压缩机制、推理强度模式、Windows 环境训练）使其非常适合现代工程组织——前提是团队为其配套保守的运营控制、清晰的人类参与策略以及健全的监控机制。对于谨慎采用它的团队而言，Codex-Max 有潜力改变软件设计、测试和维护的方式——将重复性的工程苦活，转变为人类与模型之间更高价值的协作。

什么是 GPT-5.1-Codex-Max，它试图解决什么问题？

什么是 GPT-5.1-Codex-Max，它试图解决什么问题？

功能概览

它与竞品（例如 GitHub Copilot、其他编程 AI）相比如何？

GPT-5.1-Codex-Max 如何工作？

什么是“压缩（compaction）”，它如何支持长时间运行的工作？

自适应推理与令牌效率

系统集成与代理式工具链

GPT-5.1-Codex-Max 在基准测试和真实工作中的表现如何？

持续推理与长时程任务

代码基准

GPT-5.1-Codex-Max 与 GPT-5.1-Codex 相比如何？

性能与定位差异

何时使用哪种模型？

实用提示模式与最佳实践示例？

效果较好的提示方式

示例提示模板

如何访问 GPT-5.1-Codex-Max

当前可用位置

快速开始（实用分步指南）

结论：

Готовы сократить затраты на AI-разработку на 20%?

Читать далее