什么是 GPT-5.1-Codex-Max？

GPT-5.1-Codex-Max 是一款 Codex 系列模型，经过调优并专为智能体式编码工作流打造——也就是自动化的多步骤工程任务，例如仓库级重构、长时间调试、多小时智能体循环、代码审查以及编程式工具使用。它面向这样的开发者工作流：模型必须能够

在大量编辑和交互过程中保持状态；
作为自动化链路的一部分操作工具和终端（运行测试、编译、安装、执行 git 命令）；
生成补丁、运行测试，并为输出提供可追踪的日志和引用

主要特性

压缩与多窗口上下文： 原生训练以支持对历史进行压缩，并能跨多个上下文窗口连贯工作，从而实现项目级连续性。
智能体式工具使用（终端 + 工具链）： 更强的能力来运行终端命令序列、执行安装/构建/测试，并对程序输出作出响应。
更高的 Token 效率： 设计上能够在小任务中更高效地分配 token，同时在复杂任务中使用更长的推理过程。
重构与大规模修改： 在跨文件重构、迁移以及仓库级补丁方面表现更好（OpenAI 内部评估）。
推理强度模式： 提供新的推理强度档位，用于更长时间、计算量更大的推理（例如适用于对延迟不敏感任务的 Extra High / xhigh）。

技术能力（它擅长什么）

长周期重构与迭代循环： 能通过持续迭代、运行测试、总结失败原因并更新代码，维持长达数小时的项目级重构和调试会话（OpenAI 在内部演示中报告超过 24 小时）。
真实世界缺陷修复： 在真实代码仓库补丁基准测试中表现强劲（SWE-Bench Verified：OpenAI 报告 Codex-Max 在 xhigh / extra-effort 设置下达到 77.9%）。
终端/工具熟练度： 可读取日志、调用编译器/测试、编辑文件、创建 PR——也就是说，它可以作为一个原生面向终端的智能体，通过显式且可检查的工具调用执行任务。
可接受输入： 标准文本提示，以及代码片段、仓库快照（通过工具/IDE 集成）、在支持视觉的 Codex 界面中的截图/窗口，以及工具调用请求（例如运行 npm test、打开文件、创建 PR）。
可生成输出： 代码补丁（diff 或 PR）、测试报告、逐步运行日志、自然语言解释以及带注释的代码审查评论。作为智能体使用时，它还可以输出结构化工具调用和后续动作。

基准性能（部分结果与背景）

SWE-bench Verified (n=500) —— GPT-5.1-Codex（high）：73.7%；GPT-5.1-Codex-Max（xhigh）：77.9%。该指标评估来自 GitHub / 开源问题的真实世界工程任务。
SWE-Lancer IC SWE： GPT-5.1-Codex：66.3% → GPT-5.1-Codex-Max：79.9%（OpenAI 报告其在某些排行榜上有所提升）。
Terminal-Bench 2.0： GPT-5.1-Codex：52.8% → GPT-5.1-Codex-Max：58.1%（在交互式终端/工具使用评测中有所提升）。

局限性与失效模式

双重用途 / 网络安全风险： 更强的终端操作和工具运行能力带来了双重用途方面的担忧（模型既可协助防御性安全工作，也可协助攻击性安全工作）；OpenAI 强调分阶段访问控制和监控。
并非完全确定或始终正确： 即使工程能力更强，模型仍可能提出错误补丁或遗漏细微代码语义（例如在缺陷检测中出现误报/漏报），因此人工审查和 CI 测试仍然至关重要。
成本与延迟权衡： 高强度模式（xhigh）会消耗更多计算资源和时间；长达数小时的智能体循环会消耗额度或预算。请提前规划成本和速率限制。([OpenAI开发者][2])
上下文保证与有效连续性： 压缩机制能够支持项目连续性，但对于哪些 token 被保留以及压缩如何影响罕见边界情况，并不能替代版本化仓库快照和可复现流水线。应将压缩视为辅助能力，而不是唯一事实来源。

与 Claude Opus 4.5 和 Gemini 3 Pro 的比较（高层级）

Anthropic — Claude Opus 4.5： 社区和媒体基准通常认为 Opus 4.5 在原始缺陷修复正确率（SWE-Bench）上略优于 Codex-Max，其优势还包括科学任务编排能力以及非常简洁、token 效率高的输出。Opus 通常按 token 计价更高，但在实际中可能更节省 token。Codex-Max 的优势在于长周期压缩能力、终端工具链集成，以及长时间智能体运行时的成本效率。
Google Gemini 系列（3 Pro 等）： Gemini 各变体在多模态和通用推理基准上依然表现强劲；在编码领域，结果会因测试框架而异。Codex-Max 专为智能体式编码设计，并能以通用模型默认不具备的方式集成到开发工具工作流中。

如何访问并使用 GPT-5.1 Codex Max API

第 1 步：注册 API Key

登录 cometapi.com。如果您还不是我们的用户，请先注册。登录您的 CometAPI 控制台。获取该接口的访问凭证 API key。在个人中心的 API token 页面点击“Add Token”，获取 token key：sk-xxxxx 并提交。

第 2 步：向 GPT-5.1-Codex-Max API 发送请求

选择“ gpt-5.1-codex-max”端点来发送 API 请求，并设置请求体。请求方法和请求体可从我们网站的 API 文档中获取。我们的网站还提供 Apifox 测试以方便您的使用。将 <YOUR_API_KEY> 替换为您账户中的实际 CometAPI key。开发者可通过 Responses API / Chat 端点调用这些接口。

将您的问题或请求插入到 content 字段中——这就是模型将要响应的内容。处理 API 响应以获取生成的答案。

第 3 步：获取并验证结果

处理 API 响应以获取生成的答案。处理完成后，API 将返回任务状态和输出数据。

GPT 5.1 Codex Max

什么是 GPT-5.1-Codex-Max？

主要特性

技术能力（它擅长什么）

基准性能（部分结果与背景）

局限性与失效模式

与 Claude Opus 4.5 和 Gemini 3 Pro 的比较（高层级）

如何访问并使用 GPT-5.1 Codex Max API

第 1 步：注册 API Key

第 2 步：向 GPT-5.1-Codex-Max API 发送请求

第 3 步：获取并验证结果

GPT 5.1 Codex Max 的功能

GPT 5.1 Codex Max 的定价

GPT 5.1 Codex Max 的示例代码与 API

Python Code Example

JavaScript Code Example

Curl Code Example

更多模型