Home/Models/OpenAI/GPT 5.1 Codex Max
O

GPT 5.1 Codex Max

輸入:$1/M
輸出:$8/M
上下文:400K
最大輸出:128K
GPT-5.1-Codex-Max 是 OpenAI 專為代理式程式設計打造、屬於 GPT-5.1 系列的模型,針對執行耗時較長的軟體工程工作流程(重構、耗時數小時的代理迴圈、終端機自動化、測試執行與程式碼審查)進行了最佳化,並相比其前代具備更高的可靠性與 token 使用效率。
新
商業用途
Playground
概覽
功能
定價
API

什麼是 GPT-5.1-Codex-Max?

GPT-5.1-Codex-Max 是一個 Codex 系列模型,針對並專為代理式程式工作流程調優打造——亦即自主的多步驟工程任務,例如代碼倉庫規模的重構、長時段除錯、數小時的代理循環、程式碼審查,以及程式化的工具使用。它旨在應用於開發者工作流程,在其中模型必須:

  • 在多次編輯與互動間維持狀態;
  • 操作工具與終端機(執行測試、編譯、安裝、發出 git 指令)作為自動化鏈的一部分;
  • 產生補丁、執行測試,並提供可追溯的執行紀錄與引用

主要特性

  • 壓縮與多視窗上下文: 原生訓練以壓縮歷史並在多個上下文視窗中連貫運作,實現專案規模的延續性。
  • 代理式工具使用(終端機 + 工具): 提升執行終端機序列、安裝/建置/測試,並對程式輸出做出反應的能力。
  • 更高的 Token 效率: 為小型任務更有效分配 Token,同時在複雜任務上使用更長的推理過程。
  • 重構與大幅度編修: 更擅長跨檔案重構、遷移與存放庫層級補丁(OpenAI 內部評估)。
  • 推理投入模式: 為較長、計算密集的推理提供新的投入等級(例如,Extra High / xhigh 用於不敏感延遲的工作)。

技術能力(擅長的領域)

  • 長期重構與迭代循環: 能維持多小時(OpenAI 在內部展示中報告 >24h)的專案級重構與除錯會話,透過反覆迭代、執行測試、總結失敗並更新程式碼。
  • 真實世界錯誤修復: 在真實存放庫補丁基準上表現強勁(SWE-Bench Verified:OpenAI 報告 77.9% 於 Codex-Max 的 xhigh/extra-effort 設定)。
  • 終端機/工具熟練度: 讀取日誌、調用編譯器/測試、編輯檔案、建立 PR——亦即作為終端原生代理運作,具有明確且可檢視的工具呼叫。
  • 可接受的輸入: 標準文字提示加程式碼片段、存放庫快照(透過工具/IDE 整合)、在啟用視覺的 Codex 介面中之螢幕截圖/視窗,以及工具呼叫請求(例如執行 npm test、開啟檔案、建立 PR)。
  • 可產生的輸出: 程式碼補丁(diff 或 PR)、測試報告、逐步執行紀錄、自然語言解釋與附註的程式碼審查意見。作為代理使用時,能輸出結構化的工具呼叫與後續動作。

基準表現(精選結果與背景)

  • SWE-bench Verified (n=500) — GPT-5.1-Codex(high):73.7%;GPT-5.1-Codex-Max(xhigh):77.9%。此指標評估源自 GitHub/開源議題的真實工程任務。
  • SWE-Lancer IC SWE: GPT-5.1-Codex:66.3% → GPT-5.1-Codex-Max:79.9%(OpenAI 在部分排行榜上回報的提升)。
  • Terminal-Bench 2.0: GPT-5.1-Codex:52.8% → GPT-5.1-Codex-Max:58.1%(在互動式終端/工具使用評測上的改進)。

限制與失效模式

  1. 雙重用途/資安風險: 增強的終端與工具操作能力提升了雙重用途的顧慮(模型可協助防禦與攻擊性安全工作);OpenAI 強調分階段存取控制與監控。
  2. 並非完全確定性或絕對正確: 即使工程表現更強,模型仍可能提出不正確的補丁或忽略細微的程式碼語義(在錯誤檢測上出現偽陽性/偽陰性),因此人工審查與 CI 測試仍然必要。
  3. 成本與延遲權衡: 高投入模式(xhigh)耗用更多計算/時間;長時間的代理循環會消耗點數或預算。請規劃成本與速率限制。([OpenAI开发者][2])
  4. 上下文保證與有效延續性的差異: 壓縮促進專案延續,但關於哪些 Token 被保留以及壓縮如何影響罕見邊界情況的精確保證,無法取代版本化的存放庫快照與可重現的管線。將壓縮視為輔助,而非唯一的事實來源。

與 Claude Opus 4.5、Gemini 3 Pro 的比較(高層次)

  • Anthropic — Claude Opus 4.5: 社群與媒體基準通常將 Opus 4.5 在原始錯誤修復正確率(SWE-Bench)上略優於 Codex-Max,並在科學協作/編排與非常精煉、Token 效率高的輸出上具優勢。Opus 的每 Token 價格常較高,但在實務上可能更具 Token 效率。Codex-Max 的優勢在於長期延續性的壓縮能力、終端工具整合,以及長時代理運行的成本效率。
  • Google Gemini 系列(3 Pro 等): Gemini 變體在多模態與一般推理基準上依然強勁;在程式領域的結果因測試框架而異。Codex-Max 專為代理式程式開發打造,並以預設方式整合 DevTool 工作流程,這是許多通用模型所不具備的。

如何存取與使用 GPT-5.1 Codex Max API

步驟 1:註冊 API Key

登入 cometapi.com。若您尚非我們的用戶,請先註冊。登入您的 CometAPI console。取得介面的存取憑證 API key。在個人中心的 API token 處點擊「Add Token」,取得 token key:sk-xxxxx 並提交。

步驟 2:向 GPT-5.1-Codex-Max API 發送請求

選擇「 gpt-5.1-codex-max」端點來發送 API 請求並設定請求本文。請求方法與請求本文可於我們網站的 API 文件取得。我們的網站亦提供 Apifox 測試以便使用。將 <YOUR_API_KEY> 替換為您帳戶中的實際 CometAPI 金鑰。開發者可透過 Responses API / Chat 端點進行呼叫。

將您的問題或請求插入 content 欄位——模型將對此做出回應。處理 API 回應以取得產生的答案。

步驟 3:檢索並驗證結果

處理 API 回應以取得產生的答案。處理後,API 會回傳任務狀態與輸出資料。

GPT 5.1 Codex Max 的功能

探索 GPT 5.1 Codex Max 的核心功能,專為提升效能和可用性而設計。了解這些功能如何為您的專案帶來效益並改善使用者體驗。

GPT 5.1 Codex Max 的定價

探索 GPT 5.1 Codex Max 的競爭性定價,專為滿足各種預算和使用需求而設計。我們靈活的方案確保您只需為實際使用量付費,讓您能夠隨著需求增長輕鬆擴展。了解 GPT 5.1 Codex Max 如何在保持成本可控的同時提升您的專案效果。
彗星價格 (USD / M Tokens)官方價格 (USD / M Tokens)折扣
輸入:$1/M
輸出:$8/M
輸入:$1.25/M
輸出:$10/M
-20%

GPT 5.1 Codex Max 的範例程式碼和 API

GPT-5.1-Codex-Max 是 OpenAI 專門打造、屬於 GPT-5.1 系列的代理式程式設計模型,經過優化,可在比前代更高的可靠性與 token 效率下執行長時間運行的軟體工程工作流程(重構、長達數小時的代理迴圈、終端機自動化、測試執行與程式碼審查)。
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)
response = client.responses.create(
    model="gpt-5.1-codex-max", input="Tell me a three sentence bedtime story about a unicorn."
)

print(response)

更多模型