什麼是 GPT-5.1-Codex-Max,以及如何使用它?

CometAPI
AnnaNov 19, 2025
什麼是 GPT-5.1-Codex-Max,以及如何使用它?

在 2025 年 11 月 19–20 日,OpenAI 發布了兩項彼此相關但不同的升級:GPT-5.1-Codex-Max,這是一款面向 Codex 的新型代理式程式設計模型,強調長時程程式設計、token 效率,以及用於維持多視窗工作階段的「compaction」;以及 GPT-5.1 Pro,這是更新後的 Pro 級 ChatGPT 模型,針對複雜、專業工作中更清晰且更有能力的回答進行了調校。

什麼是 GPT-5.1-Codex-Max,它試圖解決什麼問題?

GPT-5.1-Codex-Max 是 OpenAI 推出的專用 Codex 模型,針對需要持續、長時程推理與執行的程式設計工作流程進行了調校。一般模型在面對極長上下文時可能會出現問題——例如多檔案重構、複雜的代理迴圈,或持續性的 CI/CD 任務——而 Codex-Max 則被設計為可自動壓縮並管理跨多個上下文視窗的工作階段狀態,讓它在單一專案跨越數千個(甚至更多)token 時,仍能連貫地持續工作。OpenAI 將 Codex-Max 定位為讓具備程式能力的代理真正能用於長時間工程工作的下一步。

什麼是 GPT-5.1-Codex-Max,它試圖解決什麼問題?

GPT-5.1-Codex-Max 是 OpenAI 推出的專用 Codex 模型,針對需要持續、長時程推理與執行的程式設計工作流程進行了調校。一般模型在面對極長上下文時可能會出現問題——例如多檔案重構、複雜的代理迴圈,或持續性的 CI/CD 任務——而 Codex-Max 則被設計為可自動壓縮並管理跨多個上下文視窗的工作階段狀態,讓它在單一專案跨越數千個(甚至更多)token 時,仍能連貫地持續工作。

OpenAI 將其描述為「在開發週期的每個階段都更快、更智慧、且更具 token 效率」,並明確表示其目的是取代 GPT-5.1-Codex,成為 Codex 各使用介面的預設模型。

功能概覽

  • 用於多視窗連續性的 compaction: 修剪並保留關鍵上下文,以便在數百萬 token 與數小時的工作中保持連貫。0
  • 相較 GPT-5.1-Codex 有更高的 token 效率: 在某些程式基準測試中,以相近的推理工作量可減少約 ~30% 的 thinking tokens。
  • 長時程代理式耐久性: 內部觀察顯示可持續多小時/多天的代理迴圈(OpenAI 記錄了超過 24 小時的內部執行)。
  • 平台整合: 現已可在 Codex CLI、IDE 擴充套件、雲端與程式碼審查工具中使用;API 存取即將推出。
  • Windows 環境支援: OpenAI 特別指出,Windows 首次在 Codex 工作流程中獲得支援,擴大了真實世界開發者的覆蓋範圍。

它與競品(例如 GitHub Copilot、其他程式設計 AI)相比如何?

與按請求補全的工具相比,GPT-5.1-Codex-Max 被定位為更具自主性、能處理長時程工作的協作者。雖然 Copilot 與類似助手擅長編輯器內的短期補全,但 Codex-Max 的優勢在於協調多步驟任務、跨工作階段維持連貫狀態,以及處理需要規劃、測試與迭代的工作流程。不過,對多數團隊來說,最佳方式通常是混合使用:以 Codex-Max 處理複雜自動化與持續性的代理任務,並以較輕量的助手進行逐行補全。

GPT-5.1-Codex-Max 如何運作?

什麼是「compaction」,它如何支援長時間工作?

其核心技術進展之一是 compaction——這是一種內部機制,可在保留關鍵上下文內容的同時修剪工作階段歷史,讓模型得以跨多個上下文視窗持續進行連貫工作。實際上,這表示當 Codex 工作階段接近上下文限制時,系統會進行壓縮(將較舊或較低價值的 token 摘要化/保留),讓代理擁有新的視窗,並可反覆持續迭代直到任務完成。OpenAI 表示,內部執行中曾有模型連續工作超過 24 小時。

自適應推理與 token 效率

GPT-5.1-Codex-Max 採用了改良的推理策略,使其更具 token 效率:在 OpenAI 公布的內部基準中,Max 模型在使用顯著更少「thinking」tokens 的情況下,能達到與 GPT-5.1-Codex 相當或更好的表現——OpenAI 指出,在相同推理投入下執行 SWE-bench Verified 時,thinking tokens 約可減少 30%。該模型也引入了「Extra High(xhigh)」推理投入模式,適用於對延遲不敏感的任務,允許它投入更多內部推理以獲得更高品質輸出。

系統整合與代理式工具

Codex-Max 正透過 Codex 工作流程(CLI、IDE 擴充套件、雲端與程式碼審查介面)進行發佈,讓它能與真實的開發者工具鏈互動。早期整合包括 Codex CLI 與 IDE 代理(VS Code、JetBrains 等),API 存取預計之後推出。其設計目標不只是更聰明的程式碼生成,而是一個能執行多步驟工作流程的 AI:開啟檔案、執行測試、修復失敗、重構,然後重新執行。

GPT-5.1-Codex-Max 在基準測試與實際工作中的表現如何?

持續推理與長時程任務

評估顯示,它在持續推理與長時程任務上有可衡量的改善:

  • OpenAI 內部評估: Codex-Max 在內部實驗中可於任務上持續工作「超過 24 小時」,且將 Codex 與開發者工具整合後,提高了內部工程生產力指標(例如使用量與 pull request 產出量)。這些是 OpenAI 的內部說法,顯示其在真實世界生產力上的任務層級改善。
  • 獨立評估(METR): METR 的獨立報告測得 GPT-5.1-Codex-Max 的觀察到的 50% 時間跨度(代表模型可連貫維持長任務的中位時間的統計值)約為 2 小時 40 分鐘(信賴區間較寬),高於 GPT-5 在可比測量中的 2 小時 17 分鐘——這是持續連貫性方面有意義且符合趨勢的提升。METR 的方法與信賴區間強調了變異性,但結果支持了 Codex-Max 提升實務長時程表現的敘事。

程式碼基準測試

OpenAI 表示,其在前沿程式設計評估中取得了更好的結果,尤其是在 SWE-bench Verified 上,GPT-5.1-Codex-Max 以更佳的 token 效率超越 GPT-5.1-Codex。公司強調,在相同的「medium」推理投入下,Max 模型能產生更好的結果,同時使用少約 30% 的 thinking tokens;對於允許更長內部推理的使用者,xhigh 模式可進一步提升答案品質,但代價是延遲增加。

GPT‑5.1-Codex (high)GPT‑5.1-Codex-Max (xhigh)
SWE-bench Verified (n=500)73.7%77.9%
SWE-Lancer IC SWE66.3%79.9%
Terminal-Bench 2.052.8%58.1%

什麼是 GPT-5.1-Codex-Max,以及如何使用它?

GPT-5.1-Codex-Max 與 GPT-5.1-Codex 相比如何?

效能與用途差異

  • 範圍: GPT-5.1-Codex 是 GPT-5.1 系列中的高效能程式設計變體;Codex-Max 則明確是一個代理式、長時程的後繼模型,旨在成為 Codex 與類 Codex 環境中的建議預設選項。
  • token 效率: Codex-Max 在 SWE-bench 與內部使用中展現出顯著的 token 效率提升(OpenAI 宣稱約減少 ~30% 的 thinking tokens)。
  • 上下文管理: Codex-Max 引入了 compaction 與原生多視窗處理能力,以支撐超出單一上下文視窗的任務;Codex 過去並未以相同規模原生提供這種能力。
  • 工具鏈就緒度: Codex-Max 作為 Codex 在 CLI、IDE 與程式碼審查介面中的預設模型發佈,顯示其正遷移到生產級開發者工作流程。

何時使用哪個模型?

  • 使用 GPT-5.1-Codex:適合互動式程式設計協助、快速修改、小型重構,以及所有相關上下文都能輕鬆放入單一視窗的低延遲使用情境。
  • 使用 GPT-5.1-Codex-Max:適合多檔案重構、需要多輪迭代的自動化代理任務、類 CI/CD 工作流程,或需要模型在多次互動中維持專案層級視角的情況。

實用提示模式,以及如何取得最佳效果的範例?

效果良好的提示模式

  • 明確說明目標與限制:「重構 X、保留公開 API、維持函式名稱不變,並確保測試 A、B、C 通過。」
  • 提供最小可重現上下文: 連結到失敗的測試、附上堆疊追蹤,以及相關檔案片段,而不是直接傾倒整個儲存庫。Codex-Max 會在需要時壓縮歷史。
  • 對複雜任務使用分步指示: 將大型工作拆成一系列子任務,並讓 Codex-Max 逐步迭代處理(例如:「1) 執行測試 2) 修復最上面的 3 個失敗測試 3) 執行 linter 4) 摘要變更」)。
  • 要求解釋與 diff: 同時要求 patch 與簡短理由,讓人工審查者能快速評估安全性與意圖。

範例提示模板

重構任務

「將 payment/ 模組重構,把付款處理提取到 payment/processor.py。對現有呼叫端保持公開函式簽名不變。為 process_payment() 建立單元測試,涵蓋成功、網路失敗與無效信用卡。執行測試套件,並以 unified diff 格式回傳失敗測試與 patch。」

除錯 + 測試

「測試 tests/test_user_auth.py::test_token_refresh 因 traceback 而失敗。調查根本原因,提出最小變更的修復方案,並新增一個單元測試以防止回歸。套用 patch 並執行測試。」

迭代式 PR 產生

「實作功能 X:新增會串流匯出結果且需驗證身分的端點 POST /api/export。建立該端點、加入文件、建立測試,並開啟一個附有摘要與手動事項檢查清單的 PR。」

對大多數這類任務,請先從 medium 投入開始;當你需要模型跨多個檔案與多輪測試迭代進行深度推理時,再切換到 xhigh

如何存取 GPT-5.1-Codex-Max

目前可用的位置

OpenAI 現已將 GPT-5.1-Codex-Max 整合進 Codex 工具鏈:Codex CLI、IDE 擴充套件、雲端與程式碼審查流程預設都使用 Codex-Max(你也可以選擇 Codex-Mini)。API 可用性仍在準備中;GitHub Copilot 也已有包含 GPT-5.1 與 Codex 系列模型的公開預覽。

開發者可以透過 CometAPI 存取 GPT-5.1-Codex-Max 與 GPT-5.1-Codex API。若要開始使用,請在 Playground 中探索 CometAPI 的模型能力,並查閱 API guide 以取得詳細說明。在存取之前,請務必確認你已登入 CometAPI 並取得 API key。CometAPI 提供遠低於官方價格的價格,協助你進行整合。

準備好了嗎?→ 立即註冊 CometAPI

如果你想了解更多 AI 的技巧、指南與新聞,請在 VKXDiscord 上追蹤我們!

快速開始(實用逐步指南)

  1. 確認你具有存取權限: 確認你的 ChatGPT/Codex 產品方案(Plus、Pro、Business、Edu、Enterprise)或你的開發者 API 方案支援 GPT-5.1/Codex 系列模型。
  2. 安裝 Codex CLI 或 IDE 擴充套件: 若你想在本機執行程式碼任務,請安裝 Codex CLI,或安裝適用於 VS Code / JetBrains / Xcode 的 Codex IDE 擴充套件。在受支援的設定中,該工具鏈預設會使用 GPT-5.1-Codex-Max。
  3. 選擇推理投入: 大多數任務先使用 medium 投入即可。對於深度除錯、複雜重構,或你希望模型進行更深入思考且不在意回應延遲時,可切換到 highxhigh 模式。對於快速的小修正,low 也很合理。
  4. 提供儲存庫上下文: 給模型一個清楚的起點——例如 repo URL,或一組檔案加上一段簡短指示(例如:「將 payment 模組重構為使用 async I/O,並新增單元測試,保持函式層級契約不變」)。當接近上下文限制時,Codex-Max 會壓縮歷史並持續完成工作。
  5. 透過測試迭代: 在模型產生 patch 後,執行測試套件,並將失敗結果作為持續工作階段的一部分回饋給模型。compaction 與多視窗連續性讓 Codex-Max 能保留重要的失敗測試上下文並持續迭代。

結論:

GPT-5.1-Codex-Max 代表代理式程式設計助手邁向可持續處理複雜、長時間工程任務的重要一步,並具備更佳的效率與推理能力。其技術進展(compaction、推理投入模式、Windows 環境訓練)使其特別適合現代工程組織——前提是團隊需搭配保守的操作控制、明確的人類在迴圈中政策,以及健全的監控機制。對於謹慎採用它的團隊而言,Codex-Max 有潛力改變軟體的設計、測試與維護方式——將重複、繁瑣的工程勞務轉化為人類與模型之間更高價值的協作。

以低成本 存取頂級模型

閱讀更多