GPT 5.2 Codex 發布:功能、基準測試與存取

CometAPI
AnnaDec 22, 2025
GPT 5.2 Codex 發布:功能、基準測試與存取

OpenAI 發布了 GPT-5.2-Codex,這是 GPT-5.2 的 Codex 最佳化版本,專為長期、代理式的編碼任務、大規模重構與遷移、在終端環境中可靠地使用工具、改進的原生 Windows 行為,以及更強的資安能力而設計。SWE-Bench Pro 與 Terminal-Bench 2.0 等基準測試將 GPT-5.2-Codex 評為代理式編碼模型的業界最先進水準。

什麼是 GPT-5.2-Codex?

GPT-5.2-Codex 是 OpenAI 的 GPT-5.2 家族中,明確為代理式編碼工作流程所優化的專用模型變體。在此語境下,「agentic」意指模型被設計為能夠在真實的開發者環境中,作為自主或半自主的行為體穩健運作:執行終端命令、與儲存庫互動、呼叫開發者工具,並在多步任務與長時段會話中維持上下文。該模型建立在 GPT-5.2 的通用推理與科學能力之上,同時承襲了最初由 GPT-5.1-Codex-Max 展現的代理式與終端能力。

GPT-5.2-Codex 的 4 大亮點功能

長期任務的上下文壓縮與 Token 效率

GPT-5.2-Codex 的核心技術改進之一是 上下文壓縮(context compaction):隨著會話增長,系統會自動將較舊的上下文壓縮為在 Token 上更高效但語意仍忠實的摘要。這使模型能在長時間互動(數小時甚至數天)中保留專案層級的知識,對在超大型程式碼庫上執行大型重構或遷移至關重要。其結果是在多步計畫中減少上下文遺失與「遺忘」失敗。

大型程式碼變更的可靠性提升

OpenAI 指出,GPT-5.2-Codex 在大型程式碼變更方面顯著更佳——例如儲存庫等級的重構、跨模組遷移與功能重寫。該模型展現出更強的能力來產生連貫的程式碼補丁、維持專案不變式,並在測試失敗時能迭代前進——延續工作流程而非從頭開始。這讓其更適合以往在代理式模型中較脆弱的程式碼庫維護任務。

更佳的原生 Windows 行為與終端表現

對部分工程團隊而言,Windows 環境中的不一致行為(路徑慣例、Shell 差異、工具鏈)是一大痛點。GPT-5.2-Codex 對原生 Windows 的代理式使用進行了針對性最佳化,降低了在 Windows 技術棧上開發或部署團隊的摩擦。此外,它也提升了在 Bash、PowerShell 及其他 Shell 中的一般終端可靠性,當模型需要執行指令、編譯或編排環境時表現更穩定。

更強的視覺與 UI 解讀能力

Codex 先前已能處理影像;GPT-5.2-Codex 在此基礎上更進一步,能更準確地解讀在除錯或設計交接時分享的截圖、技術圖表、模型稿與 UI 成品。這有助於開發者將設計稿轉化為可運作的原型,並讓安全團隊在分級處理(triage)時更可靠地解讀 UI 證據。

GPT-5.2-Codex 在基準與實測中的表現

基準測試顯示了什麼

GPT-5.2-Codex 在兩項以模擬真實開發任務為目標的代理式編碼基準上表現出色:

  • SWE-Bench Pro —— 一個儲存庫層級的評估,模型必須產生能解決實際工程任務的程式碼補丁。GPT-5.2-Codex 取得了頂尖成績,展現出更高的準確度與補丁品質。
  • Terminal-Bench 2.0 —— 一個針對代理式終端使用的評估,涵蓋編譯、訓練、伺服器設定與其他互動式終端工作流程。GPT-5.2-Codex 在此亦名列前茅,與實際代理式開發者情境高度吻合。

SWE-Bench Pro 上 GPT-5.2-Codex 達到 56.4% 準確率(相較於 GPT-5.2 的 55.6% 與 GPT-5.1 的 50.8%),而 Terminal-Bench 2.0 則為 64.0%(相較於 GPT-5.2 的 62.2% 與 GPT-5.1-Codex-Max 的 58.1%)。這些數字顯示代理式工程表現上可量化的、漸進的提升。

這對實際工程工作意味著什麼?

聚焦於代理式能力的基準具價值,因為它們測試模型連鎖操作、回應系統狀態與產出可執行結果的能力——更接近開發者期望的、能在其環境中有效運作的助理。更高的基準分數往往與更少的工具呼叫失敗、更少的工程師手動救援,以及在執行儲存庫規模變更時更佳的維護流程相互關聯。

GPT-5.2-Codex 與 GPT-5.1-Codex-Max 的比較

GPT-5.1-Codex-Max 的設計目標是什麼?

GPT-5.1-Codex-Max 是 OpenAI 先前的 Codex 聚焦產品,強調改進的長期編碼、Token 效率與代理式工具使用。它在補丁生成與終端工作流程上的生產力帶來重大提升,並為新的 GPT-5.2-Codex 最佳化打下基礎。OpenAI 報告指出,在 GPT-5.1 時期,內部對 Codex 工作流程的使用提升了工程師的產出與 Pull Request 速度。

具體差異是什麼?

OpenAI 將 GPT-5.2-Codex 定位為相對迭代但意義重大的升級,相較於 GPT-5.1-Codex-Max。新變體將 GPT-5.2 提升的基礎推理能力,與 5.1-Codex-Max 引入的代理式工程能力結合。關鍵改進包括:

  • 更長且更穩定的上下文處理 —— 5.2-Codex 能在比 5.1 系列更長的互動中維持計畫。
  • 更高的 Windows 終端忠實度 —— 先前的 Codex 版本偶爾處理平台細節不當,5.2-Codex 調整得更像一位熟悉 Windows 的人類操作者。
  • 更佳的 Token 效率 —— 代表它能用更少的 Token 進行推理,從而將上下文保留給關鍵的儲存庫狀態。
  • 在代理式測試上的更高基準表現。

GPT-5.1-Codex-Max 的價值仍在何處?

GPT-5.1-Codex-Max 是第一代具代理式、可用終端操作的 Codex 模型;它在許多團隊中仍然實用且在產線運行,尤其是那些已投入針對該模型調整的工作流程或自訂工具整合的團隊。實務上,5.2-Codex 應被視為在需要更長會話、更佳 Windows 支援或更安全敏感行為的場景中進行遷移的機會——但並非在每個環境中都能不經測試就直接替換。

GPT-5.2-Codex vs GPT-5.1-Codex-Max(實務差異)

在實務上,曾經使用過 GPT-5.1-Codex-Max 的人會注意到:

更可靠的安全分級處理協助,使安全工程師能加速漏洞重現與分級,同時 OpenAI 對高風險用例實施更嚴格的存取控管。

更少的會話重置:GPT-5.2-Codex 在多次迭代後較不會「遺忘」專案意圖。

更高的成功率於終端任務與自動化建置/測試流程,降低 CI 任務的手動迴圈時間。

若你的團隊已使用 GPT-5.1-Codex-Max,切換到 GPT-5.2-Codex 應該會是漸進但有益的:在長任務中更少中斷、更完善的端到端自動化,並在安全相鄰活動上成為更安全、更可靠的夥伴。對尚未採用 Codex 的團隊而言,GPT-5.2-Codex 因為專門調校以在長序列互動中維持狀態與意圖,能降低大型且更具風險自動化的技術摩擦。

使用情境:從原型製作到產線支援

快速原型與從模型稿到程式碼的轉換

設計團隊可交付模型稿或截圖;Codex 能解讀並產生可運作的原型,讓 UX → 工程的迭代更快速。改進的視覺與 UI 解析讓這些轉換更貼近原意且更少手動工作。

大型重構與遷移

維護長壽命程式碼庫(monorepo、多服務架構)的團隊可利用 Codex 進行規劃中的重構與遷移。模型提升的補丁一致性與會話記憶,能在多步變更中更好地保留意圖,減少需要人工回退的次數。

自動化 CI 疑難排解與終端編排

Codex 能在儀表化環境中執行建置序列、重現失敗、提出並套用修正,並重新執行測試——這使其在 CI 分級處理與批次修復工作流程中,在有人監督的情況下特別有用。

防禦性安全研究與分級處理

OpenAI 強調防禦性資安是優先用例:經審核的研究人員若參與受信任存取試點,可使用 Codex 建立 fuzzing 測試架構、分析攻擊面,並加速為負責任揭露所需的漏洞概念驗證。公司指出,已有 Codex 輔助工作流程協助發現先前未知的問題的實例。

程式碼審查增強與政策執行

Codex 支援更豐富、可感知儲存庫的程式碼審查,可將 PR 與預期意圖比對、執行測試以驗證行為變更,並協助修復建議——實質上充當能在大量 Pull Request 中擴展的智慧審查者。

何處仍然需要人類監督

儘管有所進展,GPT-5.2-Codex 並非專業工程師或安全團隊的替代品。仍需要人類專家來驗證語意、確保架構一致、校驗非功能性需求,並核准上線變更。對於安全領域,紅隊審查與威脅建模仍是必要的,以避免意外暴露或濫用。OpenAI 自身的發布計畫——逐步向付費用戶部署與僅邀請的安全試點——也反映了這種審慎的立場。

如何立即上手 GPT-5.2-Codex?

現有 Codex 用戶的即時步驟

  • 若你是付費 ChatGPT 用戶:GPT-5.2-Codex 現已可在各 Codex 介面(CLI、IDE 擴充、Codex 網頁)使用。已登入用戶的 Codex CLI 與 IDE 將預設為 gpt-5.2-codex;你可以在下拉選單中選擇模型,或在 Codex 的 config.toml 中變更預設值。
  • 若你仰賴 API:OpenAI 計畫在「未來數週」內開放 API 存取。期間可考慮在 Codex IDE/CLI 中先行試點,以在具代表性的儲存庫與 CI 流水線上評估其行為。
  • 若你是安全研究人員:若你的工作屬於防禦性,且具有負責任揭露的紀錄,請表達對 OpenAI 受信任存取試點的興趣。OpenAI 正在為通過審核的參與者辦理入門,以在防禦性使用上安全擴展能力。

結論

GPT-5.2-Codex 代表了以工程為中心、務實的代理式 AI 在軟體開發領域的一次進步。它帶來針對性的改進——為長任務提供上下文壓縮、更強的大型程式碼變更韌性、更好的 Windows 支援,以及提升的資安能力——同時 OpenAI 嘗試以謹慎的治理與分階段開放來平衡可用性。對於依賴大型 monorepo、廣泛自動化與持續交付的團隊而言,GPT-5.2-Codex 能降低多步工程任務中的摩擦並加速開發者工作流程。與此同時,此次發布再次強調模型只是工具,仍需要嚴謹的整合:強化的人類在迴圈控管、沙箱化與可觀測性依然不可或缺。

開始之前,探索 GPT-5.1 Codex maxGPT-5.1 CodexPlayground 的能力,並參考 API 指南 以取得詳細說明。存取前,請確保你已登入 CometAPI 並取得 API 金鑰。CometAPI 提供遠低於官方價格的方案,協助你完成整合。

Ready to Go?→ Free trial of GPT-5 Codex series

閱讀更多

一個 API 中超過 500 個模型

最高 20% 折扣