GPT-5.3 Codex:功能、基準測試,以及如何取得

CometAPI
AnnaFeb 6, 2026
GPT-5.3 Codex:功能、基準測試,以及如何取得

2026 年 2 月 5 日,OpenAI 宣布推出 GPT-5.3-Codex,這是對其 Codex 系列的重點升級,將先進的程式設計能力與更廣泛的專業推理、更快的推理執行,以及更深入的「代理式」工作流程相結合。此次發佈帶來新的 Codex 桌面應用,並將存取範圍擴展至整個 Codex 生態系(CLI、IDE 擴充、網頁),API 存取(承諾「即將推出」)。

什麼是 GPT-5.3-Codex?

GPT-5.3-Codex 是 OpenAI Codex 系列中最新的代理式程式設計模型:一個專為開發者工作流程訓練與微調的模型,能在終端機、編輯器、網路端點等工具間互動,並執行需要規劃、工具運用與迭代除錯的長期工程任務。OpenAI 將 GPT-5.3-Codex 定位為結合 GPT-5.2-Codex 的程式設計強項與 GPT-5.2 的推理與專業知識提升的後繼者,旨在打造更像協作式工程隊友的單一模型。

起源與設計目標

  • 代理式工作流程: 模型經過調校,能在時間序列上協調動作(例如執行測試、修補程式、再度執行),而非只生成單一答案。
  • 工具整合: Codex 旨在安全、可靠地使用開發者工具——CLI、除錯器、套件管理器——並在工作階段間保留狀態。
  • 實用的開發者幫助: 目標務實:降低情境切換、加速疑難排解、自動化例行工作(測試、重構、程式碼擷取),並支援人類使用者的協作式引導。

GPT-5.3-Codex 有哪些新變化?

GPT-5.3-Codex 相較於其直系前代,帶來多項具體變更與產品層面的改進:

1. 更快的推理執行(針對 Codex 使用者)

OpenAI 表示,得益於推理堆疊與基礎設施最佳化,GPT-5.3-Codex 對 Codex 使用者而言大約快了 25%。此速度提升既體現在互動式除錯時的更低延遲,也使更長、更順暢的代理式執行成為可能。

2. 統合推理與程式能力的優勢

GPT-5.3-Codex 不再是純粹「僅限寫程式」,而是將 GPT-5.2-Codex 的前沿程式表現與 GPT-5.2 的專業推理能力相結合,讓其在研究密集型任務上表現更佳:閱讀文件、規劃多步驟遷移,並在輸出程式碼的同時給出論證與測試證據。

3. 執行過程中的更佳協作與可引導性

一項面向使用者的重要變更是,在模型「工作」期間的協作者式互動更好:Codex 會更頻繁回報進度、在執行中接受引導指令,並在多步任務間持續保留脈絡與狀態——因此使用者可在代理執行時插話、修正或指示方向。產品說明指出,此「引導」行為正在整個 Codex 工具中被穩定化。

4. Codex 桌面應用(加強跨用戶端同步)

OpenAI 推出了Codex 應用,可將工作階段歷史與設定與 Codex CLI 與 IDE 擴充同步——開發者可在編輯器或終端機開始,並在桌面應用中接續工作而不丟失狀態。該應用被定位為代理式工作流程的協調中樞。

5. 針對長時間代理行為的最佳化

GPT-5.3-Codex 明確針對可長時間運行、交織工具呼叫、並需要中途引導(暫停/恢復、變更目標)的任務進行最佳化。這提升了其在複雜重構、多模組功能開發與跨倉庫任務上的能力。

GPT-5.3-Codex 在基準測試上的表現

GPT-5.3-Codex (xhigh)GPT-5.2-Codex (xhigh)GPT-5.2 (xhigh)
SWE-Bench Pro(公開)56.8%56.4%55.6%
Terminal-Bench 2.077.3%64.0%62.2%
OSWorld-Verified64.7%38.2%37.9%
GDPval(勝或平)70.9%-70.9% (高)
資安 Capture The Flag 挑戰77.6%67.4%67.7%
SWE-Lancer IC Diamond81.4%76.0%74.6%

代表性基準結果

  • Terminal-Bench 2.0: GPT-5.3-Codex 報告得分為 ≈77.3%,相較前代大幅躍進,顯示在命令列與終端機工作流程上的熟練度明顯提升。
  • SWE-Bench Pro: OpenAI 報告 ≈56.8%,這是一套涵蓋多種語言與產業挑戰的嚴格軟體工程基準,相較前代有溫和但實用的改善。
  • OSWorld-Verified 與資安 CTF 指標: OpenAI 的系統卡與報告顯示,在一般「電腦使用」基準(OSWorld)與資安奪旗類任務上均有提升(相較 GPT-5.2-Codex 有顯著增幅)。

開發者與組織如何存取 GPT-5.3-Codex?

目前可在哪些產品與介面使用?

  • Codex 應用(桌面與網頁): OpenAI 推出的專用 Codex 應用可保存工作階段並與 CLI 與 IDE 擴充同步。對多數使用者而言,該應用是以 GUI 與持久狀態運行代理工作流程的主要方式。
  • Codex CLI: 偏好終端機的使用者可透過命令列介面與 Codex 互動,並與在地程式庫與工作流程整合。
  • IDE 擴充: 針對常見 IDE(Visual Studio Code、JetBrains 家族)的外掛讓 Codex 進駐編輯器,提出程式碼、執行本地測試並原地修改。
  • 網頁介面: 透過 ChatGPT/Codex 頁面提供的標準網頁存取,為許多使用者提供免安裝選項。

重要可用性說明: OpenAI 表示,GPT-5.3-Codex 已在各 Codex 介面向付費 ChatGPT 方案開放,並稱API 存取仍在準備中,尚未啟用,以待安全相關工作完成。

在等待 GPT-5.3 Codex API 的同時,開發者可先在 CometAPI 使用同樣功能完整的 GPT-5.2 Codex,為日後遷移至 GPT-5.3 Codex 做好準備。當 GPT-5.3 Codex API 發佈後,你可以在幾分鐘內升級,而非從零開始。

1. Codex 應用(桌面)

  • 對象: 需要以 GUI 為中心協調面的個人開發者與團隊。
  • 內容: 從 CLI 與 IDE 同步工作階段歷史與設定,呈現運行中的代理任務與日誌,作為長時間操作的樞紐。
  • 開始方式: 在 Codex 應用中以 ChatGPT 帳戶登入;在 IDE/CLI 開始的工作階段會出現在應用中。

2. Codex CLI(終端機)

  • 對象: 以終端機為主的開發者、DevOps 工程師、SRE。
  • 內容: 執行 Codex 動作、執行命令、跑測試,並在專案內就地接收結構化回饋。CLI 適合把模型作為工具進行自動化與指令稿化。
  • 開始方式: 安裝 Codex CLI(套件與說明見 OpenAI 開發者文件),以 ChatGPT 帳戶或團隊憑證登入,並指向你的程式庫。

3. IDE 擴充(VS Code 等)

  • 對象: 以編輯器為中心的開發者。
  • 內容: 於編輯器內提供協助、拉取請求(PR)自動審查(例如在 PR 上標註 @codex 以請求自動審查),以及在不離開編輯器的情況下運行代理式流程。擴充支援基於帳戶登入——許多工作流程無需處理 API 金鑰。

4. 網頁/ChatGPT

  • 對象: 輕量或探索型使用者、產品經理,以及希望透過網頁存取的團隊。
  • 內容: GPT-5.3-Codex 可透過付費訂閱者的 ChatGPT 介面使用。網頁介面讓你在瀏覽器中立即存取 Codex 功能。

5. API(即將推出)

  • 對象: 想將 Codex 嵌入 CI/CD 流水線、自動化工具或專有平台的公司。
  • 預期內容: OpenAI 表示,GPT-5.3-Codex 的 API 存取正在準備中。

GPT-5.3-Codex 對開發者生態系意味著什麼?

短期影響

  • 例行工作生產力提升: 許多團隊會在測試、重構與除錯上迭代更快。IDE 與 CLI 整合降低採用代理式工作流程的摩擦。
  • 新的協作模式: 工程師將更頻繁與 AI 以「隊友」形式互動——下達引導指令、審查代理輸出,並在格式化、腳手架、例行修復等重複但關鍵的任務上信任模型。

長期產業影響

  • 工具鏈整合: 一體化的代理式工具(應用 + CLI + IDE)若被團隊採用,可能降低工具分散。
  • 競爭與專精化: 同週來自 Anthropic 等的發佈凸顯供應商正開闢不同利基(例如超大脈絡 vs. 代理式程式速度),推動企業依使用情境而非品牌來選擇模型。

角色與勞動力

  • 強化而非取代(目前): 儘管 Codex 將自動化許多開發任務,人類工程師在架構、安全、關鍵推理與治理上仍不可或缺——特別是牽涉生產安全時。Codex 改變的是投入分佈,而非直接消除角色。

開發者現在即可透過 GPT-5.2 CodexCometAPI 存取。開始之前,先在 Playground 探索模型能力,並參考 API guide 以取得詳細說明。存取前,請確保已登入 CometAPI 並取得 API 金鑰。CometAPI 提供遠低於官方的價格,協助你完成整合。

準備好了嗎?→ Sign up for code today

若你想獲得更多關於 AI 的技巧、指南與新聞,歡迎追蹤我們的 VKXDiscord

閱讀更多

一個 API 中超過 500 個模型

最高 20% 折扣