GPT-5-Codex 是什麼?架構、功能、存取等

CometAPI
AnnaNov 3, 2025
GPT-5-Codex 是什麼?架構、功能、存取等

GPT-5-Codex 是 OpenAI 全新推出的、專注於工程的 GPT-5 變體,專門針對 Codex 產品系列中的代理軟體工程進行了調整。它旨在處理大型實際工程工作流程:從零開始創建完整專案、添加功能和測試、調試、重構以及在與外部工具和測試套件互動的同時執行程式碼審查。此版本代表了針對性的產品改進,而非全新的基礎模型:OpenAI 已將 GPT-5-Codex 整合到 Codex CLI、Codex IDE 擴充、Codex Cloud、GitHub 工作流程和 ChatGPT 行動體驗;API 的開放時間已規劃中,但不會立即發布。

GPT-5-Codex 是什麼?為什麼它會存在?

GPT-5-Codex 是 GPT-5 的「編碼專用版」。它並非通用的對話助手,而是透過強化學習和工程專用資料集進行調整和訓練,以更好地支援迭代式、工具輔助的編碼任務(例如:運行測試、迭代故障、重構模組以及遵循 PR 規範)。 OpenAI 將其定位為早期 Codex 專案的繼承者,但基於 GPT-5 主幹構建,旨在提升對大型程式碼庫的推理深度,並更可靠地執行多步驟工程任務。

其動機是切實可行的:開發者的工作流程越來越依賴能夠提供更多功能(而非單一程式碼片段建議)的代理。 OpenAI 的目標是透過讓模型與「產生 → 運行測試 → 修復 → 重複」的循環以及組織公關規格相協調,打造一個感覺像隊友而非一次性完成任務的 AI。從「生成功能」到「交付功能」的轉變正是該模型的獨特價值。

GPT-5-Codex 是如何建構和訓練的?

進階架構

GPT-5-Codex 是 GPT-5 架構(更廣泛的 GPT-5 譜系)的變體,而非一個全新的架構。這意味著它繼承了 GPT-5 基於 Transformer 的核心設計、擴展特性和推理改進,但增加了針對軟體工程任務的 Codex 專用訓練和基於強化學習的微調功能。 OpenAI 的附錄將 GPT-5-Codex 描述為針對複雜的現實世界工程任務進行訓練,並強調在程式碼執行和驗證環境中進行強化學習。

它是如何訓練和優化程式碼的?

GPT-5-Codex 的訓練計畫強調 現實世界的工程任務它使用強化學習式的微調,對基於實際軟體開發工作流程建構的資料集和環境進行微調:多檔案重構、PR diff、運行測試套件、調試會話和人工審核訊號。訓練目標是在程式碼編輯過程中最大限度地提高正確性、通過測試並產生具有高精度和高相關性的審核評論。這種專注正是 Codex 與面向聊天的通用微調的區別所在:損失函數、評估工具和獎勵訊號與工程結果(測試通過、diff 更正、虛假評論減少)保持一致。

「代理」培訓是什麼樣的

  • 執行驅動的微調:該模型在執行、測試和評估產生程式碼的環境中進行訓練。回饋循環來自測試結果和人類偏好訊號,鼓勵模型不斷迭代,直到測試套件通過。
  • 根據人類回饋進行強化學習 (RLHF):本質上與先前的 RLHF 工作類似,但應用於多步驟編碼任務(創建 PR、運行測試、修復故障),因此該模型可以學習一系列動作中的臨時信用分配。
  • 儲存庫規模上下文:訓練和評估涵蓋大型儲存庫和重構,幫助模型學習跨文件推理、命名約定和程式碼庫層級的影響。 ()

GPT-5-Codex 如何處理工具使用和環境互動?

該模型的一個關鍵架構特性是其呼叫和協調工具的能力得到了提升。 Codex 過去將模型輸出與一個小型運行時/代理系統結合,該系統可以運行測試、開啟檔案或呼叫搜尋。 GPT-5-Codex 透過學習何時呼叫工具以及更好地將測試回饋整合到後續程式碼產生中來擴展此功能,從而有效地閉合了綜合和驗證之間的循環。這是透過對軌跡進行訓練來實現的,在軌跡中,模型既發出動作(例如「運行測試 X」),又根據測試輸出和差異來設定後續生成條件。

GPT-5-Codex 實際上能做什麼——它的特點是什麼?

決定性的產品創新之一是 適應性思考持續時間GPT-5-Codex 調整了其執行的隱藏推理量:簡單的請求運行速度快且成本低,而複雜的重構或長時間運行的任務則允許模型「思考」更長時間。同時,對於小型互動式操作,該模型消耗的令牌遠少於通用 GPT-5 實例,與 GPT-93.7 相比節省了 5% 的令牌(包括推理和輸出)。這種可變推理策略旨在在需要時提供快速反應,並在必要時進行深入、徹底的執行。

核心能力

  • 專案生成與引導: 根據進階提示,使用 CI、測試和基本文件建立整個專案框架。
  • 代理測試和迭代: 產生程式碼、執行測試、分析故障、修補程式碼並重新運行直到測試通過—有效地自動化開發人員編輯→測試→修復循環的部分。
  • 大規模重構: 在保持行為和測試不變的情況下,對多個檔案執行系統性重構。這是 GPT-5-Codex 相對於通用 GPT-5 的明確最佳化領域。
  • 程式碼審查和 PR 產生: 產生 PR 描述、建議的差異變更以及符合專案慣例和人工審查期望的審查意見。
  • 大上下文程式碼推理: 與通用聊天模型相比,它更擅長導航和推理多文件程式碼庫、依賴圖和 API 邊界。
  • 視覺輸入與輸出: 在雲端工作時,GPT-5-Codex 可以接受圖像/螢幕截圖,直觀地檢查進度,並將視覺工件(構建的 UI 的螢幕截圖)附加到任務中——這對於前端調試和可視化 QA 工作流程來說是一個實用的福音。

編輯器和工作流程集成

Codex 深度整合到開發人員工作流程:

  • CLI 法典 — 終端優先交互,支援截圖、待辦事項追蹤和座席審核。 CLI 開源,並針對座席編碼工作流程進行了最佳化。
  • Codex IDE 擴充 — 將代理程式嵌入 VS Code(和分支),以便您可以預覽本地差異、建立雲端任務以及在保留狀態的情況下在雲端和本地上下文之間移動工作。
  • Codex 雲端/GitHub — 可以設定雲端任務以自動審查 PR、產生臨時容器進行測試以及將任務日誌和螢幕截圖附加到 PR 執行緒。

顯著的限制和權衡

  • 窄頻優化:GPT-5-Codex 的一些非編碼生產評估比通用 GPT-5 變體略低——這提醒我們,專業化可能會損害通用性。
  • 測試依賴:代理行為依賴可用的自動化測試。測試覆蓋率低的程式碼庫將暴露出自動驗證的局限性,可能需要人工監督。

GPT-5-Codex 特別擅長或不擅長哪些類型的任務?

擅長: 複雜的重構、為大型專案建立鷹架、編寫和修復測試、遵循 PR 期望以及診斷多檔案執行時間問題。

不太擅長: 需要工作區中未提供的最新或專有內部知識的任務,或需要高可靠性正確性且無需人工審核的任務(安全關鍵型系統仍需要專家)。獨立審查也指出,與其他專用編碼模型相比,原始程式碼品質參差不齊——代理工作流程的優勢並不一定能轉化為每個基準測試中最佳的正確性。

基準測試揭示了 GPT-5-Codex 的哪些效能?

SWE-bench / SWE-bench 已驗證OpenAI 表示,GPT-5-Codex 在 SWE-bench Verified 等代理程式編碼基準測試中的表現優於 GPT-5,並且在從大型儲存庫中提取的程式碼重構任務中也表現出色。在包含 500 個真實軟體工程任務的 SWE-bench Verified 資料集上,GPT-5-Codex 的成功率達到了 74.5%。這超過了 GPT-5 在同一基準測試中的 72.8%,凸顯了該代理商的卓越性能。 500 個來自真實開源專案的程式設計任務。之前只能測試 477 個任務,現在所有 500 個任務都可以測試 → 更完整的結果。

GPT-5-Codex

從早期的 GPT-5 設定到 GPT-5-Codex,程式碼重構評估分數大幅上升——早期分析中強調了在特定高詳細程度重構指標上從約 34% 到約 51% 的轉變)。這些提升意義重大,因為它們反映了 大規模、現實的重構 而不是玩具範例——但關於可重複性和精確的測試工具仍然存在警告。

開發人員和團隊如何存取 GPT-5-Codex?

OpenAI 已將 GPT-5-Codex 納入 Codex 產品介面:它可在 Codex 目前運行的任何環境(例如,Codex CLI 和整合的 Codex 體驗)上線。對於透過 CLI 和 ChatGPT 登入使用 Codex 的開發者,更新後的 Codex 體驗將呈現 GPT-5-Codex 模型。 OpenAI 表示,該模型將「很快」在更廣泛的 API 中提供給使用 API 金鑰的用戶,但截至首次發佈時,主要存取路徑是透過 Codex 工具,而不是公共 API 端點。

CLI 法典

啟用 Codex 在沙盒程式碼庫中審核 PR 草案,以便您可以無風險地評估評論品質。請謹慎使用審批模式。

  • 圍繞代理編碼工作流程重新設計。
  • 支援附加圖像(例如線框、設計和 UI 錯誤螢幕截圖)為模型提供上下文。
  • 新增了任務清單功能來追蹤複雜任務的進度。
  • 提供外部工具支援(網頁搜尋、MCP連線)。
  • 新的終端介面改進了工具呼叫和差異格式,權限模式簡化為三個層級(唯讀、自動和完全存取)。

GPT-5-Codex 是什麼?架構、功能、存取等

IDE擴充

整合到 IDE 工作流程: 為需要內嵌預覽和快速迭代的開發者新增 Codex IDE 擴充。在保留上下文的情況下在雲端和本地之間移動任務可以減少複雜功能的摩擦。

  • 支援 VS Code、Cursor 等。
  • 直接從編輯器呼叫 Codex 以利用目前開啟的檔案和程式碼的上下文來獲得更準確的結果。
  • 在本地和雲端環境之間無縫切換任務,保持情境的連續性。
  • 直接在編輯器中檢視和處理雲端任務結果,無需切換平台。

GPT-5-Codex 是什麼?架構、功能、存取等

GitHub 整合與雲端功能

  • 自動化 PR 審查:自動觸發從草稿到準備就緒的進度。
  • 支援開發者直接在 PR 的 @codex 部分請求有針對性的評審。
  • 大幅加快雲端基礎設施:透過容器快取將任務回應時間縮短 90%。
  • 自動化環境配置:執行安裝腳本並安裝依賴項(例如,pip install)。
  • 自動運行瀏覽器,檢查前端實現,並將螢幕截圖附加到任務或 PR。

GPT-5-Codex 是什麼?架構、功能、存取等

安全性、保障性和限制考量有哪些?

OpenAI 強調針對 Codex 代理的多層緩解措施:

  • 模型級訓練: 有針對性的安全培訓,以抵制立即註射並限制有害或高風險行為。
  • 產品級控制: 沙盒預設行為、可設定的網路存取、運行命令的審批模式、終端日誌和可追溯性引用,以及要求對敏感操作進行人工審批的能力。 OpenAI 還發布了一份“系統卡附錄”,描述了這些緩解措施及其風險評估,特別是針對生物和化學領域的能力。

這些控制反映了這樣一個事實:能夠運行命令和安裝依賴項的代理具有現實世界的攻擊面和風險——OpenAI 的方法是將模型訓練與產品約束相結合以限制濫用。

已知的限制有哪些?

  • 不能替代人工審核: OpenAI 明確推薦 Codex 作為 額外 審核員,而非替代者。人工監督仍然至關重要,尤其是在安全、許可和架構決策方面。
  • 需要仔細閱讀基準和聲明: 審閱者指出,在比較模型時,評估子集、詳細程度設定和成本權衡方面存在差異。早期獨立測試結果喜憂參半:Codex 表現出強大的代理行為和重構改進,但與其他供應商相比,其相對準確度因基準測試和配置而異。
  • 幻覺與不正常的行為: 與所有 LLM 一樣,Codex 可能會產生幻覺(例如偽造 URL、錯誤陳述依賴關係圖),而其長達數小時的代理運行仍可能在極端情況下遇到問題。建議透過測試和人工審核來驗證其輸出結果。

對於軟體工程來說,其更廣泛的影響是什麼?

GPT-5-Codex 展示了 LLM 設計的成熟轉變:供應商不僅在改進裸語能力,還在進行最佳化 行為 適用於長時間、代理性任務(例如,執行時間長達數小時、測試驅動開發、整合評審流程)。這將生產力單位從單一產生的程式碼片段轉變為 任務完成 ——模型能夠接收工單、執行一系列測試,並迭代產生經過驗證的實作。如果這些代理商變得健壯且管理良好,它們將重塑工作流程(減少手動重構、縮短 PR 週期,讓開發人員有更多時間專注於設計和策略)。但這種轉變需要精心的流程設計、人工監督和安全治理。

結論-你該帶走什麼?

GPT-5-Codex 是朝著以下目標邁出的重點一步: 工程師級 LLM:經過訓練、調優和產品化的 GPT-5 變體,旨在作為 Codex 生態系統中強大的編碼代理。它帶來了切實的新行為——自適應推理時間、長時間自主運行、整合沙盒執行以及有針對性的程式碼審查改進——同時保留了語言模型常見的缺陷(例如需要人工監督、評估細微差別以及偶爾出現的幻覺)。對於團隊而言,謹慎的做法是進行可衡量的實驗:在安全的程式碼庫上進行試點,監控結果指標,並逐步將代理商納入審查人員的工作流程。隨著 OpenAI 擴展 API 存取權限以及第三方基準測試的激增,我們應該期待更清晰的比較結果以及關於成本、準確性和最佳實踐治理的更具體的指導。

入門

CometAPI 是一個統一的 API 平台,它將來自領先供應商(例如 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude、Midjourney、Suno 等)的 500 多個 AI 模型聚合到一個開發者友好的介面中。透過提供一致的身份驗證、請求格式和回應處理,CometAPI 顯著簡化了將 AI 功能整合到您的應用程式中的過程。無論您是建立聊天機器人、影像產生器、音樂作曲家,還是資料驅動的分析流程,CometAPI 都能讓您更快地迭代、控製成本,並保持與供應商的兼容性——同時也能充分利用整個 AI 生態系統的最新突破。

開發人員可以訪問 GPT-5-Codex API 透過 CometAPI 訪問,其中列出的 CometAPI 模型截至本文發布之日。造訪前,請確保您已登入 CometAPI 並取得 API 金鑰。

SHARE THIS BLOG

一個 API 中超過 500 個模型

最高 20% 折扣