OpenAI 發佈 GPT-5.4 系列：GPT-5.4 有哪些變更

OpenAI 最新發布的 GPT-5.4 作為針對性「專業工作」的模型家族推出，包含兩個主要變體 — GPT-5.4 Thinking 與 GPT-5.4 Pro — 並著重於長上下文的文件處理、原生電腦操作（代理）能力，以及在辦公、法律與金融工作流程中的事實性與任務表現提升。此版本延續 GPT-5 系列先前的更新（尤其是 GPT-5.3 Instant 與 GPT-5.3-Codex），在內部與公開基準測試上帶來可量化的改進、更深入的工具整合（包含 ChatGPT for Excel 外掛），以及更大的支援上下文（cites up to 1 million tokens）。

現在 CometAPI 支援 GPT-5.4 與 GPT-5.4 Pro，並可享折扣使用。

什麼是 GPT-5.4？

定位與變體

GPT-5.4 由 OpenAI 呈現為最具能力的 GPT-5 系列模型，專為專業、文件密集與代理式工作流程調校。至少提供兩種公開版本：

GPT-5.4 Thinking — 著重推理的變體，更多地暴露模型的思考過程，並為多步推理與代理式任務最佳化（在 ChatGPT 內作為「Thinking」模式提供）。
GPT-5.4 Pro — 針對高吞吐或延遲敏感的企業工作負載提供更高計算/優先級的推理層級，API 價格更高（反映額外的計算資源）。

OpenAI 強調 GPT-5.4 的原生電腦操作能力——讓模型能透過程式化的滑鼠/鍵盤動作操作軟體，並協調多工具序列——定位為打造能完成實際任務的代理的一大步。

新增與強化的能力

長上下文支援： 據報導，GPT-5.4 支援非常大的上下文（在 ChatGPT 與 Codex 上下文中 support up to 1,000,000 tokens），使模型在單一工作階段中可將大型專案、書籍、程式碼庫或資料集「置於記憶」範圍內。這對文件審閱、法律合約與多檔工程專案而言屬於變革性能力。
原生電腦使用 / 代理運作： GPT-5.4 是 OpenAI 首個具原生電腦操作能力的通用模型——可生成 UI 動作序列與程式碼來操作軟體（例如透過 Playwright，或根據螢幕截圖發出滑鼠/鍵盤指令）。此能力旨在讓開發者打造能跨網頁與桌面應用完成任務的代理。
Office 技能提升： 對試算表、簡報與文件有顯著強化——內部基準顯示在試算表建模、簡報美學與文件撰寫品質上有大幅提升。
事實性與幻覺減少： OpenAI 報告相較先前模型，在內部策劃的評估集上降低了事實錯誤（見下方基準）。

與先前模型（如 GPT-5.2 Thinking 與 GPT-5.3 Codex）相比，GPT-5.4 將上述能力匯聚於單一模型，旨在以最少使用者干預處理長時間任務與複雜工作流程。

GPT-5.4 的關鍵功能與技術重點

1) 超大型上下文窗口（最多 1,000,000 tokens）

最直觀可見的能力是透過 API 支援最多 1,000,000 tokens 的上下文窗口。這擴大了單一模型工作階段可容納的內容：整本書、長程式碼庫或完整多文件資料包，而不需跨多次呼叫分塊。對知識密集的企業工作流程（法律蒐證、研究綜整、大規模程式碼分析）而言，能維持百萬級上下文可降低工程膠水並提升一致性。

Implication： 先前需編排（檢索、分塊、外部記憶）的工作流程，現在可在模型的工作記憶中保留更多原始上下文——簡化管線並降低延遲/一致性的取捨。

2. 原生電腦與工具使用

OpenAI 強調 GPT-5.4 能更穩健地操作軟體工具與連接器（例如試算表、文件編輯器、程式碼執行環境），相較先前模型更進一步。GPT-5.4 延伸了既有「工具使用」工作，包含：

更佳的工具選擇與參數化。
在呼叫外部 API 或逐步執行類 UI 操作時更可靠的序列規劃。
透過更聰明的工具呼叫架構，降低代理式工作流程的 token 開銷。

代理與開發者能力：

桌面與網頁自動化： 以螢幕截圖為基礎發出滑鼠與鍵盤動作的明確支援，使 GPT-5.4 能嵌入於代理中，操作實際軟體工作流程（例如填表、導覽儀表板或執行多步程序）。OpenAI 報告在 OS 風格基準上達成最先進結果。
工具介面與可引導性： GPT-5.4 更易受開發者訊息引導，且更能判斷何時以及如何呼叫外部工具、連接器與 API——這對打造可靠的多工具代理、降低不必要或高風險動作至關重要。

實際影響： 自動化任務（例如「打開此試算表、計算樞紐分析、生成投影片註記」）需要更少的失敗/重試循環與更低的人為監督。

3) 五種推理投入等級，極限模式

OpenAI 指出提供多種推理投入等級——允許使用者在延遲/成本與更深入的內部思考鏈之間作取捨（非正式稱為 xhigh 或極限推理）。這些模式適用於在更深入的內部審思可明顯提升正確性的問題（複雜證明、長程式碼轉換、多步財務分析）。API 定價與計費邏輯反映了在這些模式下模型執行的額外工作。

實際影響： 此區隔讓客戶能依工作負載選擇合適的取捨，而不是要求單一模型「包山包海」。

4) 生產力與內容撰寫

試算表建模： GPT-5.4 在可能用於稽核、金融與分析工作流程的試算表任務上有顯著提升。OpenAI 報告在「投資銀行建模」類任務上，GPT-5.4 的平均分數為 87.3%，相較 GPT-5.2 的 68.4%。這是數值建模與公式構建的任務準確度大幅提升。
簡報與視覺輸出： 人類評審在 68.0% 的情況下更偏好 GPT-5.4 生成的簡報而非 GPT-5.2，因其美學更佳、樣式更多樣、且與影像生成整合更好。這反映了內容與形式的改進，更適合產出投影片。
文件起草與長文寫作： GPT-5.4 在維持長文件的一致性上最佳化，引用行為更佳、在處理大型上下文時內部矛盾更少，得益於延伸的上下文窗口與專門的推理調校。

5) 安全、緩解與網路考量

幻覺減少： OpenAI 報告，在一組匿名化、由使用者標記事實錯誤的提示上，GPT-5.4 的單一主張 錯誤機率下降 33%，且完整回覆 包含任何錯誤的機率下降 18%，相較 GPT-5.2——這是企業採用時，事實準確性的重要指標。
網路安全緩解（Thinking 變體）： GPT-5.4 Thinking 擴充了面向網路風險的緩解集，延續先前 Codex/5.3 模型的保護。GPT-5.4 Thinking 針對高能力濫用情境設計了額外的護欄。

效能基準 — 數據如何解讀

OpenAI 與多方媒體在發布過程中公布了早期基準結果。因為不同基準測試不同能力（網頁導覽 vs. 領域知識 vs. 安全），彙總主要數字及其意義具有參考價值。

OpenAI 發佈 GPT-5.4 系列：GPT-5.4 有哪些變更

報導結果顯示相較較早的 GPT-5.x 家族有顯著提升，並與其他頂級模型展開激烈競爭。

網頁與桌面互動基準

WebArena-Verified（瀏覽器使用測試）： 在同時使用 DOM 與螢幕截圖訊號時，GPT-5.4 達成 67.3% 成功率，相較 GPT-5.2 的 65.4%——提升明顯但非壓倒性。此測試衡量模型與即時頁面與 UI 元件互動的能力。
Online-Mind2Web（基於螢幕截圖的瀏覽器任務）： 僅使用螢幕截圖觀察時，GPT-5.4 達到 92.8% 成功率——相對先前代理式基準而言是非常強的提升（OpenAI 與 ChatGPT Atlas 的 Agent Mode 表現對比）。
OSWorld-Verified（桌面導覽）： 獨立報導指出 GPT-5.4 在評估桌面環境導覽與任務完成的基準上取得 75.0% 分數。此結果將 5.4 置於許多公開基準之上，體現端到端自動化任務的能力。

重點： 5.4 的改進在理解視覺上下文、UI 可供性以及長動作序列時最為顯著——亦即代理式工作流程。

健康、安全與知識基準

OpenAI 的部署安全報告顯示複雜信號：

HealthBench： GPT-5.4 在 HealthBench 上得分 62.6%（相較 GPT-5.2 的 63.3% 略有下降），顯示在 OpenAI 報告的快照測試中，能力與某些健康相關評估指標之間存在微妙取捨。
Hard： GPT-5.4 在「Hard」評估組合上得分 40.1%（較 42.0% 略降）。
Consensus： GPT-5.4 在「Consensus」上獲得 96.6%，此指標反映與策劃共識答案的一致性（提升約 ~2.1 點）。

OpenAI 亦注意到在健康評估上的平均回覆長度變化（GPT-5.4 平均約 3,311 字元，GPT-5.2 為 2,676），這會影響模型如何框定敏感主題。

解讀： 安全與健康指標顯示 5.4 整體提升共識對齊並改變答案冗長度，即使某些狹義健康分數略有下降。此模式常反映模型目標的再平衡——更果斷、長篇的答案或有助於提升實用性與共識，同時在敏感領域需要持續監控。

領域特定示例與主張

早期測試提供了具體的領域化主張（OpenAI 與第三方來源）：

法律推理基準（BigLaw Bench） — GPT-5.4 在早期測試中於法律推理分項達到 約 91%，對文件分析任務是強烈信號；注意這些數字屬早期、未經同儕審查。
幻覺降低： 相較某些先前基準，GPT-5.4 的回覆約 33% 不太可能包含錯誤主張，且約 18% 不太可能包含事實錯誤。這些百分比在次級報導與公司溝通中被強調；如同所有此類主張，結果仰賴基準組合與抽樣方法。

如何取得並為 GPT-5.4 付費

ChatGPT 等級與企業存取

根據 OpenAI 與產品報導：

ChatGPT Plus / Team / Pro 使用者是在產品中最先獲得 GPT-5.4 Thinking 的群體。Enterprise 與 Education 管理員可透過管理控制啟用搶先存取。Free/Go 使用者不保證立即存取。開發者可透過 API 呼叫 gpt-5.4 與 gpt-5.4-pro 端點。

API 定價快照（公開的開發者定價）

OpenAI 的開發者定價將 GPT-5.4 列為前沿模型並以每 token 計費。在公告時公開定價頁面所列的樣本費率約為：

Model	Input	Cached input	Output
gpt-5.4 (<272K context length)	$2.50	$0.25	$15.00
gpt-5.4 (>272K context length)	$5.00	$0.50	$22.50
gpt-5.4-pro (<272K context length)	$30.00		$180.00
gpt-5.4-pro (>272K context length)	$60.00		$270.00

在 CometAPI（一站式大型模型 API 聚合平台）：

Model	Comet Price (USD / M Tokens)	Official Price (USD / M Tokens)	Discount
gpt-5.4	Input:$2/M; Output:$16/M	Input:$2.5/M; Output:$20/M	-20%
gpt-5.4-pro	Input:$24/MOutput:$192/M	Input:$30/MOutput:$240/M	-20%

因此，我強烈推薦 CometAPI，因其可大幅降低 API 成本。

成本管理考量

若您計畫在規模化情境使用此模型，特別是長文件或高吞吐場景，建議考慮：

輸入快取與重複資料去除（在可能的情況下使用快取輸入定價）。
提示工程以壓縮上下文並避免冗餘 tokens。
批次策略與後處理，盡量減少昂貴的輸出生成。
監控推理模式的使用，因更深入的推理模式可能伴隨更高的計算成本。

比較：GPT-5.4 與 GPT-5.3

GPT-5.4 相較 GPT-5.3 的改進

推理深度與工具編排： 5.4 Thinking 明確地為多步推理與代理式用例超越 5.3 而調校。這反映於網頁/桌面互動基準與代理成功指標。
上下文容量： 5.4 的 1M token 提供是主流 API 可用性上明顯的技術躍進，讓單次工作階段出現新類型的任務。
領域表現提升： OpenAI 的早期數據與第三方報導指出，在某些法律與文件基準上有改進，5.4 的更長上下文與專門調校有所助益。

取捨與 5.3 仍可能較佳的情境

輕量對話使用： GPT-5.3 Instant 仍為快速且經濟的對話流程最佳化；追求短對話最低延遲/成本的組織可能更偏好此模型。
安全指標的穩定性： 某些健康與「hard」評估分數相較 5.2 在 5.4 中略有下降；受嚴格監管的敏感領域企業應在自有評估組合上驗證模型後再行全面部署。

使用案例與產業影響

GPT-5.4 結合深度推理、長期記憶與工具使用，開啟數個實務與策略機會。

1. 專業服務與顧問

產出長篇交付物的公司（如法律意見書、多章節顧問報告、M&A 勤勉資料包）可將完整文件與資料集置於上下文中，使跨文件綜整、一鍵 QA 與生成主管摘要得以在不需手動分塊拼接的情況下完成。在 APEX-Agents 的基準勝出與此定位相符。

2. 軟體工程與程式碼庫推理

更長的上下文意味著單次模型呼叫可包含整個版本庫或長串日誌追蹤。GPT-5.4 的 SWE 基準改進指向除錯、重構與程式碼審查工作流程的更佳表現——特別是搭配 Pro 在長時間負載下的表現。

3. 自主代理與企業自動化

在工具（試算表、工單系統、網頁介面）上運作的代理系統，受惠於 GPT-5.4 的更佳工具選擇、降低代理工作流程的 token 開銷、以及更佳的長期狀態維持。這使 GPT-5.4 對企業自動化管線與「會行動的助理」更具吸引力。

重點總結 — GPT-5.4 帶來的改變

GPT-5.4 代表朝向能處理長篇、多文件推理、以更高可靠性執行代理式工作流程、並可透過 Pro 合約擴展至專業管線的實用且以能力為導向的進展。對工作流程具長期性且依賴工具的組織而言，GPT-5.4 是生產力潛力的躍升。

開發者現在即可透過 GPT-5.4、GPT-5.4-pro，以及 GPT 5.3 Chat 於 CometAPI 存取。要開始使用，請在 Playground 探索模型能力，並參考 API guide 取得詳細指示。存取前，請確認您已登入 CometAPI 並取得 API key。CometAPI 提供遠低於官方價格的方案以協助您整合。

準備好了嗎？→ 立即註冊 GPT-5.4

若想了解更多 AI 技巧、指南與新聞，請追蹤我們於 VK、X 與 Discord！

什麼是 GPT-5.4？

定位與變體

新增與強化的能力

GPT-5.4 的關鍵功能與技術重點

1) 超大型上下文窗口（最多 1,000,000 tokens）

2. 原生電腦與工具使用

3) 五種推理投入等級，極限模式

4) 生產力與內容撰寫

5) 安全、緩解與網路考量

效能基準 — 數據如何解讀

網頁與桌面互動基準

健康、安全與知識基準

領域特定示例與主張

如何取得並為 GPT-5.4 付費

ChatGPT 等級與企業存取

API 定價快照（公開的開發者定價）

成本管理考量

比較：GPT-5.4 與 GPT-5.3

GPT-5.4 相較 GPT-5.3 的改進

取捨與 5.3 仍可能較佳的情境

使用案例與產業影響

1. 專業服務與顧問

2. 軟體工程與程式碼庫推理

3. 自主代理與企業自動化

重點總結 — GPT-5.4 帶來的改變

以低成本存取頂級模型

閱讀更多

OpenAI 發佈 GPT-5.4 系列：GPT-5.4 有哪些變更

什麼是 GPT-5.4？

定位與變體

新增與強化的能力

GPT-5.4 的關鍵功能與技術重點

1) 超大型上下文窗口（最多 1,000,000 tokens）

2. 原生電腦與工具使用

3) 五種推理投入等級，極限模式

4) 生產力與內容撰寫

5) 安全、緩解與網路考量

效能基準 — 數據如何解讀

網頁與桌面互動基準

健康、安全與知識基準

領域特定示例與主張

如何取得並為 GPT-5.4 付費

ChatGPT 等級與企業存取

API 定價快照（公開的開發者定價）

成本管理考量

比較：GPT-5.4 與 GPT-5.3

GPT-5.4 相較 GPT-5.3 的改進

取捨與 5.3 仍可能較佳的情境

使用案例與產業影響

1. 專業服務與顧問

2. 軟體工程與程式碼庫推理

3. 自主代理與企業自動化

重點總結 — GPT-5.4 帶來的改變

以低成本 存取頂級模型

閱讀更多

以低成本存取頂級模型