在 2026 年 3 月 5–7 日,OpenAI 面向公眾推出了 GPT-5.4,一款專為專業、文檔密集與代理式工作流程調校的前沿模型。本次發佈重點強調三項匯聚式進步:(1) 大幅提升的上下文視窗(≈1,050,000 個 token),(2) 新的「推理」能力,允許開發者控制內部推理投入,(3) 一流的電腦操作/工具編排與更強的多模態理解(文字 + 圖像 + 螢幕截圖)。這些特性使 GPT-5.4 特別適合試算表建模、合約審閱、投影片生成、多步驟代理式流程,以及編寫可操作線上系統的程式碼等任務。
你可以在 GPT-5.4 於 CometAPI 體驗。運算資源更高的變體 — GPT-5.4 Pro — 可用於最艱難的推理與多輪對話工作負載。
什麼是 GPT-5.4(包含 Thinking 與 Pro 變體)
型號家族概覽
GPT-5.4 被定位為面向複雜專業工作的 GPT-5「前沿」模型:長篇文檔、程式碼、多步推理與代理式工作流程。本次發佈整合了此前分屬於 Codex(編碼)與 GPT 系列的能力——因此你可獲得一個能編碼、推理、使用工具並管理長上下文的單一模型。官方模型指南將 gpt-5.4 列為大多數工作的預設選擇,gpt-5.4-pro 用於最棘手的問題。
關鍵規格(官方):
- 上下文視窗:約 1,050,000 個 token(約 70–80 萬英文字),可處理極大輸入,例如整本書的草稿、多檔案程式碼庫或冗長法律文件。
- 最大輸出 token 數:有報告指稱支援極大的輸出(例如某些 Pro 配置可達 128,000 個 token)。
- 變體:
gpt-5.4(預設)、gpt-5.4-pro(更高計算、更長思考),以及面向成本敏感場景的輕量/迷你模型。
「Thinking」與「Pro」說明
- GPT-5.4 Thinking:一種為互動式推理調校的模式。它強調「先規劃後生成」的工作流程——模型可能在輸出完整結果前先給出一份計劃(「upfront plan」),允許在生成過程中進行引導,降低在錯誤方向上的 token 浪費。此模式提升對模型預期步驟的可見度,使長任務更安全、更可控。
- GPT-5.4 Pro:面向最艱難問題的高計算姊妹款——更深的思維鏈、更大的內部計算預算,並在困難基準上具有更高的穩定性/可重現性。它在 Responses API 中提供,適合多輪、重推理任務(需預期更高延遲與成本)。
GPT-5.4 的關鍵改進與新功能
大規模上下文視窗(≈1,050,000 個 token)
這是其中一項重磅改進:模型可以一次性讀入並推理整本書、多檔案程式碼庫,或企業級文件集,而不必分段串流。實務上,這簡化了端到端合約審閱、完整文檔摘要與多文檔問答等任務。使用場景:法律盡職調查、技術稽核以及代理日誌。
實務註記:更大的上下文視窗會改變系統設計——相比過去的激進分塊,你現在可以在上下文中保留更多「全域」狀態,但仍應使用壓縮策略(見參數控制)以控制成本。
原生電腦操作與工具整合
GPT-5.4 是首個具備原生電腦操作能力的通用模型:可生成瀏覽器或作業系統動作序列(Playwright 指令碼、鍵盤/滑鼠事件)、讀取螢幕截圖、與網頁 UI 互動,並協調多工具工作流程。這是邁向打造能端到端執行實際任務之自主代理的一大步。
GPT-5.4 內建電腦操作:模型可與本地/遠端軟體代理互動、呼叫連接器、操作試算表、擷取螢幕截圖,並在授權下自動化多步驟工作流程。這減少了膠水代碼:相較於打造脆弱的指令包裝,模型可使用已文件化的工具 API 進行建構—執行—驗證—修復的循環(代理式行為)。這是邁向安全、實用自主代理的重要一步。
推理模式與 reasoning.effort
可調的 reasoning.effort 參數允許你控制模型在思維鏈與解法搜尋上投入多少內部計算(選項:none、low、medium、high、xhigh)。更高的投入能為複雜問題帶來更佳答案,但成本更高、延遲更長——非常適合 gpt-5.4-pro。
前置規劃/互動式計劃
「前置計劃」讓模型在長生成之前先輸出一份短計劃。開發者或使用者可檢視並修改該計劃,將無效輸出最小化,並支持中途修正方向(非常適合長文檔創作或多步驟分析)。
更佳的多模態/文檔能力
隨模型發佈的基準與內部評測顯示,在試算表任務上有顯著提升(示例內部試算表評測:GPT-5.4 平均 87.3%,對比 GPT-5.2 的 68.4%),在人類偏好之簡報輸出上亦更受青睞(人評偏好 GPT-5.4 生成之簡報 68%,相對 GPT-5.2)。官方亦稱事實性錯誤有所下降(單一聲明錯誤率下降約 33%,完整回應錯誤率下降約 18%,對比 GPT-5.2)。
如何使用 GPT-5.4 API(Responses API / Chat API )
GPT-5.4 pro 僅支援 response 存取。 GPT-5.4(thinking)支援 chat 與 responses。CometAPI(一家聚合多家大模型 API 並提供折扣的一站式平台)提供 GPT-5.4 系列、兩種接入方式與相容且實用的 playground。
注意:對 GPT-5.x 模型而言,建議使用 Responses API,因其直接支援推理參數、工具註冊與更大的上下文大小。
Python — Responses API(示例)
# pip install openai (or use the official package named in docs)
from openai import OpenAI
import os
api_key = os.environ.get("OPENAI_API_KEY") # or set env var
client = OpenAI(api_key=api_key)
resp = client.responses.create(
model="gpt-5.4-pro-2026-03-05",
input="How much gold would it take to coat the Statue of Liberty in a 1mm layer?",
reasoning={"effort": "high"}, # hidden internal reasoning tokens used
max_output_tokens=4096, # keep below max output limit for your use case
temperature=0.0, # deterministic for legal/technical tasks
tools=[ # optionally register tools the model can call
{
"name": "file_search",
"type": "file_search",
"config": {"root": "/mnt/data/contracts"}
}
],
response_format={"type":"json", "json_schema":{
"name":"redlines",
"schema":{"type":"object","properties":{"summary":{"type":"string"},"redlines":{"type":"array","items":{"type":"object"}}}}
}}
)
print(resp.output_text) # final model answer
注意:reasoning 是一個控制內部投入的物件;tools 用於註冊模型可呼叫的工具介面;response_format 用於強制結構化輸出。reasoning.effort 可用的標籤值範圍由 none(最快)到 xhigh(最高內部投入),具體依 SDK 與供應商支援而定。簡單摘要使用低投入;對於複雜、多步任務再提高。
Crul— chat API(示例)
curl --location --request POST 'https://api.cometapi.com/v1/chat/completions' \
--header 'Authorization: Bearer ' \
--header 'Content-Type: application/json' \
--data-raw '{
"model": "gpt-5.2\4",
"messages": [
{
"role": "system",
"content": "You are a helpful assistant."
},
{
"role": "user",
"content": "Hello!"
}
]
}'
在 GPT-5.4 中使用工具(電腦操作、連接器與代理)
GPT-5.4 最實用的飛躍是其代理化、工具感知的行為:它可以自動發現並呼叫合適工具,在授權下操作試算表與 UI,並推理其將採取的動作。
GPT-5.4 被設計為與工具協作。可考慮三大類工具:
- 託管工具(例如
web_search、file_search)——模型可在回應循環中呼叫這些工具。非常適合擷取最新資訊或向量資料庫檢索。 - 自訂工具/函式呼叫——你自己的伺服端端點或函式結構。宣告函式(結構),使模型回傳結構化輸出,便於你的程式執行。
- 電腦操作——模型輸出 GUI 動作並期望由外層載具執行(點擊、輸入、截圖)。這很強大,但風險高。
當你擁有數十/數百個工具時,傳入 tool_search,讓模型在執行時發現相關工具結構。這能降低 token 使用,並在跨部署中改善快取效能。
工具整合的運作方式(概念)
- 工具發現:模型基於工具目錄找出可用連接器(例如 Google Sheets、Salesforce、內部資料庫)。
- 計劃與授權:模型輸出一份前置計劃,說明將呼叫哪些工具與原因;此計劃會被檢視與核准。
- 呼叫與驗證:模型呼叫工具(透過連接器或動作 API),讀取結果,並進行驗證檢查(或請求人工確認)。
- 修復循環:失敗時,模型嘗試修復或請求指引。
此模式降低脆弱的自訂編排,將邏輯集中於模型,但需要嚴格的存取控制與稽核日誌。
使用工具進行調用(web_search / file_search / 電腦操作)
Responses API 支援傳入 tools 陣列。模型可以選擇工具(如 web_search、file_search 等託管工具),或者你可以預先宣告並限制工具。例如:要求模型使用網路搜尋。
response = client.responses.create( model="gpt-5.4", input="What are the three most-cited 2025 papers on federated learning?", tools=[{"type": "web_search", "name": "web_search"}], tool_search={"enabled": True})
如果你傳入大量工具定義,tool_search 允許 GPT-5.4 延後載入大多數工具,僅載入相關者——對大型工具生態至關重要。
GPT-5.4 參數相容性與控制指南
傳統 LLM 參數仍然存在,但會因推理模式而受限。
GPT-5.4 核心 API 參數
reasoning.effort:以下參數在呼叫 GPT-5.4 時完全支援且建議使用。用於控制模型在最終輸出前執行多少內部推理。
支援的值:
nonelowmediumhighxhigh
示例:
response = client.responses.create( model="gpt-5.4", reasoning={"effort": "high"}, input="Explain the Nash equilibrium in game theory.")
效果:
| 值 | 行為 |
|---|---|
| none | 最快回應 |
| low | 輕量推理 |
| medium | 預設平衡 |
| high | 強推理 |
| xhigh | 最高推理深度 |
更高的推理投入通常會提升:
- 答案準確度
- 推理 token 使用量
- 延遲
- 成本
預設等級通常為 medium。
Tools
定義模型可呼叫的工具。tools + tool_search
tool_search為效率起見延後載入工具定義;在大型工具集合中建議啟用。tools宣告工具定義(web_search、file_search、自訂 RPC)。
支援的內建工具包括:
- 網路搜尋
- 檔案搜尋
- 程式碼直譯器
- 影像生成
示例:
tools=[{
"name":"get_weather",
"description":"Get current weather",
"parameters":{
"type":"object",
"properties":{
"city":{"type":"string"}
}
}
}
取樣參數(隨機性控制)
重要相容性規則:當 reasoning.effort ≠ none 時,部分取樣參數可能不受支援。若 reasoning.effort 為 high,請求可能失敗或忽略 temperature。
GPT-5.4 模型會停用以下參數:
temperaturetop_plogprobs
因為推理模型會在內部控制取樣。
temperature控制 token 取樣中的隨機性。
| 值 | 效果 |
|---|---|
| 0.0 | 決定性 |
| 0.2–0.4 | 穩定 |
| 0.7 | 均衡 |
| 1.0 | 高創造性 |
示例:
{ "model": "gpt-5.4", "temperature": 0.2, "reasoning": { "effort": "none" }}
若 reasoning.effort 為 high,請求可能失敗或忽略 temperature。
top_p:Nucleus 取樣參數。
| 值 | 含義 |
|---|---|
| 0.9 | 考慮機率前 90% 的 token |
| 0.5 | 保守生成 |
| 1.0 | 全分佈 |
- stop:在遇到特定 token 時停止生成。
適用於:
- 程式碼生成
- 工具管線
- 對話分隔
Verbosity:控制回應長度。
自 GPT-5 系列開始新增了若干新參數,包含 GPT-5.4。
可選值:
lowmediumhigh
示例:
verbosity="high"
使用情境:
| 值 | 行為 |
|---|---|
| low | 精簡回答 |
| medium | 平衡 |
| high | 詳細解說 |
此參數有助於在不調整 token 上限的情況下控制輸出長度。
GPT-5.4 的參數差異
以下為簡化相容性表。
| 參數 | reasoning:none | reasoning:low+ |
|---|---|---|
| temperature | ✓ | ✗ / 忽略 |
| top_p | ✓ | ✗ |
| logprobs | ✓ | ✗ |
| max_output_tokens | ✓ | ✓ |
| tools | ✓ | ✓ |
| tool_choice | ✓ | ✓ |
| verbosity | ✓ | ✓ |
| reasoning.effort | ✓ | ✓ |
GPT-5.4 與 GPT-5.4-Pro 的參數與能力比較
| 功能 | GPT-5.4 | GPT-5.4-Pro |
|---|---|---|
| 推理彈性 | 從 none → xhigh 的完整範圍 | 僅支援 medium → xhigh |
| 延遲 | 較低 | 較高(複雜任務可能需數分鐘) |
| 成本 | 較低 | 較高(因額外計算) |
| 建議背景執行 | 選配 | 建議用於長任務 |
| 支援的推理等級 | none、low、medium、high、xhigh | medium、high、xhigh |
在生產中採用 GPT-5.4 的最佳實踐
1) 小步開始,逐步提升推理
- 對延遲敏感的端點,先使用
reasoning.effort=none/low+text.verbosity=low。 - 對複雜流程,先升至
medium,再在 A/B 測試成本與準確性後考慮high。
2) 程式化任務優先結構化輸出
使用函式結構或 Pydantic/JSON 結構,以確保模型回傳可機器解析的輸出;可降低後續解析錯誤。
3) 高風險決策保留人審
凡涉金錢、法律結果或個資的流程,應在外部影響前要求人工核准。
4) 限制外露能力
使用 allowed_tools 清單(預設拒絕),並實施細粒度工具權限。對電腦操作,強制白名單動作。
5) 成本與 token 預算
使用 max_output_tokens 與 text.verbosity 以獲得可預測成本。對非常大的上下文,即使擁有 100 萬 token,也應視需要分頁或壓縮——選擇與壓縮策略能進一步降低成本。
結語——遷移與後續步驟
GPT-5.4 在打造能更會思考、跨軟體運作、處理超長上下文的 AI 系統方面邁出了重要一步。對大多數團隊,建議的遷移路徑是:
- 原型:在沙盒中使用
gpt-5.4別名,針對少量流程(如合約審閱、投影片生成)先行試點。 - 量測:比較任務準確性、token 使用、延遲與成本,對照既有模型。
- 鞏固:新增結構化輸出、工具防護與高風險流程的人審。
- 若成本或延遲要求影響選型,CometAPI 的 API 折扣可以解決。
開發者現在即可透過 GPT-5.4、GPT-5.4-pro、經由 CometAPI 存取。要開始,請在 Playground 探索模型能力,並參閱 API guide 以獲得詳細指引。開始使用前,請確認你已登入 CometAPI 並取得 API 金鑰。CometAPI 提供遠低於官方的價格,協助你整合。
Ready to Go?→ 立即註冊 GPT-5.4!
