在 2026 年 3 月 5–7 日,OpenAI 面向公众发布了 GPT-5.4,这是一款针对专业、文档密集与智能体式工作流显式调优的前沿模型。本次发布重点突出了三项趋同的进展:(1) 显著更大的上下文窗口(≈1,050,000 个 token),(2) 新的“reasoning”能力,允许开发者控制内部推理投入,(3) 一流的计算机使用 / 工具编排与改进的多模态理解(文本 + 图像 + 截图)。这些特性让 GPT-5.4 尤其适用于电子表格建模、合同审阅、幻灯片生成、多步骤智能体式工作流以及编写可操作实时系统的代码等任务。
你可以在 CometAPI 体验 GPT-5.4,更高算力的变体 — GPT-5.4 Pro — 可用于最艰难的推理与多轮对话工作负载。
什么是 GPT-5.4(包括 Thinking 和 Pro 变体)
一览模型家族
GPT-5.4 被定位为面向复杂专业工作的“前沿” GPT-5 模型:长文档、代码、多步骤推理与智能体式工作流。本次发布将此前分散在 Codex(编码)与 GPT 系列之间的能力融合到一起 —— 因此你可以使用一款既能编程、能推理、会用工具,又能管理超长上下文的模型。官方模型指南将 gpt-5.4 列为大多数工作的默认选择,而将 gpt-5.4-pro 用于最难的问题。
关键规格(官方):
- 上下文窗口:约 1,050,000 个 token(≈ 70–80 万英文单词),可处理整本书草稿、多文件代码库或长篇法律文书等超大输入。
- 最大输出 token 数:报告显示支持非常大的输出(例如,在某些 Pro 配置中可达 128,000 个 token)。
- 变体:
gpt-5.4(默认)、gpt-5.4-pro(更高算力、更长思考),以及面向成本敏感场景的轻量/mini 模型。
“Thinking” 与 “Pro” 释义
- GPT-5.4 Thinking:为交互式推理优化的模式。它强调先规划后执行的工作流 —— 模型可能会先给出一个前置计划(an “upfront plan”),再生成完整结果,便于在生成中途进行引导,减少在错误方向上的 token 浪费。该模式提升了对模型意图步骤的可见性,使长任务更安全、更可控。
- GPT-5.4 Pro:用于最棘手问题的高算力兄弟型号 —— 更深入的链式思维、更大的内部算力预算,并在困难基准上更具确定性/稳定性。它通过 Responses API 暴露,适用于多轮、重推理任务(预期延迟与成本更高)。
GPT-5.4 的关键改进与新特性
海量上下文窗口(≈1,050,000 个 token)
这是头号亮点之一:模型可以吞吐并推理整本书、多文件代码库或企业级文档集,而无需分段流式输入。实际效果是简化了端到端合同审阅、全文总结、多文档问答等任务。适用场景:法律尽调、技术审计与智能体日志。
实用提示:更大的上下文窗口会改变系统设计 —— 相比激进分块,现在可以将更多“全局”状态置于上下文中,但仍应使用压缩(参见参数控制)以保持成本可控。
原生计算机使用与工具集成
GPT-5.4 是首个具备原生计算机使用能力的通用模型:可生成浏览器或操作系统动作序列(Playwright 脚本、键鼠事件)、读取截图、与网页 UI 交互并编排多工具工作流。这是迈向构建能端到端执行真实任务的自主智能体的重要一步。
GPT-5.4 内置计算机使用:模型可与本地/远程软件代理交互、调用连接器、操作电子表格、截图,并在允许时自动化多步骤工作流。这减少了粘合代码:相比构建脆弱的指令包装,模型可以使用文档化的工具 API,在构建-运行-验证-修复(智能体行为)循环中运作。这是迈向安全、实用自主智能体的重要进展。
推理模式与 reasoning.effort
可调的 reasoning.effort 参数允许你控制模型在链式思维与解空间搜索上的内部算力投入(选项:none、low、medium、high、xhigh)。更高投入在复杂问题上带来更好的答案,但成本与延迟也更高 —— 非常适合 gpt-5.4-pro。
前置规划 / 交互式计划
“前置计划”让模型在执行长生成前先输出一份简短计划。开发者或用户可以审阅和修改该计划,最大限度减少无效输出,并支持任务中途纠偏(非常适合长文档创作或多步骤分析)。
更佳的多模态/文档能力
随模型发布的基准与内部评估显示在电子表格任务上有显著提升(内部表格评测示例:GPT-5.4 平均 87.3%,对比 GPT-5.2 的 68.4%),在演示文稿输出的人类偏好上也更佳(人评中 GPT-5.4 生成的演示被偏好 68%,对比 GPT-5.2)。同时报告称事实性错误有所降低(单条断言错误率下降约 33%,完整响应错误率下降约 18%,相较 GPT-5.2)。
如何使用 GPT-5.4 API(Responses API / Chat API)
GPT-5.4 pro 仅支持 response 访问。 GPT-5.4(thinking)支持 chat 与 responses。CometAPI(一个聚合多家大模型 API 且提供折扣的一站式平台)提供 GPT-5.4 系列、两种接入方式和兼容好用的 Playground。
注意:对于 GPT-5.x 模型,推荐使用 Responses API,因为它直接支持推理参数、工具注册以及更大的上下文大小。
Python — Responses API(示例)
# pip install openai (or use the official package named in docs)
from openai import OpenAI
import os
api_key = os.environ.get("OPENAI_API_KEY") # or set env var
client = OpenAI(api_key=api_key)
resp = client.responses.create(
model="gpt-5.4-pro-2026-03-05",
input="How much gold would it take to coat the Statue of Liberty in a 1mm layer?",
reasoning={"effort": "high"}, # hidden internal reasoning tokens used
max_output_tokens=4096, # keep below max output limit for your use case
temperature=0.0, # deterministic for legal/technical tasks
tools=[ # optionally register tools the model can call
{
"name": "file_search",
"type": "file_search",
"config": {"root": "/mnt/data/contracts"}
}
],
response_format={"type":"json", "json_schema":{
"name":"redlines",
"schema":{"type":"object","properties":{"summary":{"type":"string"},"redlines":{"type":"array","items":{"type":"object"}}}}
}}
)
print(resp.output_text) # final model answer
注意:reasoning 是控制内部投入的对象;tools 注册模型可调用的工具接口;response_format 用于强制结构化输出。reasoning.effort 支持从 none(最快)到 xhigh(最高内部投入)的取值,取决于 SDK 与服务商的支持。简单摘要用低投入;复杂多步骤任务再提高投入。
Curl — Chat API(示例)
curl --location --request POST 'https://api.cometapi.com/v1/chat/completions' \
--header 'Authorization: Bearer ' \
--header 'Content-Type: application/json' \
--data-raw '{
"model": "gpt-5.2\4",
"messages": [
{
"role": "system",
"content": "You are a helpful assistant."
},
{
"role": "user",
"content": "Hello!"
}
]
}'
在 GPT-5.4 中使用工具(计算机使用、连接器与智能体)
GPT-5.4 最具实践价值的飞跃在于其智能体化、工具感知的行为:它可以发现并调用合适的工具,在授权下操作电子表格与界面,并对其即将执行的动作进行推理。
GPT-5.4 被设计为与工具协同工作。可考虑三类主要工具:
- 托管工具(如
web_search、file_search)—— 模型可在响应循环中调用。适用于获取最新信息或向量库检索。 - 自定义工具 / 函数调用—— 你的自有服务端点或函数模式。声明函数(模式),让模型返回结构化输出供你的代码执行。
- 计算机使用—— 模型发出 GUI 动作并期望由执行器来执行(点击、键入、截图)。这很强大,但高风险。
当你有数十/上百个工具时,传入 tool_search,让模型在运行时发现相关工具模式。这能降低 token 使用,并在不同部署间缓存性能。
工具集成如何工作(概念)
- 工具发现:模型根据目录找到可用连接器(如 Google Sheets、Salesforce、内部数据库)。
- 规划与授权:模型输出一份前置计划,描述将调用哪些工具以及原因;这一步会被审阅与批准。
- 调用与验证:模型调用工具(通过连接器或动作 API),读取结果,并进行验证检查(或请求人工确认)。
- 修复循环:失败时,模型会尝试修复或请求指引。
这种模式减少了脆弱的定制编排,将逻辑集中在模型中,但需要严格的访问控制与审计日志。
使用 tools(web_search / file_search / 计算机使用)进行调用
Responses API 支持传入 tools 数组。模型可以选择工具(如托管工具 web_search、file_search),或者你也可以预先声明并限制工具。示例:让模型使用网页搜索。
response = client.responses.create( model="gpt-5.4", input="What are the three most-cited 2025 papers on federated learning?", tools=[{"type": "web_search", "name": "web_search"}], tool_search={"enabled": True})
如果你传了很多工具定义,tool_search 允许 GPT-5.4 延迟加载大多数工具,只加载相关工具 —— 这对大型工具生态至关重要。
GPT-5.4 参数兼容性与控制指南
传统的 LLM 参数仍然存在,但会根据推理模式受到限制。
GPT-5.4 核心 API 参数
reasoning.effort:调用 GPT-5.4 时,该参数完全支持且推荐使用。用于控制模型在生成最终输出前执行多少内部推理。
支持的取值:
nonelowmediumhighxhigh
示例:
response = client.responses.create( model="gpt-5.4", reasoning={"effort": "high"}, input="Explain the Nash equilibrium in game theory.")
影响:
| 取值 | 行为 |
|---|---|
| none | 最快响应 |
| low | 轻量推理 |
| medium | 默认均衡 |
| high | 强推理 |
| xhigh | 最大推理深度 |
更高推理投入通常会增加:
- 答案准确性
- 推理 token 数
- 延迟
- 成本
默认级别通常为 medium。
工具
定义模型可调用的工具。tools + tool_search
tool_search延迟加载工具定义以提升效率;在大型工具集时启用。tools声明工具定义(web_search、file_search、自定义 RPC)。
内置支持的工具包括:
- 网页搜索
- 文件搜索
- 代码解释器
- 图像生成
示例:
tools=[{
"name":"get_weather",
"description":"Get current weather",
"parameters":{
"type":"object",
"properties":{
"city":{"type":"string"}
}
}
}
采样参数(随机性控制)
重要兼容性规则:当 reasoning.effort ≠ none 时,某些采样参数可能不受支持。如果 reasoning.effort 为 high,请求可能失败或忽略 temperature。
GPT-5.4 模型会禁用如下参数:
temperaturetop_plogprobs
因为推理模型会在内部控制采样。
temperature控制 token 采样的随机性。
| 取值 | 效果 |
|---|---|
| 0.0 | 近确定性 |
| 0.2–0.4 | 稳定 |
| 0.7 | 均衡 |
| 1.0 | 高创造性 |
示例:
{ "model": "gpt-5.4", "temperature": 0.2, "reasoning": { "effort": "none" }}
如果 reasoning.effort 为 high,请求可能失败或忽略 temperature。
top_p:核采样参数。
| 取值 | 含义 |
|---|---|
| 0.9 | 考虑累计概率前 90% 的候选 token |
| 0.5 | 保守生成 |
| 1.0 | 全量分布 |
- stop:在遇到特定 token 时停止生成。
适用于:
- 代码生成
- 工具流水线
- 聊天分隔
Verbosity:控制响应长度。
自 GPT-5 系列(包括 GPT-5.4)起,出现了若干新参数。
取值:
lowmediumhigh
示例:
verbosity="high"
用例:
| 取值 | 行为 |
|---|---|
| low | 简洁回答 |
| medium | 均衡 |
| high | 详细解释 |
该参数有助于在不直接操控 token 限制的情况下控制输出长度。
GPT-5.4 的参数差异
下面是简化的兼容性表。
| 参数 | reasoning:none | reasoning:low+ |
|---|---|---|
| temperature | ✓ | ✗ / 忽略 |
| top_p | ✓ | ✗ |
| logprobs | ✓ | ✗ |
| max_output_tokens | ✓ | ✓ |
| tools | ✓ | ✓ |
| tool_choice | ✓ | ✓ |
| verbosity | ✓ | ✓ |
| reasoning.effort | ✓ | ✓ |
GPT-5.4 与 GPT-5.4-Pro 的参数与能力对比
| 特性 | GPT-5.4 | GPT-5.4-Pro |
|---|---|---|
| 推理灵活性 | 从 none → xhigh 全覆盖 | 仅支持 medium → xhigh |
| 延迟 | 更低 | 更高(复杂任务可能耗时数分钟) |
| 成本 | 更低 | 更高(因额外算力投入) |
| 是否建议后台执行 | 可选 | 建议用于长任务 |
| 支持的推理级别 | none, low, medium, high, xhigh | medium, high, xhigh |
在生产中采用 GPT-5.4 的最佳实践
1) 小步起步,再提升推理投入
- 面向延迟敏感的端点,先用
reasoning.effort=none/low+text.verbosity=low。 - 对复杂流程,在 A/B 测试成本与准确性后,逐步提升到
medium再到high。
2) 面向编程任务优先结构化输出
使用函数模式或 Pydantic/JSON 模式,让模型返回机器可解析的输出;可减少下游解析错误。
3) 高影响决策保持人类在环
涉及金钱、法律结果或个人数据的任何流程,外部生效前都应要求人工批准。
4) 限制外露能力
使用 allowed_tools 列表(默认拒绝)与细粒度工具权限。对计算机使用,强制执行严格的动作白名单。
5) 成本与 token 预算
使用 max_output_tokens 与 text.verbosity 以获得可预测的成本。对于超大上下文,即便有 100 万 token,也应在可行处分页或压缩内容 —— 选择/压缩策略有助于进一步降低成本。
结语 — 迁移与下一步
GPT-5.4 在构建能够思考更深入、跨软件协作、处理超长上下文的 AI 系统方面迈出了重要一步。对大多数团队,推荐的迁移路径是:
- 原型验证:针对一小部分工作流(如合同评审、幻灯片生成)在沙箱中使用
gpt-5.4别名。 - 度量:评估任务准确性、token 使用、延迟与成本,相比既有模型。
- 加固:引入结构化输出、工具防护与高风险流程的人审。
- 如果成本或延迟要求影响选择,CometAPI 的 API 折扣可能帮助解决。
开发者现在即可通过 CometAPI 访问 GPT-5.4、GPT-5.4-pro、API。开始之前,可在 Playground 体验模型能力,并查阅 API guide 获取详细指引。访问前,请确保已登录 CometAPI 并获取 API key。CometAPI 提供远低于官方价格的方案,助你集成落地。
准备好开始了吗?→ Sign up fo GPT-5.4 today
