OpenAI 发布 GPT-5.4 系列:GPT-5.4 有哪些变化

CometAPI
AnnaMar 6, 2026
OpenAI 发布 GPT-5.4 系列:GPT-5.4 有哪些变化

OpenAI 最新发布的 GPT-5.4 作为一款面向“专业工作”的模型家族登场,提供两大主要变体 —— GPT-5.4 ThinkingGPT-5.4 Pro —— 并着重强化长上下文文档处理、原生电脑使用(代理)能力,以及在办公、法律与金融等工作流程中的事实准确性与任务表现。本次发布延续了 GPT-5 系列早前更新(尤其是 GPT-5.3 Instant 与 GPT-5.3-Codex),在内部与公开基准上带来可量化提升,深化了工具集成(包括用于 Excel 的 ChatGPT 插件),并扩大了支持的上下文规模(可引用多达 100 万个 token)。

目前 CometAPI 已支持 GPT-5.4GPT-5.4 Pro,并可折扣使用。

什么是 GPT-5.4?

定位与变体

OpenAI 将 GPT-5.4 定位为针对专业化、文档密集与具备代理能力的工作流程调优的 GPT-5 系列中最强的模型之一。至少提供以下两个公开版本:

  • GPT-5.4 Thinking —— 面向推理的变体,更多暴露模型的思考过程,并针对多步推理与代理任务优化(在 ChatGPT 中以 “Thinking” 模式提供)。
  • GPT-5.4 Pro —— 为高吞吐或对延迟敏感的企业工作负载提供的高算力/高优先级推理层,API 定价更高(反映额外算力成本)。

OpenAI 强调 GPT-5.4 的原生 computer-use(电脑使用) 能力 —— 使模型可通过程序化的鼠标/键盘操作来操控软件,并编排多工具序列 —— 这被视为构建能够真正完成任务的代理的关键跃迁。

新增与重点能力

  • 长上下文支持: 据称 GPT-5.4 支持极大的上下文(在 ChatGPT 与 Codex 场景中支持最多 1,000,000 个 token),使模型能够在会话中将超大项目、书籍、代码库或数据集“放入记忆”。这对文档审阅、法律合同与多文件工程项目具有变革性意义。
  • 原生电脑使用/代理: GPT-5.4 是 OpenAI 首个具备原生电脑使用能力的通用模型 —— 它可以生成 UI 操作序列与代码以操控软件(例如通过 Playwright,或基于截图发出鼠标/键盘指令)。该能力旨在帮助开发者构建能在网页与桌面应用中完成任务的代理。
  • 办公技能改进: 显著加强对电子表格、演示文稿与文档的能力 —— 内部基准显示在表格建模、演示美学与文档撰写质量方面有大幅提升。
  • 事实性与幻觉减少: OpenAI 报告称,相较先前模型,在内部评估集上事实错误有所减少(见下方基准)。

与此前如 GPT-5.2 Thinking 与 GPT-5.3 Codex 等模型相比,GPT-5.4 将这些能力融合到一个更适用于处理长时任务与复杂工作流、且需要最少用户干预的单一模型中。

GPT-5.4 的核心特性与技术亮点

1)超大上下文窗口(最高 1,000,000 tokens)

最直观的能力是通过 API 支持最高 1,000,000 个 token 的上下文窗口。这极大扩展了单次会话可容纳的内容:整本书、长代码库,或完整的多文档档案,无需跨多次调用分块。对于知识密集型企业工作流(法律取证、研究综述、大规模代码分析),百万级上下文能减少工程粘合层,提升连贯性。

影响: 过去需要编排(检索、分块、外部记忆)的工作流,如今可以将更多原始上下文保留在模型的工作记忆中 —— 简化管线、降低延迟与一致性权衡。

2)原生电脑与工具使用

OpenAI 强调更强的工具与连接器操作能力(如电子表格、文档编辑器、代码执行环境),相较先前模型更稳健。GPT-5.4 在既有“工具使用”基础上扩展为:

  • 更佳的工具选择与参数化。
  • 在调用外部 API 或按步骤执行类 UI 操作时更可靠的序列规划。
  • 通过更智能的工具调用架构,降低代理工作流的 token 开销。

代理与开发者相关能力:

  • 桌面与网页自动化: 通过对基于截图的鼠标与键盘动作的显式支持,GPT-5.4 可嵌入到能操作真实软件工作流的代理中(例如填表、导航仪表盘或执行多步流程)。OpenAI 报告在类操作系统基准上达到了最先进水平。
  • 工具接口与可控性: GPT-5.4 更易于通过开发者消息进行指引,且能更好地决定何时以及如何调用外部工具、连接器与 API —— 这是构建可靠多工具代理、最小化不必要或高风险操作的关键能力。

实际影响: 自动化任务(如“打开这个表格、计算这些数据透视、生成演示备注”)需要更少的失败/重试循环与更低的人为监督。

3)五档推理投入,极限模式

OpenAI 表示提供多档推理投入级别 —— 允许用户在延迟/成本与更深的内部思维链计算之间取舍(有时非正式地称为 xhigh 或极限推理)。适用于在更深入的内部推理能显著提升正确率的问题(复杂证明、长代码变换、多步财务分析)。API 定价与计费逻辑会反映这些模式下模型额外的工作量。

实际影响: 这种区分让客户可按工作负载选择合适的权衡,而非期望单一模型“面面俱到”。

4)生产力与内容创作

  • 电子表格建模: 在可能用于审计、金融与分析工作流的表格任务上有显著提升。OpenAI 报告 GPT-5.4 在内部“投行建模”类任务上的平均得分为 87.3%,而 GPT-5.2 为 68.4%。在数值建模与公式构建的任务级准确率上有显著提升。
  • 演示与视觉输出: 人类评审在 68.0% 的情况下更偏好 GPT-5.4 生成的演示,相较 GPT-5.2 原因在于更佳的美学、多样性与与图像生成的整合。这反映了在生成幻灯片方面内容与形式的双重改进。
  • 文档起草与长文写作: GPT-5.4 针对跨长文档保持一致性、改进引用行为、减少大上下文中的内部矛盾进行了优化,这得益于扩展的上下文窗口与专门的推理调优。

5)安全、缓解与网络安全考量

  • 降低幻觉: 在一组经去标识化、由用户标记出事实错误的提示上,GPT-5.4 的单个论断相较 GPT-5.2 出现错误的概率降低 33%,而完整回答中包含任何错误的概率降低 18% —— 这是企业采用中至关重要的事实准确性指标。
  • 网络安全缓解(Thinking 变体): GPT-5.4 Thinking 强调扩展了针对网络风险的缓解措施,建立在先前 Codex/5.3 模型使用的防护之上。GPT-5.4 Thinking 在高能力误用场景方面增加了额外护栏。

性能基准 —— 数据说明了什么

OpenAI 与多家媒体在发布期间公布了早期基准结果。由于不同基准测试不同能力(网页导航、领域知识、安全性等),将主要数据汇总更具参考意义。

OpenAI 发布 GPT-5.4 系列:GPT-5.4 有哪些变化

报告结果显示,相较早期 GPT-5.x 型号有显著提升,并在与其他顶级模型的竞争中处于领先梯队。

网页与桌面交互基准

  • WebArena-Verified(浏览器使用测试): 在同时使用 DOM 与截图信号时,GPT-5.4 达到 67.3% 成功率,而 GPT-5.2 为 65.4% —— 可见但并非压倒性的提升。该基准衡量模型在与在线页面和 UI 元素交互任务中的表现。
  • Online-Mind2Web(基于截图的浏览器任务): 仅使用截图观察,GPT-5.4 达到 92.8% 的成功率 —— 相较先前代理风格基线有显著提升(OpenAI 将其与 ChatGPT Atlas 的 Agent Mode 表现进行了对比)。
  • OSWorld-Verified(桌面导航): 独立报道显示,GPT-5.4 在评估桌面环境导航与任务完成的基准上得分 75.0%。该结果使 5.4 在端到端自动化任务上超越了许多公开基线。

结论: 5.4 的提升在需要理解视觉上下文、UI 供给能力与长动作序列的场景最为明显 —— 即代理工作流。

健康、安全与知识基准

OpenAI 的部署安全报告显示了复杂信号:

  • HealthBench: GPT-5.4 在 HealthBench 上得分 62.6%(较 GPT-5.2 的 63.3% 略有下降),显示在 OpenAI 报告的快照测试中,能力与某些健康相关评估指标之间存在细微权衡。
  • Hard: GPT-5.4 在名为 “Hard” 的评估套件上得分 40.1%(较 42.0% 略降)。
  • Consensus: GPT-5.4 在 “Consensus” 指标上取得 96.6%(提升约 2.1 分),该指标反映与整理后的共识答案的一致程度。

OpenAI 还提到在健康类评估中平均回答长度的变化(GPT-5.4 平均约 3,311 个字符,GPT-5.2 为 2,676),这会影响模型处理敏感主题时的表达方式。

解读: 安全与健康指标显示,5.4 整体提升了与共识的对齐度并改变了回答冗长度,即使某些狭义健康分数略有下滑。这种模式常见于模型目标的再平衡 —— 更果断、篇幅更长的回答可提升实用性与共识度,同时在敏感领域需要持续监控。

领域示例与声明

早期测试提供了具体的领域化结论(来自 OpenAI 与第三方来源):

  • 法律推理基准(BigLaw Bench) —— 早期测试中 GPT-5.4 在法律推理任务上达到 约 91%,对文档分析任务是强信号;需注意这些为早期、非同行评审数据。
  • 幻觉减少: 与某些先前基线相比,GPT-5.4 的回答出现虚假论断的可能性约降低 33%,且包含事实错误的可能性约降低 18%。这些百分比在二级报道与公司沟通中被强调;如同任何此类声明,取决于评估套件与采样方法。

如何获取与付费使用 GPT-5.4

ChatGPT 等级与企业访问

根据 OpenAI 与产品报道:

  • ChatGPT Plus / Team / Pro 用户是首批在产品中获得 GPT-5.4 Thinking 的群体。EnterpriseEducation 管理员可通过管理控制开启早期访问。Free/Go 用户不保证即时可用。开发者可通过 API 调用 gpt-5.4gpt-5.4-pro 端点。

API 定价快照(公开开发者定价)

OpenAI 的开发者定价将 GPT-5.4 列为前沿模型,按 token 计费。发布时公共定价页面的示例费率约为:

模型输入缓存输入输出
gpt-5.4 (<272K context length)$2.50$0.25$15.00
gpt-5.4 (>272K context length)$5.00$0.50$22.50
gpt-5.4-pro (<272K context length)$30.00$180.00
gpt-5.4-pro (>272K context length)$60.00$270.00

在 CometAPI(大型模型 API 一站式聚合平台):

模型Comet 价格(USD / 每百万 Tokens)官方价格(USD / 每百万 Tokens)折扣
gpt-5.4输入:$2/M;输出:$16/M输入:$2.5/M;输出:$20/M-20%
gpt-5.4-pro输入:$24/M;输出:$192/M输入:$30/M;输出:$240/M-20%

因此,我强烈推荐 CometAPI,它能大幅降低 API 成本。

成本管理考量

若计划在规模化使用,尤其是长文档或高吞吐场景,建议考虑:

  • 缓存与去重 输入(尽可能使用缓存输入定价)。
  • 提示工程 来压缩上下文,避免冗余 token。
  • 批处理策略 与后处理,尽量减少昂贵的输出生成。
  • 监控推理模式用量,因为更深的推理模式可能带来更高的计算成本。

对比:GPT-5.4 vs GPT-5.3

GPT-5.4 相对 GPT-5.3 的改进点

  • 推理深度与工具编排: 5.4 Thinking 明确针对多步推理与代理场景优于 5.3 进行调优。这在网页/桌面交互基准与代理成功率指标中有所体现。
  • 上下文容量: 5.4 的 100 万 token 提供在主流 API 可用性上明显超越 5.3,使单次会话任务类别扩展。
  • 领域性能提升: OpenAI 的早期数据与第三方报告显示,在某些法律与文档类基准上有改进,得益于 5.4 的更长上下文与专项调优。

取舍与 5.3 仍可能更优之处

  • 轻量对话场景: GPT-5.3 Instant 仍针对快速、经济的对话流程进行优化;追求短对话最低延迟/成本的组织可能更偏好它。
  • 安全指标稳定性: OpenAI 的快照中,5.4 相对 5.2 在某些健康与 “hard” 评估上略有下降;在敏感受监管领域的企业应在自有评估套件上验证后再全面部署。

用例与行业影响

GPT-5.4 将深度推理、长上下文记忆与工具使用结合,带来若干实际与战略机遇。

1. 专业服务与咨询

产出长篇交付物(如法律意见、分章节咨询报告、并购尽调包)的团队可在上下文中保留整份文档与数据集,从而实现跨文档一致的归纳、自动化质检与高质量执行摘要生成,无需手工分块拼接。APEX-Agents 的基准表现与此定位相吻合。

2. 软件工程与代码库推理

更长上下文意味着单次调用即可包含整个代码库或长日志轨迹。SWE 基准测试的改进表明其在调试、重构与代码评审工作流中的表现更好 —— 与 Pro 搭配用于持续负载时尤为明显。

3. 自主代理与企业自动化

基于工具(表格、工单系统、网页界面)运作的代理系统将受益于 GPT-5.4 的改进工具选择、降低的代理工作流 token 开销与更好的长期状态保持。这使 GPT-5.4 成为企业自动化流水线与“可行动的助理”的理想选择。

结论 —— GPT-5.4 带来的变化

GPT-5.4 是面向长、多文档推理、以更高可靠性执行代理型工作流、并可通过 Pro 合同扩展至专业化管线的务实且以能力驱动的进步。对于那些工作流具有长周期且依赖工具的组织,GPT-5.4 代表潜在生产力的跃升。

开发者现在即可通过 CometAPI 访问 GPT-5.4GPT-5.4-proGPT 5.3 Chat。开始使用前,请先在 Playground 体验模型能力,并查阅 API guide 获取详细说明。访问前,请确保已登录 CometAPI 并获得 API key。CometAPI 提供远低于官方的价格,助您快速集成。

准备好了吗?→ 立即注册 GPT-5.4

如需了解更多 AI 技巧、指南与资讯,欢迎关注我们的 VKXDiscord

以低成本 获取顶级模型

阅读更多