OpenAI 发布 GPT-5.4 系列：GPT-5.4 有哪些变化

OpenAI 最新发布的 GPT-5.4 作为一款面向“专业工作”的模型家族登场，提供两大主要变体 —— GPT-5.4 Thinking 与 GPT-5.4 Pro —— 并着重强化长上下文文档处理、原生电脑使用（代理）能力，以及在办公、法律与金融等工作流程中的事实准确性与任务表现。本次发布延续了 GPT-5 系列早前更新（尤其是 GPT-5.3 Instant 与 GPT-5.3-Codex），在内部与公开基准上带来可量化提升，深化了工具集成（包括用于 Excel 的 ChatGPT 插件），并扩大了支持的上下文规模（可引用多达 100 万个 token）。

目前 CometAPI 已支持 GPT-5.4 与 GPT-5.4 Pro，并可折扣使用。

什么是 GPT-5.4？

定位与变体

OpenAI 将 GPT-5.4 定位为针对专业化、文档密集与具备代理能力的工作流程调优的 GPT-5 系列中最强的模型之一。至少提供以下两个公开版本：

GPT-5.4 Thinking —— 面向推理的变体，更多暴露模型的思考过程，并针对多步推理与代理任务优化（在 ChatGPT 中以 “Thinking” 模式提供）。
GPT-5.4 Pro —— 为高吞吐或对延迟敏感的企业工作负载提供的高算力/高优先级推理层，API 定价更高（反映额外算力成本）。

OpenAI 强调 GPT-5.4 的原生 computer-use（电脑使用） 能力 —— 使模型可通过程序化的鼠标/键盘操作来操控软件，并编排多工具序列 —— 这被视为构建能够真正完成任务的代理的关键跃迁。

新增与重点能力

长上下文支持： 据称 GPT-5.4 支持极大的上下文（在 ChatGPT 与 Codex 场景中支持最多 1,000,000 个 token），使模型能够在会话中将超大项目、书籍、代码库或数据集“放入记忆”。这对文档审阅、法律合同与多文件工程项目具有变革性意义。
原生电脑使用/代理： GPT-5.4 是 OpenAI 首个具备原生电脑使用能力的通用模型 —— 它可以生成 UI 操作序列与代码以操控软件（例如通过 Playwright，或基于截图发出鼠标/键盘指令）。该能力旨在帮助开发者构建能在网页与桌面应用中完成任务的代理。
办公技能改进： 显著加强对电子表格、演示文稿与文档的能力 —— 内部基准显示在表格建模、演示美学与文档撰写质量方面有大幅提升。
事实性与幻觉减少： OpenAI 报告称，相较先前模型，在内部评估集上事实错误有所减少（见下方基准）。

与此前如 GPT-5.2 Thinking 与 GPT-5.3 Codex 等模型相比，GPT-5.4 将这些能力融合到一个更适用于处理长时任务与复杂工作流、且需要最少用户干预的单一模型中。

GPT-5.4 的核心特性与技术亮点

1）超大上下文窗口（最高 1,000,000 tokens）

最直观的能力是通过 API 支持最高 1,000,000 个 token 的上下文窗口。这极大扩展了单次会话可容纳的内容：整本书、长代码库，或完整的多文档档案，无需跨多次调用分块。对于知识密集型企业工作流（法律取证、研究综述、大规模代码分析），百万级上下文能减少工程粘合层，提升连贯性。

影响： 过去需要编排（检索、分块、外部记忆）的工作流，如今可以将更多原始上下文保留在模型的工作记忆中 —— 简化管线、降低延迟与一致性权衡。

2）原生电脑与工具使用

OpenAI 强调更强的工具与连接器操作能力（如电子表格、文档编辑器、代码执行环境），相较先前模型更稳健。GPT-5.4 在既有“工具使用”基础上扩展为：

更佳的工具选择与参数化。
在调用外部 API 或按步骤执行类 UI 操作时更可靠的序列规划。
通过更智能的工具调用架构，降低代理工作流的 token 开销。

代理与开发者相关能力：

桌面与网页自动化： 通过对基于截图的鼠标与键盘动作的显式支持，GPT-5.4 可嵌入到能操作真实软件工作流的代理中（例如填表、导航仪表盘或执行多步流程）。OpenAI 报告在类操作系统基准上达到了最先进水平。
工具接口与可控性： GPT-5.4 更易于通过开发者消息进行指引，且能更好地决定何时以及如何调用外部工具、连接器与 API —— 这是构建可靠多工具代理、最小化不必要或高风险操作的关键能力。

实际影响： 自动化任务（如“打开这个表格、计算这些数据透视、生成演示备注”）需要更少的失败/重试循环与更低的人为监督。

3）五档推理投入，极限模式

OpenAI 表示提供多档推理投入级别 —— 允许用户在延迟/成本与更深的内部思维链计算之间取舍（有时非正式地称为 xhigh 或极限推理）。适用于在更深入的内部推理能显著提升正确率的问题（复杂证明、长代码变换、多步财务分析）。API 定价与计费逻辑会反映这些模式下模型额外的工作量。

实际影响： 这种区分让客户可按工作负载选择合适的权衡，而非期望单一模型“面面俱到”。

4）生产力与内容创作

电子表格建模： 在可能用于审计、金融与分析工作流的表格任务上有显著提升。OpenAI 报告 GPT-5.4 在内部“投行建模”类任务上的平均得分为 87.3%，而 GPT-5.2 为 68.4%。在数值建模与公式构建的任务级准确率上有显著提升。
演示与视觉输出： 人类评审在 68.0% 的情况下更偏好 GPT-5.4 生成的演示，相较 GPT-5.2 原因在于更佳的美学、多样性与与图像生成的整合。这反映了在生成幻灯片方面内容与形式的双重改进。
文档起草与长文写作： GPT-5.4 针对跨长文档保持一致性、改进引用行为、减少大上下文中的内部矛盾进行了优化，这得益于扩展的上下文窗口与专门的推理调优。

5）安全、缓解与网络安全考量

降低幻觉： 在一组经去标识化、由用户标记出事实错误的提示上，GPT-5.4 的单个论断相较 GPT-5.2 出现错误的概率降低 33%，而完整回答中包含任何错误的概率降低 18% —— 这是企业采用中至关重要的事实准确性指标。
网络安全缓解（Thinking 变体）： GPT-5.4 Thinking 强调扩展了针对网络风险的缓解措施，建立在先前 Codex/5.3 模型使用的防护之上。GPT-5.4 Thinking 在高能力误用场景方面增加了额外护栏。

性能基准 —— 数据说明了什么

OpenAI 与多家媒体在发布期间公布了早期基准结果。由于不同基准测试不同能力（网页导航、领域知识、安全性等），将主要数据汇总更具参考意义。

OpenAI 发布 GPT-5.4 系列：GPT-5.4 有哪些变化

报告结果显示，相较早期 GPT-5.x 型号有显著提升，并在与其他顶级模型的竞争中处于领先梯队。

网页与桌面交互基准

WebArena-Verified（浏览器使用测试）： 在同时使用 DOM 与截图信号时，GPT-5.4 达到 67.3% 成功率，而 GPT-5.2 为 65.4% —— 可见但并非压倒性的提升。该基准衡量模型在与在线页面和 UI 元素交互任务中的表现。
Online-Mind2Web（基于截图的浏览器任务）： 仅使用截图观察，GPT-5.4 达到 92.8% 的成功率 —— 相较先前代理风格基线有显著提升（OpenAI 将其与 ChatGPT Atlas 的 Agent Mode 表现进行了对比）。
OSWorld-Verified（桌面导航）： 独立报道显示，GPT-5.4 在评估桌面环境导航与任务完成的基准上得分 75.0%。该结果使 5.4 在端到端自动化任务上超越了许多公开基线。

结论： 5.4 的提升在需要理解视觉上下文、UI 供给能力与长动作序列的场景最为明显 —— 即代理工作流。

健康、安全与知识基准

OpenAI 的部署安全报告显示了复杂信号：

HealthBench： GPT-5.4 在 HealthBench 上得分 62.6%（较 GPT-5.2 的 63.3% 略有下降），显示在 OpenAI 报告的快照测试中，能力与某些健康相关评估指标之间存在细微权衡。
Hard： GPT-5.4 在名为 “Hard” 的评估套件上得分 40.1%（较 42.0% 略降）。
Consensus： GPT-5.4 在 “Consensus” 指标上取得 96.6%（提升约 2.1 分），该指标反映与整理后的共识答案的一致程度。

OpenAI 还提到在健康类评估中平均回答长度的变化（GPT-5.4 平均约 3,311 个字符，GPT-5.2 为 2,676），这会影响模型处理敏感主题时的表达方式。

解读： 安全与健康指标显示，5.4 整体提升了与共识的对齐度并改变了回答冗长度，即使某些狭义健康分数略有下滑。这种模式常见于模型目标的再平衡 —— 更果断、篇幅更长的回答可提升实用性与共识度，同时在敏感领域需要持续监控。

领域示例与声明

早期测试提供了具体的领域化结论（来自 OpenAI 与第三方来源）：

法律推理基准（BigLaw Bench） —— 早期测试中 GPT-5.4 在法律推理任务上达到 约 91%，对文档分析任务是强信号；需注意这些为早期、非同行评审数据。
幻觉减少： 与某些先前基线相比，GPT-5.4 的回答出现虚假论断的可能性约降低 33%，且包含事实错误的可能性约降低 18%。这些百分比在二级报道与公司沟通中被强调；如同任何此类声明，取决于评估套件与采样方法。

如何获取与付费使用 GPT-5.4

ChatGPT 等级与企业访问

根据 OpenAI 与产品报道：

ChatGPT Plus / Team / Pro 用户是首批在产品中获得 GPT-5.4 Thinking 的群体。Enterprise 与 Education 管理员可通过管理控制开启早期访问。Free/Go 用户不保证即时可用。开发者可通过 API 调用 gpt-5.4 与 gpt-5.4-pro 端点。

API 定价快照（公开开发者定价）

OpenAI 的开发者定价将 GPT-5.4 列为前沿模型，按 token 计费。发布时公共定价页面的示例费率约为：

模型	输入	缓存输入	输出
gpt-5.4 (<272K context length)	$2.50	$0.25	$15.00
gpt-5.4 (>272K context length)	$5.00	$0.50	$22.50
gpt-5.4-pro (<272K context length)	$30.00		$180.00
gpt-5.4-pro (>272K context length)	$60.00		$270.00

在 CometAPI（大型模型 API 一站式聚合平台）：

模型	Comet 价格（USD / 每百万 Tokens）	官方价格（USD / 每百万 Tokens）	折扣
gpt-5.4	输入:$2/M；输出:$16/M	输入:$2.5/M；输出:$20/M	-20%
gpt-5.4-pro	输入:$24/M；输出:$192/M	输入:$30/M；输出:$240/M	-20%

因此，我强烈推荐 CometAPI，它能大幅降低 API 成本。

成本管理考量

若计划在规模化使用，尤其是长文档或高吞吐场景，建议考虑：

缓存与去重 输入（尽可能使用缓存输入定价）。
提示工程 来压缩上下文，避免冗余 token。
批处理策略 与后处理，尽量减少昂贵的输出生成。
监控推理模式用量，因为更深的推理模式可能带来更高的计算成本。

对比：GPT-5.4 vs GPT-5.3

GPT-5.4 相对 GPT-5.3 的改进点

推理深度与工具编排： 5.4 Thinking 明确针对多步推理与代理场景优于 5.3 进行调优。这在网页/桌面交互基准与代理成功率指标中有所体现。
上下文容量： 5.4 的 100 万 token 提供在主流 API 可用性上明显超越 5.3，使单次会话任务类别扩展。
领域性能提升： OpenAI 的早期数据与第三方报告显示，在某些法律与文档类基准上有改进，得益于 5.4 的更长上下文与专项调优。

取舍与 5.3 仍可能更优之处

轻量对话场景： GPT-5.3 Instant 仍针对快速、经济的对话流程进行优化；追求短对话最低延迟/成本的组织可能更偏好它。
安全指标稳定性： OpenAI 的快照中，5.4 相对 5.2 在某些健康与 “hard” 评估上略有下降；在敏感受监管领域的企业应在自有评估套件上验证后再全面部署。

用例与行业影响

GPT-5.4 将深度推理、长上下文记忆与工具使用结合，带来若干实际与战略机遇。

1. 专业服务与咨询

产出长篇交付物（如法律意见、分章节咨询报告、并购尽调包）的团队可在上下文中保留整份文档与数据集，从而实现跨文档一致的归纳、自动化质检与高质量执行摘要生成，无需手工分块拼接。APEX-Agents 的基准表现与此定位相吻合。

2. 软件工程与代码库推理

更长上下文意味着单次调用即可包含整个代码库或长日志轨迹。SWE 基准测试的改进表明其在调试、重构与代码评审工作流中的表现更好 —— 与 Pro 搭配用于持续负载时尤为明显。

3. 自主代理与企业自动化

基于工具（表格、工单系统、网页界面）运作的代理系统将受益于 GPT-5.4 的改进工具选择、降低的代理工作流 token 开销与更好的长期状态保持。这使 GPT-5.4 成为企业自动化流水线与“可行动的助理”的理想选择。

结论 —— GPT-5.4 带来的变化

GPT-5.4 是面向长、多文档推理、以更高可靠性执行代理型工作流、并可通过 Pro 合同扩展至专业化管线的务实且以能力驱动的进步。对于那些工作流具有长周期且依赖工具的组织，GPT-5.4 代表潜在生产力的跃升。

开发者现在即可通过 CometAPI 访问 GPT-5.4、GPT-5.4-pro 与 GPT 5.3 Chat。开始使用前，请先在 Playground 体验模型能力，并查阅 API guide 获取详细说明。访问前，请确保已登录 CometAPI 并获得 API key。CometAPI 提供远低于官方的价格，助您快速集成。

准备好了吗？→ 立即注册 GPT-5.4！

如需了解更多 AI 技巧、指南与资讯，欢迎关注我们的 VK、X 与 Discord！

什么是 GPT-5.4？

定位与变体

新增与重点能力

GPT-5.4 的核心特性与技术亮点

1）超大上下文窗口（最高 1,000,000 tokens）

2）原生电脑与工具使用

3）五档推理投入，极限模式

4）生产力与内容创作

5）安全、缓解与网络安全考量

性能基准 —— 数据说明了什么

网页与桌面交互基准

健康、安全与知识基准

领域示例与声明

如何获取与付费使用 GPT-5.4

ChatGPT 等级与企业访问

API 定价快照（公开开发者定价）

成本管理考量

对比：GPT-5.4 vs GPT-5.3

GPT-5.4 相对 GPT-5.3 的改进点

取舍与 5.3 仍可能更优之处

用例与行业影响

1. 专业服务与咨询

2. 软件工程与代码库推理

3. 自主代理与企业自动化

结论 —— GPT-5.4 带来的变化

以低成本获取顶级模型

阅读更多

OpenAI 发布 GPT-5.4 系列：GPT-5.4 有哪些变化

什么是 GPT-5.4？

定位与变体

新增与重点能力

GPT-5.4 的核心特性与技术亮点

1）超大上下文窗口（最高 1,000,000 tokens）

2）原生电脑与工具使用

3）五档推理投入，极限模式

4）生产力与内容创作

5）安全、缓解与网络安全考量

性能基准 —— 数据说明了什么

网页与桌面交互基准

健康、安全与知识基准

领域示例与声明

如何获取与付费使用 GPT-5.4

ChatGPT 等级与企业访问

API 定价快照（公开开发者定价）

成本管理考量

对比：GPT-5.4 vs GPT-5.3

GPT-5.4 相对 GPT-5.3 的改进点

取舍与 5.3 仍可能更优之处

用例与行业影响

1. 专业服务与咨询

2. 软件工程与代码库推理

3. 自主代理与企业自动化

结论 —— GPT-5.4 带来的变化

以低成本 获取顶级模型

阅读更多

以低成本获取顶级模型