如何使用 GPT-5.4 API：参数与工具使用指南

在 2026 年 3 月 5–7 日，OpenAI 面向公众发布了 GPT-5.4，这是一款针对专业、文档密集与智能体式工作流显式调优的前沿模型。本次发布重点突出了三项趋同的进展：(1) 显著更大的上下文窗口（≈1,050,000 个 token），(2) 新的“reasoning”能力，允许开发者控制内部推理投入，(3) 一流的计算机使用 / 工具编排与改进的多模态理解（文本 + 图像 + 截图）。这些特性让 GPT-5.4 尤其适用于电子表格建模、合同审阅、幻灯片生成、多步骤智能体式工作流以及编写可操作实时系统的代码等任务。

你可以在 CometAPI 体验 GPT-5.4，更高算力的变体 — GPT-5.4 Pro — 可用于最艰难的推理与多轮对话工作负载。

什么是 GPT-5.4（包括 Thinking 和 Pro 变体）

一览模型家族

GPT-5.4 被定位为面向复杂专业工作的“前沿” GPT-5 模型：长文档、代码、多步骤推理与智能体式工作流。本次发布将此前分散在 Codex（编码）与 GPT 系列之间的能力融合到一起 —— 因此你可以使用一款既能编程、能推理、会用工具，又能管理超长上下文的模型。官方模型指南将 gpt-5.4 列为大多数工作的默认选择，而将 gpt-5.4-pro 用于最难的问题。

关键规格（官方）：

上下文窗口：约 1,050,000 个 token（≈ 70–80 万英文单词），可处理整本书草稿、多文件代码库或长篇法律文书等超大输入。
最大输出 token 数：报告显示支持非常大的输出（例如，在某些 Pro 配置中可达 128,000 个 token）。
变体：gpt-5.4（默认）、gpt-5.4-pro（更高算力、更长思考），以及面向成本敏感场景的轻量/mini 模型。

“Thinking” 与 “Pro” 释义

GPT-5.4 Thinking：为交互式推理优化的模式。它强调先规划后执行的工作流 —— 模型可能会先给出一个前置计划（an “upfront plan”），再生成完整结果，便于在生成中途进行引导，减少在错误方向上的 token 浪费。该模式提升了对模型意图步骤的可见性，使长任务更安全、更可控。
GPT-5.4 Pro：用于最棘手问题的高算力兄弟型号 —— 更深入的链式思维、更大的内部算力预算，并在困难基准上更具确定性/稳定性。它通过 Responses API 暴露，适用于多轮、重推理任务（预期延迟与成本更高）。

GPT-5.4 的关键改进与新特性

海量上下文窗口（≈1,050,000 个 token）

这是头号亮点之一：模型可以吞吐并推理整本书、多文件代码库或企业级文档集，而无需分段流式输入。实际效果是简化了端到端合同审阅、全文总结、多文档问答等任务。适用场景：法律尽调、技术审计与智能体日志。

实用提示：更大的上下文窗口会改变系统设计 —— 相比激进分块，现在可以将更多“全局”状态置于上下文中，但仍应使用压缩（参见参数控制）以保持成本可控。

原生计算机使用与工具集成

GPT-5.4 是首个具备原生计算机使用能力的通用模型：可生成浏览器或操作系统动作序列（Playwright 脚本、键鼠事件）、读取截图、与网页 UI 交互并编排多工具工作流。这是迈向构建能端到端执行真实任务的自主智能体的重要一步。

GPT-5.4 内置计算机使用：模型可与本地/远程软件代理交互、调用连接器、操作电子表格、截图，并在允许时自动化多步骤工作流。这减少了粘合代码：相比构建脆弱的指令包装，模型可以使用文档化的工具 API，在构建-运行-验证-修复（智能体行为）循环中运作。这是迈向安全、实用自主智能体的重要进展。

推理模式与 `reasoning.effort`

可调的 reasoning.effort 参数允许你控制模型在链式思维与解空间搜索上的内部算力投入（选项：none、low、medium、high、xhigh）。更高投入在复杂问题上带来更好的答案，但成本与延迟也更高 —— 非常适合 gpt-5.4-pro。

前置规划 / 交互式计划

“前置计划”让模型在执行长生成前先输出一份简短计划。开发者或用户可以审阅和修改该计划，最大限度减少无效输出，并支持任务中途纠偏（非常适合长文档创作或多步骤分析）。

更佳的多模态/文档能力

随模型发布的基准与内部评估显示在电子表格任务上有显著提升（内部表格评测示例：GPT-5.4 平均 87.3%，对比 GPT-5.2 的 68.4%），在演示文稿输出的人类偏好上也更佳（人评中 GPT-5.4 生成的演示被偏好 68%，对比 GPT-5.2）。同时报告称事实性错误有所降低（单条断言错误率下降约 33%，完整响应错误率下降约 18%，相较 GPT-5.2）。

如何使用 GPT-5.4 API（Responses API / Chat API）

GPT-5.4 pro 仅支持 response 访问。 GPT-5.4（thinking）支持 chat 与 responses。CometAPI（一个聚合多家大模型 API 且提供折扣的一站式平台）提供 GPT-5.4 系列、两种接入方式和兼容好用的 Playground。

注意：对于 GPT-5.x 模型，推荐使用 Responses API，因为它直接支持推理参数、工具注册以及更大的上下文大小。

Python — Responses API（示例）

# pip install openai (or use the official package named in docs)
from openai import OpenAI
import os

api_key = os.environ.get("OPENAI_API_KEY")  # or set env var
client = OpenAI(api_key=api_key)

resp = client.responses.create(
     model="gpt-5.4-pro-2026-03-05",
    input="How much gold would it take to coat the Statue of Liberty in a 1mm layer?",
    reasoning={"effort": "high"},          # hidden internal reasoning tokens used
    max_output_tokens=4096,               # keep below max output limit for your use case
    temperature=0.0,                      # deterministic for legal/technical tasks
    tools=[                                # optionally register tools the model can call
        {
            "name": "file_search",
            "type": "file_search",
            "config": {"root": "/mnt/data/contracts"}
        }
    ],
    response_format={"type":"json", "json_schema":{
        "name":"redlines",
        "schema":{"type":"object","properties":{"summary":{"type":"string"},"redlines":{"type":"array","items":{"type":"object"}}}}
    }}
)

print(resp.output_text)  # final model answer

注意：reasoning 是控制内部投入的对象；tools 注册模型可调用的工具接口；response_format 用于强制结构化输出。reasoning.effort 支持从 none（最快）到 xhigh（最高内部投入）的取值，取决于 SDK 与服务商的支持。简单摘要用低投入；复杂多步骤任务再提高投入。

Curl — Chat API（示例）

curl --location --request POST 'https://api.cometapi.com/v1/chat/completions' \
--header 'Authorization: Bearer ' \
--header 'Content-Type: application/json' \
--data-raw '{
  "model": "gpt-5.2\4",
  "messages": [
    {
      "role": "system",
      "content": "You are a helpful assistant."
    },
    {
      "role": "user",
      "content": "Hello!"
    }
  ]
}'

在 GPT-5.4 中使用工具（计算机使用、连接器与智能体）

GPT-5.4 最具实践价值的飞跃在于其智能体化、工具感知的行为：它可以发现并调用合适的工具，在授权下操作电子表格与界面，并对其即将执行的动作进行推理。

GPT-5.4 被设计为与工具协同工作。可考虑三类主要工具：

托管工具（如 web_search、file_search）—— 模型可在响应循环中调用。适用于获取最新信息或向量库检索。
自定义工具 / 函数调用—— 你的自有服务端点或函数模式。声明函数（模式），让模型返回结构化输出供你的代码执行。
计算机使用—— 模型发出 GUI 动作并期望由执行器来执行（点击、键入、截图）。这很强大，但高风险。

当你有数十/上百个工具时，传入 tool_search，让模型在运行时发现相关工具模式。这能降低 token 使用，并在不同部署间缓存性能。

工具集成如何工作（概念）

工具发现：模型根据目录找到可用连接器（如 Google Sheets、Salesforce、内部数据库）。
规划与授权：模型输出一份前置计划，描述将调用哪些工具以及原因；这一步会被审阅与批准。
调用与验证：模型调用工具（通过连接器或动作 API），读取结果，并进行验证检查（或请求人工确认）。
修复循环：失败时，模型会尝试修复或请求指引。

这种模式减少了脆弱的定制编排，将逻辑集中在模型中，但需要严格的访问控制与审计日志。

使用 tools（web_search / file_search / 计算机使用）进行调用

Responses API 支持传入 tools 数组。模型可以选择工具（如托管工具 web_search、file_search），或者你也可以预先声明并限制工具。示例：让模型使用网页搜索。

response = client.responses.create(    model="gpt-5.4",    input="What are the three most-cited 2025 papers on federated learning?",    tools=[{"type": "web_search", "name": "web_search"}],    tool_search={"enabled": True})

如果你传了很多工具定义，tool_search 允许 GPT-5.4 延迟加载大多数工具，只加载相关工具 —— 这对大型工具生态至关重要。

GPT-5.4 参数兼容性与控制指南

传统的 LLM 参数仍然存在，但会根据推理模式受到限制。

GPT-5.4 核心 API 参数

reasoning.effort：调用 GPT-5.4 时，该参数完全支持且推荐使用。用于控制模型在生成最终输出前执行多少内部推理。

支持的取值：

nonelowmediumhighxhigh

示例：

response = client.responses.create(    model="gpt-5.4",    reasoning={"effort": "high"},    input="Explain the Nash equilibrium in game theory.")

影响：

取值	行为
none	最快响应
low	轻量推理
medium	默认均衡
high	强推理
xhigh	最大推理深度

更高推理投入通常会增加：

答案准确性
推理 token 数
延迟
成本

默认级别通常为 medium。

工具

定义模型可调用的工具。tools + tool_search

tool_search 延迟加载工具定义以提升效率；在大型工具集时启用。
tools 声明工具定义（web_search、file_search、自定义 RPC）。

内置支持的工具包括：

网页搜索
文件搜索
代码解释器
图像生成

示例：

tools=[{
   "name":"get_weather",
   "description":"Get current weather",
   "parameters":{
      "type":"object",
      "properties":{
         "city":{"type":"string"}
      }
   }
}

采样参数（随机性控制）

重要兼容性规则：当 reasoning.effort ≠ none 时，某些采样参数可能不受支持。如果 reasoning.effort 为 high，请求可能失败或忽略 temperature。

GPT-5.4 模型会禁用如下参数：

temperature
top_p
logprobs

因为推理模型会在内部控制采样。

temperature 控制 token 采样的随机性。

取值	效果
0.0	近确定性
0.2–0.4	稳定
0.7	均衡
1.0	高创造性

示例：

{ "model": "gpt-5.4", "temperature": 0.2, "reasoning": { "effort": "none" }}

如果 reasoning.effort 为 high，请求可能失败或忽略 temperature。

top_p：核采样参数。

取值	含义
0.9	考虑累计概率前 90% 的候选 token
0.5	保守生成
1.0	全量分布

stop：在遇到特定 token 时停止生成。

适用于：

代码生成
工具流水线
聊天分隔

Verbosity：控制响应长度。

自 GPT-5 系列（包括 GPT-5.4）起，出现了若干新参数。

取值：

lowmediumhigh

示例：

verbosity="high"

用例：

取值	行为
low	简洁回答
medium	均衡
high	详细解释

该参数有助于在不直接操控 token 限制的情况下控制输出长度。

GPT-5.4 的参数差异

下面是简化的兼容性表。

参数	reasoning:none	reasoning:low+
temperature	✓	✗ / 忽略
top_p	✓	✗
logprobs	✓	✗
max_output_tokens	✓	✓
tools	✓	✓
tool_choice	✓	✓
verbosity	✓	✓
reasoning.effort	✓	✓

GPT-5.4 与 GPT-5.4-Pro 的参数与能力对比

特性	GPT-5.4	GPT-5.4-Pro
推理灵活性	从 none → xhigh 全覆盖	仅支持 medium → xhigh
延迟	更低	更高（复杂任务可能耗时数分钟）
成本	更低	更高（因额外算力投入）
是否建议后台执行	可选	建议用于长任务
支持的推理级别	none, low, medium, high, xhigh	medium, high, xhigh

在生产中采用 GPT-5.4 的最佳实践

1) 小步起步，再提升推理投入

面向延迟敏感的端点，先用 reasoning.effort=none/low + text.verbosity=low。
对复杂流程，在 A/B 测试成本与准确性后，逐步提升到 medium 再到 high。

2) 面向编程任务优先结构化输出

使用函数模式或 Pydantic/JSON 模式，让模型返回机器可解析的输出；可减少下游解析错误。

3) 高影响决策保持人类在环

涉及金钱、法律结果或个人数据的任何流程，外部生效前都应要求人工批准。

4) 限制外露能力

使用 allowed_tools 列表（默认拒绝）与细粒度工具权限。对计算机使用，强制执行严格的动作白名单。

5) 成本与 token 预算

使用 max_output_tokens 与 text.verbosity 以获得可预测的成本。对于超大上下文，即便有 100 万 token，也应在可行处分页或压缩内容 —— 选择/压缩策略有助于进一步降低成本。

结语 — 迁移与下一步

GPT-5.4 在构建能够思考更深入、跨软件协作、处理超长上下文的 AI 系统方面迈出了重要一步。对大多数团队，推荐的迁移路径是：

原型验证：针对一小部分工作流（如合同评审、幻灯片生成）在沙箱中使用 gpt-5.4 别名。
度量：评估任务准确性、token 使用、延迟与成本，相比既有模型。
加固：引入结构化输出、工具防护与高风险流程的人审。
如果成本或延迟要求影响选择，CometAPI 的 API 折扣可能帮助解决。

开发者现在即可通过 CometAPI 访问 GPT-5.4、GPT-5.4-pro、API。开始之前，可在 Playground 体验模型能力，并查阅 API guide 获取详细指引。访问前，请确保已登录 CometAPI 并获取 API key。CometAPI 提供远低于官方价格的方案，助你集成落地。

准备好开始了吗？→ Sign up fo GPT-5.4 today

想了解更多 AI 的技巧、指南与新闻，请关注我们的 VK、X 与 Discord！

什么是 GPT-5.4（包括 Thinking 和 Pro 变体）

一览模型家族

“Thinking” 与 “Pro” 释义

GPT-5.4 的关键改进与新特性

海量上下文窗口（≈1,050,000 个 token）

原生计算机使用与工具集成

推理模式与 `reasoning.effort`

前置规划 / 交互式计划

更佳的多模态/文档能力

如何使用 GPT-5.4 API（Responses API / Chat API）

Python — Responses API（示例）

Curl — Chat API（示例）

在 GPT-5.4 中使用工具（计算机使用、连接器与智能体）

工具集成如何工作（概念）

使用 tools（web_search / file_search / 计算机使用）进行调用

GPT-5.4 参数兼容性与控制指南

GPT-5.4 核心 API 参数

工具

采样参数（随机性控制）

Verbosity：控制响应长度。

GPT-5.4 的参数差异

GPT-5.4 与 GPT-5.4-Pro 的参数与能力对比

在生产中采用 GPT-5.4 的最佳实践

1) 小步起步，再提升推理投入

2) 面向编程任务优先结构化输出

3) 高影响决策保持人类在环

4) 限制外露能力

5) 成本与 token 预算

结语 — 迁移与下一步

以低成本获取顶级模型

阅读更多

如何使用 GPT-5.4 API：参数与工具使用指南

什么是 GPT-5.4（包括 Thinking 和 Pro 变体）

一览模型家族

“Thinking” 与 “Pro” 释义

GPT-5.4 的关键改进与新特性

海量上下文窗口（≈1,050,000 个 token）

原生计算机使用与工具集成

推理模式与 reasoning.effort

前置规划 / 交互式计划

更佳的多模态/文档能力

如何使用 GPT-5.4 API（Responses API / Chat API）

Python — Responses API（示例）

Curl — Chat API（示例）

在 GPT-5.4 中使用工具（计算机使用、连接器与智能体）

工具集成如何工作（概念）

使用 tools（web_search / file_search / 计算机使用）进行调用

GPT-5.4 参数兼容性与控制指南

GPT-5.4 核心 API 参数

工具

采样参数（随机性控制）

Verbosity：控制响应长度。

GPT-5.4 的参数差异

GPT-5.4 与 GPT-5.4-Pro 的参数与能力对比

在生产中采用 GPT-5.4 的最佳实践

1) 小步起步，再提升推理投入

2) 面向编程任务优先结构化输出

3) 高影响决策保持人类在环

4) 限制外露能力

5) 成本与 token 预算

结语 — 迁移与下一步

以低成本 获取顶级模型

阅读更多

推理模式与 `reasoning.effort`

以低成本获取顶级模型