如何逐步使用 ChatGPT Agent 模式

在 2025 年中期，OpenAI 发布了 ChatGPT agent mode —— 这一能力让 ChatGPT 不仅能回答，还能在虚拟工作区中规划并执行多步骤任务（浏览、文件操作、代码执行以及连接器 API）。ChatGPT Agent Mode 将 ChatGPT 从一个被动的助手（告诉你该做什么）转变为一个主动的助手（替你完成步骤）——在你的监督下进行浏览、提取、填写表单、运行代码、创建文件，并与已连接的服务交互。

什么是 ChatGPT Agent Mode？

Agent Mode 将 ChatGPT 从一个响应式聊天助手转变为一个可以规划并执行多步骤工作流的自主数字工作者。与单次往返的补全不同，智能体可以：

打开并阅读网页、跟随链接、提取结构化事实；
在沙箱或虚拟桌面环境中运行代码以处理文件、转换表格或生成文档；
调用你配置的已连接 API 或服务（连接器）读取或写入数据；
在目标或约束不明确时提出澄清问题；以及
在步骤之间保持状态，使得长任务（研究 → 草拟 → 导出）无需每次重新讲述全部上下文即可推进。

OpenAI 将 agent mode 定位为“连接研究与行动”：它面向需要人类监督的迭代协作工作流——你提供目标、约束和批准，而智能体承担繁重执行。

ChatGPT Agent Mode 如何演进？

Agent Mode 构建于 OpenAI 更早的功能之上（例如 Operator 和 Deep Research）以及公司的 Agents SDK / Responses API。Agents SDK 为开发者提供创建自定义智能体和工具的原语，而 ChatGPT Agent Mode 在消费者网页和应用界面中打包了类似能力，使非开发者无需编写胶水代码即可创建自主工作流。系统架构包含护栏，如请求确认以及在智能体处于敏感环境时的“watch mode”。

注意：其他厂商（尤其是 Microsoft）也在推出各自的“Agent Mode”或 Office Agent 功能，将智能体行为嵌入到生产力应用（Excel/Word/Copilot）中。这些是独立实现，但反映了工具向智能体化 AI 的同一行业趋势。

ChatGPT Agent Mode 能做什么？

常见操作有哪些？

Agent Mode 的能力包括：

自主网页浏览与研究（打开页面、点击、阅读、总结）。
数据提取与结构化输出（表格、CSV、表单）。
文件创作：生成并保存文档、幻灯片、电子表格。
表单填写与提交（需明确确认）。
通过 SDK 或连接器编排工具链或运行代码。
在许可的连接器范围内集成服务（邮件、日历、GitHub、Zapier/Make）。
在支持的工作流中进行商业/交易（例如“Instant Checkout”集成）。

需要预期的限制

Agent Mode 功能强大但并非无所不能：它遵守沙箱限制，可能遇到工具或连接器的速率限制，并且通常会在没有明确确认时避免高风险操作。预计在身份验证流程、JavaScript 密集型网站、带 CAPTCHA 的操作、或需要多因素身份验证的系统中会出现失败模式。

谁可以访问 ChatGPT Agent Mode —— 以及如何获得？

谁可以使用？

OpenAI 的分阶段推出面向付费方案：ChatGPT Agent Mode 已发布给 Plus/Pro/Team/Business 用户（及提供的类似等级），并配有分级配额；免费层不可用。

如何启用（分步）？

使用符合条件的方案登录 ChatGPT。
开始一个新对话或打开现有对话。
打开 Tools 菜单（编辑框中的“+”）并选择 Agent mode，或在消息框中输入 /agent 以启动智能体会话。
描述你希望完成的任务。智能体将提出计划并开始执行；在进行重要操作前会暂停征求确认。你可以随时中断或接管手动控制。

谁应该考虑使用 Agent Mode？

知识型工作者和团队：希望自动化重复的数字任务（分析师、产品经理、教育工作者）。
开发者与集成者：希望通过 Agents SDK 或 Responses API 快速原型化智能体工作流。
IT/安全团队：评估自主工作流时应因数据访问与隐私考虑进行谨慎试点。

如何获取并设置一个 ChatGPT Agent

以下是一个实用的、可在 ChatGPT 网页或移动端界面中执行的分步设置流程（基于 OpenAI 文档与公开演练）。请根据你组织的政策与所见具体界面进行调整。

步骤 1：确认访问与计费等级

登录你的 ChatGPT 帐号并确认你处于支持智能体的方案（Plus/Pro/Business/Enterprise）。如果你是管理员，确认组织层面的开关与连接器策略。

步骤 2：创建一个新智能体（UI）

在 ChatGPT 首页，在工具/菜单中寻找 “Create agent” 或 “Agent Mode”。
选择基础模型（如适用）并为你的智能体命名（例如“Competitive Researcher”）。
谨慎选择允许的连接器与权限范围（Google Drive、Gmail、Slack、你的 CRM）。将权限限制到所需的最低程度。

步骤 3：提供身份、目标与约束

为智能体提供简洁的使命声明（目标）、输入来源，以及非功能性约束（最大运行时间、文件格式、预算上限、是否可以发送邮件还是仅起草）。
上传智能体应使用的示例文件或链接。这将创建可在执行期间引用的上下文。

步骤 4：授权连接器并在沙箱中测试

授权你需要的连接器（Drive、GitHub）。OpenAI 将要求你登录并授予明确的权限范围——请仔细审核这些权限。
运行一个小且无害的测试任务（例如“总结这三份文档并列出 5 条行动项”），以确认智能体可以访问并处理你允许的资源。

步骤 5：设置审批钩子与通知

为高风险操作配置人工审批检查点（例如“在写入 CRM 前询问我”）。
设置输出目的地（下载、邮件草稿，或作为聊天消息交付）。

步骤 6：迭代与加固

审查运行记录、检查日志/审计追踪，并在发现异常行为时收紧约束或移除连接器。维护运行历史以便审计。

Tools → Agent mode（或 /agent）

我们如何编写一份“runbook”提示词

Runbook 提示词原则

“Runbook” 提示词是一组结构化指令，定义智能体的目标、约束、成功标准、输出与错误处理。为提升可靠性，请遵循以下原则：

**明确目标：**定义交付物及格式（例如“创建一份 10 页的 PowerPoint，包括标题页、3 页竞品财务数据、方法页，以及总结页”）。
**定义输入与来源：**列出智能体应优先使用的可信网站、文件位置或连接器，以及禁止使用的来源。
**设置约束与安全检查：**例如“未经我明确确认，绝不发送邮件”，“不要登录银行门户”，或“若少于 3 个独立来源证实某一主张，请标注为存疑而非事实报道”。
**包含分步骤检查点：**告知智能体何时暂停征求确认（例如在发布或执行不可逆操作之前）。
**指定错误处理与回滚：**例如“若页面返回 403，尝试使用缓存结果；若不可用，记录失败并继续其他来源”。

示例 runbook（简洁版）

**使命：**为 Product X 制作一份竞争格局简报。

**输入：**URLs A、B、C；电子表格 pricing.xlsx 位于 /shared/Competitive。

**约束：**仅使用公开页面与所提供的电子表格；不使用任何凭据；在 20 个智能体消息内完成；生成 2 页 PDF + CSV 功能表。

步骤：

抓取 URLs A、B、C；提取产品名称、价格档位以及前 5 大特性。
将提取的特性与 pricing.xlsx 合并，规范化列为 vendor, plan, monthly_usd, key_features。
撰写 700 字高管摘要（最多 5 条要点建议）。
创建 competitive_table.csv 和 brief.pdf。
**决策规则：**若任何站点设有付费墙或需要登录，停止并请求批准。
输出格式：brief.pdf（2 页，A4），competitive_table.csv 按上述列，并附一条简短聊天消息确认作业完成。

提示：明确失败模式

告知智能体当某一步失败时该如何处理（停止并报告；跳过并继续；尝试备选来源）。智能体会字面理解含糊指令——明确的失败规则能减少意外。

真实场景示例与代码参考

示例 1 — 邮件分拣（终端用户）

任务：“扫描我最后 100 封未读邮件，总结需要回复的高优先级消息；为可自动处理的邮件建议回复草稿。”
**智能体如何工作：**智能体通过授权连接器读取收件箱，提取发件人、主题、紧急信号，并按请求的风格拟定回复草稿。它不会在没有明确确认的情况下发送消息，并将呈现建议回复列表供审阅。（用户测试建议将初始运行限制为小批量。）

示例 2 — 数据清洗与导出（分析师）

任务：“清洗此 CSV，移除重复项，将电话号码规范化为 E.164，并输出清洗后的 CSV 与更改记录摘要。”
**智能体如何工作：**智能体使用文件访问工具，执行确定性的转换，将清洗后的文件写回 Drive，并返回变更日志。

开发者代码参考（Python + Agents SDK）

下面是一个基于 OpenAI Agents SDK 与 Responses API 模式的概念性 Python 片段——它演示了以编程方式创建智能体并调用它。（请根据你使用的 SDK 或客户端库调整参数；有关确切方法名与认证流程，请查阅 SDK 文档。）

# conceptual example — adapt to the exact SDK you install

from openai import OpenAI
client = OpenAI(api_key="YOUR_API_KEY")

agent_spec = {
    "name": "CompetitorResearchAgent",
    "instructions": "Produce a 10-slide competitor analysis deck using sources A,B,C. Pause for confirmation before any email or purchase.",
    "tools": ,
    "config": {"watch_mode": True, "confirm_before_send": True}
}

# create agent (SDK-specific API)

agent = client.agents.create(agent_spec)

# run the agent on a specific task

task = {"prompt": "Create the 10-slide competitor analysis deck and upload to Drive:/AgentOutputs"}
run = client.agents.run(agent_id=agent, task=task)

print("Run started:", run)

JavaScript（概念性）

import OpenAI from "openai";
const client = new OpenAI({ apiKey: process.env.OPENAI_API_KEY });

const agentSpec = { /* same fields as above */ };

async function createAndRun() {
  const agent = await client.agents.create(agentSpec);
  const run = await client.agents.run(agent.id, { prompt: "Create the 10-slide deck" });
  console.log("Run ID:", run.id);
}

注意：具体的客户端方法、名称与 SDK 打包会不断演进 —— 请查阅 OpenAI Agents SDK 与平台文档以了解当前的 API 表面。

常见问题排查

智能体卡住或停滞

**症状：**智能体无明显原因地暂停或超时。
**修复：**检查被阻止的网络调用（连接器上的 403/401），确认连接器处于活动状态，缩小任务范围（拆分为更小的子任务），或提高冗长度以暴露失败位置。若可用，OpenAI 的日志会显示最后一次成功的工具调用。

数据不正确或出现幻觉

**症状：**智能体报告的事实无法验证。
**修复：**在 runbook 中收紧来源约束，要求每个事实性主张必须给出引用，并指示智能体将信息与多个可信来源交叉核对。使用 Responses API 的检索或浏览工具，而非依赖模型记忆。

连接器身份验证失败

**症状：**智能体无法访问 Google Drive / Gmail。
**修复：**手动重新认证连接器；确认令牌权限范围；确保企业 SSO 策略未阻止第三方应用令牌。对于敏感连接器，启用“watch mode”并采用明确的手动登录流程。

意外操作（智能体未经许可执行）

**症状：**智能体尝试了不被允许的操作。
**修复：**审查并收紧 runbook，为所有改变状态的操作启用用户确认，并查看运行日志。若行为持续，禁用连接器并提交支持工单。

有哪些安全风险？

主要风险类别

**数据暴露与外泄：**拥有广泛连接器的智能体可能访问敏感文件，并且——若约束不严——可能将敏感输出写至外部位置。
**提示注入与操控：**恶意网页内容或文件可能试图操纵智能体行为，若 runbook 与护栏不严格。将 runbook 设计为忽略抓取内容中嵌入的指令。
**凭据滥用：**自动登录或隔离不足的令牌可能被误用；避免在智能体配置中存储长期凭据，倾向于手动、按会话的身份验证。
**过度信任/自动化敏感操作：**允许在无人批准的情况下自动发送或购买会增加风险。OpenAI 的智能体设计包含强制确认与针对特定高风险操作的阻断，但组织仍应实施自身治理。

结论

Agent Mode 标志着一次重要转变：从顾问型 AI 到运营型 AI。它能加速研究、市场、财务与工程等领域的工作流——但这一能力也带来新的运营与安全责任。采用结构化 runbook、最小权限连接器、将人纳入环中审批，以及持续审计，以在实现收益的同时降低风险。

入门指南

CometAPI 是一个统一的 API 平台，将来自领先供应商的 500 多个 AI 模型（如 ChatGPT 系列、Google 的 Gemini、Anthropic 的 Claude、Midjourney、Suno 等）聚合到一个对开发者友好的接口中。它通过一致的认证、请求格式与响应处理，显著简化将 AI 能力集成到你的应用中的过程。无论你在构建聊天机器人、图像生成器、音乐创作器，还是数据驱动的分析管道，CometAPI 都能让你更快迭代、控制成本并保持厂商中立——同时利用 AI 生态中的最新突破。

开始之前，请在 Playground 中探索 ChatGPT 模型的能力，并查阅 API guide 获取详细说明。访问前，请确保你已登录 CometAPI 并获取 API 密钥。CometAPI 提供远低于官方价格的方案，帮助你完成集成。