如何逐步使用 ChatGPT 代理模式

CometAPI
AnnaOct 8, 2025
如何逐步使用 ChatGPT 代理模式

2025 年中期,OpenAI 發布 ChatGPT代理模式 — 此功能使 ChatGPT 不僅可以回答問題,還可以使用虛擬工作區(瀏覽、檔案操作、程式碼執行和連接器 API)規劃和執行多步驟任務。 ChatGPT 代理模式 將 ChatGPT 從被動助手轉移到 告訴你該做什麼 變成一個可以 為您完成步驟 — 在您的監督下瀏覽、提取、填寫表格、執行程式碼、建立文件並與連接的服務進行互動。

什麼是 ChatGPT 代理模式?

代理模式將 ChatGPT 從反應式聊天助理轉變為 自主數位工作者 可以規劃和執行多步驟工作流程。與單次來回完成不同,代理可以:

  • 打開和閱讀網頁,點擊鏈接,提取結構化事實;
  • 在沙盒或虛擬桌面環境中執行程式碼來處理文件、轉換電子表格或產生文件;
  • 呼叫您配置的連接 API 或服務(連接器)來讀取或寫入資料;
  • 當目標或限制不明確時,提出澄清問題;
  • 保持各個步驟的狀態,以便長期任務(研究→草稿→匯出)能夠順利進行,而無需每次都重新講述整個故事。

OpenAI 將代理模式定位為「連接研究和行動」:它適用於迭代協作工作流程,其中人類監督仍然很重要 - 您給出目標、約束和批准,而代理執行繁重的工作。

ChatGPT 代理模式是如何演變的?

代理模式是基於 OpenAI 的早期功能(例如 Operator 和 Deep Research)以及該公司的 Agents SDK / Responses API。 Agents SDK 為開發者提供了創建自訂代理程式和工具的原語,而 ChatGPT 代理模式則在消費者 Web 和應用程式介面中整合了類似的功能,因此非開發者無需編寫黏合程式碼即可建立自主工作流程。系統架構包含一些防護措施,例如請求確認和代理程式在敏感環境中運行時的「監視模式」。

注意:其他供應商(尤其是微軟)也推出了自己的「代理模式」或 Office 代理功能,將代理行為嵌入到生產力應用程式(Excel/Word/Copilot)中。這些是獨立的實現,但反映了行業對工具中代理 AI 的同一趨勢。

ChatGPT 代理模式可以做什麼?

哪些行為是典型的?

代理模式功能包括:

  • 自主瀏覽網頁和研究(開啟網頁、點擊、閱讀、總結)。
  • 資料提取和結構化輸出(表格、CSV、工作表)。
  • 文件創作:產生和儲存文件、投影片、電子表格。
  • 表格填寫和提交(明確確認)。
  • 透過 SDK 或連接器運行程式碼或編排工具鏈。
  • 在連接器允許的情況下與服務(電子郵件、行事曆、GitHub、Zapier/Make)整合。
  • 支援的工作流程中的商務/交易(例如「即時結帳」整合)。

預期的限制

代理模式功能強大,但並非無所不知:它會遵守沙盒限制,可能會達到工具或連接器的速率限制,並且通常會避免未經明確確認的危險操作。在認證流程、JavaScript 密集型網站、受驗證碼保護的操作或需要多因素身份驗證的系統中,可能會出現失敗模式。

誰可以存取 ChatGPT 代理模式 — — 以及如何獲得它?

誰可以訪問?

OpenAI 的推出針對付費方案:ChatGPT 代理模式已向 Plus/Pro/Team/Business 用戶(以及提供的類似層級)發布,並具有分級配額;免費層級不提供此功能。

如何啟用它(一步一步)?

  1. 使用合格計劃登入 ChatGPT。
  2. 開始新的聊天或開啟現有的聊天。
  3. 打開 工具 選單(編輯器中的“+”)並選擇 代理模式或輸入 /agent 訊息框中的命令來啟動代理會話。
  4. 描述您想要完成的任務。代理將提出一個計劃並開始執行;在執行後續操作之前,它會暫停並要求確認。您可以隨時中斷或進行手動控制。

誰應該考慮代理模式?

  • 知識工作者和團隊 希望自動執行重複性數字任務的人(分析師、產品經理、教育工作者)。
  • 開發商和整合商 他們希望透過 Agents SDK 或 Responses API 快速創建代理工作流程原型。
  • IT/安全團隊 由於資料存取和隱私方面的考慮,評估自主工作流程應該謹慎試行。

如何取得和設定 ChatGPT 代理

以下是一個實用的逐步設定工作流程,您可以在 ChatGPT 網頁版或行動版 UI 中遵循(基於 OpenAI 的文件和已發佈的簡報)。您可以根據您所在組織的政策和您看到的特定 UI 調整步驟。

步驟 1:確認存取權限和計費等級

登入您的 ChatGPT 帳戶,並確認您使用的套餐支援代理程式(Plus/Pro/Business/Enterprise)。如果您是管理員,請確認組織層級的開關和連接器策略。

步驟 2:建立新代理(UI)

  1. 從 ChatGPT 主頁,尋找 “創建代理” or “代理模式” 在工具/選單中。
  2. 選擇一個基本模型(如果適用)並命名您的代理商(例如,「競爭研究員」)。
  3. 謹慎選擇允許的連接器和範圍(Google Drive、Gmail、Slack、您的 CRM)。將權限限制在所需的最低限度。

步驟 3:提供身分、目標和約束

  1. 給代理一個簡潔的 使命宣言 (目標)、輸入來源和非功能性約束(最大運行時間、文件格式、預算限制、是否可以發送電子郵件或僅起草電子郵件)。
  2. 上傳代理應使用的範例文件或連結。這將建立代理在執行期間可以參考的上下文。

步驟 4:授權連接器並在沙盒中測試

  1. 授權您需要的任何連接器(Drive、GitHub)。 OpenAI 會要求您登入並授予明確的權限—請仔細檢查這些權限。
  2. 運行一個 小型、無害的測試工作 (例如,「總結這三個文件並列出 5 個行動項目」)以確認代理人可以存取和處理您允許的資源。

步驟 5:設定批准掛鉤和通知

  1. 為高風險操作配置人工核准檢查點(例如,「寫信給 CRM 之前先詢問我」)。
  2. 設定輸出目的地(下載、電子郵件草稿或作為聊天訊息)。

步驟 6:迭代與強化

審查運作情況,檢查日誌/稽核線索,如果發現異常行為,請加強約束或移除連接器。保留運行歷史記錄以供審計。

工具 → 代理模式 /agent)

我們如何編寫“運行手冊”提示

Runbook 提示原則

「Runbook」提示符號是一套結構化的指令集,用來定義代理人的目標、限制、成功標準、輸出和錯誤處理。為了確保其可靠性,請遵循以下原則:

  • 明確目標: 定義可交付成果和格式(例如,「建立包含 10 張投影片的 PowerPoint,其中包含標題投影片、3 張競爭對手財務投影片、方法投影片和摘要投影片」)。
  • 定義輸入和來源: 列出代理商應該優先考慮的可信任網站、檔案位置或連接器,以及禁止的來源。
  • 設定約束和安全檢查: 例如,「未經我明確確認,切勿發送電子郵件」、「不要登入銀行入口網站」或「如果少於 3 個獨立來源證實某項主張,則將其標記出來,而不是作為事實報告」。
  • 包括逐步檢查點: 告訴代理何時暫停以進行確認(例如,在發布或執行不可逆的操作之前)。
  • 指定錯誤處理和回滾: 例如,“如果頁面返回 403,請嘗試快取結果;如果不可用,請記錄失敗並繼續使用其他來源。”

範例運行手冊(簡明)

使命: 為產品 X 製作競爭格局簡介。

輸入: URL A、B、C;電子表格 pricing.xlsx in /shared/Competitive.

限制條件: 僅使用公共頁面和提供的電子表格;不要使用任何憑證;在 20 個代理訊息內完成;產生具有功能表的 2 頁 PDF + CSV。

步驟:

  1. 抓取 URL A、B、C;提取產品名稱、價格等級和前 5 個功能。
  2. 合併提取的特徵 pricing.xlsx,將列標準化為 vendor, plan, monthly_usd, key_features.
  3. 建立一份 700 字的執行摘要(最多 5 個要點建議)。
  4. 創建 competitive_table.csv brief.pdf.
    決策規則: 如果任何網站有付費牆或需要登錄,請停止並要求批准。
    輸出格式: brief.pdf (2頁,A4紙), competitive_table.csv 包含如上所示的列,以及確認工作完成的簡短聊天訊息。

提示:明確說明故障模式

告訴代理人如果某個步驟失敗該怎麼做(停止並報告;跳過並繼續;嘗試其他來源)。代理會逐字解讀模稜兩可的指令-明確的失敗規則可以減少意外。

真實範例和程式碼參考

範例 1 — 電子郵件分類(最終使用者)

任務: “掃描我最近 100 封未讀電子郵件,並總結需要回复的高優先級消息;對於可以自動處理的郵件,建議草稿回复。”
代理的工作原理: 代理透過經過驗證的連接器讀取收件匣,提取寄件者、主題、緊急訊號,並按照請求的格式撰寫回覆草稿。它將 不會 無需明確確認即可發送訊息,並會顯示建議回覆清單以供審核。 (用戶測試建議將初始運行限制在小批量。)

範例 2 — 資料清理與匯出(分析師)

任務: “清理此 CSV,刪除重複項,將電話號碼規範化為 E.164,並輸出清理後的 CSV 和更改的記錄摘要。”
代理的工作原理: 代理程式使用檔案存取工具,執行確定性轉換,將清理後的檔案寫回 Drive,並傳回更改日誌。

開發人員程式碼參考(Python + Agents SDK)

下面是一個 概念上的 基於 OpenAI Agents SDK 和 Responses API 模式的 Python 程式碼片段——示範如何以程式設計方式建立代理程式並呼叫它。 (請根據您使用的 SDK 或用戶端程式庫調整參數;請查看 SDK 文件以取得確切的方法名稱和驗證流程。)

# conceptual example — adapt to the exact SDK you install

from openai import OpenAI
client = OpenAI(api_key="YOUR_API_KEY")

agent_spec = {
    "name": "CompetitorResearchAgent",
    "instructions": "Produce a 10-slide competitor analysis deck using sources A,B,C. Pause for confirmation before any email or purchase.",
    "tools": ,
    "config": {"watch_mode": True, "confirm_before_send": True}
}

# create agent (SDK-specific API)

agent = client.agents.create(agent_spec)

# run the agent on a specific task

task = {"prompt": "Create the 10-slide competitor analysis deck and upload to Drive:/AgentOutputs"}
run = client.agents.run(agent_id=agent, task=task)

print("Run started:", run)

JavaScript(概念)

import OpenAI from "openai";
const client = new OpenAI({ apiKey: process.env.OPENAI_API_KEY });

const agentSpec = { /* same fields as above */ };

async function createAndRun() {
  const agent = await client.agents.create(agentSpec);
  const run = await client.agents.run(agent.id, { prompt: "Create the 10-slide deck" });
  console.log("Run ID:", run.id);
}

注意:確切的客戶端方法、名稱和 SDK 打包會不斷發展—有關當前 API 介面,請參閱 OpenAI Agents SDK 和平台文件。


解決常見問題

代理卡住或停滯

  • 症狀: 代理無明顯原因暫停或逾時。
  • 修正: 檢查被阻止的網路呼叫(連接器上的 403/401),確認連接器處於活動狀態,縮小任務範圍(分割為更小的子任務),或增加詳細程度以顯示失敗的位置。 OpenAI 的日誌(如果有)會顯示最後一次成功的工具呼叫。

不正確或虛假的數據

  • 症狀: 代理人報告了無法證實的事實。
  • 修正: 嚴格限制運作手冊中的來源,要求對每個事實聲明提供引用,並指示代理根據多個可信來源交叉核對資訊。使用 Responses API 的檢索或瀏覽工具,而不是依賴模型呼叫。

連接器身份驗證失敗

  • 症狀: 代理無法存取 Google Drive/Gmail。
  • 修正: 手動重新驗證連接器;確認令牌範圍;確保企業單一登入 (SSO) 策略未封鎖第三方套用代幣。對於敏感連接器,請使用「監視模式」和明確的手動登入流程。

意外行為(代理人未經許可的行為)

  • 症狀: 代理程式嘗試執行不允許的操作。
  • 修正: 審查並完善運作手冊,為所有狀態變更操作啟用使用者確認,並查閱運行日誌。如果問題持續存在,請停用連接器並提交支援工單。

有哪些安全風險?

主要風險類別

  • 資料暴露與外洩: 具有廣泛連接器的代理程式可能會存取敏感文件,並且如果沒有適當限制,可能會將敏感輸出寫入外部位置。
  • 即時注入和操作: 如果運行手冊和防護措施不夠嚴格,惡意 Web 內容或文件可能會試圖操縱代理行為。請建立運作手冊,以忽略抓取內容中嵌入的指令。
  • 憑證濫用: 自動登入或隔離性較差的令牌可能會被濫用;避免在代理設定檔中儲存長期憑證,而應選擇手動、每次會話的身份驗證。
  • 過度信任/敏感行為的自動化: 允許未經人工批准的自動發送或購買會增加風險。 OpenAI 的代理設計包括針對特定高風險操作的強制確認和阻止,但組織仍應採用自己的治理方式。

建議的緩解措施

  • 最小特權連接器: 僅授予所需的最小範圍。
  • 觀看模式和確認: 為可能存取電子郵件或銀行頁面並需要確認狀態變更的代理人啟用「監視模式」。
  • 審計日誌和可觀察性: 記錄所有代理操作並定期審核。使用每個使用者/代理的速率限制和任務配額。
  • 測試沙盒: 首先在具有合成或編輯資料的帳戶中驗證代理程式。
  • 政策與運作手冊治理: 維護執行高影響任務的代理程式的審批流程,並在廣泛部署之前需要人工簽字。

結論

代理模式標誌著一個有意義的轉變: 諮詢 人工智能 操作 人工智慧可以加速研究、行銷、財務和工程領域的工作流程,但這種能力也帶來了新的營運和安全責任。使用結構化運作手冊、最低權限連接器、人機互動審批和持續審計,在限制風險的同時實現優勢。

入門

CometAPI 是一個統一的 API 平台,它將來自領先供應商的 500 多個 AI 模型(例如 ChatGPT 系列、Google 的 Gemini、Anthropic 的 Claude、Midjourney、Suno 等)聚合到一個開發者友好的介面中。透過提供一致的身份驗證、請求格式和回應處理,CometAPI 顯著簡化了將 AI 功能整合到您的應用程式中的過程。無論您是建立聊天機器人、影像產生器、音樂作曲家,還是資料驅動的分析流程,CometAPI 都能讓您更快地迭代、控製成本,並保持與供應商的兼容性——同時也能充分利用整個 AI 生態系統的最新突破。

首先,探討 ChatGPT 模型的功能 游乐场 並諮詢 API指南 以獲得詳細說明。造訪前請確保您已經登入CometAPI並取得API金鑰。 彗星API 提供遠低於官方價格的價格,幫助您整合。

準備出發了嗎? → 立即註冊 CometAPI !

閱讀更多

一個 API 中超過 500 個模型

最高 20% 折扣