如何逐步使用 ChatGPT 代理模式

2025 年中期，OpenAI 發布 ChatGPT代理模式 — 此功能使 ChatGPT 不僅可以回答問題，還可以使用虛擬工作區（瀏覽、檔案操作、程式碼執行和連接器 API）規劃和執行多步驟任務。 ChatGPT 代理模式 將 ChatGPT 從被動助手轉移到 告訴你該做什麼 變成一個可以 為您完成步驟 — 在您的監督下瀏覽、提取、填寫表格、執行程式碼、建立文件並與連接的服務進行互動。

什麼是 ChatGPT 代理模式？

代理模式將 ChatGPT 從反應式聊天助理轉變為 自主數位工作者 可以規劃和執行多步驟工作流程。與單次來回完成不同，代理可以：

打開和閱讀網頁，點擊鏈接，提取結構化事實；
在沙盒或虛擬桌面環境中執行程式碼來處理文件、轉換電子表格或產生文件；
呼叫您配置的連接 API 或服務（連接器）來讀取或寫入資料；
當目標或限制不明確時，提出澄清問題；
保持各個步驟的狀態，以便長期任務（研究→草稿→匯出）能夠順利進行，而無需每次都重新講述整個故事。

OpenAI 將代理模式定位為「連接研究和行動」：它適用於迭代協作工作流程，其中人類監督仍然很重要 - 您給出目標、約束和批准，而代理執行繁重的工作。

ChatGPT 代理模式是如何演變的？

代理模式是基於 OpenAI 的早期功能（例如 Operator 和 Deep Research）以及該公司的 Agents SDK / Responses API。 Agents SDK 為開發者提供了創建自訂代理程式和工具的原語，而 ChatGPT 代理模式則在消費者 Web 和應用程式介面中整合了類似的功能，因此非開發者無需編寫黏合程式碼即可建立自主工作流程。系統架構包含一些防護措施，例如請求確認和代理程式在敏感環境中運行時的「監視模式」。

注意：其他供應商（尤其是微軟）也推出了自己的「代理模式」或 Office 代理功能，將代理行為嵌入到生產力應用程式（Excel/Word/Copilot）中。這些是獨立的實現，但反映了行業對工具中代理 AI 的同一趨勢。

ChatGPT 代理模式可以做什麼？

哪些行為是典型的？

代理模式功能包括：

自主瀏覽網頁和研究（開啟網頁、點擊、閱讀、總結）。
資料提取和結構化輸出（表格、CSV、工作表）。
文件創作：產生和儲存文件、投影片、電子表格。
表格填寫和提交（明確確認）。
透過 SDK 或連接器運行程式碼或編排工具鏈。
在連接器允許的情況下與服務（電子郵件、行事曆、GitHub、Zapier/Make）整合。
支援的工作流程中的商務/交易（例如「即時結帳」整合）。

預期的限制

代理模式功能強大，但並非無所不知：它會遵守沙盒限制，可能會達到工具或連接器的速率限制，並且通常會避免未經明確確認的危險操作。在認證流程、JavaScript 密集型網站、受驗證碼保護的操作或需要多因素身份驗證的系統中，可能會出現失敗模式。

誰可以存取 ChatGPT 代理模式 — — 以及如何獲得它？

誰可以訪問？

OpenAI 的推出針對付費方案：ChatGPT 代理模式已向 Plus/Pro/Team/Business 用戶（以及提供的類似層級）發布，並具有分級配額；免費層級不提供此功能。

如何啟用它（一步一步）？

使用合格計劃登入 ChatGPT。
開始新的聊天或開啟現有的聊天。
打開工具選單（編輯器中的“+”）並選擇 代理模式或輸入 /agent 訊息框中的命令來啟動代理會話。
描述您想要完成的任務。代理將提出一個計劃並開始執行；在執行後續操作之前，它會暫停並要求確認。您可以隨時中斷或進行手動控制。

誰應該考慮代理模式？

知識工作者和團隊 希望自動執行重複性數字任務的人（分析師、產品經理、教育工作者）。
開發商和整合商 他們希望透過 Agents SDK 或 Responses API 快速創建代理工作流程原型。
IT/安全團隊 由於資料存取和隱私方面的考慮，評估自主工作流程應該謹慎試行。

如何取得和設定 ChatGPT 代理

以下是一個實用的逐步設定工作流程，您可以在 ChatGPT 網頁版或行動版 UI 中遵循（基於 OpenAI 的文件和已發佈的簡報）。您可以根據您所在組織的政策和您看到的特定 UI 調整步驟。

步驟 1：確認存取權限和計費等級

登入您的 ChatGPT 帳戶，並確認您使用的套餐支援代理程式（Plus/Pro/Business/Enterprise）。如果您是管理員，請確認組織層級的開關和連接器策略。

步驟 2：建立新代理（UI）

從 ChatGPT 主頁，尋找 “創建代理” or “代理模式” 在工具/選單中。
選擇一個基本模型（如果適用）並命名您的代理商（例如，「競爭研究員」）。
謹慎選擇允許的連接器和範圍（Google Drive、Gmail、Slack、您的 CRM）。將權限限制在所需的最低限度。

步驟 3：提供身分、目標和約束

給代理一個簡潔的 使命宣言 （目標）、輸入來源和非功能性約束（最大運行時間、文件格式、預算限制、是否可以發送電子郵件或僅起草電子郵件）。
上傳代理應使用的範例文件或連結。這將建立代理在執行期間可以參考的上下文。

步驟 4：授權連接器並在沙盒中測試

授權您需要的任何連接器（Drive、GitHub）。 OpenAI 會要求您登入並授予明確的權限—請仔細檢查這些權限。
運行一個 小型、無害的測試工作 （例如，「總結這三個文件並列出 5 個行動項目」）以確認代理人可以存取和處理您允許的資源。

步驟 5：設定批准掛鉤和通知

為高風險操作配置人工核准檢查點（例如，「寫信給 CRM 之前先詢問我」）。
設定輸出目的地（下載、電子郵件草稿或作為聊天訊息）。

步驟 6：迭代與強化

審查運作情況，檢查日誌/稽核線索，如果發現異常行為，請加強約束或移除連接器。保留運行歷史記錄以供審計。

工具 → 代理模式 /agent)

我們如何編寫“運行手冊”提示

Runbook 提示原則

「Runbook」提示符號是一套結構化的指令集，用來定義代理人的目標、限制、成功標準、輸出和錯誤處理。為了確保其可靠性，請遵循以下原則：

明確目標： 定義可交付成果和格式（例如，「建立包含 10 張投影片的 PowerPoint，其中包含標題投影片、3 張競爭對手財務投影片、方法投影片和摘要投影片」）。
定義輸入和來源： 列出代理商應該優先考慮的可信任網站、檔案位置或連接器，以及禁止的來源。
設定約束和安全檢查： 例如，「未經我明確確認，切勿發送電子郵件」、「不要登入銀行入口網站」或「如果少於 3 個獨立來源證實某項主張，則將其標記出來，而不是作為事實報告」。
包括逐步檢查點： 告訴代理何時暫停以進行確認（例如，在發布或執行不可逆的操作之前）。
指定錯誤處理和回滾： 例如，“如果頁面返回 403，請嘗試快取結果；如果不可用，請記錄失敗並繼續使用其他來源。”

範例運行手冊（簡明）

使命： 為產品 X 製作競爭格局簡介。

輸入： URL A、B、C；電子表格 pricing.xlsx in /shared/Competitive.

限制條件： 僅使用公共頁面和提供的電子表格；不要使用任何憑證；在 20 個代理訊息內完成；產生具有功能表的 2 頁 PDF + CSV。

步驟：

抓取 URL A、B、C；提取產品名稱、價格等級和前 5 個功能。
合併提取的特徵 pricing.xlsx，將列標準化為 vendor, plan, monthly_usd, key_features.
建立一份 700 字的執行摘要（最多 5 個要點建議）。
創建 competitive_table.csv brief.pdf.
決策規則： 如果任何網站有付費牆或需要登錄，請停止並要求批准。
輸出格式： brief.pdf （2頁，A4紙）， competitive_table.csv 包含如上所示的列，以及確認工作完成的簡短聊天訊息。

提示：明確說明故障模式

告訴代理人如果某個步驟失敗該怎麼做（停止並報告；跳過並繼續；嘗試其他來源）。代理會逐字解讀模稜兩可的指令－明確的失敗規則可以減少意外。

真實範例和程式碼參考

範例 1 — 電子郵件分類（最終使用者）

任務： “掃描我最近 100 封未讀電子郵件，並總結需要回复的高優先級消息；對於可以自動處理的郵件，建議草稿回复。”
代理的工作原理： 代理透過經過驗證的連接器讀取收件匣，提取寄件者、主題、緊急訊號，並按照請求的格式撰寫回覆草稿。它將不會無需明確確認即可發送訊息，並會顯示建議回覆清單以供審核。（用戶測試建議將初始運行限制在小批量。）

範例 2 — 資料清理與匯出（分析師）

任務： “清理此 CSV，刪除重複項，將電話號碼規範化為 E.164，並輸出清理後的 CSV 和更改的記錄摘要。”
代理的工作原理： 代理程式使用檔案存取工具，執行確定性轉換，將清理後的檔案寫回 Drive，並傳回更改日誌。

開發人員程式碼參考（Python + Agents SDK）

下面是一個 概念上的 基於 OpenAI Agents SDK 和 Responses API 模式的 Python 程式碼片段——示範如何以程式設計方式建立代理程式並呼叫它。（請根據您使用的 SDK 或用戶端程式庫調整參數；請查看 SDK 文件以取得確切的方法名稱和驗證流程。）

# conceptual example — adapt to the exact SDK you install

from openai import OpenAI
client = OpenAI(api_key="YOUR_API_KEY")

agent_spec = {
    "name": "CompetitorResearchAgent",
    "instructions": "Produce a 10-slide competitor analysis deck using sources A,B,C. Pause for confirmation before any email or purchase.",
    "tools": ,
    "config": {"watch_mode": True, "confirm_before_send": True}
}

# create agent (SDK-specific API)

agent = client.agents.create(agent_spec)

# run the agent on a specific task

task = {"prompt": "Create the 10-slide competitor analysis deck and upload to Drive:/AgentOutputs"}
run = client.agents.run(agent_id=agent, task=task)

print("Run started:", run)

JavaScript（概念）

import OpenAI from "openai";
const client = new OpenAI({ apiKey: process.env.OPENAI_API_KEY });

const agentSpec = { /* same fields as above */ };

async function createAndRun() {
  const agent = await client.agents.create(agentSpec);
  const run = await client.agents.run(agent.id, { prompt: "Create the 10-slide deck" });
  console.log("Run ID:", run.id);
}

注意：確切的客戶端方法、名稱和 SDK 打包會不斷發展—有關當前 API 介面，請參閱 OpenAI Agents SDK 和平台文件。

解決常見問題

代理卡住或停滯

症狀： 代理無明顯原因暫停或逾時。
修正： 檢查被阻止的網路呼叫（連接器上的 403/401），確認連接器處於活動狀態，縮小任務範圍（分割為更小的子任務），或增加詳細程度以顯示失敗的位置。 OpenAI 的日誌（如果有）會顯示最後一次成功的工具呼叫。

不正確或虛假的數據

症狀： 代理人報告了無法證實的事實。
修正： 嚴格限制運作手冊中的來源，要求對每個事實聲明提供引用，並指示代理根據多個可信來源交叉核對資訊。使用 Responses API 的檢索或瀏覽工具，而不是依賴模型呼叫。

連接器身份驗證失敗

症狀： 代理無法存取 Google Drive/Gmail。
修正： 手動重新驗證連接器；確認令牌範圍；確保企業單一登入 (SSO) 策略未封鎖第三方套用代幣。對於敏感連接器，請使用「監視模式」和明確的手動登入流程。

意外行為（代理人未經許可的行為）

症狀： 代理程式嘗試執行不允許的操作。
修正： 審查並完善運作手冊，為所有狀態變更操作啟用使用者確認，並查閱運行日誌。如果問題持續存在，請停用連接器並提交支援工單。

有哪些安全風險？

主要風險類別

資料暴露與外洩： 具有廣泛連接器的代理程式可能會存取敏感文件，並且如果沒有適當限制，可能會將敏感輸出寫入外部位置。
即時注入和操作： 如果運行手冊和防護措施不夠嚴格，惡意 Web 內容或文件可能會試圖操縱代理行為。請建立運作手冊，以忽略抓取內容中嵌入的指令。
憑證濫用： 自動登入或隔離性較差的令牌可能會被濫用；避免在代理設定檔中儲存長期憑證，而應選擇手動、每次會話的身份驗證。
過度信任/敏感行為的自動化： 允許未經人工批准的自動發送或購買會增加風險。 OpenAI 的代理設計包括針對特定高風險操作的強制確認和阻止，但組織仍應採用自己的治理方式。

建議的緩解措施

最小特權連接器： 僅授予所需的最小範圍。
觀看模式和確認： 為可能存取電子郵件或銀行頁面並需要確認狀態變更的代理人啟用「監視模式」。
審計日誌和可觀察性： 記錄所有代理操作並定期審核。使用每個使用者/代理的速率限制和任務配額。
測試沙盒： 首先在具有合成或編輯資料的帳戶中驗證代理程式。
政策與運作手冊治理： 維護執行高影響任務的代理程式的審批流程，並在廣泛部署之前需要人工簽字。

結論

代理模式標誌著一個有意義的轉變：諮詢人工智能操作人工智慧可以加速研究、行銷、財務和工程領域的工作流程，但這種能力也帶來了新的營運和安全責任。使用結構化運作手冊、最低權限連接器、人機互動審批和持續審計，在限制風險的同時實現優勢。

入門

CometAPI 是一個統一的 API 平台，它將來自領先供應商的 500 多個 AI 模型（例如 ChatGPT 系列、Google 的 Gemini、Anthropic 的 Claude、Midjourney、Suno 等）聚合到一個開發者友好的介面中。透過提供一致的身份驗證、請求格式和回應處理，CometAPI 顯著簡化了將 AI 功能整合到您的應用程式中的過程。無論您是建立聊天機器人、影像產生器、音樂作曲家，還是資料驅動的分析流程，CometAPI 都能讓您更快地迭代、控製成本，並保持與供應商的兼容性——同時也能充分利用整個 AI 生態系統的最新突破。

首先，探討 ChatGPT 模型的功能游乐场並諮詢 API指南以獲得詳細說明。造訪前請確保您已經登入CometAPI並取得API金鑰。彗星API 提供遠低於官方價格的價格，幫助您整合。

準備出發了嗎？ → 立即註冊 CometAPI !