OpenAI 正在推出多項新產品:Responses API、用於網頁與檔案搜尋的內建工具、一個電腦使用工具,以及開源的 Agents SDK。Responses API 讓開發者能在其技術之上構建代理,而 Agents SDK 則可幫助他們將代理連結到其他網路工具與流程,以自主方式執行滿足使用者或企業需求的「工作流程」。
2025 年常被稱為「代理之年」,而 OpenAI 的此番舉措被視為業界關鍵一步。Agents SDK 允許開發者在真實的多步情境中,輕鬆運用 OpenAI 的最新進展(例如更佳的推理能力、多模態互動與全新的安全技術)。對於 LLM 開發者與 AI 代理構建者而言,Agents SDK 提供一套「積木」,可用以創建並管理其自有的自主式 AI 系統。
Agents SDK 的意義在於解決將 AI 代理部署到生產環境的挑戰。傳統上,將強大的 LLM 能力轉化為多步驟工作流程非常耗時,通常需要大量的自訂規則撰寫、序列化提示設計,以及在缺乏合適可觀測性工具的情況下反覆試錯。有了 Agents SDK 與相關的新 API 工具(如 Responses API),OpenAI 旨在大幅簡化此過程,使開發者能以更少的精力構建更複雜且更可靠的代理。

What is Agents SDK
OpenAI 隨著 Agents SDK 的發布,正大幅回歸開源。這是一套工具包,旨在幫助開發者管理、協調與最佳化代理工作流程——甚至能構建由其他、非 OpenAI 模型驅動的代理,例如競爭對手 Anthropic 與 Google 的模型,或來自 DeepSeek、Qwen、Mistral 與 Meta 的 Llama 系列等開源模型。
Why use the Agents SDK
該 SDK 的兩項核心設計原則:
- 功能足夠實用,但原語足夠精簡,便於快速上手。
- 開箱即用體驗出色,同時可精準自訂執行細節。
以下是 SDK 的主要功能:
- Agent loop: 內建代理迴圈,處理呼叫工具、將結果回傳給 LLM,並持續迴圈直到 LLM 完成。
- Python-first: 使用原生語言特性來編排與串接代理,無需學習新的抽象。
- Handoffs: 一項強大的功能,可在多個代理間協調與委派。
- Guardrails: 與代理並行執行輸入驗證與檢查,若檢查失敗則可提早中止。
- Function tools: 將任何 Python 函式轉為工具,並提供自動架構生成與基於 Pydantic 的驗證。
- Tracing: 內建追蹤,讓你可視覺化、除錯與監控工作流程,並使用 OpenAI 的評估、微調與蒸餾工具套件。
How to use Openai Agents SDK
- 設定你的 Python 環境
python -m venv env
source env/bin/activate
- 安裝 Agents SDK
pip install openai-agents
- 設定
OPENAI_API_KEY環境變數
通過 CometAPI 自由設定 OPENAI_API_KEY API
- 登入 cometapi.com。若尚未成為使用者,請先註冊
- 在介面中取得存取憑證 API 金鑰。在個人中心的 API token 中點擊「Add Token」,取得 token 金鑰:sk-xxxxx 並提交。
- 取得站點的 URL:https://api.cometapi.com/
- 選擇
OPENAI_API_KEY端點發送 API 請求並設定請求體。請求方法與請求體可從我們的網站 API 文件獲取。我們的網站也提供 Apifox 測試以便你使用。
- 設定你的 Agent
定義你的 AI 可以使用哪些工具。假設我們要啟用網頁搜尋與檔案擷取:
from agent_sdk import Agent, WebSearchTool, FileRetrievalTool
search_tool = WebSearchTool(api_key="your_api_key")
file_tool = FileRetrievalTool()
agent = Agent(tools=)
現在你的代理已經知道如何搜尋網路並抓取文件。
5. 執行
與傳統聊天機器人不同,這個 AI 會根據使用者輸入來決定使用哪個工具:
def agent_task(query):
result = agent.use_tool("web_search", query)
return result
response = agent_task("Latest AI research papers")
print(response)
無需人工干預——就是自主執行。
代理迴圈
當你呼叫 Runner.run() 時,SDK 會運行一個迴圈,直到取得最終輸出為止:
- 使用代理上設定的模型與參數,連同訊息歷史,呼叫 LLM。
- LLM 回傳回應,其中可能包含工具呼叫。
- 若回應包含最終輸出,迴圈結束並回傳該輸出。
- 若回應包含 handoff,代理會切換為新代理,並從步驟 1 繼續。
- 處理工具呼叫(若有),並附加工具回應訊息。然後從步驟 1 繼續。
你可以使用 max_turns 參數限制迴圈執行次數。
最終輸出
最終輸出是代理在迴圈中產生的最後結果:
- 如果你在代理上設定了
output_type,則當 LLM 使用結構化輸出回傳該型別的內容時,即為最終輸出。 - 若沒有
output_type(即純文字回應),則第一個沒有任何工具呼叫或 handoff 的 LLM 回應視為最終輸出。
Hello world 範例
from agents import Agent, Runner
agent = Agent(name="Assistant", instructions="You are a helpful assistant")
result = Runner.run_sync(agent, "Write a haiku about recursion in programming.")
print(result.final_output)
# Code within the code,
# Functions calling themselves,
# Infinite loop's dance.

Technical Structure
「The OpenAI Agents SDK aims to be a conceptual framework demonstrating how different agents, such as a ‘Triage Agent’ or a ‘CRM Agent,’ can collaborate to complete tasks via tool interactions and delegation mechanisms.」
Core Components and Architecture of Agents SDK
OpenAI 的 Agents SDK 建立在一套精簡而穩健的原則之上。其核心概念是 Agent,代表以特定指令進行定製並具備使用多種工具能力的語言模型實例。代理從接收使用者請求開始——例如問題或任務定義——接著將任務拆解為若干子任務,可能涉及使用預先定義的工具,最終交付完整回應。這些 Tools 在功能上被描述為可呼叫函式;借助 Agents SDK,任何 Python 函式都能無縫成為工具,並透過 Pydantic 提供的自動化輸入與輸出結構驗證。例如,表示資料庫查詢工具或網頁搜尋工具的 Python 函式可以直接整合到代理的工具箱中。
另一個關鍵組件是 Agent Loop,它定義了任務求解的迭代流程。代理從嘗試回答查詢開始,評估是否具備足夠資訊,或是否需要執行外部動作。必要時,代理會呼叫相關工具、處理輸出,再次評估任務。該循環會重複,直到代理以「我完成了」的回應表示任務完成。Agents SDK 自主管理此過程,簡化開發流程,將工具呼叫、結果處理與迭代重試等重複性工作自動化。這使開發者能更專注於定義工作流程與代理能力,而不用擔心底層機制。OpenAI 將此方法描述為 Python-first,強調使用熟悉的 Python 結構——例如迴圈、條件與函式呼叫——而非網域特定語言(DSL)。借助此彈性,開發者可以在原生 Python 語法之上協調相互連動的代理。
Handoff and Multi-Agent Architecture
SDK 的能力不僅限於單一代理。透過稱為 Handoff 的功能,任務可以在多個代理間轉交,讓它們無縫協作。例如,「Triage Agent」可以判定輸入查詢的性質,並委派給另一個專門代理;或是一個代理的輸出可作為另一個代理的輸入。此系統支援由專門代理分別執行更大任務中不同部分的工作流程,從而強化複雜的多代理架構。此外,Guardrails 透過對代理輸入或輸出施加驗證規則提升可靠性。例如,Guardrails 可以強制參數格式合規,或在偵測到異常時提早終止迴圈,藉此降低在真實運營中產生低效執行或不良行為的風險。
Orchestration and Monitoring
除了任務執行之外,Agents SDK 還提供強大的編排功能,負責工具執行、資料流與迴圈管理。儘管自動化程度很高,OpenAI 仍將透明度置於優先,為開發者配備能即時監控代理活動的工具。透過內建的 Tracing 並可在 OpenAI 儀表板中存取,開發者能逐步視覺化工作流程,觀察工具何時被呼叫、使用了哪些輸入,以及回傳了哪些輸出。平台利用 OpenAI 的監控基礎設施,將代理邏輯的執行分解為 traces 與 spans,提供對代理行為的細緻洞察。這讓開發者能診斷瓶頸、除錯問題、最佳化工作流程並追蹤效能。另外,追蹤架構也支援更高階的評估,從而能隨時間微調與改進代理表現。
Advantages
OpenAI Agents SDK 不僅適用於個人開發者,對於打造基於 AI 代理產品的公司也有顯著優勢。以下從優勢面切入:
快速原型與投產: Agents SDK 以最少的程式碼與設定實作複雜代理行為,縮短從想法到產品的周期。例如,主流加密貨幣平台 Coinbase 使用 SDK 快速完成多代理客服系統的原型與部署。同樣地,在企業搜尋助理等場景中,公司可整合 SDK 的網頁與檔案搜尋工具,快速交付價值。透過卸載編排細節,開發者能專注於產品特定功能。
降低開發成本: 從零開始構建代理系統需要大量工程投入。Agents SDK 透過為常見需求提供現成方案——迴圈管理、API 呼叫同步、錯誤處理、以及面向 LLM 的格式化工具輸出——來降低成本。由於其開源,也便於依公司需求進行客製化。這對新創尤其有利,使其能以有限資源打造強大的代理驅動產品。
可追溯性與除錯: SDK 整合的追蹤儀表板使商業應用受益。業界對 AI 是「黑盒」的顧慮,如今可讓每一步代理行為被記錄與稽核。若客服代理給出錯誤答案,追蹤會顯示是哪一次工具呼叫或步驟失敗。OpenAI 平台的日誌/追蹤畫面提升了代理的可稽核性——對受監管或內部稽核的行業至關重要。公司因此能更有信心地整合 AI,因為在需要時可以解釋結果。
存取 OpenAI 最新模型與工具: 使用 Agents SDK 意味著可用上 OpenAI 的頂尖模型(如 GPT-4)與現有工具(網頁搜尋、程式碼執行)。相較於依賴較弱模型的替代方案,這在品質上具優勢。對於需要高準確度或即時資訊的應用(如研究助理、財務分析代理),OpenAI 模型的表現是一大優勢。隨著 OpenAI 持續加入工具(暗示將有更多整合),SDK 使用者能輕鬆採用。
CometAPI 完全相容於 OpenAI 介面協議,確保無縫整合。你可以避免模型與服務依賴(鎖定風險)、降低資料隱私與安全顧慮,並降低成本。運用 OpenAI 的強大模型與工具可能昂貴且有時會限制效能。CometAPI 提供更便宜的價格。
Conclusion
OpenAI 致力於以 Responses API 等創新產品推進 AI 能力。透過引入這些工具,企業與開發者有機會構建更智慧、更具適應性且高度可靠的 AI 解決方案。這些發展指向一個未來:人工智慧將持續帶來深遠影響,並在各行各業解鎖更多可能性。
