OpenAI のエージェント SDK の解説: ガイド

CometAPI
AnnaMar 11, 2025
OpenAI のエージェント SDK の解説: ガイド

OpenAI は、Responses API、Web およびファイル検索用の組み込みツール、コンピュータ使用ツール、オープンソースの Agents SDK など、いくつかの新しいサービスを導入しています。Responses API を使用すると、開発者は自社の技術に基づいてエージェントを構築できますが、Agents SDK を使用すると、エージェントを他の Web ツールやプロセスにリンクして、ユーザーや企業が望むことを自律的に実行する「ワークフロー」を実行できます。

2025 年は「エージェントの年」としてよく称賛されており、OpenAI の動きは業界にとって重要な一歩とみなされています。Agents SDK により、開発者は OpenAI の最新の進歩 (推論の改善、マルチモーダル インタラクション、新しい安全技術など) を現実世界の複数のステップのシナリオで簡単に活用できます。LLM 開発者と AI エージェント ビルダーにとって、Agents SDK は独自の自律 AI システムを作成および管理するための一連の「ビルディング ブロック」を提供します。

Agents SDK の重要性は、AI エージェントを本番環境に導入する際の課題に対処できることにあります。従来、強力な LLM 機能を複数ステップのワークフローに変換するには、多くのカスタム ルールの作成、シーケンシャル プロンプトの設計、適切な可観測性ツールなしでの試行錯誤が必要となり、多大な労力がかかっていました。Agents SDK と、Responses API などの関連する新しい API ツールにより、OpenAI はこのプロセスを大幅に簡素化し、開発者がより少ない労力でより複雑で信頼性の高いエージェントを構築できるようにすることを目指しています。

エージェント SDK

エージェントSDKとは

OpenAI は、エージェント ワークフローの管理、調整、最適化を開発者が行えるように設計されたツールキットである Agents SDK のリリースにより、オープンソースに大きく復帰しています。競合他社の Anthropic や Google などの非 OpenAI モデル、または DeepSeek、Qwen、Mistral、Meta の Llama ファミリーのオープンソース モデルで動作するエージェントの構築も可能です。

エージェントSDKを使用する理由

SDK には、次の 2 つの設計原則があります。

  1. 使用する価値があるほど十分な機能がありますが、すぐに習得できるほどプリミティブは少なくなっています。
  2. すぐに使える状態でも問題なく動作しますが、動作を正確にカスタマイズできます。

SDK の主な機能は次のとおりです。

  • エージェント ループ: ツールの呼び出し、LLM への結果の送信、LLM が完了するまでのループを処理する組み込みエージェント ループ。
  • Python ファースト: 新しい抽象化を学習する必要なく、組み込みの言語機能を使用してエージェントをオーケストレーションおよびチェーン化します。
  • ハンドオフ: 複数のエージェント間で調整および委任を行う強力な機能です。
  • ガードレール: エージェントと並行して入力検証とチェックを実行し、チェックが失敗した場合は早期に中断します。
  • 関数ツール: 自動スキーマ生成と Pydantic による検証を使用して、任意の Python 関数をツールに変換します。
  • トレース: 組み込みのトレースにより、ワークフローを視覚化、デバッグ、監視できるほか、OpenAI の評価、微調整、蒸留ツール スイートも使用できます。

使用方法 Openai エージェント SDK

  1. Python環境を設定する
python -m venv env
source env/bin/activate
  1. エージェント SDK をインストールする
pip install openai-agents
  1. セット OPENAI_API_KEY 環境変数

自由に セット OPENAI_API_KEY CometAPI からの API

  • ログイン 〜へ コムタピまだユーザーでない場合は、まず登録してください
  • アクセス認証情報APIキーを取得する インターフェースの。パーソナルセンターのAPIトークンで「トークンの追加」をクリックし、トークンキー:sk-xxxxxを取得して送信します。
  • このサイトの URL を取得します: https://api.cometapi.com/
  • まず OPENAI_API_KEY エンドポイントはAPIリクエストを送信し、リクエストボディを設定します。リクエストメソッドとリクエストボディは 当社のウェブサイトAPIドキュメント弊社のウェブサイトでは、お客様の便宜を図るため、Apifox テストも提供しています。
  1. エージェントを設定する

AIが使用できるツールを定義します。例えば、 ウェブ検索 および ファイルの取得:

from agent_sdk import Agent, WebSearchTool, FileRetrievalTool

search_tool = WebSearchTool(api_key="your_api_key")
file_tool = FileRetrievalTool()

agent = Agent(tools=)

これで、エージェントは Web を検索してドキュメントを取得する方法を理解できるようになりました。

5.実行します

従来のチャットボットとは異なり、このAIは ユーザーの入力に基づいてどのツールを使用するかを決定します:

def agent_task(query):
    result = agent.use_tool("web_search", query)
    return result

response = agent_task("Latest AI research papers")
print(response)

手動介入なし、 自律的な実行.

エージェントループ

電話するとき Runner.run()、SDK は最終出力が得られるまでループを実行します。

  1. LLM は、エージェントのモデルと設定、およびメッセージ履歴を使用して呼び出されます。
  2. LLM は応答を返しますが、これにはツール呼び出しが含まれる場合があります。
  3. 応答に最終出力がある場合、ループは終了し、それを返します。
  4. 応答にハンドオフがある場合、エージェントは新しいエージェントに設定され、ループはステップ 1 から続行されます。
  5. ツール呼び出しが処理され(ある場合)、ツール応答メッセージが追加されます。その後、ループはステップ 1 から続行されます。

あなたが使用することができます max_turns ループ実行回数を制限するパラメータ。

​,war最終出力

最終出力は、エージェントがループ内で最後に生成するものです。

  • 設定した場合 output_type エージェントでは、LLM が構造化された出力を使用してそのタイプの何かを返すのが最終出力になります。
  • ない場合 output_type (つまり、プレーンテキスト応答) の場合、ツール呼び出しやハンドオフのない最初の LLM 応答が最終出力と見なされます。

Hello Worldの例

from agents import Agent, Runner

agent = Agent(name="Assistant", instructions="You are a helpful assistant")

result = Runner.run_sync(agent, "Write a haiku about recursion in programming.")
print(result.final_output)

# Code within the code,

# Functions calling themselves,
# Infinite loop's dance.

OpenAI のエージェント SDK の解説: ガイド

技術構造

「OpenAI Agents SDK は、ツールのインタラクションと委任メカニズムを介して、「トリアージ エージェント」や「CRM エージェント」などのさまざまなエージェントが連携してタスクを完了する方法を示す概念フレームワークを目指しています。」

エージェント SDK のコア コンポーネントとアーキテクチャ

OpenAI Agents SDKは、簡潔でありながら堅牢な一連の原則に基づいて構築されています。その中核となるのは、 エージェントは、特定の指示に合わせて調整され、さまざまなツールを使用するように装備された言語モデルのインスタンスを表します。エージェントは、質問やタスク定義などのユーザーリクエストを受信することから始まり、これらのタスクを、定義済みのツールを使用する可能性のあるサブタスクに分解し、最終的に完全な応答を提供します。 ツール 機能的には呼び出し可能な関数として記述されます。エージェント SDK を活用することで、任意の Python 関数をツールとしてシームレスに利用でき、Pydantic 経由で提供される入力と出力の自動スキーマ検証が行われます。たとえば、データベース クエリ ツールや Web 検索ツールを表す Python 関数をエージェントのツールキットに直接統合できます。

エージェントSDKのもう一つの中心的な部分は エージェントループは、タスク解決の反復プロセスを定義します。エージェントは、クエリに答えるための最初の試みから始めて、十分な情報があるか、外部アクションを実行する必要があるかを評価します。必要に応じて、エージェントは関連するツールを呼び出し、出力を処理し、タスクを再評価します。このサイクルは、エージェントが「完了しました」という応答でタスクの完了を示すまで繰り返されます。エージェントSDKはこのプロセスを自律的に管理し、ツールの呼び出し、結果の処理、反復的な再試行などの繰り返しタスクを自動化することで開発プロセスを簡素化します。これにより、開発者は、基礎となるメカニズムを気にすることなく、ワークフローとエージェント機能の定義に集中できます。OpenAIはこのアプローチを次のように説明しています。 Pythonファースト、ドメイン固有言語 (DSL) よりも、ループ、条件文、関数呼び出しなどの使い慣れた Python 構造の使用を重視しています。この柔軟性により、開発者はネイティブの Python 構文に依存しながら、相互接続されたエージェントを調整できます。

ハンドオフとマルチエージェントアーキテクチャ

SDKの機能は個々のエージェントにとどまりません。 渡す、タスクは複数のエージェント間で転送できるため、エージェント間でシームレスに連携できます。たとえば、「トリアージエージェント」は、受信したクエリの性質を判断して別の専門エージェントに委任したり、1つのエージェントの出力が別のエージェントの入力として機能したりします。このシステムは、専門エージェントが広範なタスクの個別の部分を実行するワークフローをサポートし、複雑なマルチエージェントアーキテクチャを強化します。OpenAIは、顧客サポートの自動化、調査プロセス、マルチステッププロジェクト、コンテンツ作成、販売業務、さらにはコードレビューなどのスケーラブルなアプリケーション向けにツールキットを設計しました。さらに、 ガードレール エージェントの入力または出力に検証ルールを課すことで信頼性を高めます。たとえば、ガードレールはパラメータ形式のコンプライアンスを強制したり、異常が検出されたときにループを早期に終了したりできるため、実際の操作における非効率的な実行や望ましくない動作などのリスクを軽減できます。

オーケストレーションと監視

タスク実行以外にも、エージェントSDKには強力な 編成 機能、ツールの実行、データフロー、ループ管理を担当します。高度な自動化にもかかわらず、OpenAIは透明性を重視し、開発者にエージェントの活動をリアルタイムで監視するツールを提供します。 トレーシング OpenAI ダッシュボードでアクセスできる機能により、開発者はワークフローを段階的に視覚化し、ツールが呼び出されるタイミング、使用する入力、返す出力を観察できます。このプラットフォームは、OpenAI の監視インフラストラクチャを利用して、エージェント ロジックの実行をトレースとスパンに分解し、エージェントの動作に関する詳細な分析情報を提供します。これにより、開発者はボトルネックの診断、問題のデバッグ、ワークフローの最適化、パフォーマンスの追跡を行うことができます。さらに、トレース アーキテクチャは高度な評価をサポートし、時間の経過とともにエージェントのパフォーマンスを微調整および改善できます。

優位性

OpenAI Agents SDK は、個人の開発者向けであるだけでなく、AI エージェントベースの製品を構築する企業にも大きなメリットをもたらします。まずはメリットから見ていきましょう。

迅速なプロトタイピングと生産: エージェント SDK は、最小限のコードと構成で複雑なエージェントの動作を実装し、アイデアから製品までのサイクルを短縮します。たとえば、主流の暗号プラットフォーム Coinbase は、SDK を使用して、マルチエージェント サポート システムを迅速にプロトタイプ化して展開しています。同様に、エンタープライズ検索アシスタントなどの分野では、企業は SDK の Web およびファイル検索ツールを統合して、迅速に価値を提供できます。オーケストレーションの詳細をオフロードすることで、開発者は製品固有の機能に集中できます。

開発コストの削減: エージェント システムをゼロから構築するには、多大なエンジニアリング投資が必要です。Agents SDK は、ループ管理、API 呼び出しの同期、エラー処理、LLM 用のフォーマットされたツール出力など、一般的なニーズに対応する既製のソリューションを提供することでコストを削減します。また、オープン ソースであるため、企業のニーズに合わせてカスタマイズすることもできます。これはスタートアップにとって大きなメリットであり、限られたリソースで強力なエージェント駆動型製品を作成できます。

トレーサビリティとデバッグ: SDK の統合された追跡ダッシュボードは、ビジネス アプリケーションを変革します。AI が「ブラック ボックス」であるという業界の懸念は、エージェントのすべてのステップをログに記録して監査できるようになりました。カスタマー サポート エージェントが間違った回答をした場合、トレースにはどのツール呼び出しまたはステップが失敗したかが表示されます。OpenAI プラットフォームのログ/トレース画面は、エージェントの監査可能性を向上させます。これは、規制や内部監査の対象となる業界では非常に重要です。これにより、企業は必要に応じて結果を説明できることがわかり、より自信を持って AI を統合できます。

OpenAI の最新モデルとツールへのアクセス: Agents SDK を使用すると、OpenAI のトップ モデル (GPT-4 など) と最新のツール (Web 検索、コード実行) を活用できます。これにより、より弱いモデルに依存する可能性のある代替モデルを構築するよりも品質上の利点が得られます。高精度または最新の情報を必要とするアプリケーション (研究アシスタント、財務分析エージェントなど) の場合、OpenAI モデルのパフォーマンスは大きな利点となります。OpenAI がツールを追加すると (今後さらに多くの統合が予定されています)、SDK ユーザーは簡単にそれらを採用できます。

CometAPI は OpenAI インターフェース プロトコルと完全に互換性があり、シームレスな統合を保証します。モデルとサービスの依存関係 (ロックイン リスク) を回避し、データのプライバシーとセキュリティに関する懸念を軽減し、コストを削減できます。OpenAI の強力なモデルとツールを活用するとコストがかかり、パフォーマンスが制限されることがあります。CometAPI はより安価な価格を提供します。

関連するトピック CometAPI: 究極の AI モデル統合プラットフォーム

結論

OpenAI は、Responses API などの革新的なサービスを通じて AI 機能の向上に取り組んでいます。これらのツールを導入することで、企業や開発者は、よりスマートで適応性に優れ、信頼性の高い AI ソリューションを構築できるようになります。これらの開発は、人工知能が今後も影響力のある変化をもたらし、業界全体で新たな可能性を切り拓く未来を示しています。

もっと読む

1つのAPIで500以上のモデル

最大20%オフ