OpenAI đang giới thiệu một số dịch vụ mới: Responses API, công cụ tích hợp để tìm kiếm trên web và tệp, công cụ sử dụng máy tính và Agents SDK nguồn mở. Trong khi Responses API cho phép các nhà phát triển xây dựng các tác nhân trên công nghệ của nó, Agents SDK có thể giúp họ liên kết các tác nhân với các công cụ và quy trình web khác, thực hiện "quy trình công việc" thực hiện những gì người dùng hoặc doanh nghiệp muốn, một cách tự động.
Năm 2025 thường được ca ngợi là “Năm của các tác nhân” và động thái của OpenAI được coi là một bước tiến quan trọng đối với ngành. SDK của Agents cho phép các nhà phát triển dễ dàng tận dụng những tiến bộ mới nhất của OpenAI (như lý luận được cải thiện, tương tác đa phương thức và các kỹ thuật an toàn mới) trong các tình huống thực tế, nhiều bước. Đối với các nhà phát triển LLM và nhà xây dựng tác nhân AI, SDK của Agents cung cấp một bộ “khối xây dựng” để tạo và quản lý các hệ thống AI tự động của riêng họ.
Tầm quan trọng của Agents SDK nằm ở khả năng giải quyết những thách thức khi triển khai các tác nhân AI trong môi trường sản xuất. Theo truyền thống, việc chuyển đổi các khả năng LLM mạnh mẽ thành các quy trình làm việc nhiều bước đòi hỏi nhiều công sức, đòi hỏi nhiều quy tắc tùy chỉnh, thiết kế lời nhắc tuần tự và thử nghiệm mà không có công cụ quan sát phù hợp. Với Agents SDK và các công cụ API mới liên quan như Responses API, OpenAI hướng đến mục tiêu đơn giản hóa đáng kể quy trình này, cho phép các nhà phát triển xây dựng các tác nhân phức tạp và đáng tin cậy hơn với ít nỗ lực hơn.

Agents SDK là gì
OpenAI đang quay trở lại với mã nguồn mở theo cách mạnh mẽ nhất bằng việc phát hành Agents SDK, một bộ công cụ được thiết kế để giúp các nhà phát triển quản lý, phối hợp và tối ưu hóa quy trình làm việc của tác nhân — thậm chí xây dựng các tác nhân được hỗ trợ bởi các mô hình khác không phải OpenAI như các mô hình của đối thủ cạnh tranh Anthropic và Google, hoặc các mô hình mã nguồn mở từ DeepSeek, Qwen, Mistral và họ Llama của Meta.
Tại sao nên sử dụng SDK của Agents
SDK có hai nguyên tắc thiết kế chủ đạo:
- Đủ tính năng đáng để sử dụng, nhưng lại quá ít chức năng cơ bản khiến người dùng học nhanh.
- Hoạt động tốt ngay khi cài đặt, nhưng bạn có thể tùy chỉnh chính xác những gì sẽ xảy ra.
Sau đây là các tính năng chính của SDK:
- Vòng lặp tác nhân: Vòng lặp tác nhân tích hợp xử lý các công cụ gọi, gửi kết quả đến LLM và lặp lại cho đến khi LLM hoàn tất.
- Ưu tiên Python: Sử dụng các tính năng ngôn ngữ tích hợp để sắp xếp và liên kết các tác nhân, thay vì phải học các khái niệm trừu tượng mới.
- Chuyển giao: Một tính năng mạnh mẽ để phối hợp và phân công giữa nhiều tác nhân.
- Biện pháp phòng ngừa: Chạy xác thực và kiểm tra đầu vào song song với các tác nhân của bạn, dừng sớm nếu kiểm tra không thành công.
- Công cụ chức năng: Biến bất kỳ hàm Python nào thành công cụ, với chức năng tạo lược đồ tự động và xác thực dựa trên Pydantic.
- Theo dõi: Theo dõi tích hợp cho phép bạn trực quan hóa, gỡ lỗi và giám sát quy trình làm việc, cũng như sử dụng bộ công cụ đánh giá, tinh chỉnh và chắt lọc của OpenAI.
Cách Sử dụng SDK của tác nhân Openai
- Thiết lập môi trường Python của bạn
python -m venv env
source env/bin/activate
- Cài đặt SDK Agents
pip install openai-agents
- thiết lập
OPENAI_API_KEYbiến môi trường
Tự do thiết lập OPENAI_API_KEY API từ CometAPI
- Đăng nhập đến cometapi.com. Nếu bạn chưa phải là người dùng của chúng tôi, vui lòng đăng ký trước
- Nhận khóa API thông tin xác thực truy cập của giao diện. Nhấp vào “Thêm mã thông báo” tại mã thông báo API trong trung tâm cá nhân, lấy khóa mã thông báo: sk-xxxxx và gửi.
- Lấy url của trang web này: https://api.cometapi.com/
- Chọn hình ba gạch
OPENAI_API_KEYđiểm cuối để gửi yêu cầu API và thiết lập nội dung yêu cầu. Phương thức yêu cầu và nội dung yêu cầu được lấy từ tài liệu API trang web của chúng tôi. Trang web của chúng tôi cũng cung cấp xét nghiệm Apifox để thuận tiện cho bạn.
- Thiết lập đại lý của bạn
Xác định những công cụ mà AI của bạn có thể sử dụng. Giả sử chúng ta muốn kích hoạt tìm kiếm trên web và truy xuất tập tin:
from agent_sdk import Agent, WebSearchTool, FileRetrievalTool
search_tool = WebSearchTool(api_key="your_api_key")
file_tool = FileRetrievalTool()
agent = Agent(tools=)
Bây giờ, người đại diện của bạn đã biết cách tìm kiếm trên web và lấy tài liệu.
5. chạy
Không giống như các chatbot truyền thống, AI này quyết định sử dụng công cụ nào dựa trên thông tin đầu vào của người dùng:
def agent_task(query):
result = agent.use_tool("web_search", query)
return result
response = agent_task("Latest AI research papers")
print(response)
Không có sự can thiệp thủ công—chỉ cần thực hiện tự chủ.
Vòng lặp đại lý
Khi bạn gọi Runner.run(), SDK chạy vòng lặp cho đến khi nhận được kết quả đầu ra cuối cùng:
- LLM được gọi bằng cách sử dụng mô hình và cài đặt trên tác nhân, cùng với lịch sử tin nhắn.
- LLM trả về phản hồi, có thể bao gồm các lệnh gọi công cụ.
- Nếu phản hồi có đầu ra cuối cùng, vòng lặp sẽ kết thúc và trả về đầu ra đó.
- Nếu phản hồi có sự chuyển giao, tác nhân sẽ được chuyển sang tác nhân mới và vòng lặp tiếp tục từ bước 1.
- Các lệnh gọi công cụ được xử lý (nếu có) và các thông báo phản hồi công cụ được thêm vào. Sau đó, vòng lặp tiếp tục từ bước 1.
Bạn có thể sử dụng max_turns tham số để giới hạn số lần thực hiện vòng lặp.
â € <Output thức
Đầu ra cuối cùng là thứ cuối cùng mà tác nhân tạo ra trong vòng lặp:
- Nếu bạn thiết lập một
output_typetrên tác nhân, đầu ra cuối cùng là khi LLM trả về thứ gì đó có kiểu như vậy bằng cách sử dụng đầu ra có cấu trúc. - Nếu không có
output_type(tức là phản hồi dạng văn bản thuần túy), thì phản hồi LLM đầu tiên không có bất kỳ lệnh gọi công cụ hoặc chuyển giao nào được coi là đầu ra cuối cùng.
Ví dụ xin chào thế giới
from agents import Agent, Runner
agent = Agent(name="Assistant", instructions="You are a helpful assistant")
result = Runner.run_sync(agent, "Write a haiku about recursion in programming.")
print(result.final_output)
# Code within the code,
# Functions calling themselves,
# Infinite loop's dance.

Cấu trúc kỹ thuật
“OpenAI Agents SDK hướng đến mục tiêu trở thành một khuôn khổ khái niệm chứng minh cách các tác nhân khác nhau, chẳng hạn như 'Triage Agent' hoặc 'CRM Agent', có thể hợp tác để hoàn thành nhiệm vụ thông qua tương tác công cụ và cơ chế phân quyền.”
Các thành phần cốt lõi và kiến trúc của SDK Agents
OpenAI Agents SDK được xây dựng trên một bộ nguyên tắc ngắn gọn nhưng mạnh mẽ. Cốt lõi của nó là khái niệm về Đại lý, biểu diễn một trường hợp của mô hình ngôn ngữ được thiết kế riêng với các hướng dẫn cụ thể và được trang bị để sử dụng nhiều công cụ khác nhau. Các tác nhân bắt đầu bằng cách nhận các yêu cầu của người dùng — chẳng hạn như câu hỏi hoặc định nghĩa nhiệm vụ — sau đó chia nhỏ các nhiệm vụ này thành các nhiệm vụ phụ có thể liên quan đến việc sử dụng các công cụ được xác định trước, cuối cùng đưa ra phản hồi hoàn chỉnh. Những CÔNG CỤ được mô tả về mặt chức năng là các hàm có thể gọi được; tận dụng SDK của Agents, bất kỳ hàm Python nào cũng có thể hoạt động như một công cụ một cách liền mạch, với xác thực lược đồ tự động cho các đầu vào và đầu ra được cung cấp thông qua Pydantic. Ví dụ, các hàm Python biểu diễn một công cụ truy vấn cơ sở dữ liệu hoặc một công cụ tìm kiếm trên web có thể được tích hợp trực tiếp vào bộ công cụ của một tác nhân.
Một phần trung tâm khác của SDK Agents là Vòng lặp đại lý, định nghĩa quy trình lặp lại của giải quyết nhiệm vụ. Bắt đầu bằng nỗ lực ban đầu để trả lời truy vấn, một tác nhân đánh giá xem nó có đủ thông tin hay cần thực hiện các hành động bên ngoài. Khi cần, tác nhân sẽ gọi một công cụ có liên quan, xử lý đầu ra và đánh giá lại nhiệm vụ. Chu kỳ này lặp lại cho đến khi tác nhân biểu thị hoàn thành nhiệm vụ bằng phản hồi "Tôi xong". SDK của tác nhân quản lý quy trình này một cách tự động, đơn giản hóa quy trình phát triển bằng cách tự động hóa các tác vụ định kỳ như gọi công cụ, xử lý kết quả và thử lại lặp lại. Điều này cho phép các nhà phát triển tập trung nhiều hơn vào việc xác định quy trình công việc và khả năng của tác nhân mà không phải lo lắng về cơ chế cơ bản. OpenAI mô tả cách tiếp cận này là Python đầu tiên, nhấn mạnh việc sử dụng các cấu trúc Python quen thuộc — chẳng hạn như vòng lặp, điều kiện và lệnh gọi hàm — trên các ngôn ngữ dành riêng cho miền (DSL). Với tính linh hoạt này, các nhà phát triển có thể sắp xếp các tác nhân được kết nối với nhau trong khi vẫn dựa vào cú pháp Python gốc.
Kiến trúc Handoff và Multi-Agent
Khả năng của SDK vượt xa các tác nhân riêng lẻ. Thông qua một tính năng được gọi là Bàn giao, các tác vụ có thể chuyển giữa nhiều tác nhân, cho phép chúng cộng tác liền mạch. Ví dụ, "Triage Agent" có thể xác định bản chất của truy vấn đến, chuyển giao cho một tác nhân chuyên biệt khác hoặc đầu ra của một tác nhân có thể đóng vai trò là đầu vào cho một tác nhân khác. Hệ thống này hỗ trợ các quy trình công việc trong đó các tác nhân chuyên biệt thực hiện các phần riêng biệt của một tác vụ rộng hơn, trao quyền cho các kiến trúc đa tác nhân phức tạp. OpenAI đã thiết kế bộ công cụ cho các ứng dụng có thể mở rộng quy mô, chẳng hạn như tự động hóa hỗ trợ khách hàng, quy trình nghiên cứu, dự án nhiều bước, tạo nội dung, hoạt động bán hàng hoặc thậm chí là đánh giá mã. Ngoài ra, Bảo vệ tăng cường độ tin cậy bằng cách áp dụng các quy tắc xác thực vào đầu vào hoặc đầu ra của tác nhân. Ví dụ, các rào chắn có thể thực thi việc tuân thủ định dạng tham số hoặc chấm dứt vòng lặp sớm khi phát hiện ra các bất thường, giảm thiểu rủi ro như thực hiện không hiệu quả hoặc hành vi không mong muốn trong các hoạt động thực tế.
Điều phối và giám sát
Ngoài việc thực hiện nhiệm vụ, SDK của Agents bao gồm các tính năng mạnh mẽ dàn nhạc tính năng, chịu trách nhiệm thực hiện công cụ, luồng dữ liệu và quản lý vòng lặp. Mặc dù có mức độ tự động hóa cao, OpenAI ưu tiên tính minh bạch, trang bị cho các nhà phát triển các công cụ để theo dõi hoạt động của tác nhân theo thời gian thực. Thông qua Truy tìm tính năng có thể truy cập trong bảng điều khiển OpenAI, các nhà phát triển có thể trực quan hóa quy trình làm việc, từng bước, quan sát khi các công cụ được gọi, các đầu vào mà chúng sử dụng và các đầu ra mà chúng trả về. Nền tảng này sử dụng cơ sở hạ tầng giám sát của OpenAI để chia nhỏ quá trình thực thi logic của tác nhân thành các dấu vết và khoảng thời gian, cung cấp thông tin chi tiết về hành vi của tác nhân. Điều này giúp các nhà phát triển chẩn đoán các điểm nghẽn, gỡ lỗi sự cố, tối ưu hóa quy trình làm việc và theo dõi hiệu suất. Hơn nữa, kiến trúc theo dõi hỗ trợ các đánh giá phức tạp, cho phép tinh chỉnh và cải thiện hiệu suất của tác nhân theo thời gian.
Ưu điểm
OpenAI Agents SDK không chỉ dành cho các nhà phát triển cá nhân mà còn mang lại những lợi thế đáng kể cho các công ty xây dựng sản phẩm dựa trên tác nhân AI. Hãy bắt đầu với những lợi thế:
Tạo mẫu và sản xuất nhanh: Agents SDK triển khai các hành vi phức tạp của tác nhân với mã và cấu hình tối thiểu, rút ngắn chu kỳ từ ý tưởng đến sản phẩm. Ví dụ, nền tảng tiền điện tử chính thống Coinbase sử dụng SDK để nhanh chóng tạo nguyên mẫu và triển khai các hệ thống hỗ trợ đa tác nhân. Tương tự như vậy, trong các lĩnh vực như trợ lý tìm kiếm doanh nghiệp, các công ty có thể tích hợp các công cụ tìm kiếm tệp và web của SDK để nhanh chóng cung cấp giá trị. Bằng cách dỡ bỏ các chi tiết phối hợp, các nhà phát triển có thể tập trung vào các tính năng cụ thể của sản phẩm.
Giảm chi phí phát triển: Xây dựng một hệ thống đại lý từ đầu đòi hỏi một khoản đầu tư kỹ thuật đáng kể. Agents SDK giúp giảm chi phí bằng cách cung cấp các giải pháp có sẵn cho các nhu cầu chung – quản lý vòng lặp, đồng bộ hóa lệnh gọi API, xử lý lỗi và đầu ra công cụ được định dạng cho LLM. Là mã nguồn mở, nó cũng cho phép tùy chỉnh để đáp ứng nhu cầu của công ty. Đây là một lợi ích cho các công ty khởi nghiệp, cho phép họ tạo ra các sản phẩm mạnh mẽ do đại lý điều khiển với nguồn lực hạn chế.
Khả năng truy xuất và gỡ lỗi: Bảng điều khiển theo dõi tích hợp của SDK chuyển đổi các ứng dụng kinh doanh. Mối quan tâm của ngành về AI là một "hộp đen" hiện cho phép mọi bước của tác nhân được ghi lại và kiểm toán. Nếu một tác nhân hỗ trợ khách hàng đưa ra câu trả lời sai, dấu vết sẽ hiển thị lệnh gọi công cụ hoặc bước nào không thành công. Màn hình theo dõi/nhật ký của Nền tảng OpenAI cải thiện khả năng kiểm toán của các tác nhân — rất quan trọng trong các ngành phải tuân theo quy định hoặc kiểm toán nội bộ. Điều này cho phép các công ty tích hợp AI với sự tự tin hơn, biết rằng họ có thể giải thích kết quả khi cần.
Truy cập vào các mô hình và công cụ mới nhất của OpenAI: Sử dụng SDK Agents có nghĩa là tận dụng các mô hình hàng đầu của OpenAI (ví dụ: GPT-4) và các công cụ hiện tại (tìm kiếm trên web, thực thi mã). Điều này mang lại lợi thế về chất lượng so với việc xây dựng các giải pháp thay thế có thể dựa vào các mô hình yếu hơn. Đối với các ứng dụng yêu cầu thông tin chính xác cao hoặc cập nhật (ví dụ: trợ lý nghiên cứu, đại lý phân tích tài chính), hiệu suất của các mô hình OpenAI là một lợi thế lớn. Khi OpenAI bổ sung các công cụ (gợi ý về nhiều tích hợp hơn nữa), người dùng SDK có thể dễ dàng áp dụng chúng.
CometAPI hoàn toàn tương thích với giao thức giao diện OpenAI để đảm bảo tích hợp liền mạch. Bạn có thể tránh phụ thuộc vào mô hình và dịch vụ (rủi ro khóa), giảm các mối lo ngại về quyền riêng tư và bảo mật dữ liệu và giảm chi phí. Việc tận dụng các mô hình và công cụ mạnh mẽ của OpenAI có thể tốn kém và đôi khi hạn chế hiệu suất. CometAPI cung cấp mức giá rẻ hơn.
Chủ đề liên quan CometAPI: Nền tảng tích hợp mô hình AI tối ưu
Kết luận
OpenAI chuyên phát triển các khả năng AI với các dịch vụ sáng tạo như API Responses. Bằng cách giới thiệu các công cụ này, các doanh nghiệp và nhà phát triển có cơ hội xây dựng các giải pháp AI thông minh hơn, thích ứng hơn và có độ tin cậy cao. Những phát triển này chỉ ra một tương lai mà trí tuệ nhân tạo tiếp tục thúc đẩy những thay đổi có tác động và mở ra những khả năng mới trong nhiều ngành.



