OpenAI chính thức công bố bước tiến mới nhất trong lĩnh vực năng suất dựa trên AI: ChatGPT Agent. Tính năng mới này biến ChatGPT từ một trợ lý hội thoại thành một tác nhân kỹ thuật số chủ động, có khả năng tự động thực hiện các tác vụ phức tạp, nhiều bước thay mặt người dùng. Thông báo được đưa ra trong buổi phát trực tiếp với sự tham gia của CEO Sam Altman, khẳng định ChatGPT Agent là một bước tiến vượt bậc trong ứng dụng AI và đánh dấu một thời điểm then chốt trong quá trình phát triển của trợ lý thông minh.
Khả năng chính
ChatGPT Agent tích hợp môi trường "máy tính ảo", cho phép nó suy luận, lập kế hoạch và thực hiện các tác vụ trên giao diện web, tài liệu và dịch vụ của bên thứ ba mà không cần can thiệp thủ công. Các chức năng cốt lõi bao gồm:
- Duyệt web & Nghiên cứu: Tiến hành nghiên cứu chuyên sâu trên các trang web công cộng và các tệp đã tải lên, thu thập và tổng hợp thông tin.
- Điền biểu mẫu & Giao dịch: Hoàn thành biểu mẫu trực tuyến, đặt hàng và quản lý các đặt chỗ (ví dụ: đặt chuyến bay, đặt bữa tối) với các hành động được người dùng chấp thuận.
- Tạo tài liệu và slide: Tạo các bài thuyết trình PowerPoint có thể chỉnh sửa và bảng tính Excel, cho phép người dùng nhận được các sản phẩm được định dạng đầy đủ trực tiếp từ đại lý.
Quy trình triển khai
Người dùng có thể kích hoạt ChatGPT Agent thông qua nút chuyển đổi "chế độ tác nhân" trong menu thả xuống công cụ của giao diện ChatGPT. Sau khi được bật, tác nhân sẽ tường thuật các hành động của mình theo thời gian thực, mang lại sự minh bạch cho từng bước của quy trình. Tại bất kỳ thời điểm nào, người dùng vẫn giữ toàn quyền kiểm soát—quyền được yêu cầu rõ ràng trước bất kỳ hành động tiếp theo nào (ví dụ: gửi email, mua hàng), và các tác vụ có thể bị gián đoạn hoặc chuyển hướng giữa chừng.
Tính năng này tận dụng "trình kết nối" để giao tiếp với tài khoản người dùng và các ứng dụng của bên thứ ba. Trong khi trình kết nối giúp đơn giản hóa quy trình làm việc (chẳng hạn như quản lý lịch hoặc tóm tắt hộp thư đến), lời nhắc đăng nhập thủ công đảm bảo bảo mật mạnh mẽ và bảo vệ quyền riêng tư dữ liệu.
Sự tiến hóa từ Nhà điều hành và Nghiên cứu sâu
ChatGPT Agent được xây dựng dựa trên bộ công cụ trước đó của OpenAI—Operator và Deep Research—bằng cách kết hợp các thế mạnh của chúng thành một nền tảng thống nhất. Tự động hóa dựa trên trình duyệt của Operator đã được tích hợp vào trình duyệt ảo của Agent, trong khi khả năng phân tích nguồn web tự động của Deep Research giờ đây là một phần liền mạch trong bộ công cụ của Agent. Do giao diện độc lập của Operator sẽ không còn được sử dụng trong những tuần tới, người dùng sẽ chuyển sang môi trường Agent linh hoạt hơn cho tất cả các tác vụ của Agent.
Tính khả dụng và quyền truy cập
ChatGPT Agent ban đầu có sẵn cho những người đăng ký trên pro, Hơnvà Nhóm nghiên cứu các cấp độ của ChatGPT. Việc kích hoạt đơn giản như chọn "chế độ tác nhân" từ danh sách thả xuống công cụ hoặc nhập /agent lệnh trong bất kỳ phiên trò chuyện nào. Việc triển khai cho người dùng Plus và Team có thể được thực hiện xen kẽ trong vài ngày, và dự kiến sẽ được triển khai đầy đủ tại Khu vực Kinh tế Châu Âu (EEA) và Thụy Sĩ vào cuối mùa hè năm 2025. Khách hàng Doanh nghiệp và Giáo dục có thể mong đợi quyền truy cập trong tương lai gần như một phần của chiến lược triển khai theo từng giai đoạn của OpenAI.
Các biện pháp an toàn và quyền riêng tư
Để giải quyết những lo ngại về hành động AI tự động, OpenAI đã nhúng nhiều lớp an toàn vào ChatGPT Agent:
- Sự đồng ý rõ ràng: Bất kỳ hành động nào tác động đến hệ thống thực tế đều cần có yêu cầu cấp phép rõ ràng.
- Khả năng ngắt quãng: Người dùng có thể tạm dừng hoặc ghi đè các tác vụ ở bất kỳ giai đoạn nào, đảm bảo phù hợp với mục tiêu của họ.
- Đánh dấu rủi ro:Hệ thống đánh dấu các yêu cầu có khả năng gây nguy hiểm hoặc phi đạo đức, tạm dừng thực hiện và thông báo cho người dùng để xác nhận.
Các biện pháp này nhấn mạnh cam kết của OpenAI về việc triển khai AI có trách nhiệm và nhằm mục đích giảm thiểu lỗi hoặc việc sử dụng sai trong các quy trình làm việc phức tạp.
Bắt đầu
CometAPI cung cấp giao diện REST thống nhất tổng hợp hàng trăm mô hình AI—dưới một điểm cuối nhất quán, với quản lý khóa API tích hợp, hạn ngạch sử dụng và bảng điều khiển thanh toán. Thay vì phải xử lý nhiều URL và thông tin xác thực của nhà cung cấp.
Trong khi chờ đợi, Nhà phát triển có thể truy cập API O4-Mini ,Giao diện lập trình O3 và API GPT-4.1 thông qua Sao chổiAPI, các mô hình mới nhất được liệt kê là tính đến ngày xuất bản bài viết. Để bắt đầu, hãy khám phá khả năng của mô hình trong Sân chơi và tham khảo ý kiến Hướng dẫn API để biết hướng dẫn chi tiết. Trước khi truy cập, vui lòng đảm bảo bạn đã đăng nhập vào CometAPI và lấy được khóa API. Sao chổiAPI cung cấp mức giá thấp hơn nhiều so với giá chính thức để giúp bạn tích hợp.
Kết luận
ChatGPT Agent của OpenAI đại diện cho một bước tiến đột phá trong AI đàm thoại, biến các hệ thống đối thoại thụ động thành các đối tác kỹ thuật số chủ động, có khả năng thực hiện các tác vụ đầu cuối. Bằng cách kết hợp khả năng nghiên cứu chuyên sâu với các hành động an toàn, được cấp phép, OpenAI hướng đến việc cung cấp một trợ lý thế hệ tiếp theo, vừa có thể tư duy phản biện vừa hành động quyết đoán thay mặt người dùng. Khi tính năng này được triển khai trên các gói Pro, Plus và Team—và cuối cùng là trong lĩnh vực doanh nghiệp—hệ sinh thái công nghệ rộng lớn hơn sẽ theo dõi sát sao cách AI đại diện định hình lại năng suất, chuẩn mực về quyền riêng tư và động lực cạnh tranh trong bối cảnh phần mềm. Việc tiếp tục chú trọng vào các biện pháp bảo mật và khuôn khổ đạo đức sẽ là điều cần thiết để khai thác hết tiềm năng của ChatGPT Agent, đồng thời bảo vệ người dùng khỏi những hậu quả không mong muốn.
