Cách sử dụng chế độ tác nhân ChatGPT từng bước

CometAPI
AnnaOct 8, 2025
Cách sử dụng chế độ tác nhân ChatGPT từng bước

Vào giữa năm 2025, OpenAI đã phát hành Chế độ tác nhân ChatGPT — một khả năng cho phép ChatGPT không chỉ trả lời mà còn lập kế hoạch và thực hiện các tác vụ nhiều bước bằng cách sử dụng không gian làm việc ảo (duyệt, thao tác tệp, thực thi mã và API kết nối). ChatGPT Chế độ đại lý di chuyển ChatGPT từ một trợ lý thụ động cho bạn biết phải làm gì thành một trợ lý tích cực có thể thực hiện các bước cho bạn — duyệt, trích xuất, điền biểu mẫu, chạy mã, tạo tệp và tương tác với các dịch vụ được kết nối dưới sự giám sát của bạn.

Chế độ tác nhân ChatGPT là gì?

Chế độ đại lý biến ChatGPT từ một trợ lý trò chuyện phản ứng thành một công nhân kỹ thuật số tự chủ có thể lập kế hoạch và thực hiện các quy trình công việc nhiều bước. Không giống như việc hoàn thành qua lại một lần, một tác nhân có thể:

  • mở và đọc các trang web, theo dõi các liên kết và trích xuất các thông tin có cấu trúc;
  • chạy mã trong môi trường hộp cát hoặc máy tính để bàn ảo để xử lý tệp, chuyển đổi bảng tính hoặc tạo tài liệu;
  • gọi các API hoặc dịch vụ được kết nối mà bạn cấu hình (bộ kết nối) để đọc hoặc ghi dữ liệu;
  • đặt câu hỏi làm rõ khi mục tiêu hoặc ràng buộc không rõ ràng; và
  • giữ trạng thái qua các bước để một nhiệm vụ dài (nghiên cứu → soạn thảo → xuất) có thể tiến hành mà không phải kể lại toàn bộ câu chuyện mỗi lần.

OpenAI định vị chế độ tác nhân là “cầu nối nghiên cứu và hành động”: chế độ này dành cho các quy trình làm việc cộng tác lặp đi lặp lại, trong đó sự giám sát của con người vẫn quan trọng — bạn đưa ra mục tiêu, ràng buộc và phê duyệt trong khi tác nhân thực hiện các công việc nặng nhọc.

Chế độ tác nhân ChatGPT đã phát triển như thế nào?

Chế độ Agent Mode được xây dựng dựa trên các tính năng OpenAI trước đó (ví dụ: Operator và Deep Research) và Agents SDK/Responses API của công ty. Agents SDK cung cấp cho các nhà phát triển các nguyên mẫu để tạo ra các tác nhân và công cụ tùy chỉnh, trong khi ChatGPT Agent Mode tích hợp các tính năng tương tự vào giao diện web và ứng dụng của người dùng, cho phép người dùng không phải nhà phát triển tạo ra các quy trình làm việc tự động mà không cần viết mã phức tạp. Kiến trúc hệ thống bao gồm các rào cản như xác nhận yêu cầu và "chế độ giám sát" khi các tác nhân hoạt động trong các bối cảnh nhạy cảm.

Lưu ý: các nhà cung cấp khác (đặc biệt là Microsoft) cũng đang cung cấp các tính năng "Agent Mode" hoặc Office Agent của riêng họ, tích hợp hành vi agent vào các ứng dụng năng suất (Excel/Word/Copilot). Đây là những triển khai riêng biệt nhưng phản ánh cùng một xu hướng của ngành hướng đến AI agent trong các công cụ.

Chế độ ChatGPT Agent có thể làm gì?

Những hành động nào là điển hình?

Các khả năng của Chế độ tác nhân bao gồm:

  • Duyệt web và nghiên cứu tự động (mở trang, nhấp, đọc, tóm tắt).
  • Trích xuất dữ liệu và đầu ra có cấu trúc (bảng, CSV, trang tính).
  • Tạo tệp: tạo và lưu tài liệu, trang trình bày, bảng tính.
  • Điền và nộp mẫu đơn (có xác nhận rõ ràng).
  • Chạy mã hoặc sắp xếp chuỗi công cụ thông qua SDK hoặc trình kết nối.
  • Tích hợp với các dịch vụ (email, lịch, GitHub, Zapier/Make) khi được trình kết nối cho phép.
  • Thương mại/giao dịch trong quy trình làm việc được hỗ trợ (ví dụ: tích hợp “Thanh toán tức thì”).

Những hạn chế có thể xảy ra

Chế độ Agent Mode mạnh mẽ nhưng không toàn năng: nó tuân thủ giới hạn sandbox, có thể chạm đến giới hạn tốc độ công cụ hoặc kết nối, và thường tránh các hành động rủi ro mà không có xác nhận rõ ràng. Hãy lường trước các chế độ lỗi trong luồng xác thực, các trang web nặng JavaScript, các hành động được bảo vệ bằng CAPTCHA hoặc các hệ thống yêu cầu xác thực đa yếu tố.

Ai có thể truy cập Chế độ đại lý ChatGPT — và làm thế nào để có được nó?

Ai được quyền truy cập?

Mục tiêu triển khai của OpenAI là các gói trả phí: Chế độ ChatGPT Agent đã được phát hành cho người dùng Plus/Pro/Team/Business (và các gói tương tự nếu có) với hạn ngạch theo từng gói; chế độ này không khả dụng ở gói miễn phí.

Làm thế nào để kích hoạt nó (từng bước một)?

  1. Đăng nhập vào ChatGPT bằng gói cước đủ điều kiện.
  2. Bắt đầu một cuộc trò chuyện mới hoặc mở một cuộc trò chuyện hiện có.
  3. Mở CÔNG CỤ menu (dấu “+” trong trình soạn thảo) và chọn Chế độ đại lýhoặc nhập /agent lệnh trong hộp thông báo để bắt đầu phiên làm việc với tác nhân.
  4. Mô tả nhiệm vụ bạn muốn thực hiện. Tác nhân sẽ đề xuất một kế hoạch và bắt đầu thực hiện; nó sẽ tạm dừng để yêu cầu xác nhận trước khi thực hiện các hành động tiếp theo. Bạn có thể ngắt hoặc điều khiển thủ công bất cứ lúc nào.

Ai nên cân nhắc Chế độ đại lý?

  • Người lao động tri thức và các nhóm những người muốn tự động hóa các tác vụ kỹ thuật số lặp đi lặp lại (nhà phân tích, quản lý sản phẩm, nhà giáo dục).
  • Nhà phát triển và nhà tích hợp những người muốn tạo nguyên mẫu quy trình làm việc của tác nhân một cách nhanh chóng thông qua SDK tác nhân hoặc API phản hồi.
  • Nhóm CNTT/bảo mật Việc đánh giá các quy trình làm việc tự động cần được tiến hành thận trọng do những cân nhắc về quyền truy cập dữ liệu và quyền riêng tư.

Cách nhận và thiết lập Đại lý ChatGPT

Dưới đây là quy trình thiết lập từng bước thực tế mà bạn có thể làm theo trên giao diện người dùng web hoặc di động ChatGPT (dựa trên tài liệu của OpenAI và hướng dẫn đã công bố). Hãy điều chỉnh các bước cho phù hợp với chính sách của tổ chức bạn và giao diện người dùng cụ thể mà bạn thấy.

Bước 1: Xác nhận quyền truy cập và mức thanh toán

Đăng nhập vào tài khoản ChatGPT của bạn và xác nhận bạn đang sử dụng gói hỗ trợ tổng đài viên (Plus/Pro/Business/Enterprise). Nếu bạn là quản trị viên, hãy xác nhận các chính sách chuyển đổi và kết nối cấp tổ chức.

Bước 2: Tạo tác nhân mới (UI)

  1. Từ trang chủ ChatGPT, hãy tìm kiếm “Tạo tác nhân” or “Chế độ đại lý” trong công cụ/menu.
  2. Chọn một mô hình cơ sở (nếu có) và đặt tên cho tác nhân của bạn (ví dụ: “Nhà nghiên cứu cạnh tranh”).
  3. Chọn cẩn thận các kết nối và phạm vi được phép (Google Drive, Gmail, Slack, CRM của bạn). Hạn chế quyền ở mức tối thiểu cần thiết.

Bước 3: Cung cấp danh tính, mục tiêu và ràng buộc

  1. Cung cấp cho tác nhân một bản tóm tắt ngắn gọn tuyên bố sứ mệnh (mục tiêu), nguồn đầu vào và các ràng buộc phi chức năng (thời gian chạy tối đa, định dạng tệp, giới hạn ngân sách, liệu có thể gửi email hay chỉ soạn thảo email).
  2. Tải lên các tệp hoặc liên kết mẫu mà tác nhân nên sử dụng. Điều này tạo ra ngữ cảnh mà tác nhân có thể tham chiếu trong quá trình thực thi.

Bước 4: Cho phép kết nối và thử nghiệm trong hộp cát

  1. Cấp quyền cho bất kỳ trình kết nối nào bạn cần (Drive, GitHub). OpenAI sẽ yêu cầu bạn đăng nhập và cấp quyền cho các phạm vi cụ thể — hãy xem xét kỹ lưỡng các phạm vi đó.
  2. Chạy một công việc thử nghiệm nhỏ, vô hại (ví dụ: “Tóm tắt ba tài liệu này và liệt kê 5 mục hành động”) để xác nhận rằng tác nhân có thể truy cập và xử lý các tài nguyên mà bạn đã cho phép.

Bước 5: Thiết lập móc phê duyệt và thông báo

  1. Cấu hình các điểm kiểm tra phê duyệt của con người đối với các hành động có rủi ro cao (ví dụ: "hỏi tôi trước khi viết thư cho CRM").
  2. Đặt đích đầu ra (tải xuống, gửi email nháp hoặc gửi dưới dạng tin nhắn trò chuyện).

Bước 6: Lặp lại và củng cố

Xem lại các lần chạy, kiểm tra nhật ký/dấu vết kiểm toán và thắt chặt các ràng buộc hoặc loại bỏ các kết nối nếu bạn thấy hành vi bất thường. Duy trì lịch sử chạy để kiểm tra.

Công cụ & rarr; Chế độ đại lý (Hoặc /agent)

Làm thế nào để chúng ta viết một lời nhắc "runbook"

Nguyên tắc nhắc nhở Runbook

Lời nhắc "runbook" là một tập lệnh có cấu trúc xác định mục tiêu, ràng buộc, tiêu chí thành công, đầu ra và cách xử lý lỗi cho một tác nhân. Để đảm bảo tính tin cậy, hãy tuân thủ các nguyên tắc sau:

  • Hãy nêu rõ mục tiêu: xác định sản phẩm và định dạng (ví dụ: “Tạo bản trình bày PowerPoint gồm 10 trang với trang tiêu đề, 3 trang về thông tin tài chính của đối thủ cạnh tranh, trang phương pháp và trang tóm tắt”).
  • Xác định đầu vào và nguồn: liệt kê các trang web đáng tin cậy, vị trí tệp hoặc trình kết nối mà tác nhân nên ưu tiên, cùng với các nguồn bị cấm.
  • Thiết lập các ràng buộc và kiểm tra an toàn: ví dụ: “Không bao giờ gửi email mà không có sự xác nhận rõ ràng của tôi”, “Không đăng nhập vào cổng thông tin ngân hàng” hoặc “Nếu có ít hơn 3 nguồn độc lập xác nhận một tuyên bố, hãy đánh dấu nó thay vì báo cáo như một sự thật”.
  • Bao gồm các điểm kiểm tra từng bước: báo cho tác nhân biết khi nào cần tạm dừng để xác nhận (ví dụ: trước khi xuất bản hoặc thực hiện các hành động không thể đảo ngược).
  • Chỉ định cách xử lý lỗi và khôi phục: ví dụ: “Nếu một trang trả về lỗi 403, hãy thử kết quả được lưu trong bộ nhớ đệm; nếu không có, hãy ghi chú lỗi và tiếp tục với các nguồn khác”.

Ví dụ về runbook (ngắn gọn)

Nhiệm vụ: Viết tóm tắt về bối cảnh cạnh tranh cho Sản phẩm X.

Đầu vào: URL A, B, C; bảng tính pricing.xlsx in /shared/Competitive.

Ràng buộc: Chỉ sử dụng các trang công khai và bảng tính được cung cấp; không sử dụng bất kỳ thông tin xác thực nào; hoàn thành dưới 20 tin nhắn của tác nhân; tạo tệp PDF + CSV gồm 2 trang có bảng tính năng.

Bước sau:

  1. Thu thập URL A, B, C; trích xuất tên sản phẩm, mức giá và 5 tính năng hàng đầu.
  2. Hợp nhất các tính năng được trích xuất với pricing.xlsx, chuẩn hóa các cột thành vendor, plan, monthly_usd, key_features.
  3. Viết bản tóm tắt dài 700 từ (tối đa 5 điểm khuyến nghị).
  4. Tạo competitive_table.csvbrief.pdf.
    Quy tắc quyết định: Nếu bất kỳ trang web nào có tường phí hoặc yêu cầu đăng nhập, hãy dừng lại và yêu cầu phê duyệt.
    Định dạng đầu ra: brief.pdf (2 trang, A4), competitive_table.csv với các cột như trên và một tin nhắn trò chuyện ngắn xác nhận hoàn thành công việc.

Mẹo: Hãy nêu rõ các chế độ lỗi

Hãy cho tác nhân biết phải làm gì nếu một bước nào đó không thành công (dừng lại và báo cáo; bỏ qua và tiếp tục; thử nguồn thay thế). Tác nhân diễn giải các hướng dẫn mơ hồ theo nghĩa đen—các quy tắc lỗi rõ ràng giúp giảm thiểu sự bất ngờ.

Ví dụ thực tế và tham chiếu mã

Ví dụ 1 — Phân loại email (người dùng cuối)

Bài tập, nhiệm vụ: “Quét 100 email chưa đọc gần đây nhất của tôi và tóm tắt các tin nhắn có mức độ ưu tiên cao cần trả lời; đề xuất bản nháp trả lời cho những tin nhắn có thể xử lý tự động.”
Cách thức hoạt động của tác nhân: Tác nhân đọc hộp thư đến thông qua trình kết nối đã xác thực, trích xuất người gửi, chủ đề, tín hiệu khẩn cấp và soạn thảo thư trả lời theo phong cách được yêu cầu. Nó sẽ không gửi tin nhắn mà không cần xác nhận rõ ràng và sẽ hiển thị danh sách các câu trả lời được đề xuất để xem xét. (Các bài kiểm tra của người dùng khuyến nghị giới hạn số lần chạy ban đầu ở mức nhỏ.)

Ví dụ 2 — Dọn dẹp và xuất dữ liệu (nhà phân tích)

Bài tập, nhiệm vụ: “Dọn dẹp tệp CSV này, loại bỏ các mục trùng lặp, chuẩn hóa số điện thoại thành E.164 và xuất ra tệp CSV đã dọn dẹp cùng bản tóm tắt các bản ghi đã thay đổi.”
Cách thức hoạt động của tác nhân: tác nhân sử dụng công cụ truy cập tệp, thực hiện các chuyển đổi xác định, ghi lại tệp đã dọn dẹp vào Drive và trả về nhật ký thay đổi.

Mã tham chiếu dành cho nhà phát triển (Python + Agents SDK)

Dưới đây là một khái niệm Đoạn mã Python dựa trên các mẫu OpenAI Agents SDK và Responses API — đoạn mã này minh họa cách tạo một tác nhân theo chương trình và gọi tác nhân đó. (Điều chỉnh các tham số cho phù hợp với SDK hoặc thư viện máy khách bạn sử dụng; kiểm tra tài liệu SDK để biết tên phương thức chính xác và quy trình xác thực.)

# conceptual example — adapt to the exact SDK you install

from openai import OpenAI
client = OpenAI(api_key="YOUR_API_KEY")

agent_spec = {
    "name": "CompetitorResearchAgent",
    "instructions": "Produce a 10-slide competitor analysis deck using sources A,B,C. Pause for confirmation before any email or purchase.",
    "tools": ,
    "config": {"watch_mode": True, "confirm_before_send": True}
}

# create agent (SDK-specific API)

agent = client.agents.create(agent_spec)

# run the agent on a specific task

task = {"prompt": "Create the 10-slide competitor analysis deck and upload to Drive:/AgentOutputs"}
run = client.agents.run(agent_id=agent, task=task)

print("Run started:", run)

JavaScript (khái niệm)

import OpenAI from "openai";
const client = new OpenAI({ apiKey: process.env.OPENAI_API_KEY });

const agentSpec = { /* same fields as above */ };

async function createAndRun() {
  const agent = await client.agents.create(agentSpec);
  const run = await client.agents.run(agent.id, { prompt: "Create the 10-slide deck" });
  console.log("Run ID:", run.id);
}

Lưu ý: phương thức máy khách, tên và gói SDK chính xác sẽ thay đổi — hãy tham khảo tài liệu nền tảng và SDK của OpenAI Agents để biết giao diện API hiện tại.


Khắc phục sự cố thường gặp

Tác nhân bị kẹt hoặc dừng lại

  • Triệu chứng: Tác nhân tạm dừng mà không có lý do rõ ràng hoặc hết thời gian.
  • Sửa lỗi: Kiểm tra các lệnh gọi mạng bị chặn (lỗi 403/401 trên một đầu nối), xác nhận các đầu nối đang hoạt động, giảm phạm vi tác vụ (chia thành các tác vụ con nhỏ hơn) hoặc tăng mức độ chi tiết để hiển thị nơi nó bị lỗi. Nhật ký của OpenAI (nếu có) sẽ hiển thị lệnh gọi công cụ thành công gần nhất.

Dữ liệu không chính xác hoặc bị ảo giác

  • Triệu chứng: Người đại diện báo cáo những sự kiện không được xác minh.
  • Sửa lỗi: Thắt chặt các ràng buộc nguồn trong runbook, yêu cầu trích dẫn cho mọi tuyên bố thực tế và hướng dẫn tác nhân kiểm tra chéo thông tin với nhiều nguồn đáng tin cậy. Sử dụng công cụ truy xuất hoặc duyệt của API Phản hồi thay vì dựa vào việc thu hồi mô hình.

Lỗi xác thực kết nối

  • Triệu chứng: Tác nhân không thể truy cập Google Drive / Gmail.
  • Sửa lỗi: Xác thực lại các kết nối theo cách thủ công; xác nhận phạm vi mã thông báo; đảm bảo các chính sách SSO của doanh nghiệp không chặn mã thông báo ứng dụng của bên thứ ba. Đối với các kết nối nhạy cảm, hãy sử dụng "chế độ theo dõi" và quy trình đăng nhập thủ công rõ ràng.

Hành động bất ngờ (tác nhân hành động mà không được phép)

  • Triệu chứng: Đặc vụ đã cố gắng thực hiện một hoạt động không được phép.
  • Sửa lỗi: Xem xét và thắt chặt runbook, bật xác nhận người dùng cho tất cả các hành động thay đổi trạng thái và tham khảo nhật ký chạy. Nếu hiện tượng này vẫn tiếp diễn, hãy tắt kết nối và mở phiếu hỗ trợ.

Rủi ro bảo mật là gì?

Các loại rủi ro chính

  • Tiết lộ và rò rỉ dữ liệu: các tác nhân có kết nối rộng có thể truy cập vào các tệp nhạy cảm và — nếu không được hạn chế đúng cách — có thể ghi các đầu ra nhạy cảm vào các vị trí bên ngoài.
  • Tiêm và thao tác nhanh chóng: Nội dung web hoặc tệp độc hại có thể cố gắng thao túng hành vi của tác nhân nếu sổ tay hướng dẫn và các biện pháp bảo vệ không nghiêm ngặt. Hãy xây dựng sổ tay hướng dẫn để bỏ qua các hướng dẫn được nhúng trong nội dung bị sao chép.
  • Lạm dụng thông tin xác thực: đăng nhập tự động hoặc mã thông báo không được phân lập tốt có thể bị sử dụng sai mục đích; tránh lưu trữ thông tin xác thực lâu dài trong hồ sơ tác nhân và ưu tiên xác thực thủ công theo từng phiên.
  • Quá tin tưởng/tự động hóa các hành động nhạy cảm: Việc cho phép gửi hoặc mua hàng tự động mà không có sự chấp thuận của con người sẽ làm tăng rủi ro. Thiết kế tác nhân của OpenAI bao gồm các xác nhận bắt buộc và chặn đối với các hành động cụ thể có rủi ro cao, nhưng các tổ chức vẫn nên áp dụng quản trị riêng của mình.

Các biện pháp giảm thiểu được đề xuất

  • Các đầu nối có đặc quyền tối thiểu: chỉ cấp phạm vi tối thiểu cần thiết.
  • Chế độ xem và xác nhận: bật "chế độ theo dõi" cho các tác nhân có thể truy cập email hoặc trang ngân hàng và yêu cầu xác nhận về những thay đổi trạng thái.
  • Nhật ký kiểm tra và khả năng quan sát: Ghi lại tất cả các hành động của tác nhân và xem xét định kỳ. Sử dụng giới hạn tốc độ và hạn ngạch tác vụ cho mỗi người dùng/tác nhân.
  • Kiểm tra hộp cát: xác thực các tác nhân trước tiên trong các tài khoản có dữ liệu tổng hợp hoặc đã được biên tập.
  • Quản trị chính sách và sổ tay hướng dẫn: duy trì luồng phê duyệt cho các tác nhân thực hiện các nhiệm vụ có tác động cao và yêu cầu sự chấp thuận của con người trước khi triển khai rộng rãi.

Kết luận

Chế độ Agent đánh dấu một sự thay đổi có ý nghĩa: từ cố vấn AI để hoạt động Trí tuệ nhân tạo (AI). Nó có thể đẩy nhanh quy trình làm việc trong các lĩnh vực nghiên cứu, tiếp thị, tài chính và kỹ thuật — nhưng đi kèm với khả năng đó là những trách nhiệm vận hành và bảo mật mới. Hãy sử dụng sổ tay hướng dẫn có cấu trúc, các trình kết nối ít đặc quyền nhất, quy trình phê duyệt theo vòng lặp của con người và kiểm toán liên tục để hiện thực hóa lợi ích đồng thời hạn chế rủi ro.

Bắt đầu

CometAPI là một nền tảng API hợp nhất, tổng hợp hơn 500 mô hình AI từ các nhà cung cấp hàng đầu—chẳng hạn như dòng ChatGPT, Gemini của Google, Claude của Anthropic, Midjourney, Suno, v.v.—vào một giao diện duy nhất, thân thiện với nhà phát triển. Bằng cách cung cấp khả năng xác thực, định dạng yêu cầu và xử lý phản hồi nhất quán, CometAPI đơn giản hóa đáng kể việc tích hợp các chức năng AI vào ứng dụng của bạn. Cho dù bạn đang xây dựng chatbot, trình tạo hình ảnh, trình soạn nhạc hay quy trình phân tích dựa trên dữ liệu, CometAPI cho phép bạn lặp lại nhanh hơn, kiểm soát chi phí và không phụ thuộc vào nhà cung cấp—tất cả trong khi vẫn khai thác những đột phá mới nhất trong hệ sinh thái AI.

Để bắt đầu, hãy khám phá các khả năng của mô hình ChatGPT trong Sân chơi và tham khảo ý kiến Hướng dẫn API để biết hướng dẫn chi tiết. Trước khi truy cập, vui lòng đảm bảo bạn đã đăng nhập vào CometAPI và lấy được khóa API. Sao chổiAPI cung cấp mức giá thấp hơn nhiều so với giá chính thức để giúp bạn tích hợp.

Sẵn sàng chưa?→ Đăng ký CometAPI ngay hôm nay !

Đọc thêm

500+ Mô hình trong Một API

Giảm giá lên đến 20%