ChatGPT의 에이전트 모드: 아키텍처, 기능 등

CometAPI
AnnaOct 3, 2025
ChatGPT의 에이전트 모드: 아키텍처, 기능 등

Agent Mode는 ChatGPT를 대화형 도우미에서 대화형 도우미로 전환하기 위한 OpenAI의 움직임입니다. 행동 취하기 디지털 워커: 통제된 샌드박스 환경 내에서 사용자를 대신하여 추론, 탐색, 코드 실행, 파일 조작, 단계별 작업을 수행할 수 있는 AI입니다. 질문에 답하거나 텍스트 초안을 작성하는 데 그치지 않고, 에이전트는 여러 사이트에서 특정 주제를 조사하고, 웹 양식을 작성하고, 수집된 자료를 바탕으로 슬라이드 자료를 만들고, 스프레드시트를 분석하는 스크립트를 실행하는 등 여러 단계의 작업을 자율적으로 실행할 수 있습니다. 이러한 작업을 수행하는 동안 사용자에게 작업 내용을 보여주고, 후속 작업을 수행하기 전에 사용자의 동의를 구합니다. 이러한 변화가 에이전트 개념의 핵심입니다. 언어 이해와 도구 사용, 그리고 가상 "작업 공간"을 결합하여 모델이 do 단지 어떻게 하는지 말해주는 대신,

ChatGPT에서 에이전트란 ​​정확히 무엇인가요?

ChatGPT의 에이전트는 모델이 가상 브라우저, 터미널, 파일 작업 공간, 그리고 선택된 외부 서비스에 대한 커넥터 등 격리된 런타임에 접근할 수 있도록 하는 통합 기능입니다. 에이전트는 자연어 명령(예: "800달러 예산으로 3일 교토 여행 계획")을 받고, 상위 목표를 하위 작업으로 나누고, 웹 검색 및 상호작용을 수행하고, 필요한 경우 파일이나 코드를 조작하고, 완료된 결과물을 반환합니다. 투명성을 위해 각 단계에 대한 화면 내레이션을 선택적으로 제공할 수 있습니다. 사용자는 에이전트의 작업을 중단하거나, 제어권을 획득하거나, 제한할 수 있습니다.

에이전트가 기존 ChatGPT 채팅과 다른 점

기존 ChatGPT 세션은 상태 비저장 텍스트 교환(메모리/구성된 도구 포함)입니다. 에이전트 모드는 샌드박스 실행 환경 이를 통해 도우미는 클릭, 스크롤, 코드 실행 등 웹사이트 및 파일과의 인간 상호 작용을 모방할 수 있습니다. 완전한 이전에는 최종 단계를 완료하기 위해 사람이 필요했던 작업을 ChatGPT에 안전한 "가상 노트북"을 제공하는 것과 같습니다.

에이전트 모드는 어떻게 작동합니까?

런타임 환경: "샌드박스"란 무엇을 의미합니까?

에이전트는 샌드박스 브라우저, 작은 코드 조각을 실행하기 위한 터미널, 그리고 파일 작업 공간으로 구성된 통제되고 일시적인 환경에서 작동합니다. "샌드박스" 환경은 에이전트 작업을 로컬 컴퓨터에서 분리하고 민감한 외부 서비스와 상호 작용하기 전에 권한 검사를 시행한다는 것을 의미합니다. 샌드박스는 가시성(활동 로그 또는 내레이션)을 제공하므로 에이전트의 작업을 실시간으로 확인하고 언제든지 중단하거나 작업을 인계받을 수 있습니다.

ChatGPT 에이전트 모드 시스템의 핵심 구성 요소

1. 계획자/추론 계층(뇌)

이는 사용자의 상위 목표(high-level goal)를 일련의 단계로 분해하고, 어떤 도구를 사용할지 결정하며, 진행 상황을 모니터링하는 LLM 기반 플래너입니다. 우선순위, 오류 처리, 그리고 명확한 질문을 할지 여부에 대한 추론을 제공합니다.

2. 도구 및 커넥터(손)

에이전트는 웹페이지와 상호작용할 수 있는 시각적 브라우저, 코드 실행 엔진(예: Python REPL), 파일 읽기/쓰기 도구(문서, 스프레드시트, 이미지용), 그리고 활성화된 경우 타사 데이터 소스(이메일, Google Drive, GitHub, CRM)에 대한 커넥터 등 일련의 "도구"를 사용합니다. 이러한 도구에 대한 접근은 사용자 권한에 따라 제한됩니다.

3. 실행 환경(가상 작업 공간)

에이전트가 작업을 실행하고, 중간 파일을 저장하고, 스크립트를 실행하는 임시적이고 안전한 작업 공간입니다. 이 작업 공간은 임시적입니다. 작업 완료 시 파일을 내보낼 수 있으며, 일반적으로 감사를 위해 세션 로그를 사용할 수 있습니다.

4. 제어 및 안전 계층(주지사)

결과가 발생하는 작업(예: 양식 제출, 구매, 이메일 전송)을 수행하기 전에 에이전트는 사용자에게 권한을 요청하거나 확인을 요청합니다. 또한 사용자가 작업을 중단하거나 제어할 수 있도록 실시간 활동 스트림을 표시합니다. OpenAI는 사용자 제어를 디자인의 핵심으로 강조합니다.

아키텍처에서 활성화된 기능

  • 자율적인 검색 및 데이터 수집: 사이트를 방문하고, 구조화된 데이터를 추출하고, 결과를 종합합니다.
  • 대화형 양식 작성 및 제출: 허용되는 경우 웹 양식을 작성하거나 주문하세요.
  • 파일 조작: 문서, 슬라이드, 스프레드시트를 열고, 편집하고, 생성합니다.
  • 코드 실행 및 데이터 분석: 스크립트를 실행하여 데이터를 정리하거나 분석하고 차트/보고서를 생성합니다.
  • 통합 : 이메일, 캘린더, 클라우드 스토리지 또는 상거래 흐름을 위해 타사 서비스에 연결합니다(허용되는 경우).

ChatGPT Agent의 주요 특징과 성능은 무엇입니까?

주요 기능

  • 자율적인 다단계 워크플로: 에이전트는 일반적으로 여러 수동 단계가 필요한 작업 시퀀스를 계획하고 실행할 수 있습니다.
  • 시각적 웹 상호작용: 에이전트는 스크린샷과 브라우저 자동화를 사용하여 마치 사람이 하듯이 웹사이트를 탐색하고, 요소를 클릭하고, 양식을 작성합니다.
  • 코드 실행 및 데이터 분석: 에이전트는 스크립트나 짧은 프로그램(예: Python)을 실행하여 데이터를 분석하고, 파일을 변환하거나, 처리 단계를 자동화할 수 있습니다.
  • 문서 생성: 에이전트는 원시 조사나 업로드된 파일에서 스프레드시트(Excel), 슬라이드 데크(PowerPoint), 보고서, 이미지 등 즉시 공유할 수 있는 결과물을 제작할 수 있습니다.
  • 커넥터 및 플러그인: 권한이 부여되면 에이전트는 Gmail, Google Drive, GitHub 또는 기타 서비스용 커넥터를 사용하여 개인 데이터를 통합하고 해당 서비스 내에서 작업을 수행할 수 있습니다.
  • 중단 및 감독 통제: 사용자는 에이전트의 작업에 개입하거나 일시 중지하거나 취소할 수 있습니다. 또한 에이전트는 잠재적으로 민감한 단계에 대해서는 확인을 요청할 것입니다.

최근 확장: 대리 상거래 및 거래 흐름

OpenAI는 상담원이 쇼핑 워크플로(예: "즉시 결제")에 참여할 수 있도록 하는 상거래 기본 기능을 통합하기 시작했습니다. 이를 통해 상담원은 사용자를 대신하여 상품을 찾고 (확인 후) 구매할 수 있습니다. 이는 상담원의 역량이 이미 실제 거래 영역으로 확장되고 있음을 보여줍니다.

알아야 할 제한 사항

  • 샌드박스 제약 조건: 에이전트는 가상 컴퓨터에서 작업하므로 명시적으로 연결하지 않는 한 기존 로그인 세션을 안정적으로 사용할 수 없습니다. 이로 인해 일부 작업(예: 개인 CRM 항목 수정)이 더 복잡해질 수 있습니다.
  • 신뢰성 및 취성: 초기 실제 사용 후기를 보면 에이전트가 느리거나, 복잡한 인터랙티브 사이트에서 멈추거나, 샌드박스 내에서만 "완료"되고 실제 환경에는 영향을 미치지 않는 결과(예: 가상 장바구니에 상품 추가)를 생성하는 경우가 있습니다. 성장통을 겪을 수 있습니다.

ChatGPT 에이전트를 사용하면 어떤 이점이 있나요?

왜 단순한 대화 대신 상담원을 이용해야 할까요?

  1. 여러 단계로 구성된 작업에 소요되는 시간을 절약합니다. 에이전트는 반복적이고 수동적인 업무 흐름(조사 → 편집 → 전달)을 자동화하므로, 클릭과 서식 지정에 시간을 허비하지 않고 판단에 집중할 수 있습니다.
  2. 앱 간의 마찰을 줄입니다. 에이전트는 웹 UI와 API를 탐색하는 접착제 역할을 하므로 수동 데이터 전송이 필요 없습니다.
  3. 종단 간 성과물을 생산합니다. 지침 목록 대신 완성된 슬라이드 데크, 스프레드시트 또는 보고서를 받을 수 있습니다.
  4. 간단한 자동화를 확장합니다. 팀은 반복되는 작업(온보딩 체크리스트, 주간 연구 요약, 데이터 풀)을 위해 에이전트 템플릿을 만들고 안전하게 재사용할 수 있습니다.

사업 및 제품 이점

최근 제품 출시로 에이전트가 상업적으로 어떻게 활용되고 있는지 확인할 수 있습니다. OpenAI의 에이전트 기능은 상거래 분야로 확장되고 있습니다(예: 2025년 9월 말 발표된 ChatGPT 내부의 Instant Checkout). 이를 통해 에이전트는 품목을 식별할 뿐만 아니라 허용된 경우 구매까지 완료할 수 있습니다. 마찬가지로, Microsoft는 Word/Excel에 자체 "에이전트 모드" 통합 기능을 도입하여 프롬프트에서 문서나 스프레드시트를 생성함으로써 에이전트화된 생산성을 향한 벤더 간 모멘텀을 강조했습니다. 이러한 발전은 수동적인 지원에서 수익 창출을 위한 능동적인 에이전트 경험으로 빠르게 전환되고 있음을 시사합니다.

초보자를 위한 일반적인 사용 사례

초보자가 에이전트에게 부탁할 수 있는 간단한 업무는 무엇이 있나요?

  • 경쟁사 스캔: "X 경쟁업체의 가장 최근 제품 페이지 3개를 찾아 가격과 배송 세부 정보를 표로 요약하세요."
  • 회의 준비: "(허가를 받고) 받은 편지함을 검색하고, 마지막 회의록 3개를 모아서 1페이지 분량의 브리핑 초안을 작성해 주세요."
  • 데이터 정리: "이 CSV를 열고 중복 항목을 제거하고 날짜 형식을 정규화한 다음 정리된 CSV를 반환합니다."
  • 콘텐츠 제작: "주제 Y에 대해 조사하고, 10장 분량의 발표 자료 개요를 작성한 다음, 발표자 노트를 작성하세요."
  • 예약 및 일정: "해당 날짜에 이용 가능한 항공편을 찾아 상위 2개 여정을 제안해 주세요."

초보자는 에이전트의 동작을 배우는 동안 작업 범위가 명확하게 지정된 작업과 제한된 권한(예: 단일 폴더에 대한 읽기 전용 액세스 권한 부여)으로 시작해야 합니다.

초보자 워크플로우 예시

  1. 목표 정의 (한 문장)
  2. 최소한의 접근 권한 부여 (단일 파일 또는 커넥터).
  3. 에이전트에게 계획을 요청하세요 — 간략한 계획과 제안된 조치 목록을 요청합니다.
  4. 계획을 승인하다 실행하기 전에.
  5. 결과를 검토하고 반복합니다.

이렇게 하면 위험이 낮아지고 학습 속도가 빨라집니다.

에이전트 모드에 대한 모범 사례

개인과 팀은 어떻게 안전하게 시작해야 할까요?

  • 최소 권한: 에이전트에게 필요한 커넥터와 파일 액세스 권한만 부여하세요. 이메일, 뱅킹 또는 제한 없는 드라이브에 대한 일괄적인 액세스는 피하세요.
  • 행동하기 전에 계획을 요청하세요: 에이전트에게 수행할 단계를 간략히 설명해 달라고 요청하고, 데이터를 쓰거나 보내는 모든 작업에 대해 확인을 요구합니다.
  • 템플릿을 사용하세요: 일반적인 워크플로를 템플릿으로 캡슐화하여 에이전트의 행동을 예측하고 반복할 수 있도록 합니다.
  • 감사 및 로깅: 세션 로그를 활성화하고 중요한 작업에 대한 인적 체크포인트를 유지하세요. 기업은 로그를 SIEM 또는 감사 프로세스에 통합해야 합니다.
  • 비중요 데이터에 대한 테스트: 실시간 작업(결제, 공개 게시물)을 승인하기 전에 더미 데이터나 테스트 계정에서 에이전트를 실행하세요.

에이전트의 성공을 위한 프롬프트를 디자인하는 방법

  • 규범적이 아닌 목표 지향적이 되세요. 에이전트에게 원하는 결과와 제약 조건(형식, 마감일, 항목 수)을 알려주세요.
  • 먼저 단계별 계획을 물어보세요. 담당자에게 진행 방법에 대한 체크리스트나 "생각"을 작성하게 한 다음 승인하세요.
  • 범위와 시간을 제한합니다. 긴 작업의 경우, 담당자에게 사람이 검토하는 짧은 주기로 작업하도록 지시하세요.

이러한 관행은 예측 가능성과 안전성을 향상시킵니다.


ChatGPT의 에이전트 모드에 대한 FAQ

에이전트 모드를 어떻게 켜나요?

에이전트 모드는 ChatGPT에서 적격 플랜의 인터페이스 내에서 선택 가능한 도구로 제공됩니다(OpenAI는 2025년 7월에 이 기능을 출시했으며, 구독 등급과 엔터프라이즈 서비스 전반에 걸쳐 제공 범위를 확대해 왔습니다). 제공 여부는 플랜 및 지역에 따라 다를 수 있으므로, 계정의 제품 설명서 또는 릴리스 노트를 참조하십시오.

에이전트가 내 개인 계좌에 접근할 수 있나요?

커넥터 또는 사용자 인증 정보를 명시적으로 부여하는 경우에만 가능합니다. 최신 에이전트 구현은 OAuth 또는 범위가 지정된 토큰을 사용하고 특정 서비스(예: Gmail, Google Drive)에 대한 액세스 권한을 부여하도록 요청합니다. 동의하기 전에 항상 정확한 권한을 확인하세요.

에이전트 모드는 민감한 작업에 충분히 안전한가요?

에이전트에는 안전 기능(권한 요청, 세션 로그, 임시 실행)이 포함되어 있습니다. 그러나 금융 거래, 법적 신고 또는 평판 위험을 초래할 수 있는 행위와 같은 민감한 작업에는 인간 참여형 승인 및 엔터프라이즈 가드레일이 포함되어야 합니다. 매우 민감한 작업의 처리 방식은 귀사의 위험 감수 수준과 귀사의 플랜 또는 공급업체에서 제공하는 통제 수단에 따라 달라집니다.

한계와 실패 모드는 무엇인가?

에이전트는 웹 페이지를 잘못 해석하거나, CAPTCHA를 만나거나, API 속도 제한에 걸리거나, 불완전한 스크래핑을 생성할 수 있습니다. 이러한 기능은 사람이 출력을 검증할 수 있는 곳에서 가장 효과적으로 활용됩니다. 계측(로그, 테스트 실행)은 취약한 부분을 찾아 수정하는 데 도움이 됩니다.

나만의 에이전트를 만들거나 제품에 통합할 수 있나요?

네. OpenAI와 다른 AI 플랫폼 제공업체는 맞춤형 에이전트를 개발하는 데 필요한 기본 요소(모델, 도구, 상태, 오케스트레이션)를 제공하는 개발자 API, SDK 및 에이전트 구축 툴킷을 제공합니다. 이러한 리소스를 통해 계획 동작을 조정하고, 도메인 도구를 추가하고, 커넥터를 연결할 수 있습니다. 코드 예제와 SDK는 공식 개발자 가이드를 참조하세요.

마무리

에이전트 모드는 대화형 도우미에서 중요한 진화적 단계를 나타냅니다. 이야기 당신이 무엇을 해야 할지, 에이전트 보조자에게 do 여러분을 위한 기능입니다. 일반 사용자와 소규모 팀에게는 브리핑, 보고서, 초안 출력물의 제작 속도가 빨라집니다. 기업에는 자동화, 제품화, 상거래에 대한 새로운 기회(그리고 새로운 위험)가 열립니다(에이전트 워크플로와 연계된 앱 내 즉시 결제와 같은 기능의 등장에 주목하세요). 이러한 기능은 빠르게 확장될 것으로 예상됩니다. 주요 플랫폼 업체(Microsoft의 Office "에이전트 모드" 실험 포함)의 동시적인 발전은 에이전트 기능이 생산성 도구의 주류가 되는 단기적인 환경을 시사합니다. 하지만 현실적으로 생각해 보세요. 초기 에이전트는 강력한 도우미일 뿐, 인간의 판단을 완벽하게 대체하는 것은 아닙니다.

시작 가이드

CometAPI는 ChatGPT 시리즈, Google Gemini, Anthropic Claude, Midjourney, Suno 등 주요 공급업체의 500개 이상의 AI 모델을 단일 개발자 친화적인 인터페이스로 통합하는 통합 API 플랫폼입니다. CometAPI는 일관된 인증, 요청 형식 지정 및 응답 처리를 제공하여 애플리케이션에 AI 기능을 통합하는 과정을 획기적으로 간소화합니다. 챗봇, 이미지 생성기, 음악 작곡가 또는 데이터 기반 분석 파이프라인 등 어떤 제품을 구축하든 CometAPI를 사용하면 더 빠른 반복 작업, 비용 관리, 공급업체에 구애받지 않는 환경을 확보할 수 있으며, 동시에 AI 생태계 전반의 최신 혁신 기술을 활용할 수 있습니다.

시작하려면 ChatGPT 모델의 기능을 살펴보세요. 운동장 그리고 상담하십시오 API 가이드 자세한 내용은 CometAPI를 참조하세요. 접속하기 전에 CometAPI에 로그인하고 API 키를 발급받았는지 확인하세요. 코멧API 공식 가격보다 훨씬 낮은 가격을 제공하여 통합을 돕습니다.

출발 준비 되셨나요?→ 지금 CometAPI에 가입하세요 !

더 보기

하나의 API로 500개 이상의 모델

최대 20% 할인