AI 개발을 혁신하는 에이전트: OpenAI의 최신 업데이트

CometAPI
AnnaJun 3, 2025
AI 개발을 혁신하는 에이전트: OpenAI의 최신 업데이트

2025년 6월 4일 — OpenAI는 개발자들이 AI 에이전트, 특히 음성 기반 상호작용 기능을 갖춘 AI 에이전트를 개발하는 방식에 혁신을 가져올 강력한 업데이트 모음을 출시했습니다. 이번 업데이트는 Agents SDK의 TypeScript 완전 지원, Human-In-The-Loop(인간 참여형) 개입 메커니즘, 실시간 음성 앱용 RealtimeAgent 출시, 그리고 OpenAI의 음성-대-음성 모델에 대한 대폭적인 개선 등 다양한 분야에 걸쳐 있습니다.

이러한 업데이트를 모두 합치면 안전하고 제어 가능하며 매력적인 AI 에이전트를 그 어느 때보다 쉽게 ​​구축할 수 있습니다.


TypeScript가 Agents SDK에 추가되었습니다.

웹 생태계에서 개발자에게 권한 부여

OpenAI의 인기 Agents SDK가 이제 TypeScript를 지원하여 JavaScript 및 Node.js 환경에서 AI 애플리케이션을 개발하는 개발자에게 강력한 도구를 제공합니다. TypeScript 버전은 Python 버전과 동일한 기능을 제공하며, 모든 필수 에이전트 구축 기본 요소를 지원합니다.

  • 핸드 오프 – 여러 에이전트 간의 원활한 작업 전송
  • 가드 레일 – 행동 제약 및 안전 메커니즘
  • 트레이싱 – 세분화된 로깅 및 진단
  • MCP(다중 컴포넌트 패턴) – 모듈형 분산 에이전트 지원

중요한 이유 :

이제 웹 개발자는 브라우저, 웹 앱 및 Node.js 환경에 AI 에이전트를 원활하게 내장하여 음성 지원, 실시간 챗봇 및 브라우저 내 조종사와 같은 경험을 구현할 수 있습니다.


인간 참여 루프(HITL) 검토 메커니즘

더 안전한 에이전트 행동을 위한 인간 감독 도입

안전과 책임성을 강화하기 위해 OpenAI는 에이전트 워크플로에 인간 승인 기능을 도입했습니다. 에이전트가 특정 외부 도구 호출이나 API 작업을 실행하기 전에, 인간이 개입하여 해당 동작을 승인, 거부 또는 조정할 수 있습니다.

핵심 워크플로:

  1. 도구 실행 일시 중지
  2. 현재 에이전트 상태를 직렬화하고 저장합니다.
  3. 인간의 검토 및 승인을 요청하세요
  4. 확인 후 워크플로 재개

이상적인 경우 :

금융 거래, 의료 데이터 분석, 민감한 고객 서비스 업무 등 위험성이 높은 사용 사례에 적합합니다. 이 메커니즘은 AI 의사 결정의 투명성, 규정 준수 및 윤리적 안전 장치를 강화합니다.


RealtimeAgent: 음성 에이전트 구축이 그 어느 때보다 쉬워졌습니다.

OpenAI의 새로운 실시간 에이전트 기능은 실시간 API를 활용하여 개발자가 클라이언트나 서버 측에서 작동하는 강력한 음성 에이전트를 구축할 수 있도록 해줍니다.

주요 특징:

  • 실시간 음성 입력 및 출력
  • 통합 기능/도구 호출
  • 중단 및 동적 오디오 재생 지원
  • 핸드오프 및 가드레일과의 호환성

이것이 혁신적인 이유:
이제 음성 에이전트도 텍스트 에이전트처럼 개발할 수 있으며, AI 도구와 로직을 완벽하게 활용할 수 있습니다. 이를 통해 다음과 같은 고급 애플리케이션 개발의 가능성이 열립니다.

  • AI 기반 음성 지원 시스템
  • 실시간 번역 또는 받아쓰기 도구
  • 대화형 음성 지원 롤플레잉 게임

Traces 대시보드가 ​​음성 중심 업그레이드되었습니다.

음성 상호작용의 모든 단계 시각화

The 추적 디버깅 및 모니터링 도구가 업데이트되어 실시간 음성 에이전트 세션의 풍부한 시각화를 지원합니다.

새로운 대시보드 기능:

  • 사용자 및 에이전트 응답에 대한 오디오 파형 표시
  • 로깅 도구 호출 기록 및 해당 매개변수
  • 방해 지점 강조(예: 사용자가 문장 중간에 끼어드는 경우)

개발자를 위한 이점: 더욱 명확한 디버깅, 더욱 빠른 반복, 그리고 음성 중심 사용자 경험의 더 나은 최적화.


GPT-4o 음성 대 음성 모델: 더욱 지능적이고 자연스러운

더욱 스마트한 음성, 향상된 실행

GPT-4o 음성 모델은 실시간 음성 작업의 효율성을 높이기 위해 광범위한 개선을 거쳤습니다.

  • 더 나은 지시에 따라 – 더 높은 정확도로 명령을 실행합니다.
  • 보다 일관된 도구 사용 – 도구 호출의 변동성을 줄입니다.
  • 향상된 중단 처리 – 더욱 스마트해진 대화 중간 조정
  • 조절 가능한 음성 속도 – 새로운 speed 유연한 음성 출력 페이싱을 위한 매개변수

사용 가능한 모델 :

  • gpt-4o-realtime-preview-2025-06-03 – 실시간 API에 최적화됨
  • gpt-4o-audio-preview-2025-06-03 – 오디오를 사용한 채팅 완료를 위해 설계되었습니다.

이러한 업데이트를 통해 AI 음성이 더 자연스럽고, 반응성이 뛰어나며, 지시하기 쉬워졌습니다. 빠른 속도의 뉴스 브리핑이나 느리고 지시적인 대화에서도 마찬가지입니다.

마무리 생각: 음성 AI 에이전트의 새로운 시대

OpenAI는 이러한 네 가지 업데이트를 통해 AI 에이전트 개발의 영역을 지속적으로 확장하여 개발자가 인간과 유사한 디지털 비서를 더 쉽고, 안전하고, 유연하게 개발할 수 있도록 지원합니다.

TypeScript 지원, 인간 참여 승인, 음성 에이전트 프레임워크, 업그레이드된 음성 모델을 통합하여 다양한 플랫폼과 산업에서 지능적이고 대화형이며 상황을 인식하는 에이전트를 설계하기 위한 완벽한 툴킷을 제공합니다.

음성 지원 고객 지원, 게임 캐릭터 또는 가상 튜터를 개발하든 OpenAI의 최신 도구를 사용하면 그 어느 때보다 더 빠르고 스마트하게 작업할 수 있습니다.

시작 가이드

CometAPI는 ChatGPT 제품군을 포함한 수백 개의 AI 모델을 일관된 엔드포인트로 통합하는 통합 REST 인터페이스를 제공하며, 내장된 API 키 관리, 사용 할당량 및 청구 대시보드를 통해 여러 공급업체 URL과 사용자 인증 정보를 일일이 관리할 필요가 없습니다.

시작하려면 모델의 기능을 탐색하세요. 운동장 그리고 상담하십시오 API 가이드 자세한 내용은 CometAPI를 참조하세요. 접속하기 전에 CometAPI에 로그인하고 API 키를 발급받았는지 확인하세요.

CometAPI에서 GPT-4o 음성 대 음성 모델이 출시되었습니다. gpt-4o-realtime-preview-2025-06-03gpt-4o-audio-preview-2025-06-03,전화 주셔서 감사합니다!

도 참조 GPT-4.1 API

더 보기

하나의 API로 500개 이상의 모델

최대 20% 할인