OpenAI는 오늘 다음과 같이 발표했습니다. **GPT-실시간 음성 모델이 출시되어 이미지 입력이 가능합니다.**실시간 API가 베타 버전에서 정식 출시되어 프로덕션 음성 에이전트에 제공됩니다. 이번 출시를 통해 GPT-Realtime은 세션 중에 제공된 이미지를 기반으로 양방향 음성 대화를 실행하는 동시에 응답을 제공할 수 있는 저지연 음성 대 음성 모델로 자리매김했습니다.
OpenAI는 설명합니다 gpt-실시간 현재까지 가장 진보된 음성-음성 모델입니다. 음성-텍스트 변환과 텍스트-음성 변환 단계를 각각 따로 연결하는 대신, 오디오를 엔드 투 엔드로 처리하고, 더욱 자연스럽고 표현력이 풍부한 음성을 생성하며, 이해력, 지시 이행력, 함수 호출 측면에서 측정 가능한 향상을 보여줍니다. 회사는 내부 벤치마크 개선 사항을 강조하며, 웃음, 문장 중간 언어 전환, 영숫자 콘텐츠의 정확도 향상과 같은 미묘한 차이도 포착한다고 밝혔습니다.
새로운 점
- 라이브 음성 세션에서의 이미지 입력. 개발자는 오디오나 텍스트와 함께 사진, 스크린샷 또는 기타 이미지를 첨부할 수 있습니다. 모델은 시각적 질문에 답하고, 스크린샷의 텍스트를 OCR 방식으로 읽고, 장면 이해를 음성 답변에 반영할 수 있습니다. 이를 통해 통화 중 시각적 Q&A나 고객 서비스를 위한 다중 모드 지원과 같은 워크플로우가 가능해집니다.
- 음성 대 음성, 지연 시간 단축, 표현력이 풍부한 음성. GPT-Realtime은 기존 STT→LLM→TTS 체인에 비해 왕복 지연 시간이 단축된 네이티브 오디오 출력을 제공하며, 표현력이 풍부한 음성 옵션(커버리지에서 "Cedar" 및 "Marine"으로 표시됨)을 제공합니다. 이 모델은 지시 사항 준수 및 대화의 뉘앙스에 맞춰 조정됩니다.
- 엔터프라이즈 통합 기능. 실시간 API 업데이트는 MCP 서버 지원 및 SIP 전화 통화와 같은 기업용 기능을 추가하여 음성 상담원이 전화망 및 PBX 시스템에 직접 연결할 수 있도록 지원합니다. 이러한 추가 기능은 고객 지원 및 컨택센터 구축을 목표로 합니다.
벤치 마크
BigBench 오디오(추론): 82.8% —에서 위로 65.6% OpenAI의 2024년 XNUMX월 실시간 모델에 대한 것입니다. 이는 오디오 지원 추론 작업에 대해 보고된 주요 추론 벤치마크입니다.
멀티챌린지(지시 따르기, 오디오): ~30.5% vs ~ 20.6의 % 이전에는 여러 단계나 복잡한 구두 지시를 더 잘 따르는 것으로 나타났습니다.
ComplexFuncBench(함수 호출 성공): ~66.5% vs ~ 49.7의 % 이전에는 오디오 세션 중에 모델이 도구/함수를 호출해야 할 때 안정성이 더 좋았습니다.
비용 및 지연 시간: OpenAI는 새로운 모델이 토큰당 오디오 비용을 줄이고(기존 실시간 미리보기보다 약 20% 낮음) 단일 엔드투엔드 모델(별도의 STT → LM → TTS 체인 없음)로 작동하여 실시간 대화형 흐름에서 엔드투엔드 지연 시간을 낮춘다고 밝혔습니다.
OpenAI는 다음과 같이 말합니다. gpt-realtime 이 모델은 다양한 객관적 벤치마크 및 실제 동작에서 상당한 개선을 보였습니다. BigBench Audio 및 명령어 수행/함수 호출 평가에서 더 높은 점수를 기록했으며, 라이브 오디오에서 영숫자, 코드워드 및 언어 전환 처리도 향상되었습니다. 또한, 두 가지 새로운 음성(Cedar 및 Marin)을 도입했으며, 기존 실시간 미리보기 모델 대비 20% 가격 인하를 발표했습니다.
실시간 API 및 gpt-realtime 이 모델은 현재 개발자에게 제공되고 있으며(GA), OpenAI는 이 업데이트로 Realtime API의 가격도 낮춰서 오디오 입력을 토큰 32만 개당 64달러로, 오디오 출력을 토큰 20만 개당 XNUMX달러로 줄였습니다. 이는 이전 가격 대비 XNUMX% 감소한 수치로, 개발자에게 더욱 경제적인 솔루션을 제공합니다.
시작 가이드
CometAPI는 OpenAI의 GPT 시리즈, Google의 Gemini, Anthropic의 Claude, Midjourney, Suno 등 주요 공급업체의 500개 이상의 AI 모델을 단일 개발자 친화적인 인터페이스로 통합하는 통합 API 플랫폼입니다. CometAPI는 일관된 인증, 요청 형식 지정 및 응답 처리를 제공하여 애플리케이션에 AI 기능을 통합하는 과정을 획기적으로 간소화합니다. 챗봇, 이미지 생성기, 음악 작곡가 또는 데이터 기반 분석 파이프라인 등 어떤 제품을 구축하든 CometAPI를 사용하면 AI 생태계 전반의 최신 혁신 기술을 활용하면서 반복 작업을 더 빠르게 수행하고 비용을 관리하며 공급업체에 구애받지 않을 수 있습니다.
개발자는 액세스할 수 있습니다 GPT-5 CometAPI를 통해 나열된 최신 모델 버전은 기사 발행일을 기준으로 합니다. 시작하려면 다음에서 모델의 기능을 살펴보세요. 운동장 그리고 상담하십시오 API 가이드 자세한 내용은 CometAPI를 참조하세요. 접속하기 전에 CometAPI에 로그인하고 API 키를 발급받았는지 확인하세요. 코멧API 공식 가격보다 훨씬 낮은 가격을 제공하여 통합을 돕습니다.
최신 통합 gpt-realtime 곧 CometAPI에 등장할 예정이니 기대해주세요!
