GPT-5.6 Series is now live on CometAPI →

O

GPT-4o mini Realtime Preview

입력:$60/M

출력:$240/M

출시일:Oct 1, 2025

GPT-4o mini Realtime Preview는 대화형 음성 및 시각적 경험을 위한 실시간 멀티모달 모델입니다. 스트리밍 입력과 출력으로 음성, 텍스트, 이미지를 처리하며, 구체적인 동작 수행을 위한 툴/함수 호출도 지원합니다. 대표적인 활용 사례로는 음성 비서, 실시간 통화 처리, 실시간 자막 생성, 카메라 또는 화면 콘텐츠를 통한 시각적 질의응답이 있습니다. 기술적 하이라이트로는 양방향 오디오, 시각 이해, 스트리밍 응답, 함수 기반의 구조화된 출력이 포함됩니다.

상업적 사용

`gpt-4o-mini-realtime-preview`의 기술 사양

사양	세부 정보
모델 ID	`gpt-4o-mini-realtime-preview`
제공사	OpenAI via CometAPI
모달리티	텍스트, 오디오, 이미지
입력 유형	스트리밍 오디오, 텍스트 메시지, 이미지 입력
출력 유형	스트리밍 텍스트, 합성/스트리밍 오디오, 구조화된 함수 호출
핵심 강점	저지연 상호작용, 멀티모달 이해, 실시간 대화, 도구 사용
가장 적합한 분야	음성 비서, 실시간 지원 통화, 자막 생성, 시각적 Q&A, 대화형 에이전트
함수 호출	지원됨
스트리밍	지원됨
실시간 세션	지원됨
일반적인 상호작용 패턴	증분 입력/출력을 사용하는 연속적인 양방향 세션

`gpt-4o-mini-realtime-preview`란?

gpt-4o-mini-realtime-preview는 사용자가 말하거나, 입력하거나, 시각 정보를 공유할 때 즉각적인 응답을 기대하는 빠르고 인터랙티브한 경험을 위해 설계된 실시간 멀티모달 모델입니다. 단일 턴의 요청/응답 워크플로보다 라이브로 주고받는 커뮤니케이션이 필요한 애플리케이션에 적합합니다.

이 모델은 하나의 경험 안에서 음성, 텍스트, 이미지를 함께 처리할 수 있어, 발신자의 말을 듣고 화면이나 카메라 콘텐츠를 살펴본 뒤 자연어 또는 오디오로 응답하는 어시스턴트에 유용합니다. 입력과 출력을 스트리밍 방식으로 지원하므로, 전체 결과를 기다리지 않고도 진행 중인 상호작용 동안 즉각적인 반응성을 제공하는 시스템을 구축할 수 있습니다.

또한 도구 또는 함수 호출을 지원하여, 데이터 조회, 백엔드 서비스 호출, 워크플로 단계 실행 등과 같은 구조화된 작업을 트리거할 수 있습니다. 이를 통해 고객 지원, 운영, 생산성, 멀티모달 어시스턴트 등에서 근거 기반의 실행 지향 에이전트를 구축하는 데 적합한 선택이 됩니다.

`gpt-4o-mini-realtime-preview`의 주요 기능

실시간 멀티모달 상호작용: 음성, 텍스트, 이미지를 통해 유연한 라이브 경험을 제공하고 응답합니다.
양방향 오디오: 오디오를 스트리밍 입력하고 스트리밍 출력하는 대화형 음성 인터페이스를 지원합니다.
스트리밍 응답: 부분 출력을 점진적으로 전달하여 지연을 줄이고 반응성을 개선합니다.
시각 이해: 라이브 세션 중 카메라 프레임, 스크린샷, 기타 이미지 등 시각 입력을 해석합니다.
함수 및 도구 호출: 애플리케이션이 비즈니스 로직, 데이터베이스, 외부 도구와 연결될 수 있도록 구조화된 호출을 생성합니다.
대화형 에이전트 동작: 활성 세션 중 턴 단위 컨텍스트를 유지해야 하는 어시스턴트에 적합합니다.
라이브 콜 처리: 빠른 음성 이해와 즉각적인 응답이 필요한 전화/웹콜 시나리오에 유용합니다.
실시간 캡션 및 전사 워크플로: 진행 중인 음성을 거의 실시간으로 유용한 텍스트로 변환하는 경험을 지원합니다.
작업을 위한 구조화된 출력: 대화 의도를 신뢰할 수 있는 기계 판독 가능한 지시로 전환하도록 돕습니다.
저지연 사용자 경험: 지원, 코칭, 모니터링, 가이드형 워크플로 등 응답성이 중요한 시나리오에 최적화되어 있습니다.

`gpt-4o-mini-realtime-preview`에 접근하고 통합하는 방법

1단계: API 키 발급을 위해 가입

먼저 CometAPI에 계정을 생성하고 대시보드에서 API 키를 발급하세요. 이 키는 모든 요청을 인증하는 데 필요합니다. 안전하게 보관하고 클라이언트 측 코드나 공개 저장소에 노출하지 마세요.

2단계: `gpt-4o-mini-realtime-preview` API에 연결

Realtime API는 WebSocket 연결을 사용합니다. CometAPI의 WebSocket 엔드포인트에 연결하세요:

const ws = new WebSocket(
  "wss://api.cometapi.com/v1/realtime?model=gpt-4o-mini-realtime-preview",
  {
    headers: {
      "Authorization": "Bearer " + process.env.COMETAPI_API_KEY,
      "OpenAI-Beta": "realtime=v1"
    }
  }
);

ws.on("open", () => {
  ws.send(JSON.stringify({
    type: "session.update",
    session: {
      modalities: ["text", "audio"],
      instructions: "당신은 도움이 되는 어시스턴트입니다."
    }
  }));
});

ws.on("message", (data) => {
  console.log(JSON.parse(data));
});

3단계: 결과 수신 및 검증

Realtime API는 WebSocket 연결을 통해 서버 전송 이벤트 형태로 응답을 스트리밍합니다. 오디오 출력은 response.audio.delta, 텍스트는 response.text.delta 이벤트를 수신하세요. 세션이 정상적으로 설정되고 응답이 올바르게 스트리밍되는지 확인하세요.

GPT-4o mini Realtime Preview 가격

[모델명]의 경쟁력 있는 가격을 살펴보세요. 다양한 예산과 사용 요구에 맞게 설계되었습니다. 유연한 요금제로 사용한 만큼만 지불하므로 요구사항이 증가함에 따라 쉽게 확장할 수 있습니다. [모델명]이 비용을 관리 가능한 수준으로 유지하면서 프로젝트를 어떻게 향상시킬 수 있는지 알아보세요.

코멧 가격 (USD / M Tokens)	공식 가격 (USD / M Tokens)	할인
입력:$60/M 출력:$240/M	입력:$75/M 출력:$300/M	-20%

GPT-4o mini Realtime Preview의 샘플 코드 및 API

[모델 이름]의 포괄적인 샘플 코드와 API 리소스에 액세스하여 통합 프로세스를 간소화하세요. 자세한 문서는 단계별 가이드를 제공하여 프로젝트에서 [모델 이름]의 모든 잠재력을 활용할 수 있도록 돕습니다.

GPT-4o mini Realtime Preview의 버전

GPT-4o mini Realtime Preview에 여러 스냅샷이 존재하는 이유는 업데이트 후 출력 변동으로 인해 일관성을 유지하기 위해 이전 스냅샷을 보관하거나, 개발자에게 적응 및 마이그레이션을 위한 전환 기간을 제공하거나, 글로벌 또는 지역별 엔드포인트에 따라 다양한 스냅샷을 제공하여 사용자 경험을 최적화하기 위한 것 등이 포함될 수 있습니다. 버전 간 상세한 차이점은 공식 문서를 참고해 주시기 바랍니다.

version
gpt-4o-mini-realtime-preview
gpt-4o-mini-realtime-preview-2024-12-17