GPT-5.6 Series is now live on CometAPI →

O

GPT-4o mini Audio Preview

입력:$60/M

출력:$240/M

출시일:Oct 1, 2025

GPT-4o mini Audio Preview는 대화형 오디오 애플리케이션을 구축하기 위한 컴팩트한 멀티모달 모델입니다. 텍스트와 함께 음성 입력과 출력을 지원하며, 음성 인식, 음성 합성, 그리고 구조화된 작업을 위한 도구/함수 호출이 가능한 텍스트-오디오 혼합 대화를 구현합니다. 주요 활용 사례로는 음성 비서, 요약을 포함한 스트리밍 전사, IVR 및 콜봇 워크플로, 오디오 지원 인앱 도우미 등이 있습니다. 기술적 하이라이트로는 오디오 I/O, 스트리밍 응답、지시사항 준수, chat 및 tools API를 통한 통합이 포함됩니다。

상업적 사용

`gpt-4o-mini-audio-preview` 기술 사양

사양	상세
Model ID	`gpt-4o-mini-audio-preview`
Model Type	컴팩트 멀티모달 오디오 프리뷰 모델
Core Modalities	텍스트 입력/출력, 음성 입력, 음성 출력
Primary Interface Pattern	멀티모달 메시지 콘텐츠를 사용하는 채팅 기반 상호작용
Audio Capabilities	음성 인식, 음성 합성, 텍스트-오디오 혼합 대화
Streaming Support	예, 실시간 대화형 플로우에 적합
Tool / Function Calling	구조화된 액션 및 워크플로우 통합을 지원
Best For	음성 비서, 스트리밍 전사, IVR, 콜봇 워크플로우, 인앱 오디오 도우미
Interaction Style	멀티모달 턴을 지원하는 지시 준수형 대화 모델
Integration Pattern	CometAPI를 통해 `gpt-4o-mini-audio-preview` 모델 ID로 접근하는 API 기반 통합

`gpt-4o-mini-audio-preview`는 무엇인가?

gpt-4o-mini-audio-preview는 대화형 오디오 경험을 구축하려는 개발자를 위해 설계된 컴팩트 멀티모달 모델입니다. 표준 텍스트 상호작용에 더해 음성 입력과 음성 출력을 모두 지원하므로, 사용자가 자연스럽게 말하고 음성 또는 텍스트 형태의 응답을 기대하는 애플리케이션에 적합합니다.

이 모델은 자동 음성 인식, 자연어 이해, 음성 합성을 하나의 대화 루프로 결합해야 하는 제품에 특히 유용합니다. 전사, 추論, 응답 생성을 별도의 구성 요소로 취급하는 대신, gpt-4o-mini-audio-preview는 텍스트-오디오 혼합 대화를 위한 통합 워크플로우를 가능하게 합니다.

또한 도구와 함수 호출을 지원하므로 단순 대화를 넘어 더 많은 작업을 수행할 수 있습니다. 계정 정보 조회, 고객 지원 요청 라우팅, 레코드 업데이트, 대규모 애플리케이션 내 비즈니스 로직 호출 등과 같은 구조화된 액션을 트리거할 수 있습니다. 이를 통해 가상 어시스턴트, 전화 지원 에이전트, 대화형 음성 응답 시스템, 요약이 포함된 전사 파이프라인, 오디오 지원 제품 어시스턴트 등 프로덕션급 음성 시스템에 적합합니다.

`gpt-4o-mini-audio-preview`의 주요 기능

음성 입력 지원: 오디오 기반 사용자 상호작용을 받아 애플리케이션이 음성 요청을 자연스럽게 처리할 수 있도록 합니다.
음성 출력 생성: 어시스턴트, 통화 자동화, 음성 안내 경험을 위한 오디오 응답을 생성합니다.
텍스트-오디오 혼합 대화: 일부 턴은 음성, 일부는 텍스트로 진행되는 워크플로우를 지원하여 하이브리드 인터페이스에 유용합니다.
컴팩트 멀티모달 설계: 반응성이 중요한 애플리케이션에 적합한 경량 모델로 오디오 기능을 제공합니다.
스트리밍 응답: 라이브 어시스턴트와 스트리밍 전사 시스템 등 저지연 실시간 경험을 지원합니다.
도구/함수 호출: 개방형 대화를 넘어 구조화된 도구나 비즈니스 기능을 호출할 수 있게 합니다.
지시 준수: 애플리케이션 수준의 지침을 따르며 제품 동작과 워크플로우 요구사항에 맞춘 응답을 제공합니다.
전사 및 요약 워크플로우: 음성 상호작용을 구조화된 텍스트 출력, 요약 또는 후속 액션으로 전환하는 데 유용합니다.
IVR 및 콜봇 대비: 음성 상호작용과 작업 라우팅이 핵심인 고객 지원 및 텔레포니 시나리오에 적합합니다.
인앱 오디오 지원: 음성 기반 도움말, 온보딩 또는 가이드형 액션이 필요한 소프트웨어 제품에 내장할 수 있습니다.

`gpt-4o-mini-audio-preview`에 액세스하고 통합하는 방법

1단계: API 키 발급을 위해 가입하기

gpt-4o-mini-audio-preview를 사용하려면 먼저 CometAPI에 계정을 생성하고 대시보드에서 API 키를 발급받으세요. 이 키는 모든 요청을 인증하고 애플리케이션을 모델에 안전하게 연결하는 데 사용됩니다.

2단계: `gpt-4o-mini-audio-preview` API로 요청 보내기

오디오 입력/출력을 지원하는 CometAPI의 OpenAI 호환 엔드포인트를 사용하세요.

curl https://api.cometapi.com/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $COMETAPI_API_KEY" \
  -d '{
    "model": "gpt-4o-mini-audio-preview",
    "modalities": ["text", "audio"],
    "audio": {
      "voice": "alloy",
      "format": "wav"
    },
    "messages": [
      {
        "role": "user",
        "content": "Tell me a short joke."
      }
    ]
  }'

3단계: 결과 수신 및 검증

API는 base64로 인코딩된 오디오 출력이 포함된 추가 audio 필드와 함께 표준 채팅 컴플리션 응답을 반환합니다. 프로덕션 사용 전에 오디오 데이터를 디코딩하고 품질을 검증하세요.

GPT-4o mini Audio Preview 가격

[모델명]의 경쟁력 있는 가격을 살펴보세요. 다양한 예산과 사용 요구에 맞게 설계되었습니다. 유연한 요금제로 사용한 만큼만 지불하므로 요구사항이 증가함에 따라 쉽게 확장할 수 있습니다. [모델명]이 비용을 관리 가능한 수준으로 유지하면서 프로젝트를 어떻게 향상시킬 수 있는지 알아보세요.

코멧 가격 (USD / M Tokens)	공식 가격 (USD / M Tokens)	할인
입력:$60/M 출력:$240/M	입력:$75/M 출력:$300/M	-20%

GPT-4o mini Audio Preview의 샘플 코드 및 API

[모델 이름]의 포괄적인 샘플 코드와 API 리소스에 액세스하여 통합 프로세스를 간소화하세요. 자세한 문서는 단계별 가이드를 제공하여 프로젝트에서 [모델 이름]의 모든 잠재력을 활용할 수 있도록 돕습니다.

GPT-4o mini Audio Preview의 버전

GPT-4o mini Audio Preview에 여러 스냅샷이 존재하는 이유는 업데이트 후 출력 변동으로 인해 일관성을 유지하기 위해 이전 스냅샷을 보관하거나, 개발자에게 적응 및 마이그레이션을 위한 전환 기간을 제공하거나, 글로벌 또는 지역별 엔드포인트에 따라 다양한 스냅샷을 제공하여 사용자 경험을 최적화하기 위한 것 등이 포함될 수 있습니다. 버전 간 상세한 차이점은 공식 문서를 참고해 주시기 바랍니다.

version
gpt-4o-mini-audio-preview
gpt-4o-mini-audio-preview-2024-12-17