모델지원엔터프라이즈블로그
500개 이상의 AI 모델 API, 모든 것이 하나의 API로. CometAPI에서
Models API
개발자
빠른 시작문서API 대시보드
리소스
AI 모델블로그엔터프라이즈변경 로그소개
2025 CometAPI. 모든 권리 보유.개인정보 보호정책서비스 이용약관
Home/Models/OpenAI/gpt-audio-1.5
O

gpt-audio-1.5

입력:$2/M
출력:$8/M
Chat Completions와 함께 오디오 입력과 오디오 출력을 위한 최고의 음성 모델.
새로운
상업적 사용
개요
기능
가격
API

gpt-audio-1.5의 기술 사양

항목gpt-audio-1.5 (공개 사양)
모델 계열GPT Audio 계열(오디오 우선 변형)
입력 유형텍스트, 오디오(음성 입력)
출력 유형텍스트, 오디오(음성 출력), 구조화된 출력(함수 호출 지원)
컨텍스트 윈도우128,000 토큰.
최대 출력 토큰16,384(관련 gpt-audio 목록에 문서화됨).
성능 등급더 높은 지능; 중간 속도(균형형).
지연 시간 프로필음성 상호작용에 최적화됨(엔드포인트에 따라 중간/낮은 지연 시간).
제공 범위Chat Completions API(오디오 입출력) 및 플랫폼 플레이그라운드; realtime/voice 전반에 통합 제공.
안전 / 사용 참고사항음성 콘텐츠에 대한 가드레일 적용; 프로덕션 음성 에이전트에는 일반적인 안전 검토 및 검증 절차를 적용할 것.

참고: gpt-realtime-1.5는 밀접하게 관련된 실시간 오디오/음성 우선 변형으로, 더 낮은 지연 시간과 실시간 세션에 최적화되어 있습니다. 아래 비교를 참조하세요.


gpt-audio-1.5란 무엇인가요?

gpt-audio-1.5는 Chat Completions 및 관련 오디오 지원 API를 통해 음성 입력과 음성 출력을 모두 지원하는 오디오 기능 GPT 모델입니다. 품질과 속도의 균형을 유지하면서 음성 에이전트와 음성 우선 경험을 구축하기 위한 주요 일반 제공 오디오 모델로 자리매김하고 있습니다.


주요 기능

  1. 음성 입력 / 음성 출력 지원: 자연스러운 음성 흐름을 위해 음성 입력을 처리하고 음성 또는 텍스트 응답을 반환합니다.
  2. 오디오 워크플로를 위한 대규모 컨텍스트: 매우 큰 컨텍스트(문서 기준 128k 토큰)를 지원하여 다중 턴, 긴 대화 기록 또는 대규모 멀티모달 세션을 가능하게 합니다.
  3. 스트리밍 및 Chat Completions 호환: Chat Completions 내에서 스트리밍 오디오 응답과 함수 호출 구조화 출력을 지원합니다.
  4. 균형 잡힌 성능/지연 시간: 중간 처리량에서 고품질 오디오 응답을 제공하도록 조정되어, 품질이 중요한 챗봇과 음성 비서에 적합합니다.
  5. 생태계 및 통합: 플랫폼의 플레이그라운드에서 지원되며, 공식 realtime/voice 엔드포인트와 파트너 통합 전반에서 사용할 수 있습니다(Azure/Microsoft Foundry 관련 문서에서도 유사한 오디오 모델이 언급됩니다).

gpt-audio-1.5와 관련 오디오 모델 비교

속성gpt-audio-1.5gpt-realtime-1.5
주요 초점Chat Completions 및 대화형 흐름을 위한 고품질 오디오 입출력.라이브 음성 에이전트와 스트리밍 시나리오를 위한 더 낮은 지연 시간의 실시간 S2S(speech-to-speech).
컨텍스트 윈도우128k 토큰.32k 토큰(문서화된 realtime 변형 기준).
최대 출력 토큰16,384(문서화됨).일반적으로 더 짧은 실시간 응답용으로 구성됨(문서상 최대 토큰 수가 더 작음).
최적 사용 사례전체 채팅 의미론 + 오디오가 필요한 챗봇, 음성 지원 비서.라이브 음성 에이전트, 키오스크, 저지연 대화형 인터페이스.

대표적인 사용 사례

  • 고객 지원 및 내부 헬프데스크를 위한 대화형 음성 에이전트.
  • 앱, 디바이스, 키오스크에 내장된 음성 지원 비서.
  • 핸즈프리 워크플로(받아쓰기, 음성 검색, 접근성).
  • Chat Completions를 통해 오디오와 텍스트/이미지를 혼합하는 멀티모달 경험.

제한 사항 및 운영상 고려사항

  • 인간 QA를 대체하는 즉시 사용 가능한 솔루션이 아님: 프로덕션 워크플로에서는 항상 음성 출력과 후속 작업을 사람의 검토로 검증하세요.
  • 리소스 계획: 큰 컨텍스트와 오디오 I/O는 연산량과 지연 시간을 증가시킬 수 있으므로, 긴 세션을 위해 스트리밍/세분화 전략을 설계하세요.
  • 안전 및 정책 제약: 음성 출력은 설득력을 가질 수 있으므로, 대규모 배포 시 플랫폼 안전 가이드라인과 가드레일을 준수하세요.
  • GPT Audio 1.5 API에 액세스하는 방법

1단계: API 키 등록

cometapi.com에 로그인하세요. 아직 사용자가 아니라면 먼저 회원가입해 주세요. CometAPI 콘솔에 로그인합니다. 인터페이스의 액세스 자격 증명인 API 키를 받으세요. 개인 센터의 API 토큰에서 “Add Token”을 클릭하고, 토큰 키 sk-xxxxx를 발급받아 제출합니다.

cometapi-key

2단계: GPT Audio 1.5 API로 요청 보내기

API 요청을 보내고 요청 본문을 설정하려면 “gpt-audio-1.5” 엔드포인트를 선택하세요. 요청 방식과 요청 본문은 당사 웹사이트의 API 문서에서 확인할 수 있습니다. 당사 웹사이트는 편의를 위해 Apifox 테스트도 제공합니다. <YOUR_API_KEY>를 계정의 실제 CometAPI 키로 바꾸세요. base url은 Chat Completions입니다.

질문이나 요청을 content 필드에 입력하세요. 이것이 모델이 응답할 내용입니다. API 응답을 처리하여 생성된 답변을 가져옵니다.

3단계: 결과 가져오기 및 검증

API 응답을 처리하여 생성된 답변을 가져옵니다. 처리 후 API는 작업 상태와 출력 데이터를 반환합니다.

자주 묻는 질문

gpt-audio-1.5 API의 공식 컨텍스트 및 출력 토큰 한도는 무엇인가요?

gpt-audio-1.5는 128,000토큰 컨텍스트 윈도우를 지원하며, 문서에는 최대 출력 토큰 설정이 약 16,384로 기재되어 있습니다. 정확한 한도는 개발자 문서에서 엔드포인트별로 확인하세요. :contentReference[oaicite:44]{index=44}

gpt-audio-1.5는 API에서 음성-텍스트 변환과 텍스트-음성 변환을 모두 처리할 수 있나요?

예 — 오디오 입력을 받을 수 있으며 Chat Completions/audio 엔드포인트를 통해 오디오 출력 또는 텍스트 응답을 반환할 수 있습니다. :contentReference[oaicite:45]{index=45}

음성 에이전트에 대해 gpt-audio-1.5와 gpt-realtime-1.5 중 언제 무엇을 사용해야 하나요?

더 큰 컨텍스트가 필요한 Chat Completions 흐름에서 더 높은 품질의 오디오가 필요하다면 gpt-audio-1.5를 선택하고, 지연 시간이 짧은 실시간 스트리밍 음성 상호작용이 필요하다면 gpt-realtime-1.5를 선택하세요. :contentReference[oaicite:46]{index=46}

gpt-audio-1.5는 도구 통합을 위한 스트리밍 및 함수 호출을 지원하나요?

예 — 이 모델은 스트리밍 오디오 응답과 구조화된 출력/함수 호출을 지원하여 외부 도구 및 워크플로와 통합할 수 있습니다. :contentReference[oaicite:47]{index=47}

gpt-audio-1.5는 프로덕션 고객 지원 음성 에이전트에 적합한가요?

예 — 음성 비서 및 대화형 에이전트를 위해 설계되었지만, 프로덕션 배포 전에 사람에 의한 검토/QA, 로깅 및 안전 제어를 추가해야 합니다. :contentReference[oaicite:48]{index=48}

gpt-audio-1.5를 배포할 때 고려해야 할 주요 제한 사항은 무엇인가요?

주요 고려 사항은 대규모 컨텍스트 오디오 세션에서의 컴퓨팅/지연 시간 절충, 음성 콘텐츠에 대한 안전 가드레일, 그리고 해당 도메인에서 ASR/TTS 출력을 검증해야 할 필요성입니다. :contentReference[oaicite:49]{index=49}

gpt-audio-1.5의 기능

[모델 이름]의 성능과 사용성을 향상시키도록 설계된 주요 기능을 살펴보세요. 이러한 기능이 프로젝트에 어떻게 도움이 되고 사용자 경험을 개선할 수 있는지 알아보세요.

gpt-audio-1.5 가격

[모델명]의 경쟁력 있는 가격을 살펴보세요. 다양한 예산과 사용 요구에 맞게 설계되었습니다. 유연한 요금제로 사용한 만큼만 지불하므로 요구사항이 증가함에 따라 쉽게 확장할 수 있습니다. [모델명]이 비용을 관리 가능한 수준으로 유지하면서 프로젝트를 어떻게 향상시킬 수 있는지 알아보세요.
코멧 가격 (USD / M Tokens)공식 가격 (USD / M Tokens)할인
입력:$2/M
출력:$8/M
입력:$2.5/M
출력:$10/M
-20%

gpt-audio-1.5의 샘플 코드 및 API

[모델 이름]의 포괄적인 샘플 코드와 API 리소스에 액세스하여 통합 프로세스를 간소화하세요. 자세한 문서는 단계별 가이드를 제공하여 프로젝트에서 [모델 이름]의 모든 잠재력을 활용할 수 있도록 돕습니다.
POST
/v1/chat/completions
Python
JavaScript
Curl
from openai import OpenAI
import os
import base64

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="gpt-audio-1.5",
    modalities=["text", "audio"],
    audio={"voice": "alloy", "format": "wav"},
    messages=[
        {
            "role": "user",
            "content": "Is a golden retriever a good family dog?"
        }
    ],
)

# Print the text response
print(completion.choices[0].message.audio.transcript)

# Save the audio response to a file
wav_bytes = base64.b64decode(completion.choices[0].message.audio.data)
output_path = "gpt-audio-1.5-output.wav"
with open(output_path, "wb") as f:
    f.write(wav_bytes)
print(f"Audio saved to {output_path}")

Python Code Example

from openai import OpenAI
import os
import base64

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="gpt-audio-1.5",
    modalities=["text", "audio"],
    audio={"voice": "alloy", "format": "wav"},
    messages=[
        {
            "role": "user",
            "content": "Is a golden retriever a good family dog?"
        }
    ],
)

# Print the text response
print(completion.choices[0].message.audio.transcript)

# Save the audio response to a file
wav_bytes = base64.b64decode(completion.choices[0].message.audio.data)
output_path = "gpt-audio-1.5-output.wav"
with open(output_path, "wb") as f:
    f.write(wav_bytes)
print(f"Audio saved to {output_path}")

JavaScript Code Example

import OpenAI from "openai";
import fs from "fs";

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY || "<YOUR_COMETAPI_KEY>";
const base_url = "https://api.cometapi.com/v1";

const openai = new OpenAI({ apiKey: api_key, baseURL: base_url });

const completion = await openai.chat.completions.create({
  model: "gpt-audio-1.5",
  modalities: ["text", "audio"],
  audio: { voice: "alloy", format: "wav" },
  messages: [
    {
      role: "user",
      content: "Is a golden retriever a good family dog?",
    },
  ],
});

// Print the text transcript
console.log(completion.choices[0].message.audio.transcript);

// Save the audio response to a file
const wavBytes = Buffer.from(completion.choices[0].message.audio.data, "base64");
const outputPath = "gpt-audio-1.5-output.wav";
fs.writeFileSync(outputPath, wavBytes);
console.log(`Audio saved to ${outputPath}`);

Curl Code Example

# Get your CometAPI key from https://api.cometapi.com/console/token
# Export it as: export COMETAPI_KEY="your-key-here"

RESPONSE=$(curl https://api.cometapi.com/v1/chat/completions \
  -s \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $COMETAPI_KEY" \
  -d '{
    "model": "gpt-audio-1.5",
    "modalities": ["text", "audio"],
    "audio": {
      "voice": "alloy",
      "format": "wav"
    },
    "messages": [
      {
        "role": "user",
        "content": "Is a golden retriever a good family dog?"
      }
    ]
  }')

# Print the text transcript
echo "$RESPONSE" | python3 -c "import sys, json; r=json.load(sys.stdin); print(r['choices'][0]['message']['audio']['transcript'])"

# Save the audio to a WAV file
echo "$RESPONSE" | python3 -c "
import sys, json, base64
r = json.load(sys.stdin)
audio_data = r['choices'][0]['message']['audio']['data']
with open('gpt-audio-1.5-output.wav', 'wb') as f:
    f.write(base64.b64decode(audio_data))
print('Audio saved to gpt-audio-1.5-output.wav')
"

더 많은 모델

O

gpt-realtime-1.5

입력:$3.2/M
출력:$12.8/M
오디오 입력 및 출력用 최고의 음성 모델.
O

Whisper-1

입력:$24/M
출력:$24/M
음성을 텍스트로 변환, 번역 생성
O

TTS

입력:$12/M
출력:$12/M
OpenAI 텍스트 음성 변환
K

Kling TTS

요청당:$0.006608
[Speech Synthesis] 신규 출시: 온라인에서 텍스트를 방송용 오디오로 변환, 미리보기 기능 제공 ● 동시에 audio_id 생성 가능, 모든 Keling API에서 사용 가능.
K

Kling video-to-audio

K

Kling video-to-audio

요청당:$0.03304
Kling 동영상을 오디오로 변환
K

Kling text-to-audio

K

Kling text-to-audio

요청당:$0.03304
Kling 텍스트-투-오디오