МодельдерҚолдауКәсіпорынБлог
500+ AI Model API, Барлығы Бір API-да. Тек CometAPI-де
Модельдер API
Әзірлеуші
Жылдам бастауҚұжаттамаAPI Бақылау Тақтасы
Ресурстар
AI МодельдеріБлогКәсіпорынӨзгерістер журналыБіз туралы
2025 CometAPI. Барлық құқықтар қорғалған.Құпиялылық саясатыҚызмет көрсету шарттары
Home/Models/OpenAI/gpt-audio-1.5
O

gpt-audio-1.5

Енгізу:$2/M
Шығыс:$8/M
Chat Completions арқылы аудио енгізу, аудио шығару үшін ең жақсы дауыс моделі.
Жаңа
Коммерциялық пайдалану
Шолу
Мүмкіндіктер
Баға белгілеу
API

gpt-audio-1.5 техникалық сипаттамалары

Элементgpt-audio-1.5 (қоғамдық сипаттамалар)
Модель тобыGPT Audio тобы (аудиоға басымдық берілген нұсқа)
Кіріс түрлеріМәтін, аудио (сөйлеу кірісі)
Шығыс түрлеріМәтін, аудио (сөйлеу шығысы), құрылымдалған шығыстар (function call қолдауы бар)
Контекст терезесі128 000 токен.
Ең көп шығыс токені16 384 (байланысты gpt-audio тізімінде құжатталған).
Өнімділік деңгейіЖоғары интеллект; Орташа жылдамдық (теңгерімді).
Кідіріс профиліДауыстық өзара әрекеттесулер үшін оңтайландырылған (endpoint-ке байланысты орташа/төмен кідіріс).
ҚолжетімділігіChat Completions API (аудио кірісі/шығысы) және платформа playground-тары; realtime/voice беттері бойынша біріктірілген.
Қауіпсіздік / қолдану ескертпелеріДауыстық контентке арналған guardrail-дар; өндірістік дауыстық агенттер үшін модель шығыстарын әдеттегі қауіпсіздік және тексеру шараларымен бірге қарастырыңыз.

Ескерту: gpt-realtime-1.5 — төмен кідіріс пен realtime сессиялар үшін оңтайландырылған, тығыз байланысты realtime аудио/voice-first нұсқасы; төменде салыстыру берілген.


gpt-audio-1.5 деген не?

gpt-audio-1.5 — Chat Completions және аудионы қолдайтын байланысты API-лер арқылы сөйлеу кірісін де, сөйлеу шығысын да қолдайтын аудио мүмкіндігі бар GPT моделі. Ол сапа мен жылдамдықты теңгеру арқылы дауыстық агенттер мен speech-first тәжірибелерді құруға арналған негізгі жалпыға қолжетімді аудио модель ретінде орналастырылған.


Негізгі мүмкіндіктер

  1. Сөйлеу кірісі / сөйлеу шығысы қолдауы: Табиғи дауыстық ағындар үшін айтылған кірісті өңдеп, айтылған немесе мәтіндік жауаптарды қайтарады.
  2. Аудио жұмыс ағындары үшін үлкен контекст: Өте үлкен контексті (құжатталған 128k токен) қолдайды, бұл көпқадамды, ұзақ сөйлесу тарихын немесе үлкен мультимодальды сессияларды қамтамасыз етеді.
  3. Streaming және Chat Completions үйлесімділігі: Streaming аудио жауаптарымен және function-call құрылымдалған шығыстарымен Chat Completions ішінде жұмыс істейді.
  4. Теңгерімді өнімділік/кідіріс: Орташа өткізу қабілетінде жоғары сапалы аудио жауаптар беру үшін бапталған — сапа маңызды болатын чат-боттар мен дауыстық көмекшілерге қолайлы.
  5. Экожүйе және интеграциялар: Платформаның playground-тарында қолдау табады және ресми realtime/voice endpoint-тері мен серіктестік интеграциялар арқылы қолжетімді (Azure/Microsoft Foundry ескертпелері ұқсас аудио модельдерге сілтеме жасайды).

gpt-audio-1.5 пен байланысты аудио модельдерді салыстыру

Қасиетgpt-audio-1.5gpt-realtime-1.5
Негізгі бағытыChat Completions және сөйлесу ағындары үшін жоғары сапалы аудио кірісі/шығысы.Тірі дауыстық агенттер мен streaming сценарийлері үшін төмен кідірісті Realtime S2S (speech-to-speech).
Контекст терезесі128k токен.32k токен (құжатталған realtime нұсқасы).
Ең көп шығыс токені16 384 (құжатталған).Әдетте қысқарақ realtime жауаптар үшін конфигурацияланады (құжаттарда кішілеу max tokens көрсетіледі).
Ең тиімді қолдануТолық chat semantics + audio қажет болатын чат-боттар, дауыспен басқарылатын көмекшілер.Тірі дауыстық агенттер, киоскілер және төмен кідірісті сөйлесу интерфейстері.

Өкілдік қолдану жағдайлары

  • Клиенттерді қолдау және ішкі help desk үшін сөйлесу дауыстық агенттері.
  • Қолданбаларға, құрылғыларға және киоскілерге ендірілген дауыспен басқарылатын көмекшілер.
  • Қолсыз жұмыс ағындары (диктовка, дауыстық іздеу, қолжетімділік).
  • Chat Completions арқылы аудионы мәтінмен / кескіндермен араластыратын мультимодальды тәжірибелер.

Шектеулер мен операциялық ескертпелер

  • Адамдық QA-ның тікелей алмастырушысы емес: Өндірістік ағындарда сөйлеу шығыстарын және кейінгі әрекеттерді әрқашан адам шолуымен тексеріңіз.
  • Ресурстарды жоспарлау: Үлкен контекст пен аудио кірісі/шығысы есептеу жүктемесі мен кідірісті арттыруы мүмкін — ұзақ сессиялар үшін streaming/segmentation стратегияларын жобалаңыз.
  • Қауіпсіздік және саясат шектеулері: Дауыстық шығыстар иландыру күшімен келуі мүмкін; ауқымды енгізу кезінде платформа қауіпсіздік нұсқаулықтары мен guardrail-дарын сақтаңыз.
  • GPT Audio 1.5 API-іне қалай қол жеткізуге болады

1-қадам: API кілті үшін тіркелу

cometapi.com сайтына кіріңіз. Егер әлі пайдаланушымыз болмасаңыз, алдымен тіркеліңіз. CometAPI console жүйесіне кіріңіз. Интерфейстің API key қатынау деректерін алыңыз. Жеке кабинеттегі API token бөлімінде “Add Token” түймесін басып, sk-xxxxx түріндегі token key алып, жіберіңіз.

cometapi-key

2-қадам: GPT Audio 1.5 API-іне сұраулар жіберу

API сұрауын жіберу үшін “gpt-audio-1.5” endpoint-ін таңдаңыз және request body орнатыңыз. Сұрау әдісі мен request body біздің веб-сайттағы API doc ішінен алынады. Ыңғайлылығыңыз үшін біздің веб-сайт Apifox тестін де ұсынады. <YOUR_API_KEY> мәнін аккаунтыңыздағы нақты CometAPI key-імен ауыстырыңыз. base url — Chat Completions

Сұрағыңызды немесе өтінішіңізді content өрісіне енгізіңіз — модель соған жауап береді. Жасалған жауапты алу үшін API жауабын өңдеңіз.

3-қадам: Нәтижелерді алу және тексеру

Жасалған жауапты алу үшін API жауабын өңдеңіз. Өңдеуден кейін API тапсырма күйі мен шығыс деректерін қайтарады.

ЖҚС

What are the official context and output token limits for gpt-audio-1.5 API?

gpt-audio-1.5 128 000 токендік контекст терезесін қолдайды, ал құжаттарда шамамен 16 384 максималды шығыс токені конфигурациясы көрсетілген; нақты шектерді developer docs бөлімінен endpoint бойынша тексеріңіз. :contentReference[oaicite:44]{index=44}

Can gpt-audio-1.5 handle both speech-to-text and text-to-speech in the API?

Иә — ол аудио енгізулерді қабылдайды және Chat Completions/audio endpoint-тері арқылы аудио шығыстарды немесе мәтіндік жауаптарды қайтара алады. :contentReference[oaicite:45]{index=45}

When should I use gpt-audio-1.5 vs gpt-realtime-1.5 for a voice agent?

Үлкенірек контекст қажет болатын Chat Completions ағындарында жоғары сапалы аудио үшін gpt-audio-1.5 таңдаңыз; кідірісі төмен, тікелей ағынды дауыстық өзара әрекеттесулер үшін gpt-realtime-1.5 таңдаңыз. :contentReference[oaicite:46]{index=46}

Does gpt-audio-1.5 support streaming and function calling for tool integrations?

Иә — модель сыртқы құралдар мен жұмыс ағындарын біріктіру үшін ағынды аудио жауаптарды және құрылымдалған шығыстарды/function calling мүмкіндігін қолдайды. :contentReference[oaicite:47]{index=47}

Is gpt-audio-1.5 suitable for production customer support voice agents?

Иә — ол дауыстық көмекшілер мен сөйлесу агенттеріне арналған, бірақ өндірістік ортаға енгізер алдында адамдық тексеруді/QA, журналдауды және қауіпсіздік бақылауларын қосуыңыз керек. :contentReference[oaicite:48]{index=48}

What are the main limitations to consider when deploying gpt-audio-1.5?

Негізгі ескерілетін жайттар — үлкен контексті аудио сессиялар үшін есептеу/кідіріс арасындағы ымыралар, дауыстық контентке арналған қауіпсіздік шектеулері және өз доменіңізде ASR/TTS шығыстарын тексеру қажеттілігі. :contentReference[oaicite:49]{index=49}

gpt-audio-1.5 үшін мүмкіндіктер

[Модель атауы] негізгі мүмкіндіктерін зерттеңіз, олар өнімділік пен пайдалану ыңғайлылығын арттыруға арналған. Бұл мүмкіндіктердің сіздің жобаларыңызға қалай пайда әкелетінін және пайдаланушы тәжірибесін қалай жақсартатынын біліңіз.

gpt-audio-1.5 үшін баға белгілеу

[Модель атауы] үшін әртүрлі бюджеттер мен пайдалану қажеттіліктеріне сәйкес келетін бәсекеге қабілетті баға белгілеуді зерттеңіз. Біздің икемді жоспарларымыз сіз тек пайдаланған нәрсеңіз үшін ғана төлеуіңізді қамтамасыз етеді, бұл сіздің талаптарыңыз өскен сайын масштабтауды жеңілдетеді. [Модель атауы] шығындарды басқарылатын деңгейде ұстай отырып, сіздің жобаларыңызды қалай жақсарта алатынын біліңіз.
Комета бағасы (USD / M Tokens)Ресми баға (USD / M Tokens)Жеңілдік
Енгізу:$2/M
Шығыс:$8/M
Енгізу:$2.5/M
Шығыс:$10/M
-20%

gpt-audio-1.5 үшін үлгі код және API

[Модель атауы] үшін кешенді үлгі кодтары мен API ресурстарына қол жеткізіп, интеграция процесіңізді жеңілдетіңіз. Біздің толық құжаттама қадам-қадаммен нұсқаулық береді, жобаларыңызда [Модель атауы] мүмкіндіктерін толық пайдалануға көмектеседі.
POST
/v1/chat/completions
Python
JavaScript
Curl
from openai import OpenAI
import os
import base64

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="gpt-audio-1.5",
    modalities=["text", "audio"],
    audio={"voice": "alloy", "format": "wav"},
    messages=[
        {
            "role": "user",
            "content": "Is a golden retriever a good family dog?"
        }
    ],
)

# Print the text response
print(completion.choices[0].message.audio.transcript)

# Save the audio response to a file
wav_bytes = base64.b64decode(completion.choices[0].message.audio.data)
output_path = "gpt-audio-1.5-output.wav"
with open(output_path, "wb") as f:
    f.write(wav_bytes)
print(f"Audio saved to {output_path}")

Python Code Example

from openai import OpenAI
import os
import base64

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="gpt-audio-1.5",
    modalities=["text", "audio"],
    audio={"voice": "alloy", "format": "wav"},
    messages=[
        {
            "role": "user",
            "content": "Is a golden retriever a good family dog?"
        }
    ],
)

# Print the text response
print(completion.choices[0].message.audio.transcript)

# Save the audio response to a file
wav_bytes = base64.b64decode(completion.choices[0].message.audio.data)
output_path = "gpt-audio-1.5-output.wav"
with open(output_path, "wb") as f:
    f.write(wav_bytes)
print(f"Audio saved to {output_path}")

JavaScript Code Example

import OpenAI from "openai";
import fs from "fs";

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY || "<YOUR_COMETAPI_KEY>";
const base_url = "https://api.cometapi.com/v1";

const openai = new OpenAI({ apiKey: api_key, baseURL: base_url });

const completion = await openai.chat.completions.create({
  model: "gpt-audio-1.5",
  modalities: ["text", "audio"],
  audio: { voice: "alloy", format: "wav" },
  messages: [
    {
      role: "user",
      content: "Is a golden retriever a good family dog?",
    },
  ],
});

// Print the text transcript
console.log(completion.choices[0].message.audio.transcript);

// Save the audio response to a file
const wavBytes = Buffer.from(completion.choices[0].message.audio.data, "base64");
const outputPath = "gpt-audio-1.5-output.wav";
fs.writeFileSync(outputPath, wavBytes);
console.log(`Audio saved to ${outputPath}`);

Curl Code Example

# Get your CometAPI key from https://api.cometapi.com/console/token
# Export it as: export COMETAPI_KEY="your-key-here"

RESPONSE=$(curl https://api.cometapi.com/v1/chat/completions \
  -s \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $COMETAPI_KEY" \
  -d '{
    "model": "gpt-audio-1.5",
    "modalities": ["text", "audio"],
    "audio": {
      "voice": "alloy",
      "format": "wav"
    },
    "messages": [
      {
        "role": "user",
        "content": "Is a golden retriever a good family dog?"
      }
    ]
  }')

# Print the text transcript
echo "$RESPONSE" | python3 -c "import sys, json; r=json.load(sys.stdin); print(r['choices'][0]['message']['audio']['transcript'])"

# Save the audio to a WAV file
echo "$RESPONSE" | python3 -c "
import sys, json, base64
r = json.load(sys.stdin)
audio_data = r['choices'][0]['message']['audio']['data']
with open('gpt-audio-1.5-output.wav', 'wb') as f:
    f.write(base64.b64decode(audio_data))
print('Audio saved to gpt-audio-1.5-output.wav')
"

Көбірек модельдер

O

gpt-realtime-1.5

Енгізу:$3.2/M
Шығыс:$12.8/M
Аудио кіріс пен аудио шығысқа арналған ең үздік дауыстық модель.
O

Whisper-1

Енгізу:$24/M
Шығыс:$24/M
请提供需要处理的音频文件/语音链接或原文文本;我可先将语音转写为文字,再将内容准确翻译为哈萨克语。若需其他目标语言或特定术语/风格,请一并说明。
O

TTS

Енгізу:$12/M
Шығыс:$12/M
OpenAI мәтінді сөйлеуге түрлендіру
K

Kling TTS

Сұраным бойынша:$0.006608
[Сөйлеуді синтездеу] Жаңадан іске қосылды: алдын ала қарау функциясы бар онлайн мәтінді эфирлік сападағы аудиоға түрлендіру ● Бір уақытта audio_id жасай алады, оны кез келген Keling API-мен пайдалануға болады
K

Kling video-to-audio

K

Kling video-to-audio

Сұраным бойынша:$0.03304
Kling бейнеден аудиоға
K

Kling text-to-audio

K

Kling text-to-audio

Сұраным бойынша:$0.03304
Kling мәтінді аудиоға түрлендіру