GPT-4o аудио API

CometAPI
AnnaJun 3, 2025
GPT-4o аудио API

GPT-4o аудио API: Бірыңғай /chat/completions Opus кодталған аудио (және мәтін) кірістерін қабылдайтын және конфигурацияланатын параметрлері бар синтезделген сөйлеуді немесе транскрипттерді қайтаратын соңғы нүкте кеңейтімі (модель=gpt-4o-audio-preview-<date>, speed, temperature) топтамалық және ағындық дауыстық өзара әрекеттесу үшін.

GPT-4o Audio туралы негізгі ақпарат

GPT-4o аудио алдын ала қарау (gpt-4o-audio-preview-2025-06-03) OpenAI-дің ең жаңасы сөйлеуге бағытталған үлкен тіл үлгісі стандарт арқылы қолжетімді болды Chat Completions API тым төмен кідіріспен нақты уақыт арнасынан гөрі. GPT-4o сияқты бірдей «omni» негізіне салынған бұл нұсқа маманданған жоғары дәлдіктегі сөйлеуді енгізу және шығару кезек негізіндегі сөйлесулер, мазмұн жасау, қол жетімділік құралдары және миллисекундтық уақытты қажет етпейтін агенттік жұмыс процестері үшін. Ол қосу кезінде GPT-4-сынып үлгілерінің барлық мәтінді дәлелдеу күшті жақтарын иеленеді басынан аяғына дейін сөйлеу (S2S) құбырлар, детерминирленген функцияны шақыру, ал жаңа speed параметрі дауыс жылдамдығын басқаруға арналған.


GPT-4o дыбысының негізгі мүмкіндіктер жинағы

Бірыңғай сөйлеуден сөзге өңдеу – Аудио тікелей мағыналық бай таңбалауыштарға түрлендіріледі, негізделеді және сыртқы STT/TTS қызметтерінсіз қайта синтезделеді, нәтиже береді. дәйекті дауыс тембрі, просодия және контекстті сақтау.
Жақсартылған нұсқаулық – Маусым-2025 тюнингі жеткізіледі +19 pp pass-at-1 2024 жылдың мамыр айындағы GPT-4o базасымен салыстырғанда дауыстық пәрмен тапсырмалары бойынша тұтынушыларға қолдау көрсету және мазмұнды құру сияқты домендерде галлюцинацияларды азайтады.
Тұрақты құралды шақыру – Модель шығады құрылымдық JSON OpenAI функциясын шақыру схемасына сәйкес, сервер API интерфейстерін (іздеу, брондау, төлемдер) іске қосуға мүмкіндік береді. >95% аргумент дәлдігі.
speed Параметр (0.25–4×) – Әзірлеушілер баяу оқу, қалыпты баяндау немесе жылдам «естілетін скрипт» режимдері үшін сөйлеуді ойнатуды модуляциялай алады, жоқ мәтінді сырттай қайта синтездеу.
Үзілістерді ескеретін кезек алу – Нақты уақыттағы нұсқа сияқты кідіріспен басқарылмаса да, алдын ала қарау мүмкіндігін қолдайды ішінара ағын: таңбалауыштар есептелген бойда шығарылады, бұл пайдаланушыларға қажет болған жағдайда ертерек үзуге мүмкіндік береді.


GPT-4o техникалық архитектурасы

• Бір стектік трансформатор – Барлық GPT-4o туындылары сияқты, дыбысты алдын ала қарау мүмкіндігін пайдаланады Бірыңғай кодтаушы – декодер мұнда мәтін және акустикалық таңбалауыштар бірдей назар аудару блоктары арқылы өтіп, кросс-модальды жерге қосуға ықпал етеді.
• Иерархиялық дыбыс токенизациясы – Шикі 16 кГц PCM → лог-мел патчтары → дөрекі акустикалық кодтарсемантикалық лексемалар. Бұл көп сатылы қысу қол жеткізеді 40–50× өткізу қабілеттілігін азайту нюанстарды сақтай отырып, әр мәтінмәндік терезеде бірнеше минуттық клиптерді қосу.
• NF4 Сандық салмақтар – Қорытынды мына жерде көрсетіледі 4-биттік Қалыпты-флоат дәлдік, GPU жадын fp16-мен салыстырғанда екі есе қысқарту және қолдау 70+ ағынды RTF (нақты уақыттағы фактор) A100-80 ГБ түйіндерінде.
• Ағынды назар аудару және КВ кэштеу – Жылжымалы терезенің айналмалы ендірулері сақтау кезінде сөйлеудің ~30 секундтан астам мәтінмәнін сақтайды O(L) жадты пайдалану, подкаст редакторлары немесе көмекші оқу құралдары үшін өте қолайлы.


Нұсқалау және атау — Күні мөрімен құрастырылған жолды алдын ала қарау

идентификаторарнамақсатШығару күнітұрақтылық
gpt-4o-аудио-алдын ала қарау-2025-06-03Chat Completions APIКезек негізіндегі аудио әрекеттесулер, агенттік тапсырмалар03 Jun 2025алдын-ала қарау (кері байланыс ынталандырылады)

Атаудағы негізгі элементтер:

  1. gpt-4o – Омни мультимодальды отбасы.
  2. аудио – Сөйлеуді қолдану жағдайлары үшін оңтайландырылған.
  3. алдын-ала қарау – API келісімшарты дамуы мүмкін; әлі GA емес.
  4. 2025-06-03 – Қайта шығаруға арналған оқыту және орналастыру суреті.

CometAPI ішінен GPT-4o Audio API API интерфейсіне қалай қоңырау шалуға болады

GPT-4o Audio API CometAPI ішіндегі API бағасы:

  • Енгізу токендері: $2 / M таңбалауыштары
  • Шығару токендері: $8 / M токендері

Қажетті қадамдар

  • Жүйеге кіріңіз cometapi.com. Егер сіз әлі біздің пайдаланушы болмасаңыз, алдымен тіркеліңіз
  • Интерфейстің кіру тіркелгі деректерінің API кілтін алыңыз. Жеке орталықтағы API токеніндегі «Токенді қосу» түймесін басыңыз, таңбалауыш кілтін алыңыз: sk-xxxxx және жіберіңіз.
  • Осы сайттың URL мекенжайын алыңыз: https://api.cometapi.com/

Қолдану әдістері

  1. gpt-4o-audio-preview-2025-06-03” сұрауды жіберу және сұраудың негізгі бөлігін орнату үшін соңғы нүкте. Сұрау әдісі мен сұрау мәтіні API doc веб-сайтымыздан алынған. Біздің веб-сайт сізге ыңғайлы болу үшін Apifox тестін де ұсынады.
  2. Ауыстыру тіркелгіңізден нақты CometAPI кілтімен.
  3. Мазмұн өрісіне сұрағыңызды немесе сұрауыңызды енгізіңіз — үлгі осыған жауап береді.
  4. . Жасалған жауапты алу үшін API жауабын өңдеңіз.

Comet API ішіндегі Model Access ақпаратын қараңыз API құжаты.

Comet API ішіндегі Үлгі бағасы туралы ақпаратты қараңыз https://api.cometapi.com/pricing.

API жұмыс процесі - Аудио бөліктері және функционалдық ілмектері бар сөйлесуді аяқтау

  1. Кіріс форматы - audio/* MIME немесе base64 WAV бөліктері ендірілген messages[].content.
  2. Шығыс опциялары -
    • mode: "text" → жазуға арналған таза мәтін.
    • mode: "audio" → a қайтарады ағындық Уақыт белгілері бар Opus немесе µ-заңның пайдалы жүктемесі.
  3. Функцияны шақыру - қосу functions:  схема; модель шығарады role: "function" JSON аргументтерімен; әзірлеуші ​​құралды шақыруды орындайды және қосымша нәтижені қайтарады.
  4. Бағаны басқару - Орнатыңыз voice.speed=1.25 ойнатуды жеделдету үшін; қауіпсіз диапазондар 0.25–4.0.
  5. Токен/аудио шектеулері – іске қосу кезінде 128 к контекст (~4 мин сөйлеу); 4096 аудио таңбалауыш / 8192 мәтіндік белгі қайсысы бірінші.

Үлгі коды және API интеграциясы

pythonimport openai

openai.api_key = "YOUR_API_KEY"

# Single-step audio completion (batch)

with open("prompt.wav", "rb") as audio:
    response = openai.ChatCompletion.create(
        model="gpt-4o-audio-preview-2025-06-03",
        messages=[
            {"role": "system", "content": "You are a helpful voice assistant."},
            {"role": "user", "content": "audio", "audio": audio}
        ],
        temperature=0.3,
        speed=1.2  # 20% faster playback

    )

print(response.choices.message)
  • Highlights:
  • моделі: "gpt-4o-audio-preview-2025-06-03"
  • аудио кілтін енгізіңіз пайдаланушы екілік ағынды жіберуге арналған хабарлама
  • жылдамдық: Басқару элементтері дауыс жылдамдығы баяу (0.5) және жылдам (2.0) арасында
  • температура: Баланс шығармашылық vs. келісу

Техникалық көрсеткіштер – Кідіріс, сапа, дәлдік

МетрикалықАудио алдын ала қарауGPT-4o (тек мәтін үшін)Delta
Бірінші таңбалауыш кідірісі (1 рет)1.2 с Орт0.35 с+0.85 с
MOS (сөйлеу табиғилығы, 5 ұпай)4.43--
Нұсқауларға сәйкестік (дауыс)92%73%+19 б.б
Функцияны шақыру Arg дәлдігі95.8%87%+8.8 б.б
Сөз қатесінің жылдамдығы (жасырын STT)5.2%N / A-
GPU жады/ағыны (A100-80 ГБ)7.1 ГБ14 ГБ (fp16)−49%

Chat Completions ағыны арқылы орындалған эталондар, пакет өлшемі = 1.

Сондай-ақ, қараңыз GPT-4o нақты уақыттағы API

GPT-4o дыбысы

Толығырақ оқу

500+ модель бір API-да

20%-ға дейін жеңілдік