O

gpt-audio-1.5

Енгізу:$2/M
Шығыс:$8/M
Chat Completions арқылы аудио енгізу, аудио шығару үшін ең жақсы дауыс моделі.
Жаңа
Коммерциялық пайдалану

gpt-audio-1.5 техникалық сипаттамалары

Элементgpt-audio-1.5 (қоғамдық сипаттамалар)
Модель тобыGPT Audio тобы (аудиоға басымдық берілген нұсқа)
Кіріс түрлеріМәтін, аудио (сөйлеу кірісі)
Шығыс түрлеріМәтін, аудио (сөйлеу шығысы), құрылымдалған шығыстар (function call қолдауы бар)
Контекст терезесі128 000 токен.
Ең көп шығыс токені16 384 (байланысты gpt-audio тізімінде құжатталған).
Өнімділік деңгейіЖоғары интеллект; Орташа жылдамдық (теңгерімді).
Кідіріс профиліДауыстық өзара әрекеттесулер үшін оңтайландырылған (endpoint-ке байланысты орташа/төмен кідіріс).
ҚолжетімділігіChat Completions API (аудио кірісі/шығысы) және платформа playground-тары; realtime/voice беттері бойынша біріктірілген.
Қауіпсіздік / қолдану ескертпелеріДауыстық контентке арналған guardrail-дар; өндірістік дауыстық агенттер үшін модель шығыстарын әдеттегі қауіпсіздік және тексеру шараларымен бірге қарастырыңыз.

Ескерту: gpt-realtime-1.5 — төмен кідіріс пен realtime сессиялар үшін оңтайландырылған, тығыз байланысты realtime аудио/voice-first нұсқасы; төменде салыстыру берілген.


gpt-audio-1.5 деген не?

gpt-audio-1.5 — Chat Completions және аудионы қолдайтын байланысты API-лер арқылы сөйлеу кірісін де, сөйлеу шығысын да қолдайтын аудио мүмкіндігі бар GPT моделі. Ол сапа мен жылдамдықты теңгеру арқылы дауыстық агенттер мен speech-first тәжірибелерді құруға арналған негізгі жалпыға қолжетімді аудио модель ретінде орналастырылған.


Негізгі мүмкіндіктер

  1. Сөйлеу кірісі / сөйлеу шығысы қолдауы: Табиғи дауыстық ағындар үшін айтылған кірісті өңдеп, айтылған немесе мәтіндік жауаптарды қайтарады.
  2. Аудио жұмыс ағындары үшін үлкен контекст: Өте үлкен контексті (құжатталған 128k токен) қолдайды, бұл көпқадамды, ұзақ сөйлесу тарихын немесе үлкен мультимодальды сессияларды қамтамасыз етеді.
  3. Streaming және Chat Completions үйлесімділігі: Streaming аудио жауаптарымен және function-call құрылымдалған шығыстарымен Chat Completions ішінде жұмыс істейді.
  4. Теңгерімді өнімділік/кідіріс: Орташа өткізу қабілетінде жоғары сапалы аудио жауаптар беру үшін бапталған — сапа маңызды болатын чат-боттар мен дауыстық көмекшілерге қолайлы.
  5. Экожүйе және интеграциялар: Платформаның playground-тарында қолдау табады және ресми realtime/voice endpoint-тері мен серіктестік интеграциялар арқылы қолжетімді (Azure/Microsoft Foundry ескертпелері ұқсас аудио модельдерге сілтеме жасайды).

gpt-audio-1.5 пен байланысты аудио модельдерді салыстыру

Қасиетgpt-audio-1.5gpt-realtime-1.5
Негізгі бағытыChat Completions және сөйлесу ағындары үшін жоғары сапалы аудио кірісі/шығысы.Тірі дауыстық агенттер мен streaming сценарийлері үшін төмен кідірісті Realtime S2S (speech-to-speech).
Контекст терезесі128k токен.32k токен (құжатталған realtime нұсқасы).
Ең көп шығыс токені16 384 (құжатталған).Әдетте қысқарақ realtime жауаптар үшін конфигурацияланады (құжаттарда кішілеу max tokens көрсетіледі).
Ең тиімді қолдануТолық chat semantics + audio қажет болатын чат-боттар, дауыспен басқарылатын көмекшілер.Тірі дауыстық агенттер, киоскілер және төмен кідірісті сөйлесу интерфейстері.

Өкілдік қолдану жағдайлары

  • Клиенттерді қолдау және ішкі help desk үшін сөйлесу дауыстық агенттері.
  • Қолданбаларға, құрылғыларға және киоскілерге ендірілген дауыспен басқарылатын көмекшілер.
  • Қолсыз жұмыс ағындары (диктовка, дауыстық іздеу, қолжетімділік).
  • Chat Completions арқылы аудионы мәтінмен / кескіндермен араластыратын мультимодальды тәжірибелер.

Шектеулер мен операциялық ескертпелер

  • Адамдық QA-ның тікелей алмастырушысы емес: Өндірістік ағындарда сөйлеу шығыстарын және кейінгі әрекеттерді әрқашан адам шолуымен тексеріңіз.
  • Ресурстарды жоспарлау: Үлкен контекст пен аудио кірісі/шығысы есептеу жүктемесі мен кідірісті арттыруы мүмкін — ұзақ сессиялар үшін streaming/segmentation стратегияларын жобалаңыз.
  • Қауіпсіздік және саясат шектеулері: Дауыстық шығыстар иландыру күшімен келуі мүмкін; ауқымды енгізу кезінде платформа қауіпсіздік нұсқаулықтары мен guardrail-дарын сақтаңыз.
  • GPT Audio 1.5 API-іне қалай қол жеткізуге болады

1-қадам: API кілті үшін тіркелу

cometapi.com сайтына кіріңіз. Егер әлі пайдаланушымыз болмасаңыз, алдымен тіркеліңіз. CometAPI console жүйесіне кіріңіз. Интерфейстің API key қатынау деректерін алыңыз. Жеке кабинеттегі API token бөлімінде “Add Token” түймесін басып, sk-xxxxx түріндегі token key алып, жіберіңіз.

cometapi-key

2-қадам: GPT Audio 1.5 API-іне сұраулар жіберу

API сұрауын жіберу үшін “gpt-audio-1.5” endpoint-ін таңдаңыз және request body орнатыңыз. Сұрау әдісі мен request body біздің веб-сайттағы API doc ішінен алынады. Ыңғайлылығыңыз үшін біздің веб-сайт Apifox тестін де ұсынады. <YOUR_API_KEY> мәнін аккаунтыңыздағы нақты CometAPI key-імен ауыстырыңыз. base url — Chat Completions

Сұрағыңызды немесе өтінішіңізді content өрісіне енгізіңіз — модель соған жауап береді. Жасалған жауапты алу үшін API жауабын өңдеңіз.

3-қадам: Нәтижелерді алу және тексеру

Жасалған жауапты алу үшін API жауабын өңдеңіз. Өңдеуден кейін API тапсырма күйі мен шығыс деректерін қайтарады.

ЖҚС