O

gpt-audio-1.5

Енгізу:$2/M
Шығыс:$8/M
Chat Completions арқылы аудио енгізу, аудио шығару үшін ең жақсы дауыс моделі.
Жаңа
Коммерциялық пайдалану

gpt-audio-1.5 техникалық сипаттамалары

Элементgpt-audio-1.5 (жария сипаттамалар)
Модельдер отбасыGPT Audio отбасы (аудиоға басым бағытталған нұсқа)
Енгізу түрлеріМәтін, аудио (сөйлеу кірісі)
Шығыс түрлеріМәтін, аудио (сөйлеу шығысы), құрылымдалған шығыстар (функция шақыруларын қолдайды)
Контекст терезесі128,000 токен.
Максималды шығыс токендері16,384 (тиісті gpt-audio тізімінде құжатталған).
Өнімділік деңгейіЖоғары интеллект; орташа жылдамдық (теңгерілген).
Кешігу профиліДауыс арқылы өзара әрекеттесу үшін оңтайландырылған (эндпойнтке байланысты орта/төмен кешігу).
ҚолжетімділікChat Completions API (аудио кіріс/шығыс) және платформадағы сынақ алаңдары; нақты уақыт/дауыстық интерфейстер бойынша интеграцияланған.
Қауіпсіздік / пайдалану ескертпелеріДауыс мазмұны үшін қорғаныс шектеулері; өндірістік дауыстық агенттер үшін модель нәтижелерін әдеттегі қауіпсіздік және тексеру рәсімдерімен қарастырыңыз.

Ескерту: gpt-realtime-1.5 — төмен кешігулер мен нақты уақыттағы сессияларға оңтайландырылған, тығыз байланысты realtime аудио/дауыс-бірінші нұсқа; төменде салыстырыңыз.


gpt-audio-1.5 деген не?

gpt-audio-1.5 — Chat Completions және оған қатысты аудионы қолдайтын API арқылы әрі сөйлеу енгізуін, әрі сөйлеу шығаруын қолдайтын аудио-мүмкіндіктері бар GPT моделі. Ол сапа мен жылдамдықтың теңгерімін сақтай отырып, дауыстық агенттер мен дауысқа басым тәжірибелер құру үшін жалпыға қолжетімді негізгі аудио моделі ретінде орналастырылған.


Негізгі мүмкіндіктер

  1. Сөйлеу кірісі / сөйлеу шығысы қолдауы: Сөйлеуді енгізуді өңдеп, табиғи дауыстық өзара әрекет үшін сөйлеу не мәтін түрінде жауап қайтарады.
  2. Аудио жұмыс процестері үшін үлкен контекст: Өте үлкен контексті (құжатталған 128k токен) қолдайды, бұл көп айналымды, ұзақ сөйлесулер тарихын не ауқымды мультимодальды сессияларды мүмкін етеді.
  3. Стриминг және Chat Completions-пен үйлесімділік: Chat Completions ішінде стримингтік аудио жауаптармен және функция шақыруларымен құрылымдалған шығыстармен жұмыс істейді.
  4. Өнімділік/кешігу балансы: Сапа маңызды болатын чатботтар мен дауыс көмекшілеріне лайық, орташа өткізу қабілетімен жоғары сапалы аудио жауаптар ұсынады.
  5. Экожүйе және интеграциялар: Платформаның сынақ алаңдарында қолдау бар және ресми нақты уақыт/дауыстық эндпойнттер мен серіктес интеграциялар бойынша қолжетімді (Azure/Microsoft Foundry ескертпелерінде ұқсас аудио модельдер аталады).

gpt-audio-1.5 және оған қатысты аудио модельдер

Қасиетgpt-audio-1.5gpt-realtime-1.5
Негізгі фокусChat Completions және әңгімелесу ағындары үшін жоғары сапалы аудио кіріс/шығыс.Тікелей дауыстық агенттер мен стриминг сценарийлері үшін төмен кешігумен Realtime S2S (speech-to-speech).
Контекст терезесі128k токен.32k токен (realtime нұсқасы құжатталған).
Максималды шығыс токендері16,384 (құжатталған).Әдетте қысқа нақты уақыт жауаптарына бапталады (құжаттарда max токендері аздау деп көрсетіледі).
Ең қолайлы қолдануТолық чат семантикасы + аудио қажет болатын чатботтар, дауыспен басқарылатын көмекшілер.Тікелей дауыстық агенттер, киоскілер және төмен кешігулі әңгімелесу интерфейстері.

Өкілдік қолдану жағдайлары

  • Тұтынушыларды қолдау және ішкі көмек қызметтері үшін әңгімелесуге негізделген дауыстық агенттер.
  • Қолданбаларға, құрылғыларға және киоскілерге ендірілген дауыспен басқарылатын көмекшілер.
  • Қолды пайдаланбайтын жұмыс процестері (диктовка, дауыстық іздеу, қолжетімділік).
  • Chat Completions арқылы аудионы мәтінмен/кескіндермен араластыратын мультимодальды тәжірибелер.

Шектеулер және операциялық ескертпелер

  • Адамдық QA-ны бірден алмастырмайды: Өндірістік процестерде сөйлеу шығыстарын және одан кейінгі әрекеттерді әрқашан адамдық тексеріспен растаңыз.
  • Ресурстарды жоспарлау: Үлкен контекст пен аудио I/O есептеуді және кешігуді арттыруы мүмкін — ұзақ сессияларға арналған стриминг/сегментация стратегияларын жобалаңыз.
  • Қауіпсіздік және саясат шектеулері: Дауыс шығыстары иландыру әсеріне ие болуы мүмкін; ауқымды енгізуде платформа қауіпсіздік нұсқаулықтары мен қоршауларын ұстаныңыз.
  • GPT Audio 1.5 API-ге қалай қол жеткізуге болады

1-қадам: API кілтін алу үшін тіркелу

cometapi.com сайтына кіріңіз. Егер әлі пайдаланушымыз болмасаңыз, алдымен тіркеліңіз. Өз CometAPI console консоліңізге кіріңіз. Интерфейс үшін рұқсат беретін API кілтін алыңыз. Жеке кабинеттегі API token бөлімінде “Add Token” түймесін басып, токен кілтін алыңыз: sk-xxxxx және жіберіңіз.

cometapi-key

2-қадам: GPT Audio 1.5 API-ге сұраулар жіберу

API сұрауын жіберу үшін “gpt-audio-1.5” эндпойнтын таңдаңыз және сұрау денесін баптаңыз. Сұрау әдісі мен денесін біздің вебсайттағы API құжатынан алуға болады. Сондай-ақ ыңғайлы болуы үшін вебсайтта Apifox тесті ұсынылады. <YOUR_API_KEY> мәнін аккаунтыңыздағы нақты CometAPI кілтіне ауыстырыңыз. Негізгі URL — Chat Completions

Сұрағыңызды немесе өтінішіңізді content өрісіне енгізіңіз — модель осыған жауап береді. Генерацияланған жауапты алу үшін API жауабын өңдеңіз.

3-қадам: Нәтижелерді алу және тексеру

Генерацияланған жауапты алу үшін API жауабын өңдеңіз. Өңдеуден кейін API тапсырма күйі мен шығыс деректерін қайтарады.

ЖҚС

Көбірек модельдер