Бұл туралы бүгін OpenAI хабарлады GPT-нақты уақыттағы дауыс үлгісі енді қол жетімді, ол кескін енгізуді қолдайды, Realtime API нұсқасының бета нұсқасынан өндірістік дауыс агенттері үшін жалпы қолжетімділікке өтуін белгілеу. Шығарылым GPT-Realtime режимін сеанс кезінде берілген кескіндердегі жауаптарды негіздей отырып, екі жақты дауыстық сөйлесулерді іске қоса алатын, кідіріссіз, сөйлеуден сөйлеуге үлгі ретінде орналастырады.
OpenAI сипаттайды gpt-нақты уақытта ең жетілдірілген сөйлеуден сөйлеуге моделі ретінде: ол дыбысты соңына дейін өңдейді (сөйлеуден мәтінге және мәтіннен сөйлеуге жеке қадамдарды тізбектеудің орнына), табиғи және мәнерлі сөйлеуді жасайды және түсіну, нұсқауларды орындау және функцияларды шақыру бойынша өлшенетін табыстарды көрсетеді. Компания ішкі эталондардың жақсартуларын атап көрсетеді және модель күлкі, сөйлемнің ортасындағы тілді ауыстыру және әріптік-цифрлық мазмұндағы жоғары дәлдік сияқты нәзіктіктерді қамтитынын айтады.
Не жаңалық бар
- Тікелей дауыстық сеанстардағы кескінді енгізу. Әзірлеушілер аудио немесе мәтінмен қатар фотосуреттерді, скриншоттарды немесе басқа кескіндерді қоса алады; модель визуалды сұрақтарға жауап бере алады, скриншоттардағы мәтінді оқи алады (OCR стилі) және ауызша жауапқа көріністі түсінуді қоса алады. Бұл қоңырау кезінде визуалды сұрақ-жауап немесе тұтынушыға қызмет көрсету үшін мультимодальды қолдау сияқты жұмыс процестерін қосады.
- Сөйлеуден сөйлеуге, кідірістің төмендеуі, мәнерлі дауыстар. GPT-Realtime ескі STT→LLM→TTS тізбектерімен және мәнерлі дауыс опциялары бар кемелермен салыстырғанда (қамту аймағында «Кедар» және «Теңіз» деп хабарланады) салыстырғанда қысқа бару кідірісімен жергілікті аудио шығысын береді. Модель нұсқауларды орындауға және сөйлесу нюансына бейімделген.
- Кәсіпорын интеграциясының мүмкіндіктері. Realtime API жаңартуы MCP серверін қолдау және SIP телефон қоңыраулары сияқты кәсіпорынға бағытталған мүмкіндіктерді қосады, осылайша дауыс агенттері телефон желілеріне және PBX жүйелеріне тікелей қосыла алады. Бұл толықтырулар тұтынушыларға қолдау көрсету және байланыс орталығын орналастыруға бағытталған.
межелер
BigBench Audio (дәлелдеу): 82.8% — бастап 65.6% OpenAI 2024 жылғы желтоқсандағы нақты уақыт үлгісінде. Бұл дыбыстық ойлауға қабілетті пайымдау тапсырмалары үшін берілген тақырыптық негіздеме көрсеткіші.
MultiChallenge (нұсқаулық, аудио): ~30.5% vs ~ 20.6% бұрын — көп сатылы немесе күрделі ауызша нұсқауларды сақтаудың жақсарғанын көрсетеді.
ComplexFuncBench (функцияны шақырудың сәттілігі): ~66.5% vs ~ 49.7% бұрын — дыбыс сеансы кезінде модель құралдарды/функцияларды шақыруы керек кезде жақсырақ сенімділік.
Құны және кешігу: OpenAI жаңа модель бір таңбалауыш аудио құнын төмендететінін (алдыңғы нақты уақыттағы алдын ала қараудан ≈20%-ға төмен) және нақты уақыттағы интерактивті ағындардағы ақырғы кідірісті төмендететін жалғыз түпкі модель (бөлек STT → LM → TTS тізбегі жоқ) ретінде жұмыс істейтінін айтады.
OpenAI дейді gpt-realtime модель объективті көрсеткіштер мен нақты дүниедегі мінез-құлық ауқымындағы материалдық жақсартуларды көрсетеді - BigBench Audio және нұсқауларды орындау/функцияға шақыру бағалаулары бойынша жоғары ұпайлар - және тірі дыбыста әріптік-цифрлық, кодтық сөздер мен тілді ауыстыруды жақсырақ өңдеу. Компания сонымен қатар екі жаңа дауысты (Сидр және Марин) ұсынды және нақты уақыттағы алдын ала қарау үлгісімен салыстырғанда бағаның 20% төмендеуі туралы хабарлайды.
Realtime API және gpt-realtime модель енді әзірлеушілерге (GA) қол жетімді, OpenAI сонымен қатар осы жаңарту арқылы Realtime API бағасын төмендетті, аудио кірісті миллион токенге 32 долларға дейін және аудио шығысын миллион токенге 64 долларға дейін төмендетті, бұл алдыңғы бағадан 20% төмендеп, әзірлеушілерге үнемді шешім ұсынады.
Басталу
CometAPI – OpenAI GPT сериялары, Google Gemini, Anthropic's Claude, Midjourney, Suno және т.б. сияқты жетекші провайдерлердің 500-ден астам AI үлгілерін бір, әзірлеушілерге ыңғайлы интерфейске біріктіретін бірыңғай API платформасы. Тұрақты аутентификацияны, сұрауды пішімдеуді және жауаптарды өңдеуді ұсына отырып, CometAPI қолданбаларыңызға AI мүмкіндіктерін біріктіруді айтарлықтай жеңілдетеді. Чат-боттарды, кескін генераторларын, музыкалық композиторларды немесе деректерге негізделген аналитикалық құбырларды құрастырып жатсаңыз да, CometAPI сізге AI экожүйесіндегі соңғы жетістіктерге қол жеткізе отырып, жылдамырақ қайталауға, шығындарды басқаруға және жеткізуші-агностикалық күйде қалуға мүмкіндік береді.
Әзірлеушілер қол жеткізе алады GPT-5 CometAPI арқылы тізімдегі соңғы үлгілер нұсқасы мақаланың жарияланған күнінен бастап берілген. Бастау үшін үлгінің мүмкіндіктерін зерттеңіз Ойын алаңы және кеңесіңіз API нұсқаулығы егжей-тегжейлі нұсқаулар үшін. Қол жеткізу алдында CometAPI жүйесіне кіріп, API кілтін алғаныңызға көз жеткізіңіз. CometAPI біріктіруге көмектесу үшін ресми бағадан әлдеқайда төмен баға ұсыныңыз.
Соңғы интеграция gpt-realtime жақында CometAPI-де пайда болады, сондықтан хабардар болыңыз!
