GPT-4o нақты уақыттағы API

CometAPI
AnnaJun 11, 2025
GPT-4o нақты уақыттағы API

GPT-4o Realtime API: Әзірлеушілерге WebRTC немесе WebSocket арқылы синхрондалған мәтінді, дыбысты және көру деректерін жіберуге және алуға мүмкіндік беретін аз кідіріс, мультимодальды ағындық соңғы нүкте (модель=gpt-4o-realtime-preview-<date>, stream=true) нақты уақыттағы интерактивті қолданбаларға арналған.


Негізгі ақпарат және мүмкіндіктер

OpenAI GPT-4o нақты уақыт (үлгі идентификаторы: gpt-4o-нақты уақытта-алдын ала қарау-2025-06-03) үшін әзірленген бірінші жалпыға қолжетімді іргетас үлгісі басынан аяғына дейін сөйлеу (S2S) -мен өзара әрекеттесу секундтық кідіріс. «omni» GPT-4o отбасынан алынған, Realtime нұсқасы сақтандырғыштар сөйлеуді тану, табиғи тілдегі пайымдау және нейрондық мәтіннен сөйлеуге әзірлеушілерге адамдар сияқты еркін сөйлесетін дауыс агенттерін құруға мүмкіндік беретін бір желіге. Модель арнайы құрастыру арқылы көрсетіледі Нақты уақыттағы API және жаңамен тығыз біріктірілген RealtimeAgent ішіндегі абстракция SDK агенттері (TypeScript және Python).


Негізгі мүмкіндіктер жинағы — End-to-End S2S • Үзілістерді өңдеу • Құралды шақыру

• Ана тілінен сөйлеуге: Дыбыс кірісі үздіксіз ағындар ретінде қабылданады, ішкі токенизацияланады, негізделеді және синтезделген сөз ретінде қайтарылады. Көп секундтық құбырдың кешігуін жоя отырып, сыртқы STT/TTS буферлері қажет емес.
• Миллисекундтық кідіріс: Архитектуралық кесу, модельді айдау және GPU-оңтайландырылған қызмет көрсету стекін қосу ~300–500 мс бірінші белгі кідірістері әдеттегі бұлтты орналастыруларда, адамның сөйлесу кезегін қабылдау нормаларына жақындайды.
• Берілген нұсқаулар: Әңгімелесу сценарийлері мен функцияларды шақыру іздері бойынша дәл реттелген GPT-4o Realtime бағдарламасы Тапсырманы орындау қателерінің >25%-ға төмендеуі мамыр-2024 GPT-4o базалық көрсеткішімен салыстырғанда.
• Детерминистік құралдарды шақыру: Модель OpenAI-ге сәйкес құрылымдық JSON шығарады функцияны шақыру схемасы, серверлік API интерфейстерін детерминирленген шақыруға мүмкіндік береді (брондау жүйелері, дерекқорлар, IoT). Қатені ескеретін қайталау әрекеттері және дәлелді тексеру кіріктірілген.
• Керемет үзілістер: Қосымша декодтаумен жұптастырылған нақты уақыттағы дауыс әрекетінің детекторы агентке мүмкіндік береді сөйлемнің ортасында сөйлеуді кідірту, пайдаланушының үзілуін қабылдаңыз және жауапты үздіксіз жалғастырыңыз немесе қайта жоспарлаңыз.
• Конфигурацияланатын сөйлеу жылдамдығы: жаңа жылдамдық параметрі (0.25–4× нақты уақыт) әзірлеушілерге қол жетімділік немесе жылдам іске қосу қолданбалары үшін шығыс жылдамдығын реттеуге мүмкіндік береді.


Техникалық сәулет — Бірыңғай мультимодальды трансформатор

Бірыңғай кодтаушы – декодер: GPT-4o Realtime omni архитектурасын бөліседі бір қабатты трансформатор дыбыс, мәтін және (болашақ) көру белгілері бір жасырын кеңістікте бірге өмір сүреді. Қабат бойынша адаптивті есептеу төте жолдары аудио кадрларды кейінгі назар аудару блоктарына тікелей жібереді, әр өту үшін 20–40 мс қырынады.

Иерархиялық дыбыс токенизациясы: Шикі 16 кГц PCM лог-мель патчтарына бөлінген → ірі түйіршікті акустикалық таңбалауыштарға квантталған → семантикалық таңбалауыштарға қысылып, секундына токен просодиядан бас тартпай бюджет.

Төмен разрядты қорытынды ядролар: Орналастырылған салмақтар орындалады 4-биттік NF4 кванттау Triton / TensorRT-LLM ядролары арқылы <16 дБ MOS сапасының жоғалуын сақтай отырып, өткізу қабілетін fp1-ға қарағанда екі есе арттырады.

Трансляцияға назар аударыңыз: Жылжымалы терезенің айналмалы кірістірулері және кілт-мәнді кэштеу модельге O(L) жады бар аудионың соңғы 15 секундына қатысуға мүмкіндік береді, бұл телефон қоңырауы аралығындағы диалогтар үшін өте маңызды.


Техникалық Толығырақ

  • API нұсқасы: 2025-06-03-preview
  • Тасымалдау хаттамалары:
  • WebRTC: Клиенттік аудио/бейне ағындары үшін өте төмен кідіріс (< 80 мс).
  • WebSockets: 100 мс кешігумен серверден серверге ағын
  • Деректерді кодтау:
  • Опус ішінде кодек RTP аудио пакеттері
  • Н.264 / Н.265 бейнеге арналған жақтау қаптамалары
  • Ағымдық: Қолдайды stream: true жеткізу инкрементальды токендер ретінде ішінара жауаптар жасалады
  • Жаңа дауыс палитрасы: сегіз жаңа дауысты енгізеді—қорытпа, күл, баллада, маржан, Echo, шалфей, жылтыр, және өлең— көбірек мәнерлі, адам тәрізді өзара әрекеттесу..

GPT-4o Realtime эволюциясы

  • мамыр 2024: GPT-4o Omni мәтін, аудио және көру үшін мультимодальды қолдауымен дебют жасайды.
  • қазан 2024: Нақты уақыттағы API жеке бета нұсқасына кіреді (2024-10-01-preview), аз кідірістегі дыбыс үшін оңтайландырылған.
  • желтоқсан 2024: кеңейтілген жаһандық қолжетімділігі gpt-4o-realtime-preview-2024-12-17, қосу жедел кэштеу және одан да көп дауыстар.
  • Маусым 3, 2025: Соңғы жаңарту (2025-06-03-preview) тазартылған түрде шығады дауыс палитрасы және өнімділікті оңтайландыру.

Эталондық өнімділік

  • MMLU: 88.7, GPT-4-тен 86.5-тен асып түсті Жаппай көп тапсырмалы тілді түсіну .
  • Сөйлеуді тану: жетеді алдыңғы қатарлы шулы ортадағы сөз қателерінің көрсеткіштері асып түседі Шыңырау базалық сызықтар.
  • Кешігу сынақтары:
  • Аяқталмаған (сөзді енгізу → мәтінді шығару): 50-80 мс WebRTC арқылы
  • Бара-бара аудио (кіру → сырттай сөйлеу): <100 мс .

Техникалық көрсеткіштері

  • Өткізу қабілеті: Қолдайды 15 токен/сек мәтіндік ағындар үшін; 24 кбит / с Аудио үшін Opus.
  • Баға:
  • мәтін: 5 миллион енгізу токеніне 1; 20 млн шығу таңбалауышы үшін 1
  • аудио: 100 миллион енгізу токеніне 1; 200 млн шығу таңбалауышы үшін 1.
  • болуы: Realtime API қолдайтын барлық аймақтарда жаһандық деңгейде орналастырылған.

CometAPI-ден GPT-4o Realtime API-ге қалай қоңырау шалу керек

GPT-4o Realtime CometAPI ішіндегі API бағасы:

  • Енгізу токендері: $2 / M таңбалауыштары
  • Шығару токендері: $8 / M токендері

Қажетті қадамдар

  • Жүйеге кіріңіз cometapi.com. Егер сіз әлі біздің пайдаланушы болмасаңыз, алдымен тіркеліңіз
  • Интерфейстің кіру тіркелгі деректерінің API кілтін алыңыз. Жеке орталықтағы API токеніндегі «Токенді қосу» түймесін басыңыз, таңбалауыш кілтін алыңыз: sk-xxxxx және жіберіңіз.
  • Осы сайттың URL мекенжайын алыңыз: https://api.cometapi.com/

Қолдану әдістері

  1. gpt-4o-realtime-preview-2025-06-03” сұрауды жіберу және сұраудың негізгі бөлігін орнату үшін соңғы нүкте. Сұрау әдісі мен сұрау мәтіні API doc веб-сайтымыздан алынған. Біздің веб-сайт сізге ыңғайлы болу үшін Apifox тестін де ұсынады.
  2. Ауыстыру тіркелгіңізден нақты CometAPI кілтімен.
  3. Мазмұн өрісіне сұрағыңызды немесе сұрауыңызды енгізіңіз — үлгі осыған жауап береді.
  4. . Жасалған жауапты алу үшін API жауабын өңдеңіз.

Comet API ішіндегі Model Access ақпаратын қараңыз API құжаты.

Comet API ішіндегі Үлгі бағасы туралы ақпаратты қараңыз https://api.cometapi.com/pricing.


Үлгі коды және API интеграциясы

import openai

openai.api_key = "YOUR_API_KEY"

# Establish a Realtime WebRTC connection

connection = openai.Realtime.connect(
    model="gpt-4o-realtime-preview-2025-06-03",
    version="2025-06-03-preview",
    transport="webrtc"
)

# Stream audio frames and receive incremental text

with open("user_audio.raw", "rb") as audio_stream:
    for chunk in iter(lambda: audio_stream.read(2048), b""):
        result = connection.send_audio(chunk)
        print("Assistant:", result)
  • Негізгі параметрлері:
  • model: «gpt-4o-нақты уақытта-алдын ала қарау-2025-06-03»
  • version: «Алдын ала қарау» 2025
  • transport: «webrtc» үшін минималды кідіріс
  • stream: true үшін инкрементальды жаңартулар

Біріктіру арқылы өнер жағдайы мультимодальды пайымдау, а Сенімді жаңа дауыс палитрасы және өте төмен кешігу ағыны, GPT-4o нақты уақыт (2025-06-03) әзірлеушілерге шын мәнінде құруға мүмкіндік береді диалогтық, сөйлесу AI қолданбалары.

Сондай-ақ, қараңыз o3-Pro API

Қауіпсіздік және сәйкестік

OpenAI GPT-4o Realtime бағдарламасын келесілермен жібереді:
Жүйе деңгейіндегі қоршаулар: Рұқсат етілмеген сұраулардан (экстремизм, заңсыз мінез-құлық) бас тартуға арналған саясат.
Нақты уақыттағы мазмұнды сүзу: 100 мс-ден кіші классификаторлар шығару алдында пайдаланушы енгізуі мен үлгі шығысын экранға шығарады.
Адамның мақұлдау жолдары: Agents SDK жаңа мақұлдау примитивтерін қолдана отырып, қауіптілігі жоғары құралдарды шақыруларда (төлемдер, заңгерлік кеңестер) іске қосылды.

GPT-4o нақты уақыт

SHARE THIS BLOG

500+ модель бір API-да

20%-ға дейін жеңілдік