API реального времени GPT-4o

CometAPI
AnnaJun 11, 2025
API реального времени GPT-4o

API реального времени GPT-4o: Конечная точка потоковой передачи с малой задержкой, позволяющая разработчикам отправлять и получать синхронизированные текстовые, аудио- и видеоданные через WebRTC или WebSocket (модель =gpt-4o-realtime-preview-<date>, stream=true) для интерактивных приложений реального времени.


Основная информация и характеристики

OpenAI-х GPT-4o в реальном времени (идентификатор модели: gpt-4o-realtime-preview-2025-06-03) — первая общедоступная модель фундамента, разработанная для сквозная речь-речь (S2S) взаимодействие с задержка менее секунды. Вариант Realtime, созданный на основе семейства GPT-4o «omni», объединяет Распознавание речи, рассуждения на естественном языке и нейронное преобразование текста в речь в единую сеть, что позволяет разработчикам создавать голосовых агентов, которые общаются так же плавно, как люди. Модель раскрывается через специально созданный API реального времени и тесно интегрирован с новым RealtimeAgent абстракция внутри Агенты SDK (TypeScript и Python).


Основной набор функций — Сквозное S2S • Обработка прерываний • Вызов инструмента

• Родная речь-речь: Аудиовход принимается как непрерывные потоки, внутренне токенизируется, обосновывается и возвращается как синтезированная речь. Не требуются внешние буферы STT/TTS, что устраняет многосекундную задержку конвейера.
• Задержка в миллисекундном масштабе: Архитектурное сокращение, дистилляция модели и оптимизированный для графического процессора стек обслуживания позволяют Задержка первого токена ~300–500 мс в типичных облачных развертываниях приближается к нормам человеческой очередности разговора.
• Надежные инструкции — следование: GPT-4o Realtime, точно настроенный на сценарии разговора и трассировки вызовов функций, демонстрирует >25 % снижение ошибок при выполнении задач по сравнению с базовым уровнем GPT-2024o на май 4 года.
• Детерминированный вызов инструмента: Модель создает структурированный JSON, соответствующий OpenAI схема вызова функций, что позволяет детерминированный вызов API-интерфейсов бэкэнда (системы бронирования, базы данных, IoT). Встроены повторные попытки с учетом ошибок и проверка аргументов.
• Изящные прерывания: Детектор голосовой активности в реальном времени в сочетании с инкрементным декодированием позволяет агенту пауза в речи на середине предложения, обработать прерывание пользователем и легко возобновить или перепланировать ответ.
• Настраиваемая скорость речи: В новом скорость параметр (0.25–4× в реальном времени) позволяет разработчикам настраивать темп вывода для приложений с особыми потребностями или быстродействующих приложений.


Техническая архитектура — Унифицированный мультимодальный трансформатор

Унифицированный кодер-декодер: GPT-4o Realtime разделяет архитектуру Omni односекционный трансформатор в котором аудио, текст и (будущие) визуальные маркеры сосуществуют в одном скрытом пространстве. Послойное адаптивное вычисление напрямую перенаправляет аудиокадры в последующие блоки внимания, сокращая время на 20–40 мс за проход.

Иерархическая аудиотокенизация: Необработанный PCM 16 кГц разбивается на фрагменты логарифмической точности → квантуется в крупнозернистые акустические токены → сжимается в семантические токены, оптимизируя токен в секунду бюджет без ущерба для просодии.

Ядра вывода с низким битом: Развернутые веса работают при 4-битное квантование NF4 с помощью ядер Triton/TensorRT-LLM, удваивая пропускную способность по сравнению с fp16 при сохранении потери качества MOS <1 дБ.

Внимание, трансляция: Встроенные циклические скользящие окна и кэширование «ключ-значение» позволяют модели обрабатывать последние 15 секунд аудио с памятью O(L), что имеет решающее значение для диалогов продолжительностью телефонный разговор.


технические детали

  • Версия API: 2025-06-03-preview
  • Транспортные протоколы:
  • WebRTC: Сверхнизкая задержка (< 80 мс) для клиентских аудио/видеопотоков
  • WebSocket: Потоковая передача данных с сервера на сервер с задержкой менее 100 мс
  • Кодирование данных:
  • Опус кодек внутри RTP пакеты для аудио
  • H.264 / H.265 обертки кадров для видео
  • потоковый: Поддерживает stream: true доставлять дополнительный частичные ответы по мере генерации токенов
  • Новая голосовая палитра: Представляет восемь новых голосов —сплав, пепел, баллада, коралловый, эхо, мудрец, мерцать и стих—для большего выразительный, человек, как взаимодействия ..

Эволюция GPT-4o Realtime

  • Май 2024: GPT-4o Omni дебютирует с мультимодальной поддержкой текста, аудио и изображения.
  • Октябрь 2024: API реального времени входит в закрытую бета-версию (2024-10-01-preview), оптимизированный для звука с малой задержкой.
  • Декабрь 2024: Расширенная глобальная доступность gpt-4o-realtime-preview-2024-12-17, Добавив, оперативное кэширование и больше голосов.
  • 3 июня 2025: Последнее обновление (2025-06-03-preview) выкатывает изысканный палитра голоса и оптимизация производительности.

Тестовая производительность

  • ММЛУ: 88.7, опережая GPT-4 на 86.5 Понимание языка в режиме многозадачности .
  • Распознавание речи: Достигает отрасли уровень ошибок в словах в шумной обстановке, превосходящий Whisper исходные данные.
  • Тесты на задержку:
  • Концы с концами (речь → текст): 50–80 мс через WebRTC
  • Круговой аудиосигнал (ввод речи → вывод речи): <100 мс .

Технические индикаторы

  • Увеличить пропускную способность: Поддерживает 15 токенов/сек для текстовых потоков; 24 Кбит Опус для аудио.
  • Цены:
  • Текст: 5 долларов за 1 млн входных токенов; 20 долларов за 1 млн выходных токенов
  • Аудио: 100 долл. США за 1 млн входных токенов; 200 долл. США за 1 млн выходных токенов.
  • Доступность: Развернуто глобально во всех регионах, поддерживающих Realtime API.

Как вызвать GPT-4o Realtime API из CometAPI

GPT-4o Realtime Цены на API в CometAPI:

  • Входные токены: $2 / млн токенов
  • Выходные токены: $8 / M токенов

Необходимые шаги

  • Войти в cometapi.com. Если вы еще не являетесь нашим пользователем, пожалуйста, сначала зарегистрируйтесь.
  • Получите ключ API-интерфейса для доступа к учетным данным. Нажмите «Добавить токен» в API-токене в персональном центре, получите ключ токена: sk-xxxxx и отправьте.
  • Получите URL этого сайта: https://api.cometapi.com/

Методы использования

  1. Выберите "gpt-4o-realtime-preview-2025-06-03” конечная точка для отправки запроса и установки тела запроса. Метод запроса и тело запроса получены из API doc нашего веб-сайта. Наш веб-сайт также предоставляет тест Apifox для вашего удобства.
  2. Заменять с вашим реальным ключом CometAPI из вашей учетной записи.
  3. Введите свой вопрос или запрос в поле «Контент» — на него ответит модель.
  4. . Обработайте ответ API, чтобы получить сгенерированный ответ.

Информацию о доступе к моделям в Comet API см. API документ.

Информацию о ценах моделей в Comet API см. https://api.cometapi.com/pricing.


Пример кода и интеграция API

import openai

openai.api_key = "YOUR_API_KEY"

# Establish a Realtime WebRTC connection

connection = openai.Realtime.connect(
    model="gpt-4o-realtime-preview-2025-06-03",
    version="2025-06-03-preview",
    transport="webrtc"
)

# Stream audio frames and receive incremental text

with open("user_audio.raw", "rb") as audio_stream:
    for chunk in iter(lambda: audio_stream.read(2048), b""):
        result = connection.send_audio(chunk)
        print("Assistant:", result)
  • Ключевые параметры:
  • model: «gpt-4o-realtime-preview-2025-06-03»
  • version: «2025-06-03-превью»
  • transport: «webrtc» для минимальная задержка
  • stream: true для дополнительный обновления

Объединив современное состояние мультимодальное рассуждение, надежный новая голосовая палитра и сверхнизкий задержка потоковой передачи, GPT-4o в реальном времени (2025-06-03) позволяет разработчикам создавать по-настоящему интерактивный, диалоговый Приложения ИИ.

См. также API o3-Pro

Безопасность и соответствие

OpenAI поставляет GPT-4o Realtime с:
Защитные ограждения на уровне системы: Политика настроена на отклонение запрещенных запросов (экстремизм, противоправное поведение).
Фильтрация контента в реальном времени: Классификаторы со временем отклика менее 100 мс проверяют как пользовательский ввод, так и выходные данные модели перед отправкой.
Пути одобрения со стороны человека: Срабатывает при вызове инструментов с высоким уровнем риска (платежи, юридические консультации) с использованием новых примитивов одобрения Agents SDK.

GPT-4o в реальном времени

SHARE THIS BLOG

500+ моделей в одном API

Скидка до 20%