API реального времени GPT-4o: Конечная точка потоковой передачи с малой задержкой, позволяющая разработчикам отправлять и получать синхронизированные текстовые, аудио- и видеоданные через WebRTC или WebSocket (модель =gpt-4o-realtime-preview-<date>, stream=true) для интерактивных приложений реального времени.
Основная информация и характеристики
OpenAI-х GPT-4o в реальном времени (идентификатор модели: gpt-4o-realtime-preview-2025-06-03) — первая общедоступная модель фундамента, разработанная для сквозная речь-речь (S2S) взаимодействие с задержка менее секунды. Вариант Realtime, созданный на основе семейства GPT-4o «omni», объединяет Распознавание речи, рассуждения на естественном языке и нейронное преобразование текста в речь в единую сеть, что позволяет разработчикам создавать голосовых агентов, которые общаются так же плавно, как люди. Модель раскрывается через специально созданный API реального времени и тесно интегрирован с новым RealtimeAgent абстракция внутри Агенты SDK (TypeScript и Python).
Основной набор функций — Сквозное S2S • Обработка прерываний • Вызов инструмента
• Родная речь-речь: Аудиовход принимается как непрерывные потоки, внутренне токенизируется, обосновывается и возвращается как синтезированная речь. Не требуются внешние буферы STT/TTS, что устраняет многосекундную задержку конвейера.
• Задержка в миллисекундном масштабе: Архитектурное сокращение, дистилляция модели и оптимизированный для графического процессора стек обслуживания позволяют Задержка первого токена ~300–500 мс в типичных облачных развертываниях приближается к нормам человеческой очередности разговора.
• Надежные инструкции — следование: GPT-4o Realtime, точно настроенный на сценарии разговора и трассировки вызовов функций, демонстрирует >25 % снижение ошибок при выполнении задач по сравнению с базовым уровнем GPT-2024o на май 4 года.
• Детерминированный вызов инструмента: Модель создает структурированный JSON, соответствующий OpenAI схема вызова функций, что позволяет детерминированный вызов API-интерфейсов бэкэнда (системы бронирования, базы данных, IoT). Встроены повторные попытки с учетом ошибок и проверка аргументов.
• Изящные прерывания: Детектор голосовой активности в реальном времени в сочетании с инкрементным декодированием позволяет агенту пауза в речи на середине предложения, обработать прерывание пользователем и легко возобновить или перепланировать ответ.
• Настраиваемая скорость речи: В новом скорость параметр (0.25–4× в реальном времени) позволяет разработчикам настраивать темп вывода для приложений с особыми потребностями или быстродействующих приложений.
Техническая архитектура — Унифицированный мультимодальный трансформатор
Унифицированный кодер-декодер: GPT-4o Realtime разделяет архитектуру Omni односекционный трансформатор в котором аудио, текст и (будущие) визуальные маркеры сосуществуют в одном скрытом пространстве. Послойное адаптивное вычисление напрямую перенаправляет аудиокадры в последующие блоки внимания, сокращая время на 20–40 мс за проход.
Иерархическая аудиотокенизация: Необработанный PCM 16 кГц разбивается на фрагменты логарифмической точности → квантуется в крупнозернистые акустические токены → сжимается в семантические токены, оптимизируя токен в секунду бюджет без ущерба для просодии.
Ядра вывода с низким битом: Развернутые веса работают при 4-битное квантование NF4 с помощью ядер Triton/TensorRT-LLM, удваивая пропускную способность по сравнению с fp16 при сохранении потери качества MOS <1 дБ.
Внимание, трансляция: Встроенные циклические скользящие окна и кэширование «ключ-значение» позволяют модели обрабатывать последние 15 секунд аудио с памятью O(L), что имеет решающее значение для диалогов продолжительностью телефонный разговор.
технические детали
- Версия API:
2025-06-03-preview - Транспортные протоколы:
- WebRTC: Сверхнизкая задержка (< 80 мс) для клиентских аудио/видеопотоков
- WebSocket: Потоковая передача данных с сервера на сервер с задержкой менее 100 мс
- Кодирование данных:
- Опус кодек внутри RTP пакеты для аудио
- H.264 / H.265 обертки кадров для видео
- потоковый: Поддерживает
stream: trueдоставлять дополнительный частичные ответы по мере генерации токенов - Новая голосовая палитра: Представляет восемь новых голосов —сплав, пепел, баллада, коралловый, эхо, мудрец, мерцать и стих—для большего выразительный, человек, как взаимодействия ..
Эволюция GPT-4o Realtime
- Май 2024: GPT-4o Omni дебютирует с мультимодальной поддержкой текста, аудио и изображения.
- Октябрь 2024: API реального времени входит в закрытую бета-версию (
2024-10-01-preview), оптимизированный для звука с малой задержкой. - Декабрь 2024: Расширенная глобальная доступность
gpt-4o-realtime-preview-2024-12-17, Добавив, оперативное кэширование и больше голосов. - 3 июня 2025: Последнее обновление (
2025-06-03-preview) выкатывает изысканный палитра голоса и оптимизация производительности.
Тестовая производительность
- ММЛУ: 88.7, опережая GPT-4 на 86.5 Понимание языка в режиме многозадачности .
- Распознавание речи: Достигает отрасли уровень ошибок в словах в шумной обстановке, превосходящий Whisper исходные данные.
- Тесты на задержку:
- Концы с концами (речь → текст): 50–80 мс через WebRTC
- Круговой аудиосигнал (ввод речи → вывод речи): <100 мс .
Технические индикаторы
- Увеличить пропускную способность: Поддерживает 15 токенов/сек для текстовых потоков; 24 Кбит Опус для аудио.
- Цены:
- Текст: 5 долларов за 1 млн входных токенов; 20 долларов за 1 млн выходных токенов
- Аудио: 100 долл. США за 1 млн входных токенов; 200 долл. США за 1 млн выходных токенов.
- Доступность: Развернуто глобально во всех регионах, поддерживающих Realtime API.
Как вызвать GPT-4o Realtime API из CometAPI
GPT-4o Realtime Цены на API в CometAPI:
- Входные токены: $2 / млн токенов
- Выходные токены: $8 / M токенов
Необходимые шаги
- Войти в cometapi.com. Если вы еще не являетесь нашим пользователем, пожалуйста, сначала зарегистрируйтесь.
- Получите ключ API-интерфейса для доступа к учетным данным. Нажмите «Добавить токен» в API-токене в персональном центре, получите ключ токена: sk-xxxxx и отправьте.
- Получите URL этого сайта: https://api.cometapi.com/
Методы использования
- Выберите "
gpt-4o-realtime-preview-2025-06-03” конечная точка для отправки запроса и установки тела запроса. Метод запроса и тело запроса получены из API doc нашего веб-сайта. Наш веб-сайт также предоставляет тест Apifox для вашего удобства. - Заменять с вашим реальным ключом CometAPI из вашей учетной записи.
- Введите свой вопрос или запрос в поле «Контент» — на него ответит модель.
- . Обработайте ответ API, чтобы получить сгенерированный ответ.
Информацию о доступе к моделям в Comet API см. API документ.
Информацию о ценах моделей в Comet API см. https://api.cometapi.com/pricing.
Пример кода и интеграция API
import openai
openai.api_key = "YOUR_API_KEY"
# Establish a Realtime WebRTC connection
connection = openai.Realtime.connect(
model="gpt-4o-realtime-preview-2025-06-03",
version="2025-06-03-preview",
transport="webrtc"
)
# Stream audio frames and receive incremental text
with open("user_audio.raw", "rb") as audio_stream:
for chunk in iter(lambda: audio_stream.read(2048), b""):
result = connection.send_audio(chunk)
print("Assistant:", result)
- Ключевые параметры:
model: «gpt-4o-realtime-preview-2025-06-03»version: «2025-06-03-превью»transport: «webrtc» для минимальная задержкаstream:trueдля дополнительный обновления
Объединив современное состояние мультимодальное рассуждение, надежный новая голосовая палитра и сверхнизкий задержка потоковой передачи, GPT-4o в реальном времени (2025-06-03) позволяет разработчикам создавать по-настоящему интерактивный, диалоговый Приложения ИИ.
См. также API o3-Pro
Безопасность и соответствие
OpenAI поставляет GPT-4o Realtime с:
• Защитные ограждения на уровне системы: Политика настроена на отклонение запрещенных запросов (экстремизм, противоправное поведение).
• Фильтрация контента в реальном времени: Классификаторы со временем отклика менее 100 мс проверяют как пользовательский ввод, так и выходные данные модели перед отправкой.
• Пути одобрения со стороны человека: Срабатывает при вызове инструментов с высоким уровнем риска (платежи, юридические консультации) с использованием новых примитивов одобрения Agents SDK.

