Теперь доступна модель голоса GPT-Realtime с поддержкой ввода изображений.

Компания OpenAI сегодня объявила, что Теперь доступна модель голоса GPT-Realtime с поддержкой ввода изображений., что ознаменовало переход Realtime API из стадии бета-тестирования в стадию общедоступной версии для голосовых агентов. В этом релизе GPT-Realtime позиционируется как модель передачи речи с малой задержкой, которая позволяет вести двусторонние голосовые разговоры, а также согласовывать ответы с изображениями, передаваемыми во время сеанса.

OpenAI описывает gpt-realtime Это самая продвинутая на сегодняшний день модель преобразования речи в речь: она обрабатывает аудиосигнал от начала до конца (вместо последовательного преобразования речи в текст и текста в речь), воспроизводит более естественную и выразительную речь и демонстрирует ощутимый прирост в понимании, выполнении инструкций и вызове функций. Компания отмечает улучшения во внутренних тестах и заявляет, что модель улавливает такие нюансы, как смех, переключение языка в середине предложения и более точно распознаёт буквенно-цифровой контент.

Какие новости

Ввод изображений в сеансы живого голоса. Разработчики могут прикреплять фотографии, скриншоты или другие изображения к аудио или тексту; модель может отвечать на визуальные вопросы, читать текст на скриншотах (в стиле OCR) и включать понимание сцены в устный ответ. Это позволяет реализовать такие рабочие процессы, как визуальные вопросы и ответы во время телефонного разговора или мультимодальную поддержку для обслуживания клиентов.
Речь-речь, меньшая задержка, более выразительные голоса. GPT-Realtime обеспечивает нативный аудиовыход с уменьшенной задержкой передачи в обоих направлениях по сравнению со старыми цепочками STT→LLM→TTS и поддерживает выразительные голосовые опции (в зоне покрытия обозначены как «Cedar» и «Marine»). Модель настроена на понимание инструкций и нюансов разговорной речи.
Возможности корпоративной интеграции. Обновление Realtime API добавляет корпоративные возможности, такие как поддержка MCP-сервера и SIP-телефонии, что позволяет голосовым агентам напрямую подключаться к телефонным сетям и АТС. Эти дополнения предназначены для развертывания служб поддержки клиентов и контакт-центров.

тесты

BigBench Audio (рассуждение): 82.8% — вверх от 65.6%. на модели реального времени OpenAI за декабрь 2024 года. Это основной бенчмарк для задач рассуждений, связанных с аудиоанализом.

MultiChallenge (следование инструкциям, аудио): ~30.5% vs ~ 20.6% ранее — демонстрирует улучшенную приверженность многоэтапным или сложным устным инструкциям.

ComplexFuncBench (успешность вызова функции): ~66.5% vs ~ 49.7% ранее — более высокая надежность, когда модель должна вызывать инструменты/функции во время аудиосеанса.

Стоимость и задержка: OpenAI утверждает, что новая модель снижает стоимость аудио на один токен (примерно на 20% ниже, чем в предыдущей версии в реальном времени) и работает как единая сквозная модель (без отдельной цепочки STT → LM → TTS), что снижает сквозную задержку в интерактивных потоках в реальном времени.

OpenAI говорит, что gpt-realtime Модель демонстрирует существенные улучшения в ряде объективных тестов и в реальных условиях — более высокие результаты в BigBench Audio и при оценке выполнения инструкций/вызова функций, а также лучшую обработку буквенно-цифровых символов, кодовых слов и переключения языков в живом аудио. Компания также представила два новых голоса (Cedar и Marin) и сообщает о снижении цены на 20% по сравнению с предыдущей моделью для предварительного просмотра в реальном времени.

API реального времени и gpt-realtime Теперь модель доступна разработчикам (GA). В этом обновлении OpenAI также снизила цену своего Realtime API, сократив стоимость аудиовхода до 32 долларов за миллион токенов, а стоимость аудиовыхода — до 64 долларов за миллион токенов, что на 20% меньше предыдущей цены и предоставляет разработчикам более экономичное решение.

Первые шаги

CometAPI — это унифицированная платформа API, которая объединяет более 500 моделей ИИ от ведущих поставщиков, таких как серия GPT OpenAI, Gemini от Google, Claude от Anthropic, Midjourney, Suno и других, в единый, удобный для разработчиков интерфейс. Предлагая последовательную аутентификацию, форматирование запросов и обработку ответов, CometAPI значительно упрощает интеграцию возможностей ИИ в ваши приложения. Независимо от того, создаете ли вы чат-ботов, генераторы изображений, композиторов музыки или конвейеры аналитики на основе данных, CometAPI позволяет вам выполнять итерации быстрее, контролировать расходы и оставаться независимыми от поставщика — и все это при использовании последних достижений в экосистеме ИИ.

Разработчики могут получить доступ GPT-5 Последние версии моделей CometAPI указаны на дату публикации статьи. Для начала изучите возможности модели в Детская Площадка и проконсультируйтесь с API-руководство для получения подробных инструкций. Перед доступом убедитесь, что вы вошли в CometAPI и получили ключ API. CometAPI предложить цену намного ниже официальной, чтобы помочь вам интегрироваться.

Последняя интеграция gpt-realtime скоро появится на CometAPI, так что следите за новостями！

Какие новости

тесты

Первые шаги

Читать далее

500+ моделей в одном API