O

gpt-audio-1.5

Ввод:$2/M
Вывод:$8/M
Лучшая голосовая модель для ввода и вывода аудио с Chat Completions.
Новый
Коммерческое использование

Технические характеристики gpt-audio-1.5

Параметрgpt-audio-1.5 (публичные спецификации)
Семейство моделейСемейство GPT Audio (вариант с приоритетом аудио)
Типы входных данныхТекст, аудио (входящая речь)
Типы выходных данныхТекст, аудио (исходящая речь), структурированные ответы (поддерживаются вызовы функций)
Контекстное окно128,000 токенов.
Максимум токенов вывода16,384 (задокументировано в соответствующем списке gpt-audio).
Уровень производительностиБолее высокий уровень интеллекта; средняя скорость (сбалансировано).
Профиль задержкиОптимизировано для голосовых взаимодействий (средняя/низкая задержка в зависимости от конечной точки).
ДоступностьChat Completions API (аудио на вход/выход) и песочницы платформы; интегрировано в интерфейсы реального времени/голоса.
Замечания по безопасности/использованиюЗащитные механизмы для голосового контента; относитесь к выводам модели с обычными требованиями безопасности и верификации для производственных голосовых агентов.

Примечание: gpt-realtime-1.5 — тесно связанный вариант, ориентированный на голос/аудио в реальном времени, оптимизированный для более низкой задержки и сессий в реальном времени; сравнение ниже.


Что такое gpt-audio-1.5?

gpt-audio-1.5 — это модель GPT с поддержкой аудио, которая принимает речь на вход и генерирует речь на выход, доступная через Chat Completions и связанные API с поддержкой аудио. Она позиционируется как основная общедоступная аудиомодель для создания голосовых агентов и аудио‑ориентированных интерфейсов с балансом качества и скорости.


Основные возможности

  1. Поддержка речи на входе/выходе: Обрабатывает устную речь и возвращает голосовые или текстовые ответы для естественных голосовых диалогов.
  2. Большой контекст для аудиопроцессов: Поддерживает очень большой контекст (задокументировано 128k токенов), что позволяет вести многотуровые длинные беседы или масштабные мультимодальные сессии.
  3. Потоковая передача и совместимость с Chat Completions: Работает внутри Chat Completions с потоковой передачей аудиоответов и структурированными результатами вызова функций.
  4. Сбалансированная производительность/задержка: Настроена на высокое качество аудиовывода при средней пропускной способности — подходит для чат-ботов и голосовых ассистентов, где важно качество.
  5. Экосистема и интеграции: Поддерживается в песочницах платформы и доступна через официальные эндпоинты реального времени/голоса и партнерские интеграции (в примечаниях Azure/Microsoft Foundry упоминаются аналогичные аудиомодели).

gpt-audio-1.5 по сравнению с родственными аудиомоделями

Свойствоgpt-audio-1.5gpt-realtime-1.5
Основное назначениеВысококачественное аудио на вход/выход для Chat Completions и разговорных сценариев.Realtime S2S (речь-в-речь) с более низкой задержкой для живых голосовых агентов и потоковых сценариев.
Контекстное окно128k токенов.32k токенов (задокументированный вариант реального времени).
Максимум токенов вывода16,384 (задокументировано).Обычно настроена на более короткие ответы в реальном времени (в документации указан меньший максимум токенов).
Лучшее применениеЧат-боты, голосовые ассистенты, где требуются полноценная семантика чата и аудио.Живые голосовые агенты, киоски и интерфейсы с низкой задержкой.

Типичные варианты использования

  • Разговорные голосовые агенты для поддержки клиентов и внутренних справочных служб.
  • Голосовые ассистенты, встроенные в приложения, устройства и киоски.
  • Рабочие процессы без рук (диктовка, голосовой поиск, доступность).
  • Мультимодальные сценарии, сочетающие аудио с текстом/изображениями через Chat Completions.

Ограничения и эксплуатационные соображения

  • Не является полноценной заменой ручному QA: Всегда проверяйте голосовые ответы и последующие действия с участием человека в производственных контурах.
  • Планирование ресурсов: Большой контекст и аудио‑ввод/вывод могут увеличить вычислительные затраты и задержку — проектируйте стратегии потоковой передачи/сегментации для длинных сессий.
  • Требования безопасности и политики: Голосовые ответы обладают убедительным воздействием; соблюдайте правила безопасности платформы и защитные механизмы при масштабном внедрении.
  • Как получить доступ к GPT Audio 1.5 API

Шаг 1: Зарегистрируйте ключ API

Войдите на cometapi.com. Если вы еще не являетесь нашим пользователем, сначала зарегистрируйтесь. Войдите в свою консоль CometAPI. Получите ключ доступа API. Нажмите “Add Token” в разделе токенов API в личном кабинете, получите ключ токена: sk-xxxxx и отправьте.

cometapi-key

Шаг 2: Отправляйте запросы к GPT Audio 1.5 API

Выберите эндпоинт “gpt-audio-1.5” для отправки запроса к API и задайте тело запроса. Метод и тело запроса берутся из нашей документации по API на сайте. Наш сайт также предоставляет тест Apifox для вашего удобства. Замените <YOUR_API_KEY> на ваш фактический ключ CometAPI из аккаунта. base url is Chat Completions

Вставьте свой вопрос или запрос в поле content — именно на него модель будет отвечать. Обработайте ответ API, чтобы получить сгенерированный результат.

Шаг 3: Получите и проверьте результаты

Обработайте ответ API, чтобы получить сгенерированный результат. После обработки API возвращает статус задачи и выходные данные.

ЧАВО

Больше моделей