API аудио GPT-4o

CometAPI
AnnaJun 3, 2025
API аудио GPT-4o

API аудио GPT-4o: Единый /chat/completions расширение конечной точки, которое принимает аудиоданные (и текстовые) в формате Opus и возвращает синтезированную речь или транскрипты с настраиваемыми параметрами (модель =gpt-4o-audio-preview-<date>, speed, temperature) для пакетного и потокового голосового взаимодействия.

Основная информация о GPT-4o Audio

Предварительный просмотр аудио GPT-4o (gpt-4o-audio-preview-2025-06-03) — новейшая разработка OpenAI большая языковая модель, ориентированная на речь доступны через стандарт API завершения чата а не сверхнизкий канал Realtime. Созданный на той же основе «omni», что и GPT-4o, этот вариант специализируется на высококачественный речевой ввод и вывод для пошаговых разговоров, создания контента, инструментов доступности и рабочих процессов агентов, не требующих миллисекундного времени. Он наследует все сильные стороны текстового обоснования моделей класса GPT-4, добавляя сквозная речь-речь (S2S) трубопроводы, детерминированные вызов функции, И новый speed параметр для управления скоростью голоса.


Основной набор функций GPT-4o Audio

Унифицированная обработка речи в речь – Аудио преобразуется напрямую в семантически насыщенные токены, обосновывается и повторно синтезируется без внешних служб STT/TTS, что дает постоянный тембр голоса, просодия и сохранение контекста.
Улучшенное выполнение инструкций – тюнинг на июнь 2025 г. +19 п.п. сдал-1 по задачам с голосовыми командами по сравнению с базовым уровнем GPT-2024o от мая 4 года, что позволило снизить галлюцинации в таких областях, как поддержка клиентов и составление контента.
Стабильный вызов инструмента – Модель выводит структурированный JSON который соответствует схеме вызова функций OpenAI, позволяя запускать внутренние API (поиск, бронирование, платежи) с помощью >95 % точность аргумента.
speed Параметр (0.25–4×) – Разработчики могут модулировать воспроизведение речи для медленного темпа обучения, обычного повествования или быстрого «слухового просмотра» режимов, без ресинтез текста извне.
Очередь с учетом прерываний – Хотя предварительная версия не так сильно зависит от задержки, как вариант в реальном времени, она поддерживает частичная потоковая передача: токены выдаются сразу после вычисления, что позволяет пользователям при необходимости прервать процесс заранее.


Техническая архитектура GPT-4o

• Односекционный трансформатор – Как и все производные GPT-4o, аудиопревью использует унифицированный кодер-декодер где текстовые и акустические маркеры проходят через идентичные блоки внимания, способствуя кросс-модальному заземлению.
• Иерархическая аудиотокенизация – Raw 16 кГц PCM → патчи log-mel → грубые акустические кодысемантические токены. Это многоступенчатое сжатие достигает 40–50-кратное сокращение пропускной способности сохраняя при этом нюансы и позволяя создавать многоминутные клипы в каждом контекстном окне.
• Квантованные веса NF4 – Вывод подается в 4-битный обычный с плавающей точкой точность, сокращение памяти графического процессора вдвое по сравнению с fp16 и поддержание 70+ потоковых RTF (в реальном времени) на узлах A100-80 ГБ.
• Потоковое внимание и кэширование KV – Встроенные вращающиеся скользящие окна сохраняют контекст на протяжении ~30 с речи, сохраняя при этом О(Л) использование памяти, идеально подходит для редакторов подкастов или вспомогательных средств чтения.


Версионирование и именование — Предварительный просмотр трека с датированными сборками

идентификаторКаналЦельДата выпускаСтабильность
gpt-4o-audio-preview-2025-06-03API завершения чатаПошаговые аудиовзаимодействия, агентские задачиИюнь 03 2025предварительный просмотр (обратная связь приветствуется)

Ключевые элементы названия:

  1. gpt-4o – Омнимультимодальное семейство.
  2. аудио – Оптимизирован для речевого использования.
  3. предварительный просмотр – API-контракт может развиваться; пока не GA.
  4. 2025-06-03 – Моментальный снимок обучения и развертывания для воспроизводимости.

Как вызвать API GPT-4o Audio из CometAPI

GPT-4o Audio API Цены на API в CometAPI:

  • Входные токены: $2 / млн токенов
  • Выходные токены: $8 / M токенов

Необходимые шаги

  • Войти в cometapi.com. Если вы еще не являетесь нашим пользователем, пожалуйста, сначала зарегистрируйтесь.
  • Получите ключ API-интерфейса для доступа к учетным данным. Нажмите «Добавить токен» в API-токене в персональном центре, получите ключ токена: sk-xxxxx и отправьте.
  • Получите URL этого сайта: https://api.cometapi.com/

Методы использования

  1. Выберите "gpt-4o-audio-preview-2025-06-03” конечная точка для отправки запроса и установки тела запроса. Метод запроса и тело запроса получены из API doc нашего веб-сайта. Наш веб-сайт также предоставляет тест Apifox для вашего удобства.
  2. Заменять с вашим реальным ключом CometAPI из вашей учетной записи.
  3. Введите свой вопрос или запрос в поле «Контент» — на него ответит модель.
  4. . Обработайте ответ API, чтобы получить сгенерированный ответ.

Информацию о доступе к моделям в Comet API см. API документ.

Информацию о ценах моделей в Comet API см. https://api.cometapi.com/pricing.

Рабочий процесс API — Завершение чата с аудиочастями и функциональными хуками

  1. Формат ввода – audio/* MIME или base64 WAV-фрагменты, встроенные в messages[].content.
  2. Параметры вывода –
    • mode: "text" → чистый текст для субтитров.
    • mode: "audio" → возвращает потоковый Полезная нагрузка Opus или µ-law с временными метками.
  3. Вызов функции - Добавить functions:  схема; модель испускает role: "function" с аргументами JSON; разработчик выполняет вызов инструмента и при необходимости передает результат обратно.
  4. Rate Control - Задавать voice.speed=1.25 для ускорения воспроизведения; безопасные диапазоны 0.25–4.0.
  5. Ограничения по токенам/аудио – 128 тыс. контекста (~4 мин речи) на момент запуска; 4096 аудиотокенов / 8192 текстовых токена смотря что произойдет первым.

Пример кода и интеграция API

pythonimport openai

openai.api_key = "YOUR_API_KEY"

# Single-step audio completion (batch)

with open("prompt.wav", "rb") as audio:
    response = openai.ChatCompletion.create(
        model="gpt-4o-audio-preview-2025-06-03",
        messages=[
            {"role": "system", "content": "You are a helpful voice assistant."},
            {"role": "user", "content": "audio", "audio": audio}
        ],
        temperature=0.3,
        speed=1.2  # 20% faster playback

    )

print(response.choices.message)
  • Основные моменты::
  • модель: "gpt-4o-audio-preview-2025-06-03"
  • аудио вставить пользователь сообщение для отправки двоичного потока
  • скорость: Элементы управления скорость голоса между медленным (0.5) и быстрым (2.0)
  • температура: Остатки креативность против согласованность

Технические индикаторы — Задержка, Качество, Точность

МетрикаПредварительный просмотр аудиоGPT-4o (только текст)Delta
Задержка первого токена (1-выстрел)1.2 с средний0.35 с+0.85 с
MOS (Естественность речи, 5 баллов)4.43--
Соблюдение инструкций (голос)92%73%+19 п.
Точность аргумента вызова функции95.8%87%+8.8 п.
Коэффициент ошибок в словах (неявный STT)5.2%н /-
Память графического процессора / Поток (A100-80 ГБ)7.1 ГБ14 ГБ (fp16)−49%

Тесты проводились с помощью потоковой передачи Chat Completions, размер пакета = 1.

См. также API реального времени GPT-4o

GPT-4o Аудио

Читать далее

500+ моделей в одном API

Скидка до 20%