МоделиПоддержкаПредприятиеБлог
500+ API моделей ИИ, всё в одном API. Только в CometAPI
API моделей
Разработчик
Быстрый стартДокументацияПанель управления API
Ресурсы
AI МоделиБлогПредприятиеЖурнал измененийО нас
2025 CometAPI. Все права защищены.Политика конфиденциальностиУсловия обслуживания
Home/Models/OpenAI/gpt-audio-1.5
O

gpt-audio-1.5

Ввод:$2/M
Вывод:$8/M
Лучшая голосовая модель для ввода и вывода аудио с Chat Completions.
Новый
Коммерческое использование
Обзор
Функции
Цены
API

Технические характеристики gpt-audio-1.5

Параметрgpt-audio-1.5 (публичные характеристики)
Семейство моделейсемейство GPT Audio (вариант, ориентированный на аудио)
Типы вводаТекст, аудио (речь на входе)
Типы выводаТекст, аудио (речь на выходе), структурированные ответы (поддерживаются вызовы функций)
Контекстное окно128,000 tokens.
Макс. число токенов вывода16,384 (указано в связанной записи gpt-audio).
Уровень производительностиПовышенный уровень интеллекта; средняя скорость (сбалансировано).
Профиль задержекОптимизировано для голосовых взаимодействий (средняя/низкая задержка в зависимости от эндпойнта).
ДоступностьChat Completions API (ввод/вывод аудио) и песочницы платформы; интегрирован по интерфейсам реального времени/голоса.
Примечания по безопасности/использованиюОграничители для голосового контента; относитесь к выводам модели с привычными мерами безопасности и проверками для продукционных голосовых агентов.

Примечание: gpt-realtime-1.5 — близкий вариант для реального времени, ориентированный на аудио/голос, оптимизированный под меньшую задержку и сессии реального времени; сравните ниже.


Что такое gpt-audio-1.5?

gpt-audio-1.5 — модель GPT с поддержкой аудио, обеспечивающая как голосовой ввод, так и голосовой вывод через Chat Completions и связанные API с поддержкой аудио. Позиционируется как основная общедоступная аудиомодель для создания голосовых агентов и аудио‑ориентированных сценариев с балансом качества и скорости.


Основные возможности

  1. Поддержка ввода/вывода речи: Обрабатывает устный ввод и возвращает устные или текстовые ответы для естественных голосовых сценариев.
  2. Большой контекст для аудио‑процессов: Поддерживает очень большой контекст (задекларировано 128k токенов), что позволяет вести многошаговые, длительные диалоги и крупные мультимодальные сессии.
  3. Потоковая передача и совместимость с Chat Completions: Работает внутри Chat Completions с потоковыми аудиоответами и структурированными выводами через вызовы функций.
  4. Баланс производительности и задержки: Настроена на выдачу высококачественных аудиоответов при средней пропускной способности — подходит для чат-ботов и голосовых ассистентов, где важны качество и естественность.
  5. Экосистема и интеграции: Поддерживается в песочницах платформы и доступна через официальные эндпойнты реального времени/голоса и партнерские интеграции (примечания Azure/Microsoft Foundry ссылаются на аналогичные аудиомодели).

gpt-audio-1.5 по сравнению с родственными аудиомоделями

Свойствоgpt-audio-1.5gpt-realtime-1.5
Основной фокусВысококачественный аудио‑ввод/вывод для Chat Completions и разговорных сценариев.Realtime S2S (речь‑в‑речь) с меньшей задержкой для живых голосовых агентов и потоковых сценариев.
Контекстное окно128k tokens.32k tokens (вариант для реального времени).
Макс. токенов вывода16,384 (задокументировано).Обычно настроена на более короткие ответы в реальном времени (в документации указан меньший максимум токенов).
Лучшее применениеЧат-боты, голосовые ассистенты, где нужны полные семантики чата + аудио.Живые голосовые агенты, киоски и низкозадержочные разговорные интерфейсы.

Типичные сценарии использования

  • Разговорные голосовые агенты для поддержки клиентов и внутренних справочных служб.
  • Голосовые ассистенты, встроенные в приложения, устройства и киоски.
  • Руки‑свободны рабочие процессы (диктовка, голосовой поиск, доступность).
  • Мультимодальные сценарии, сочетающие аудио с текстом/изображениями через Chat Completions.

Ограничения и операционные соображения

  • Не является прямой заменой человеческого контроля качества: Всегда проверяйте голосовые ответы и последующие действия с участием человека в продукционных сценариях.
  • Планирование ресурсов: Большой контекст и аудио‑I/O могут увеличить потребление вычислительных ресурсов и задержки — продумайте стратегии потоковой передачи/сегментации для длительных сессий.
  • Ограничения по безопасности и политике: Голосовой вывод обладает высокой убедительностью; соблюдайте платформенные рекомендации и защитные механизмы при масштабном развертывании.
  • Как получить доступ к GPT Audio 1.5 API

Шаг 1: Зарегистрируйтесь для получения ключа API

Войдите на cometapi.com. Если вы еще не являетесь нашим пользователем, сначала зарегистрируйтесь. Авторизуйтесь в консоли CometAPI. Получите ключ API (учетные данные) для доступа к интерфейсу. Нажмите “Add Token” в разделе API token в личном кабинете, получите ключ токена: sk-xxxxx и отправьте.

cometapi-key

Шаг 2: Отправьте запросы в GPT Audio 1.5 API

Выберите эндпойнт “gpt-audio-1.5” для отправки запроса к API и задайте тело запроса. Метод запроса и тело запроса смотрите в документации API на нашем сайте. Для удобства на сайте также доступен тест в Apifox. Замените <YOUR_API_KEY> на ваш фактический ключ CometAPI из учетной записи. базовый URL — Chat Completions

Вставьте ваш вопрос или запрос в поле content — именно на него модель ответит. Обработайте ответ API, чтобы получить сгенерированный результат.

Шаг 3: Получите и проверьте результаты

Обработайте ответ API, чтобы получить сгенерированный результат. После обработки API возвращает статус задачи и выходные данные.

ЧАВО

What are the official context and output token limits for gpt-audio-1.5 API?

gpt-audio-1.5 поддерживает контекстное окно в 128,000 токенов, а в документации указан максимально настраиваемый предел токенов вывода около 16,384; уточняйте точные ограничения для каждого эндпоинта в документации для разработчиков. :contentReference[oaicite:44]{index=44}

Can gpt-audio-1.5 handle both speech-to-text and text-to-speech in the API?

Да — он принимает аудио на вход и может возвращать аудио или текстовые ответы через эндпоинты Chat Completions/audio. :contentReference[oaicite:45]{index=45}

When should I use gpt-audio-1.5 vs gpt-realtime-1.5 for a voice agent?

Выбирайте gpt-audio-1.5 для более качественного аудио в потоках Chat Completions, где требуется больший контекст; выбирайте gpt-realtime-1.5 для низкой задержки и живых потоковых голосовых взаимодействий. :contentReference[oaicite:46]{index=46}

Does gpt-audio-1.5 support streaming and function calling for tool integrations?

Да — модель поддерживает потоковую выдачу аудиоответов и структурированные выходные данные/вызов функций для интеграции внешних инструментов и рабочих процессов. :contentReference[oaicite:47]{index=47}

Is gpt-audio-1.5 suitable for production customer support voice agents?

Да — он предназначен для голосовых ассистентов и конверсационных агентов, но перед вводом в продакшн следует добавить ручную проверку/QA, логирование и меры безопасности. :contentReference[oaicite:48]{index=48}

What are the main limitations to consider when deploying gpt-audio-1.5?

Ключевые соображения: компромиссы между вычислительными затратами и задержкой для аудиосессий с большим контекстом, защитные меры для голосового контента и необходимость проверять результаты ASR/TTS в вашей предметной области. :contentReference[oaicite:49]{index=49}

Функции для gpt-audio-1.5

Изучите ключевые функции gpt-audio-1.5, разработанные для повышения производительности и удобства использования. Узнайте, как эти возможности могут принести пользу вашим проектам и улучшить пользовательский опыт.

Цены для gpt-audio-1.5

Изучите конкурентоспособные цены на gpt-audio-1.5, разработанные для различных бюджетов и потребностей использования. Наши гибкие планы гарантируют, что вы платите только за то, что используете, что упрощает масштабирование по мере роста ваших требований. Узнайте, как gpt-audio-1.5 может улучшить ваши проекты, сохраняя при этом управляемые расходы.
Цена Comet (USD / M Tokens)Официальная цена (USD / M Tokens)Скидка
Ввод:$2/M
Вывод:$8/M
Ввод:$2.5/M
Вывод:$10/M
-20%

Пример кода и API для gpt-audio-1.5

Получите доступ к исчерпывающим примерам кода и ресурсам API для gpt-audio-1.5, чтобы упростить процесс интеграции. Наша подробная документация предоставляет пошаговые инструкции, помогая вам использовать весь потенциал gpt-audio-1.5 в ваших проектах.
POST
/v1/chat/completions
Python
JavaScript
Curl
from openai import OpenAI
import os
import base64

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="gpt-audio-1.5",
    modalities=["text", "audio"],
    audio={"voice": "alloy", "format": "wav"},
    messages=[
        {
            "role": "user",
            "content": "Is a golden retriever a good family dog?"
        }
    ],
)

# Print the text response
print(completion.choices[0].message.audio.transcript)

# Save the audio response to a file
wav_bytes = base64.b64decode(completion.choices[0].message.audio.data)
output_path = "gpt-audio-1.5-output.wav"
with open(output_path, "wb") as f:
    f.write(wav_bytes)
print(f"Audio saved to {output_path}")

Python Code Example

from openai import OpenAI
import os
import base64

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="gpt-audio-1.5",
    modalities=["text", "audio"],
    audio={"voice": "alloy", "format": "wav"},
    messages=[
        {
            "role": "user",
            "content": "Is a golden retriever a good family dog?"
        }
    ],
)

# Print the text response
print(completion.choices[0].message.audio.transcript)

# Save the audio response to a file
wav_bytes = base64.b64decode(completion.choices[0].message.audio.data)
output_path = "gpt-audio-1.5-output.wav"
with open(output_path, "wb") as f:
    f.write(wav_bytes)
print(f"Audio saved to {output_path}")

JavaScript Code Example

import OpenAI from "openai";
import fs from "fs";

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY || "<YOUR_COMETAPI_KEY>";
const base_url = "https://api.cometapi.com/v1";

const openai = new OpenAI({ apiKey: api_key, baseURL: base_url });

const completion = await openai.chat.completions.create({
  model: "gpt-audio-1.5",
  modalities: ["text", "audio"],
  audio: { voice: "alloy", format: "wav" },
  messages: [
    {
      role: "user",
      content: "Is a golden retriever a good family dog?",
    },
  ],
});

// Print the text transcript
console.log(completion.choices[0].message.audio.transcript);

// Save the audio response to a file
const wavBytes = Buffer.from(completion.choices[0].message.audio.data, "base64");
const outputPath = "gpt-audio-1.5-output.wav";
fs.writeFileSync(outputPath, wavBytes);
console.log(`Audio saved to ${outputPath}`);

Curl Code Example

# Get your CometAPI key from https://api.cometapi.com/console/token
# Export it as: export COMETAPI_KEY="your-key-here"

RESPONSE=$(curl https://api.cometapi.com/v1/chat/completions \
  -s \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $COMETAPI_KEY" \
  -d '{
    "model": "gpt-audio-1.5",
    "modalities": ["text", "audio"],
    "audio": {
      "voice": "alloy",
      "format": "wav"
    },
    "messages": [
      {
        "role": "user",
        "content": "Is a golden retriever a good family dog?"
      }
    ]
  }')

# Print the text transcript
echo "$RESPONSE" | python3 -c "import sys, json; r=json.load(sys.stdin); print(r['choices'][0]['message']['audio']['transcript'])"

# Save the audio to a WAV file
echo "$RESPONSE" | python3 -c "
import sys, json, base64
r = json.load(sys.stdin)
audio_data = r['choices'][0]['message']['audio']['data']
with open('gpt-audio-1.5-output.wav', 'wb') as f:
    f.write(base64.b64decode(audio_data))
print('Audio saved to gpt-audio-1.5-output.wav')
"

Больше моделей

O

gpt-realtime-1.5

Ввод:$3.2/M
Вывод:$12.8/M
Лучшая модель речи для ввода и вывода аудио.
O

Whisper-1

Ввод:$24/M
Вывод:$24/M
Преобразование речи в текст, создание переводов
O

TTS

Ввод:$12/M
Вывод:$12/M
Преобразование текста в речь OpenAI
K

Kling TTS

За запрос:$0.006608
[Синтез речи] Недавно запущено: онлайн генерация вещательного аудио из текста, с функцией предварительного прослушивания ● Одновременно может генерировать audio_id, который можно использовать с любым Keling API.
K

Kling video-to-audio

K

Kling video-to-audio

За запрос:$0.03304
Kling видео в аудио
K

Kling text-to-audio

K

Kling text-to-audio

За запрос:$0.03304
Kling преобразование текста в аудио