МоделиПоддержкаПредприятиеБлог
500+ API моделей ИИ, всё в одном API. Только в CometAPI
API моделей
Разработчик
Быстрый стартДокументацияПанель управления API
Ресурсы
AI МоделиБлогПредприятиеЖурнал измененийО нас
2025 CometAPI. Все права защищены.Политика конфиденциальностиУсловия обслуживания
Home/Models/OpenAI/GPT-4o mini Audio Preview
O

GPT-4o mini Audio Preview

Ввод:$60/M
Вывод:$240/M
GPT-4o mini Audio Preview — компактная мультимодальная модель для создания разговорных аудиоприложений. Она поддерживает голосовой ввод и вывод наряду с текстом, обеспечивая распознавание речи, синтез речи и смешанные текстово-аудио диалоги с вызовом инструментов и функций для структурированных действий. Типичные сценарии использования включают: голосовые ассистенты, потоковую транскрипцию с суммаризацией, рабочие процессы IVR и колл-ботов, а также помощников в приложениях с поддержкой аудио. Ключевые технические возможности включают аудио-ввод/вывод, потоковые ответы, следование инструкциям и интеграцию через API чата и инструментов.
Коммерческое использование
Обзор
Функции
Цены
API
Версии

Technical Specifications of gpt-4o-mini-audio-preview

SpecificationDetails
Model IDgpt-4o-mini-audio-preview
Model TypeCompact multimodal audio-preview model
Core ModalitiesText input/output, speech input, speech output
Primary Interface PatternChat-based interactions with multimodal message content
Audio CapabilitiesSpeech recognition, speech synthesis, mixed text-audio conversation
Streaming SupportYes, suitable for real-time conversational flows
Tool / Function CallingSupported for structured actions and workflow integration
Best ForVoice assistants, streaming transcription, IVR, call-bot workflows, in-app audio helpers
Interaction StyleInstruction-following conversational model with multimodal turns
Integration PatternAPI-based access through CometAPI using the gpt-4o-mini-audio-preview model ID

What is gpt-4o-mini-audio-preview?

gpt-4o-mini-audio-preview is a compact multimodal model designed for developers who want to build conversational audio experiences. It supports both speech input and speech output in addition to standard text interactions, making it well suited for applications where users talk naturally and expect spoken or text-based replies.

This model is especially useful when a product needs to combine automatic speech recognition, natural language understanding, and speech synthesis in a single conversational loop. Instead of treating transcription, reasoning, and response generation as separate components, gpt-4o-mini-audio-preview enables a unified workflow for mixed text-audio dialogs.

Because it also supports tool and function calling, the model can do more than just converse. It can trigger structured actions such as looking up account information, routing a customer support request, updating records, or invoking business logic inside a larger application. That makes it a strong fit for production voice systems such as virtual assistants, phone support agents, interactive voice response systems, transcription pipelines with summarization, and audio-enabled product assistants.

Main features of gpt-4o-mini-audio-preview

  • Speech input support: Accepts audio-driven user interactions so applications can process spoken requests naturally.
  • Speech output generation: Produces audio responses for assistants, call automation, and spoken guidance experiences.
  • Mixed text-audio conversations: Supports workflows where some turns are spoken and others are text-based, which is useful for hybrid interfaces.
  • Compact multimodal design: Offers audio-enabled capabilities in a lighter-weight model footprint appropriate for responsive applications.
  • Streaming responses: Helps power low-latency, real-time experiences such as live assistants and streaming transcription systems.
  • Tool/function calling: Enables the model to invoke structured tools or business functions for tasks beyond open-ended conversation.
  • Instruction following: Follows application-level guidance to keep responses aligned with product behavior and workflow requirements.
  • Transcription and summarization workflows: Useful for turning spoken interactions into structured text outputs, summaries, or downstream actions.
  • IVR and call-bot readiness: Fits customer support and telephony scenarios where spoken interaction and task routing are central.
  • In-app audio assistance: Can be embedded into software products that need voice-enabled help, onboarding, or guided actions.

How to access and integrate gpt-4o-mini-audio-preview

Step 1: Sign Up for API Key

To start using gpt-4o-mini-audio-preview, first create an account on CometAPI and generate your API key from the dashboard. This key is used to authenticate every request and connect your application securely to the model.

Step 2: Send Requests to gpt-4o-mini-audio-preview API

Use CometAPI's OpenAI-compatible endpoint with audio input/output support.

curl https://api.cometapi.com/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $COMETAPI_API_KEY" \
  -d '{
    "model": "gpt-4o-mini-audio-preview",
    "modalities": ["text", "audio"],
    "audio": {
      "voice": "alloy",
      "format": "wav"
    },
    "messages": [
      {
        "role": "user",
        "content": "Tell me a short joke."
      }
    ]
  }'

Step 3: Retrieve and Verify Results

The API returns a standard chat completion response with an additional audio field containing the base64-encoded audio output. Decode the audio data and verify quality before production use.

Функции для GPT-4o mini Audio Preview

Изучите ключевые функции GPT-4o mini Audio Preview, разработанные для повышения производительности и удобства использования. Узнайте, как эти возможности могут принести пользу вашим проектам и улучшить пользовательский опыт.

Цены для GPT-4o mini Audio Preview

Изучите конкурентоспособные цены на GPT-4o mini Audio Preview, разработанные для различных бюджетов и потребностей использования. Наши гибкие планы гарантируют, что вы платите только за то, что используете, что упрощает масштабирование по мере роста ваших требований. Узнайте, как GPT-4o mini Audio Preview может улучшить ваши проекты, сохраняя при этом управляемые расходы.
Цена Comet (USD / M Tokens)Официальная цена (USD / M Tokens)Скидка
Ввод:$60/M
Вывод:$240/M
Ввод:$75/M
Вывод:$300/M
-20%

Пример кода и API для GPT-4o mini Audio Preview

Получите доступ к исчерпывающим примерам кода и ресурсам API для GPT-4o mini Audio Preview, чтобы упростить процесс интеграции. Наша подробная документация предоставляет пошаговые инструкции, помогая вам использовать весь потенциал GPT-4o mini Audio Preview в ваших проектах.

Версии GPT-4o mini Audio Preview

Причина наличия нескольких снимков GPT-4o mini Audio Preview может включать такие потенциальные факторы, как: изменения в выходных данных после обновлений, требующие сохранения старых снимков для обеспечения согласованности; предоставление разработчикам переходного периода для адаптации и миграции; а также наличие разных снимков, соответствующих глобальным или региональным конечным точкам для оптимизации пользовательского опыта. Для получения подробной информации о различиях между версиями обратитесь к официальной документации.
version
gpt-4o-mini-audio-preview-2024-12-17
gpt-4o-mini-audio-preview

Больше моделей

G

Nano Banana 2

Ввод:$0.4/M
Вывод:$2.4/M
Обзор основных возможностей: Разрешение: до 4K (4096×4096), на уровне Pro. Согласованность референс-изображений: до 14 референс-изображений (10 объектов + 4 персонажа), с сохранением согласованности стиля/персонажей. Экстремальные соотношения сторон: добавлены новые соотношения 1:4, 4:1, 1:8, 8:1, подходят для длинных изображений, постеров и баннеров. Рендеринг текста: продвинутая генерация текста, подходит для инфографики и макетов маркетинговых постеров. Расширение поиска: интегрированы Google Search + Image Search. Граундирование: встроенный процесс рассуждения; сложные запросы анализируются перед генерацией.
A

Claude Opus 4.6

Ввод:$4/M
Вывод:$20/M
Claude Opus 4.6 — большая языковая модель класса «Opus» компании Anthropic, выпущенная в феврале 2026 года. Она позиционируется как «рабочая лошадка» для интеллектуального труда и исследовательских рабочих процессов — ориентирована на улучшение рассуждений на длинных контекстах, многошагового планирования, использования инструментов (включая агентные программные рабочие процессы) и выполнения компьютерных задач, таких как автоматизированное создание слайдов и электронных таблиц.
A

Claude Sonnet 4.6

Ввод:$2.4/M
Вывод:$12/M
Claude Sonnet 4.6 — наша самая мощная на сегодняшний день модель Sonnet. Это полноценное обновление навыков модели в областях программирования, использования компьютера, рассуждений с длинным контекстом, агентного планирования, интеллектуальной работы и дизайна. Sonnet 4.6 также поддерживает окно контекста на 1M токенов в бета-версии.
O

GPT-5.4 nano

Ввод:$0.16/M
Вывод:$1/M
GPT-5.4 nano предназначен для задач, в которых наибольшее значение имеют скорость и затраты, таких как классификация, извлечение данных, ранжирование и подагенты.
O

GPT-5.4 mini

Ввод:$0.6/M
Вывод:$3.6/M
GPT-5.4 mini сочетает сильные стороны GPT-5.4 с более быстрой и эффективной моделью, разработанной для высоконагруженных сценариев использования.
A

Claude Mythos Preview

A

Claude Mythos Preview

Скоро
Ввод:$60/M
Вывод:$240/M
Claude Mythos Preview является нашей самой мощной на сегодняшний день передовой моделью и демонстрирует поразительный скачок в результатах на многих оценочных бенчмарках по сравнению с нашей предыдущей передовой моделью Claude Opus 4.6.