ModelosSuporteEmpresarialBlog
500+ APIs de Modelos de IA, Tudo em Uma API. Apenas na CometAPI
API de Modelos
Desenvolvedor
Início RápidoDocumentaçãoPainel de API
Recursos
Modelos de IABlogEmpresarialRegistro de AlteraçõesSobre
2025 CometAPI. Todos os direitos reservados.Política de PrivacidadeTermos de Serviço
Home/Models/OpenAI/GPT-4o mini Audio Preview
O

GPT-4o mini Audio Preview

Entrada:$60/M
Saída:$240/M
GPT-4o mini Audio Preview é um modelo multimodal compacto para criar aplicativos de áudio conversacional. Ele suporta entrada e saída de voz, além de texto, possibilitando reconhecimento de fala, síntese de fala e diálogos mistos de texto e áudio com chamadas a ferramentas/funções para ações estruturadas. Casos de uso típicos incluem assistentes de voz, transcrição em streaming com sumarização, fluxos de trabalho de IVR e call-bots e assistentes no aplicativo com áudio habilitado. Os destaques técnicos incluem entrada/saída de áudio, respostas em streaming, seguimento de instruções e integração via APIs de chat e de ferramentas.
Uso comercial
Visão Geral
Recursos
Preços
API
Versões

Technical Specifications of gpt-4o-mini-audio-preview

SpecificationDetails
Model IDgpt-4o-mini-audio-preview
Model TypeCompact multimodal audio-preview model
Core ModalitiesText input/output, speech input, speech output
Primary Interface PatternChat-based interactions with multimodal message content
Audio CapabilitiesSpeech recognition, speech synthesis, mixed text-audio conversation
Streaming SupportYes, suitable for real-time conversational flows
Tool / Function CallingSupported for structured actions and workflow integration
Best ForVoice assistants, streaming transcription, IVR, call-bot workflows, in-app audio helpers
Interaction StyleInstruction-following conversational model with multimodal turns
Integration PatternAPI-based access through CometAPI using the gpt-4o-mini-audio-preview model ID

What is gpt-4o-mini-audio-preview?

gpt-4o-mini-audio-preview is a compact multimodal model designed for developers who want to build conversational audio experiences. It supports both speech input and speech output in addition to standard text interactions, making it well suited for applications where users talk naturally and expect spoken or text-based replies.

This model is especially useful when a product needs to combine automatic speech recognition, natural language understanding, and speech synthesis in a single conversational loop. Instead of treating transcription, reasoning, and response generation as separate components, gpt-4o-mini-audio-preview enables a unified workflow for mixed text-audio dialogs.

Because it also supports tool and function calling, the model can do more than just converse. It can trigger structured actions such as looking up account information, routing a customer support request, updating records, or invoking business logic inside a larger application. That makes it a strong fit for production voice systems such as virtual assistants, phone support agents, interactive voice response systems, transcription pipelines with summarization, and audio-enabled product assistants.

Main features of gpt-4o-mini-audio-preview

  • Speech input support: Accepts audio-driven user interactions so applications can process spoken requests naturally.
  • Speech output generation: Produces audio responses for assistants, call automation, and spoken guidance experiences.
  • Mixed text-audio conversations: Supports workflows where some turns are spoken and others are text-based, which is useful for hybrid interfaces.
  • Compact multimodal design: Offers audio-enabled capabilities in a lighter-weight model footprint appropriate for responsive applications.
  • Streaming responses: Helps power low-latency, real-time experiences such as live assistants and streaming transcription systems.
  • Tool/function calling: Enables the model to invoke structured tools or business functions for tasks beyond open-ended conversation.
  • Instruction following: Follows application-level guidance to keep responses aligned with product behavior and workflow requirements.
  • Transcription and summarization workflows: Useful for turning spoken interactions into structured text outputs, summaries, or downstream actions.
  • IVR and call-bot readiness: Fits customer support and telephony scenarios where spoken interaction and task routing are central.
  • In-app audio assistance: Can be embedded into software products that need voice-enabled help, onboarding, or guided actions.

How to access and integrate gpt-4o-mini-audio-preview

Step 1: Sign Up for API Key

To start using gpt-4o-mini-audio-preview, first create an account on CometAPI and generate your API key from the dashboard. This key is used to authenticate every request and connect your application securely to the model.

Step 2: Send Requests to gpt-4o-mini-audio-preview API

Use CometAPI's OpenAI-compatible endpoint with audio input/output support.

curl https://api.cometapi.com/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $COMETAPI_API_KEY" \
  -d '{
    "model": "gpt-4o-mini-audio-preview",
    "modalities": ["text", "audio"],
    "audio": {
      "voice": "alloy",
      "format": "wav"
    },
    "messages": [
      {
        "role": "user",
        "content": "Tell me a short joke."
      }
    ]
  }'

Step 3: Retrieve and Verify Results

The API returns a standard chat completion response with an additional audio field containing the base64-encoded audio output. Decode the audio data and verify quality before production use.

Recursos para GPT-4o mini Audio Preview

Explore os principais recursos do GPT-4o mini Audio Preview, projetado para aprimorar o desempenho e a usabilidade. Descubra como essas capacidades podem beneficiar seus projetos e melhorar a experiência do usuário.

Preços para GPT-4o mini Audio Preview

Explore preços competitivos para GPT-4o mini Audio Preview, projetado para atender diversos orçamentos e necessidades de uso. Nossos planos flexíveis garantem que você pague apenas pelo que usar, facilitando o dimensionamento conforme suas necessidades crescem. Descubra como GPT-4o mini Audio Preview pode aprimorar seus projetos mantendo os custos gerenciáveis.
Preço do Comet (USD / M Tokens)Preço Oficial (USD / M Tokens)Desconto
Entrada:$60/M
Saída:$240/M
Entrada:$75/M
Saída:$300/M
-20%

Código de exemplo e API para GPT-4o mini Audio Preview

Acesse código de exemplo abrangente e recursos de API para GPT-4o mini Audio Preview para otimizar seu processo de integração. Nossa documentação detalhada fornece orientação passo a passo, ajudando você a aproveitar todo o potencial do GPT-4o mini Audio Preview em seus projetos.

Versões do GPT-4o mini Audio Preview

O motivo pelo qual GPT-4o mini Audio Preview possui múltiplas versões instantâneas pode incluir fatores como variações na saída após atualizações que exigem versões antigas para consistência, fornecendo aos desenvolvedores um período de transição para adaptação e migração, e diferentes versões correspondentes a endpoints globais ou regionais para otimizar a experiência do usuário. Para diferenças detalhadas entre versões, consulte a documentação oficial.
version
gpt-4o-mini-audio-preview-2024-12-17
gpt-4o-mini-audio-preview

Mais modelos

G

Nano Banana 2

Entrada:$0.4/M
Saída:$2.4/M
Visão geral das capacidades principais: Resolução: Até 4K (4096×4096), no mesmo nível do Pro. Consistência de imagem de referência: Até 14 imagens de referência (10 objetos + 4 personagens), mantendo a consistência de estilo/personagem. Proporções extremas: Novas proporções 1:4, 4:1, 1:8, 8:1 adicionadas, adequadas para imagens longas, pôsteres e banners. Renderização de texto: Geração de texto avançada, adequada para infográficos e layouts de pôsteres de marketing. Aprimoramento de pesquisa: Google Search + Image Search integrados. Fundamentação: Processo de raciocínio incorporado; prompts complexos são analisados antes da geração.
A

Claude Opus 4.6

Entrada:$4/M
Saída:$20/M
Claude Opus 4.6 é o modelo de linguagem de grande porte da classe “Opus” da Anthropic, lançado em fevereiro de 2026. É posicionado como um cavalo de batalha para o trabalho do conhecimento e fluxos de trabalho de pesquisa — aprimorando o raciocínio em contextos longos, o planejamento em múltiplas etapas, o uso de ferramentas (incluindo fluxos de trabalho de software agente) e tarefas de uso do computador, como a geração automatizada de slides e planilhas.
A

Claude Sonnet 4.6

Entrada:$2.4/M
Saída:$12/M
Claude Sonnet 4.6 é o nosso modelo Sonnet mais capaz até agora. É uma atualização completa das capacidades do modelo em programação, uso do computador, raciocínio de longo contexto, planejamento de agentes, trabalho de conhecimento e design. Sonnet 4.6 também apresenta uma janela de contexto de 1M tokens em beta.
O

GPT-5.4 nano

Entrada:$0.16/M
Saída:$1/M
O GPT-5.4 nano foi projetado para tarefas em que a velocidade e o custo são os que mais importam, como classificação, extração de dados, ranqueamento e subagentes.
O

GPT-5.4 mini

Entrada:$0.6/M
Saída:$3.6/M
GPT-5.4 mini traz os pontos fortes do GPT-5.4 para um modelo mais rápido e mais eficiente, projetado para cargas de trabalho de alto volume.
A

Claude Mythos Preview

A

Claude Mythos Preview

Em breve
Entrada:$60/M
Saída:$240/M
Claude Mythos Preview é nosso modelo de fronteira mais capaz até o momento e apresenta um salto impressionante nos resultados em muitos benchmarks de avaliação em comparação com nosso modelo de fronteira anterior, Claude Opus 4.6.