ModèlesSupportEntrepriseBlog
500+ API de modèles IA, toutes en une seule API. Simplement avec CometAPI
API des modèles
Développeur
Démarrage rapideDocumentationTableau de bord API
Ressources
Modèles d'IABlogEntrepriseJournal des modificationsÀ propos
2025 CometAPI. Tous droits réservés.Politique de confidentialitéConditions d'utilisation
Home/Models/OpenAI/GPT-4o mini Audio Preview
O

GPT-4o mini Audio Preview

Entrée:$60/M
Sortie:$240/M
GPT-4o mini Audio Preview est un modèle multimodal compact pour créer des applications audio conversationnelles. Il prend en charge l’entrée et la sortie vocales en plus du texte, permettant la reconnaissance vocale, la synthèse vocale et des dialogues mixtes texte-audio avec des appels d’outils et de fonctions pour des actions structurées. Les cas d’utilisation typiques incluent les assistants vocaux, la transcription en streaming avec résumé, les workflows IVR et de call-bot, ainsi que des assistants intégrés aux applications compatibles audio. Parmi les points techniques clés figurent l’E/S audio, les réponses en streaming, le suivi d’instructions et l’intégration via les API de chat et d’outils.
Usage commercial
Aperçu
Fonctionnalités
Tarification
API
Versions

Technical Specifications of gpt-4o-mini-audio-preview

SpecificationDetails
Model IDgpt-4o-mini-audio-preview
Model TypeCompact multimodal audio-preview model
Core ModalitiesText input/output, speech input, speech output
Primary Interface PatternChat-based interactions with multimodal message content
Audio CapabilitiesSpeech recognition, speech synthesis, mixed text-audio conversation
Streaming SupportYes, suitable for real-time conversational flows
Tool / Function CallingSupported for structured actions and workflow integration
Best ForVoice assistants, streaming transcription, IVR, call-bot workflows, in-app audio helpers
Interaction StyleInstruction-following conversational model with multimodal turns
Integration PatternAPI-based access through CometAPI using the gpt-4o-mini-audio-preview model ID

What is gpt-4o-mini-audio-preview?

gpt-4o-mini-audio-preview is a compact multimodal model designed for developers who want to build conversational audio experiences. It supports both speech input and speech output in addition to standard text interactions, making it well suited for applications where users talk naturally and expect spoken or text-based replies.

This model is especially useful when a product needs to combine automatic speech recognition, natural language understanding, and speech synthesis in a single conversational loop. Instead of treating transcription, reasoning, and response generation as separate components, gpt-4o-mini-audio-preview enables a unified workflow for mixed text-audio dialogs.

Because it also supports tool and function calling, the model can do more than just converse. It can trigger structured actions such as looking up account information, routing a customer support request, updating records, or invoking business logic inside a larger application. That makes it a strong fit for production voice systems such as virtual assistants, phone support agents, interactive voice response systems, transcription pipelines with summarization, and audio-enabled product assistants.

Main features of gpt-4o-mini-audio-preview

  • Speech input support: Accepts audio-driven user interactions so applications can process spoken requests naturally.
  • Speech output generation: Produces audio responses for assistants, call automation, and spoken guidance experiences.
  • Mixed text-audio conversations: Supports workflows where some turns are spoken and others are text-based, which is useful for hybrid interfaces.
  • Compact multimodal design: Offers audio-enabled capabilities in a lighter-weight model footprint appropriate for responsive applications.
  • Streaming responses: Helps power low-latency, real-time experiences such as live assistants and streaming transcription systems.
  • Tool/function calling: Enables the model to invoke structured tools or business functions for tasks beyond open-ended conversation.
  • Instruction following: Follows application-level guidance to keep responses aligned with product behavior and workflow requirements.
  • Transcription and summarization workflows: Useful for turning spoken interactions into structured text outputs, summaries, or downstream actions.
  • IVR and call-bot readiness: Fits customer support and telephony scenarios where spoken interaction and task routing are central.
  • In-app audio assistance: Can be embedded into software products that need voice-enabled help, onboarding, or guided actions.

How to access and integrate gpt-4o-mini-audio-preview

Step 1: Sign Up for API Key

To start using gpt-4o-mini-audio-preview, first create an account on CometAPI and generate your API key from the dashboard. This key is used to authenticate every request and connect your application securely to the model.

Step 2: Send Requests to gpt-4o-mini-audio-preview API

Use CometAPI's OpenAI-compatible endpoint with audio input/output support.

curl https://api.cometapi.com/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $COMETAPI_API_KEY" \
  -d '{
    "model": "gpt-4o-mini-audio-preview",
    "modalities": ["text", "audio"],
    "audio": {
      "voice": "alloy",
      "format": "wav"
    },
    "messages": [
      {
        "role": "user",
        "content": "Tell me a short joke."
      }
    ]
  }'

Step 3: Retrieve and Verify Results

The API returns a standard chat completion response with an additional audio field containing the base64-encoded audio output. Decode the audio data and verify quality before production use.

Fonctionnalités pour GPT-4o mini Audio Preview

Découvrez les fonctionnalités clés de GPT-4o mini Audio Preview, conçues pour améliorer les performances et la facilité d'utilisation. Explorez comment ces capacités peuvent bénéficier à vos projets et améliorer l'expérience utilisateur.

Tarification pour GPT-4o mini Audio Preview

Découvrez des tarifs compétitifs pour GPT-4o mini Audio Preview, conçus pour s'adapter à différents budgets et besoins d'utilisation. Nos formules flexibles garantissent que vous ne payez que ce que vous utilisez, ce qui facilite l'adaptation à mesure que vos besoins évoluent. Découvrez comment GPT-4o mini Audio Preview peut améliorer vos projets tout en maîtrisant les coûts.
Prix de Comet (USD / M Tokens)Prix officiel (USD / M Tokens)Remise
Entrée:$60/M
Sortie:$240/M
Entrée:$75/M
Sortie:$300/M
-20%

Exemple de code et API pour GPT-4o mini Audio Preview

Accédez à des exemples de code complets et aux ressources API pour GPT-4o mini Audio Preview afin de simplifier votre processus d'intégration. Notre documentation détaillée fournit des instructions étape par étape pour vous aider à exploiter tout le potentiel de GPT-4o mini Audio Preview dans vos projets.

Versions de GPT-4o mini Audio Preview

La raison pour laquelle GPT-4o mini Audio Preview dispose de plusieurs instantanés peut inclure des facteurs potentiels tels que des variations de sortie après des mises à jour nécessitant des instantanés plus anciens pour la cohérence, offrant aux développeurs une période de transition pour l'adaptation et la migration, et différents instantanés correspondant à des points de terminaison globaux ou régionaux pour optimiser l'expérience utilisateur. Pour les différences détaillées entre les versions, veuillez consulter la documentation officielle.
version
gpt-4o-mini-audio-preview-2024-12-17
gpt-4o-mini-audio-preview

Plus de modèles

G

Nano Banana 2

Entrée:$0.4/M
Sortie:$2.4/M
Aperçu des capacités principales: Résolution: Jusqu'à 4K (4096×4096), comparable à Pro. Cohérence des images de référence: Jusqu'à 14 images de référence (10 objets + 4 personnages), en maintenant la cohérence du style et des personnages. Rapports d'aspect extrêmes: Nouveaux rapports 1:4, 4:1, 1:8, 8:1 ajoutés, adaptés aux images longues, aux affiches et aux bannières. Rendu de texte: Génération de texte avancée, adaptée aux infographies et aux mises en page d'affiches marketing. Amélioration de la recherche: Google Search + Image Search intégrés. Ancrage: Processus de réflexion intégré; les prompts complexes font l'objet d'un raisonnement avant la génération.
A

Claude Opus 4.6

Entrée:$4/M
Sortie:$20/M
Claude Opus 4.6 est le grand modèle de langage de classe « Opus » d’Anthropic, publié en février 2026. Il est positionné comme un outil polyvalent pour le travail cognitif et les flux de travail de recherche — améliorant le raisonnement en contexte long, la planification à plusieurs étapes, l’utilisation d’outils (y compris des flux de travail logiciels basés sur des agents) et l’exécution de tâches informatiques telles que la génération automatisée de diapositives et de feuilles de calcul.
A

Claude Sonnet 4.6

Entrée:$2.4/M
Sortie:$12/M
Claude Sonnet 4.6 est notre modèle Sonnet le plus performant à ce jour. Il s’agit d’une mise à niveau complète des capacités du modèle dans la programmation, l’usage de l’ordinateur, le raisonnement sur des contextes étendus, la planification d’agents, le travail intellectuel et la conception. Sonnet 4.6 propose également une fenêtre de contexte de 1M de jetons en bêta.
O

GPT-5.4 nano

Entrée:$0.16/M
Sortie:$1/M
GPT-5.4 nano est conçu pour des tâches où la vitesse et le coût comptent le plus, comme la classification, l’extraction de données, le classement et les sous-agents.
O

GPT-5.4 mini

Entrée:$0.6/M
Sortie:$3.6/M
GPT-5.4 mini apporte les atouts de GPT-5.4 dans un modèle plus rapide et plus efficace, conçu pour des charges de travail à grande échelle.
A

Claude Mythos Preview

A

Claude Mythos Preview

Bientôt disponible
Entrée:$60/M
Sortie:$240/M
Claude Mythos Preview est à ce jour notre modèle de pointe le plus performant et affiche un bond spectaculaire des scores sur de nombreux benchmarks d’évaluation, par rapport à notre précédent modèle de pointe, Claude Opus 4.6.