ModelleSupportUnternehmenBlog
500+ KI-Modell-APIs, Alles in einer API. Nur bei CometAPI
Modelle-API
Entwickler
SchnellstartDokumentationAPI Dashboard
Ressourcen
KI-ModelleBlogUnternehmenÄnderungsprotokollÜber uns
2025 CometAPI. Alle Rechte vorbehalten.DatenschutzrichtlinieNutzungsbedingungen
Home/Models/OpenAI/GPT-4o mini Audio Preview
O

GPT-4o mini Audio Preview

Eingabe:$60/M
Ausgabe:$240/M
GPT-4o mini Audio Preview ist ein kompaktes, multimodales Modell zur Entwicklung dialogfähiger Audioanwendungen. Es unterstützt neben Text auch Sprachein- und -ausgabe und ermöglicht damit Spracherkennung, Sprachsynthese sowie gemischte Text-Audio-Dialoge mit Tool-/Funktionsaufrufen für strukturierte Aktionen. Typische Anwendungsfälle umfassen Sprachassistenten, Streaming-Transkription mit Zusammenfassung, IVR- und Callbot-Workflows sowie Audio-fähige In-App-Helfer. Zu den technischen Highlights zählen Audio-I/O, Streaming-Antworten, das Befolgen von Anweisungen sowie die Integration über Chat- und Tools-APIs.
Kommerzielle Nutzung
Überblick
Funktionen
Preisgestaltung
API
Versionen

Technical Specifications of gpt-4o-mini-audio-preview

SpecificationDetails
Model IDgpt-4o-mini-audio-preview
Model TypeCompact multimodal audio-preview model
Core ModalitiesText input/output, speech input, speech output
Primary Interface PatternChat-based interactions with multimodal message content
Audio CapabilitiesSpeech recognition, speech synthesis, mixed text-audio conversation
Streaming SupportYes, suitable for real-time conversational flows
Tool / Function CallingSupported for structured actions and workflow integration
Best ForVoice assistants, streaming transcription, IVR, call-bot workflows, in-app audio helpers
Interaction StyleInstruction-following conversational model with multimodal turns
Integration PatternAPI-based access through CometAPI using the gpt-4o-mini-audio-preview model ID

What is gpt-4o-mini-audio-preview?

gpt-4o-mini-audio-preview is a compact multimodal model designed for developers who want to build conversational audio experiences. It supports both speech input and speech output in addition to standard text interactions, making it well suited for applications where users talk naturally and expect spoken or text-based replies.

This model is especially useful when a product needs to combine automatic speech recognition, natural language understanding, and speech synthesis in a single conversational loop. Instead of treating transcription, reasoning, and response generation as separate components, gpt-4o-mini-audio-preview enables a unified workflow for mixed text-audio dialogs.

Because it also supports tool and function calling, the model can do more than just converse. It can trigger structured actions such as looking up account information, routing a customer support request, updating records, or invoking business logic inside a larger application. That makes it a strong fit for production voice systems such as virtual assistants, phone support agents, interactive voice response systems, transcription pipelines with summarization, and audio-enabled product assistants.

Main features of gpt-4o-mini-audio-preview

  • Speech input support: Accepts audio-driven user interactions so applications can process spoken requests naturally.
  • Speech output generation: Produces audio responses for assistants, call automation, and spoken guidance experiences.
  • Mixed text-audio conversations: Supports workflows where some turns are spoken and others are text-based, which is useful for hybrid interfaces.
  • Compact multimodal design: Offers audio-enabled capabilities in a lighter-weight model footprint appropriate for responsive applications.
  • Streaming responses: Helps power low-latency, real-time experiences such as live assistants and streaming transcription systems.
  • Tool/function calling: Enables the model to invoke structured tools or business functions for tasks beyond open-ended conversation.
  • Instruction following: Follows application-level guidance to keep responses aligned with product behavior and workflow requirements.
  • Transcription and summarization workflows: Useful for turning spoken interactions into structured text outputs, summaries, or downstream actions.
  • IVR and call-bot readiness: Fits customer support and telephony scenarios where spoken interaction and task routing are central.
  • In-app audio assistance: Can be embedded into software products that need voice-enabled help, onboarding, or guided actions.

How to access and integrate gpt-4o-mini-audio-preview

Step 1: Sign Up for API Key

To start using gpt-4o-mini-audio-preview, first create an account on CometAPI and generate your API key from the dashboard. This key is used to authenticate every request and connect your application securely to the model.

Step 2: Send Requests to gpt-4o-mini-audio-preview API

Use CometAPI's OpenAI-compatible endpoint with audio input/output support.

curl https://api.cometapi.com/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $COMETAPI_API_KEY" \
  -d '{
    "model": "gpt-4o-mini-audio-preview",
    "modalities": ["text", "audio"],
    "audio": {
      "voice": "alloy",
      "format": "wav"
    },
    "messages": [
      {
        "role": "user",
        "content": "Tell me a short joke."
      }
    ]
  }'

Step 3: Retrieve and Verify Results

The API returns a standard chat completion response with an additional audio field containing the base64-encoded audio output. Decode the audio data and verify quality before production use.

Funktionen für GPT-4o mini Audio Preview

Entdecken Sie die wichtigsten Funktionen von GPT-4o mini Audio Preview, die darauf ausgelegt sind, Leistung und Benutzerfreundlichkeit zu verbessern. Erfahren Sie, wie diese Fähigkeiten Ihren Projekten zugutekommen und die Benutzererfahrung verbessern können.

Preise für GPT-4o mini Audio Preview

Entdecken Sie wettbewerbsfähige Preise für GPT-4o mini Audio Preview, die für verschiedene Budgets und Nutzungsanforderungen konzipiert sind. Unsere flexiblen Tarife stellen sicher, dass Sie nur für das bezahlen, was Sie nutzen, und erleichtern die Skalierung entsprechend Ihren wachsenden Anforderungen. Erfahren Sie, wie GPT-4o mini Audio Preview Ihre Projekte verbessern kann, während die Kosten überschaubar bleiben.
Comet-Preis (USD / M Tokens)Offizieller Preis (USD / M Tokens)Rabatt
Eingabe:$60/M
Ausgabe:$240/M
Eingabe:$75/M
Ausgabe:$300/M
-20%

Beispielcode und API für GPT-4o mini Audio Preview

Greifen Sie auf umfassende Beispielcodes und API-Ressourcen für GPT-4o mini Audio Preview zu, um Ihren Integrationsprozess zu optimieren. Unsere detaillierte Dokumentation bietet schrittweise Anleitungen und hilft Ihnen dabei, das volle Potenzial von GPT-4o mini Audio Preview in Ihren Projekten zu nutzen.

Versionen von GPT-4o mini Audio Preview

Der Grund, warum GPT-4o mini Audio Preview mehrere Snapshots hat, kann potenzielle Faktoren wie Änderungen der Ausgabe nach Updates umfassen, die ältere Snapshots für Konsistenz erfordern, Entwicklern eine Übergangszeit für Anpassung und Migration bieten und verschiedene Snapshots, die globalen oder regionalen Endpunkten entsprechen, um das Benutzererlebnis zu optimieren. Für detaillierte Unterschiede zwischen den Versionen lesen Sie bitte die offizielle Dokumentation.
version
gpt-4o-mini-audio-preview-2024-12-17
gpt-4o-mini-audio-preview

Weitere Modelle

G

Nano Banana 2

Eingabe:$0.4/M
Ausgabe:$2.4/M
Überblick über die Kernfunktionen: Auflösung: Bis zu 4K (4096×4096), gleichauf mit Pro. Konsistenz von Referenzbildern: Bis zu 14 Referenzbilder (10 Objekte + 4 Charaktere), wobei Stil-/Charakterkonsistenz beibehalten wird. Extreme Seitenverhältnisse: Neue 1:4, 4:1, 1:8, 8:1-Verhältnisse hinzugefügt, geeignet für lange Bilder, Poster und Banner. Textdarstellung: Fortgeschrittene Textgenerierung, geeignet für Infografiken und Marketing-Poster-Layouts. Sucherweiterung: Integrierte Google Search + Image Search. Fundierung: Integrierter Denkprozess; komplexe Prompts werden vor der Generierung logisch hergeleitet.
A

Claude Opus 4.6

Eingabe:$4/M
Ausgabe:$20/M
Claude Opus 4.6 ist das Großsprachmodell der „Opus“-Klasse von Anthropic, veröffentlicht im Februar 2026. Es ist als Arbeitstier für Wissensarbeit und Forschungs-Workflows positioniert — mit Verbesserungen beim langkontextuellen Denken, bei der mehrstufigen Planung, bei der Tool-Nutzung (einschließlich agentenbasierter Software-Workflows) sowie bei computerbezogenen Aufgaben wie der automatisierten Erstellung von Folien und Tabellen.
A

Claude Sonnet 4.6

Eingabe:$2.4/M
Ausgabe:$12/M
Claude Sonnet 4.6 ist unser bisher leistungsfähigstes Sonnet-Modell. Es ist ein umfassendes Upgrade der Fähigkeiten des Modells in den Bereichen Programmierung, Computernutzung, Schlussfolgern mit langem Kontext, Agentenplanung, Wissensarbeit und Design. Sonnet 4.6 bietet außerdem ein 1M-Token-Kontextfenster in Beta.
O

GPT-5.4 nano

Eingabe:$0.16/M
Ausgabe:$1/M
GPT-5.4 nano ist für Aufgaben konzipiert, bei denen Geschwindigkeit und Kosten am wichtigsten sind, wie Klassifizierung, Datenextraktion, Ranking und Sub-Agenten.
O

GPT-5.4 mini

Eingabe:$0.6/M
Ausgabe:$3.6/M
GPT-5.4 mini bringt die Stärken von GPT-5.4 in ein schnelleres, effizienteres Modell, das für hochvolumige Workloads konzipiert ist.
A

Claude Mythos Preview

A

Claude Mythos Preview

Demnächst verfügbar
Eingabe:$60/M
Ausgabe:$240/M
Claude Mythos Preview ist unser bisher leistungsfähigstes Frontier-Modell und zeigt einen bemerkenswerten Sprung bei den Ergebnissen in vielen Evaluations-Benchmarks im Vergleich zu unserem vorherigen Frontier-Modell, Claude Opus 4.6.