ModellerStøtteBedriftBlogg
500+ AI-modell API, Alt I Én API. Bare I CometAPI
Modeller API
Utvikler
HurtigstartDokumentasjonAPI Dashbord
Ressurser
AI-modellerBloggBedriftEndringsloggOm oss
2025 CometAPI. Alle rettigheter reservert.PersonvernerklæringTjenestevilkår
Home/Models/OpenAI/GPT-4o mini Audio Preview
O

GPT-4o mini Audio Preview

Inndata:$60/M
Utdata:$240/M
GPT-4o mini Audio Preview er en kompakt multimodal modell for å bygge samtalebaserte lydapplikasjoner. Den støtter taleinn- og -utdata i tillegg til tekst, noe som muliggjør talegjenkjenning, talesyntese og blandede tekst- og lyddialoger med verktøy- og funksjonskall for strukturerte handlinger. Typiske bruksområder omfatter stemmeassistenter, strømmende transkripsjon med oppsummering, IVR- og call-bot-arbeidsflyter og lydaktiverte hjelpere i appen. Tekniske høydepunkter inkluderer lyd-I/O, strømmende svar, etterlevelse av instruksjoner og integrasjon via chat- og verktøy-API-er.
Kommersiell bruk
Oversikt
Funksjoner
Priser
API
Versjoner

Technical Specifications of gpt-4o-mini-audio-preview

SpecificationDetails
Model IDgpt-4o-mini-audio-preview
Model TypeCompact multimodal audio-preview model
Core ModalitiesText input/output, speech input, speech output
Primary Interface PatternChat-based interactions with multimodal message content
Audio CapabilitiesSpeech recognition, speech synthesis, mixed text-audio conversation
Streaming SupportYes, suitable for real-time conversational flows
Tool / Function CallingSupported for structured actions and workflow integration
Best ForVoice assistants, streaming transcription, IVR, call-bot workflows, in-app audio helpers
Interaction StyleInstruction-following conversational model with multimodal turns
Integration PatternAPI-based access through CometAPI using the gpt-4o-mini-audio-preview model ID

What is gpt-4o-mini-audio-preview?

gpt-4o-mini-audio-preview is a compact multimodal model designed for developers who want to build conversational audio experiences. It supports both speech input and speech output in addition to standard text interactions, making it well suited for applications where users talk naturally and expect spoken or text-based replies.

This model is especially useful when a product needs to combine automatic speech recognition, natural language understanding, and speech synthesis in a single conversational loop. Instead of treating transcription, reasoning, and response generation as separate components, gpt-4o-mini-audio-preview enables a unified workflow for mixed text-audio dialogs.

Because it also supports tool and function calling, the model can do more than just converse. It can trigger structured actions such as looking up account information, routing a customer support request, updating records, or invoking business logic inside a larger application. That makes it a strong fit for production voice systems such as virtual assistants, phone support agents, interactive voice response systems, transcription pipelines with summarization, and audio-enabled product assistants.

Main features of gpt-4o-mini-audio-preview

  • Speech input support: Accepts audio-driven user interactions so applications can process spoken requests naturally.
  • Speech output generation: Produces audio responses for assistants, call automation, and spoken guidance experiences.
  • Mixed text-audio conversations: Supports workflows where some turns are spoken and others are text-based, which is useful for hybrid interfaces.
  • Compact multimodal design: Offers audio-enabled capabilities in a lighter-weight model footprint appropriate for responsive applications.
  • Streaming responses: Helps power low-latency, real-time experiences such as live assistants and streaming transcription systems.
  • Tool/function calling: Enables the model to invoke structured tools or business functions for tasks beyond open-ended conversation.
  • Instruction following: Follows application-level guidance to keep responses aligned with product behavior and workflow requirements.
  • Transcription and summarization workflows: Useful for turning spoken interactions into structured text outputs, summaries, or downstream actions.
  • IVR and call-bot readiness: Fits customer support and telephony scenarios where spoken interaction and task routing are central.
  • In-app audio assistance: Can be embedded into software products that need voice-enabled help, onboarding, or guided actions.

How to access and integrate gpt-4o-mini-audio-preview

Step 1: Sign Up for API Key

To start using gpt-4o-mini-audio-preview, first create an account on CometAPI and generate your API key from the dashboard. This key is used to authenticate every request and connect your application securely to the model.

Step 2: Send Requests to gpt-4o-mini-audio-preview API

Use CometAPI's OpenAI-compatible endpoint with audio input/output support.

curl https://api.cometapi.com/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $COMETAPI_API_KEY" \
  -d '{
    "model": "gpt-4o-mini-audio-preview",
    "modalities": ["text", "audio"],
    "audio": {
      "voice": "alloy",
      "format": "wav"
    },
    "messages": [
      {
        "role": "user",
        "content": "Tell me a short joke."
      }
    ]
  }'

Step 3: Retrieve and Verify Results

The API returns a standard chat completion response with an additional audio field containing the base64-encoded audio output. Decode the audio data and verify quality before production use.

Funksjoner for GPT-4o mini Audio Preview

Utforsk nøkkelfunksjonene til GPT-4o mini Audio Preview, designet for å forbedre ytelse og brukervennlighet. Oppdag hvordan disse mulighetene kan være til nytte for prosjektene dine og forbedre brukeropplevelsen.

Priser for GPT-4o mini Audio Preview

Utforsk konkurransedyktige priser for GPT-4o mini Audio Preview, designet for å passe ulike budsjetter og bruksbehov. Våre fleksible planer sikrer at du bare betaler for det du bruker, noe som gjør det enkelt å skalere etter hvert som kravene dine vokser. Oppdag hvordan GPT-4o mini Audio Preview kan forbedre prosjektene dine samtidig som kostnadene holdes håndterbare.
Komet-pris (USD / M Tokens)Offisiell pris (USD / M Tokens)Rabatt
Inndata:$60/M
Utdata:$240/M
Inndata:$75/M
Utdata:$300/M
-20%

Eksempelkode og API for GPT-4o mini Audio Preview

Få tilgang til omfattende eksempelkode og API-ressurser for GPT-4o mini Audio Preview for å effektivisere integreringsprosessen din. Vår detaljerte dokumentasjon gir trinn-for-trinn-veiledning som hjelper deg med å utnytte det fulle potensialet til GPT-4o mini Audio Preview i prosjektene dine.

Versjoner av GPT-4o mini Audio Preview

Grunnen til at GPT-4o mini Audio Preview har flere øyeblikksbilder kan inkludere potensielle faktorer som variasjoner i utdata etter oppdateringer som krever eldre øyeblikksbilder for konsistens, å gi utviklere en overgangsperiode for tilpasning og migrering, og ulike øyeblikksbilder som tilsvarer globale eller regionale endepunkter for å optimalisere brukeropplevelsen. For detaljerte forskjeller mellom versjoner, vennligst se den offisielle dokumentasjonen.
version
gpt-4o-mini-audio-preview-2024-12-17
gpt-4o-mini-audio-preview

Flere modeller

G

Nano Banana 2

Inndata:$0.4/M
Utdata:$2.4/M
Oversikt over kjernefunksjoner: Oppløsning: Opptil 4K (4096×4096), på nivå med Pro. Konsistens for referansebilder: Opptil 14 referansebilder (10 objekter + 4 figurer), opprettholder stil- og figurkonsistens. Ekstreme sideforhold: Nye 1:4, 4:1, 1:8, 8:1-forhold lagt til, egnet for lange bilder, plakater og bannere. Tekstgjengivelse: Avansert tekstgenerering, egnet for infografikk og markedsføringsplakatoppsett. Søkeforbedring: Integrert Google-søk + bildesøk. Forankring: Innebygd tankeprosess; komplekse forespørsler begrunnes før generering.
A

Claude Opus 4.6

Inndata:$4/M
Utdata:$20/M
Claude Opus 4.6 er en stor språkmodell i «Opus»-klassen fra Anthropic, lansert i februar 2026. Den er posisjonert som en arbeidshest for arbeidsflyter innen kunnskapsarbeid og forskning — med forbedringer i resonnering over lange kontekster, flertrinns planlegging, verktøybruk (inkludert agentbaserte programvarearbeidsflyter) og oppgaver på datamaskin, som automatisk generering av lysbilder og regneark.
A

Claude Sonnet 4.6

Inndata:$2.4/M
Utdata:$12/M
Claude Sonnet 4.6 er vår mest kapable Sonnet-modell hittil. Det er en fullstendig oppgradering av modellens ferdigheter innen koding, bruk av datamaskin, resonnering over lange kontekster, agentplanlegging, kunnskapsarbeid og design. Sonnet 4.6 har også et kontekstvindu på 1M token i beta.
O

GPT-5.4 nano

Inndata:$0.16/M
Utdata:$1/M
GPT-5.4 nano er utviklet for oppgaver der hastighet og kostnader er viktigst, som klassifisering, datauttrekk, rangering og underagenter.
O

GPT-5.4 mini

Inndata:$0.6/M
Utdata:$3.6/M
GPT-5.4 mini bringer styrkene fra GPT-5.4 til en raskere, mer effektiv modell, designet for arbeidslaster i stor skala.
A

Claude Mythos Preview

A

Claude Mythos Preview

Kommer snart
Inndata:$60/M
Utdata:$240/M
Claude Mythos Preview er vår mest kapable frontier-modell til dags dato, og viser et markant sprang i resultater på mange evalueringsbenchmarker sammenlignet med vår forrige frontier-modell, Claude Opus 4.6.