What are the official context and output token limits for gpt-audio-1.5 API?

gpt-audio-1.5 understøtter et kontekstvindue på 128,000 tokens, og dokumentationen angiver en maksimal output-tokenkonfiguration omkring 16,384; bekræft de præcise grænser pr. endpoint i udviklerdokumentationen. :contentReference[oaicite:44]{index=44}

Can gpt-audio-1.5 handle both speech-to-text and text-to-speech in the API?

Ja — den accepterer lydinput og kan returnere lydoutput eller tekstsvar via Chat Completions- og audio-endpoints. :contentReference[oaicite:45]{index=45}

When should I use gpt-audio-1.5 vs gpt-realtime-1.5 for a voice agent?

Vælg gpt-audio-1.5 for lyd i højere kvalitet i Chat Completions-forløb, hvor der kræves større kontekst; vælg gpt-realtime-1.5 for lav latenstid og live-streamede stemmeinteraktioner. :contentReference[oaicite:46]{index=46}

Does gpt-audio-1.5 support streaming and function calling for tool integrations?

Ja — modellen understøtter streaming af lydsvar og strukturerede output/funktionskald for at integrere eksterne værktøjer og arbejdsgange. :contentReference[oaicite:47]{index=47}

Is gpt-audio-1.5 suitable for production customer support voice agents?

Ja — den er designet til stemmeassistenter og konversationsagenter, men du bør tilføje menneskelig gennemgang/QA, logning og sikkerhedskontroller før idriftsættelse i produktion. :contentReference[oaicite:48]{index=48}

What are the main limitations to consider when deploying gpt-audio-1.5?

Væsentlige hensyn omfatter afvejninger mellem beregningsressourcer/latens for lydsessioner med stor kontekst, sikkerhedsforanstaltninger for stemmeindhold samt behovet for at validere ASR/TTS-output i dit domæne. :contentReference[oaicite:49]{index=49}

O

gpt-audio-1.5

Indtast:$2/M

Output:$8/M

Udgivet:Feb 24, 2026

Ny

Kommersiel brug

Tekniske specifikationer for gpt-audio-1.5

Parameter	gpt-audio-1.5 (offentlige specifikationer)
Modelfamilie	GPT Audio-familien (lydførst-variant)
Inputtyper	Tekst, lyd (tale ind)
Outputtyper	Tekst, lyd (tale ud), strukturerede output (understøtter funktionskald)
Kontekstvindue	128,000 tokens.
Maks. outputtokens	16,384 (dokumenteret i den relaterede gpt-audio-liste).
Ydelsesniveau	Højere intelligens; mellemhastighed (afbalanceret).
Latensprofil	Optimeret til stemmeinteraktioner (middel/lav latens afhængigt af endepunkt).
Tilgængelighed	Chat Completions API (audio in/out) og platform-playgrounds; integreret på tværs af realtime/stemmeflader.
Sikkerheds-/brugsbemærkninger	Sikkerhedsforanstaltninger for stemmeindhold; behandl modellens output med sædvanlig sikkerhed og verifikation for produktionsklare stemmeagenter.

Bemærk: gpt-realtime-1.5 er en nært beslægtet realtime-lyd/stemme-først-variant, optimeret til lavere latens og realtime-sessioner; se sammenligning nedenfor.

Hvad er gpt-audio-1.5?

gpt-audio-1.5 er en lydkapabel GPT-model, der understøtter både taleinput og taleoutput via Chat Completions og relaterede lydkapable API'er. Den er positioneret som den primære, generelt tilgængelige lydmodel til at bygge stemmeagenter og lyd-først-oplevelser med en balance mellem kvalitet og hastighed.

Hovedfunktioner

Tale ind / tale ud: Håndterer talt input og returnerer talt eller tekstuelle svar for naturlige stemmeforløb.
Stor kontekst til lyd-workflows: Understøtter meget stor kontekst (dokumenteret 128k tokens), hvilket muliggør fleromgangs-, lang samtalehistorik eller store multimodale sessioner.
Streaming- og Chat Completions-kompatibilitet: Fungerer i Chat Completions med streamede lydsvar og strukturerede outputs med funktionskald.
Afbalanceret ydeevne/latens: Tunet til at levere lydsvar i høj kvalitet ved medium gennemløb—egnet til chatbots og stemmeassistenter, hvor kvalitet er vigtig.
Økosystem og integrationer: Understøttet i platformens playgrounds og tilgængelig på tværs af officielle realtime-/stemmeendpoints og partnerintegrationer (Azure/Microsoft Foundry-noter refererer til lignende lydmodeller).

gpt-audio-1.5 vs. relaterede lydmodeller

Egenskab	gpt-audio-1.5	gpt-realtime-1.5
Primært fokus	Lyd i høj kvalitet ind/ud til Chat Completions og samtaleforløb.	Realtime S2S (speech-to-speech) med lavere latens til live-stemmeagenter og streaming-scenarier.
Kontekstvindue	128k tokens.	32k tokens (realtime-varianten dokumenteret).
Maks. outputtokens	16,384 (dokumenteret).	Typisk konfigureret til kortere realtime-svar (dokumentationen angiver et mindre maksimum for tokens).
Bedste anvendelse	Chatbots, stemmeaktiverede assistenter hvor fuld chatsemantik + lyd er påkrævet.	Live stemmeagenter, kiosker og lavlatens-samtalegrænseflader.

Repræsentative anvendelsestilfælde

Samtalebaserede stemmeagenter til kundesupport og interne helpdeske.
Stemmeaktiverede assistenter indlejret i apps, enheder og kiosker.
Håndfri arbejdsgange (diktering, stemmesøgning, tilgængelighed).

Begrænsninger og driftsmæssige overvejelser

Ikke en direkte erstatning for menneskelig QA: Valider altid taleoutput og efterfølgende handlinger med menneskelig gennemgang i produktionsforløb.
Ressourceplanlægning: Stor kontekst og lyd-I/O kan øge compute-forbrug og latens—design streaming-/segmenteringsstrategier til lange sessioner.
Sikkerheds- og politikbegrænsninger: Stemmeoutput kan have overtalelseskraft; følg platformens sikkerhedsretningslinjer og værn, når du udruller i stor skala.
Sådan får du adgang til GPT Audio 1.5 API

Trin 1: Tilmeld dig for at få en API-nøgle

Log ind på cometapi.com. Hvis du endnu ikke er bruger hos os, skal du først registrere dig. Log derefter ind i din CometAPI console. Hent API-nøglen til grænsefladen som adgangslegitimation. Klik på “Add Token” under API token i det personlige center, få token-nøglen: sk-xxxxx og indsend.

cometapi-key

Trin 2: Send anmodninger til GPT Audio 1.5 API

Vælg “gpt-audio-1.5”-endpunktet for at sende API-anmodningen og angiv request body. Anmodningsmetode og request body fås fra vores websites API-dokumentation. Vores website tilbyder også Apifox-test for din bekvemmelighed. Erstat <YOUR_API_KEY> med din faktiske CometAPI-nøgle fra din konto. Basis-URL er Chat Completions

Indsæt dit spørgsmål eller din forespørgsel i content-feltet—det er dette, modellen vil svare på. Behandl API-svaret for at få det genererede svar.

Trin 3: Hent og verificer resultater

Behandl API-svaret for at få det genererede svar. Efter behandlingen svarer API'et med opgavens status og outputdata.

FAQ

Priser for gpt-audio-1.5

Udforsk konkurrencedygtige priser for gpt-audio-1.5, designet til at passe til forskellige budgetter og brugsbehov. Vores fleksible planer sikrer, at du kun betaler for det, du bruger, hvilket gør det nemt at skalere, efterhånden som dine krav vokser. Opdag hvordan gpt-audio-1.5 kan forbedre dine projekter, mens omkostningerne holdes håndterbare.

Comet-pris (USD / M Tokens)	Officiel Pris (USD / M Tokens)	Rabat
Indtast:$2/M Output:$8/M	Indtast:$2.5/M Output:$10/M	-20%

Eksempelkode og API til gpt-audio-1.5

Få adgang til omfattende eksempelkode og API-ressourcer for gpt-audio-1.5 for at strømline din integrationsproces. Vores detaljerede dokumentation giver trin-for-trin vejledning, der hjælper dig med at udnytte det fulde potentiale af gpt-audio-1.5 i dine projekter.

POST

/v1/chat/completions

from openai import OpenAI
import os
import base64

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="gpt-audio-1.5",
    modalities=["text", "audio"],
    audio={"voice": "alloy", "format": "wav"},
    messages=[
        {
            "role": "user",
            "content": "Is a golden retriever a good family dog?"
        }
    ],
)

# Print the text response
print(completion.choices[0].message.audio.transcript)

# Save the audio response to a file
wav_bytes = base64.b64decode(completion.choices[0].message.audio.data)
output_path = "gpt-audio-1.5-output.wav"
with open(output_path, "wb") as f:
    f.write(wav_bytes)
print(f"Audio saved to {output_path}")

Python Code Example

from openai import OpenAI
import os
import base64

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="gpt-audio-1.5",
    modalities=["text", "audio"],
    audio={"voice": "alloy", "format": "wav"},
    messages=[
        {
            "role": "user",
            "content": "Is a golden retriever a good family dog?"
        }
    ],
)

# Print the text response
print(completion.choices[0].message.audio.transcript)

# Save the audio response to a file
wav_bytes = base64.b64decode(completion.choices[0].message.audio.data)
output_path = "gpt-audio-1.5-output.wav"
with open(output_path, "wb") as f:
    f.write(wav_bytes)
print(f"Audio saved to {output_path}")

JavaScript Code Example

import OpenAI from "openai";
import fs from "fs";

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY || "<YOUR_COMETAPI_KEY>";
const base_url = "https://api.cometapi.com/v1";

const openai = new OpenAI({ apiKey: api_key, baseURL: base_url });

const completion = await openai.chat.completions.create({
  model: "gpt-audio-1.5",
  modalities: ["text", "audio"],
  audio: { voice: "alloy", format: "wav" },
  messages: [
    {
      role: "user",
      content: "Is a golden retriever a good family dog?",
    },
  ],
});

// Print the text transcript
console.log(completion.choices[0].message.audio.transcript);

// Save the audio response to a file
const wavBytes = Buffer.from(completion.choices[0].message.audio.data, "base64");
const outputPath = "gpt-audio-1.5-output.wav";
fs.writeFileSync(outputPath, wavBytes);
console.log(`Audio saved to ${outputPath}`);

Curl Code Example

# Get your CometAPI key from https://api.cometapi.com/console/token
# Export it as: export COMETAPI_KEY="your-key-here"

RESPONSE=$(curl https://api.cometapi.com/v1/chat/completions \
  -s \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $COMETAPI_KEY" \
  -d '{
    "model": "gpt-audio-1.5",
    "modalities": ["text", "audio"],
    "audio": {
      "voice": "alloy",
      "format": "wav"
    },
    "messages": [
      {
        "role": "user",
        "content": "Is a golden retriever a good family dog?"
      }
    ]
  }')

# Print the text transcript
echo "$RESPONSE" | python3 -c "import sys, json; r=json.load(sys.stdin); print(r['choices'][0]['message']['audio']['transcript'])"

# Save the audio to a WAV file
echo "$RESPONSE" | python3 -c "
import sys, json, base64
r = json.load(sys.stdin)
audio_data = r['choices'][0]['message']['audio']['data']
with open('gpt-audio-1.5-output.wav', 'wb') as f:
    f.write(base64.b64decode(audio_data))
print('Audio saved to gpt-audio-1.5-output.wav')
"