What are the official context and output token limits for gpt-audio-1.5 API?

gpt-audio-1.5 støtter et kontekstvindu på 128,000 tokens, og dokumentasjonen angir en maksimal utdata-tokenkonfigurasjon rundt 16,384; verifiser nøyaktige grenser per endepunkt i utviklerdokumentasjonen. :contentReference[oaicite:44]{index=44}

Can gpt-audio-1.5 handle both speech-to-text and text-to-speech in the API?

Ja — den aksepterer lydinnganger og kan returnere lydutdata eller tekstlige svar via Chat Completions-/audio-endepunktene. :contentReference[oaicite:45]{index=45}

When should I use gpt-audio-1.5 vs gpt-realtime-1.5 for a voice agent?

Velg gpt-audio-1.5 for lyd av høyere kvalitet i Chat Completions-flyter der større kontekst kreves; velg gpt-realtime-1.5 for lav latens og direktestrømmede stemmeinteraksjoner i sanntid. :contentReference[oaicite:46]{index=46}

Does gpt-audio-1.5 support streaming and function calling for tool integrations?

Ja — modellen støtter strømming av lydsvar og strukturerte utdata/funksjonskall for å integrere eksterne verktøy og arbeidsflyter. :contentReference[oaicite:47]{index=47}

Is gpt-audio-1.5 suitable for production customer support voice agents?

Ja — den er utviklet for talebaserte assistenter og samtaleagenter, men du bør legge til menneskelig gjennomgang/QA, logging og sikkerhetskontroller før produksjonsutrulling. :contentReference[oaicite:48]{index=48}

What are the main limitations to consider when deploying gpt-audio-1.5?

Viktige hensyn er avveininger mellom beregning og latens for lydøkter med stort kontekstvindu, sikkerhetsmekanismer for stemmeinnhold og behovet for å validere ASR-/TTS-utdata i ditt domene. :contentReference[oaicite:49]{index=49}

O

gpt-audio-1.5

Inndata:$2/M

Utdata:$8/M

Utgitt:Feb 24, 2026

Ny

Kommersiell bruk

Tekniske spesifikasjoner for gpt-audio-1.5

Element	gpt-audio-1.5 (offentlige spesifikasjoner)
Modellfamilie	GPT Audio-familien (lydførst-variant)
Inndatatyper	Tekst, lyd (tale inn)
Utdata-typer	Tekst, lyd (tale ut), strukturerte utdata (funksjonskall støttes)
Kontekstvindu	128,000 tokens.
Maks antall utdata-tokens	16,384 (dokumentert i tilhørende gpt-audio-oppføring).
Ytelsesnivå	Høyere intelligens; Middels hastighet (balansert).
Latensprofil	Optimalisert for stemmeinteraksjoner (middels/lav latens avhengig av endepunkt).
Tilgjengelighet	Chat Completions API (lyd inn/ut) og plattformens sandkasser; integrert på tvers av sanntids-/stemmeflater.
Sikkerhet / bruksmerknader	Sikkerhetsrekkverk for stemmeinnhold; behandle modellutdata med vanlig sikkerhet og verifikasjon for produksjonsklare stemmeagenter.

Merknad: gpt-realtime-1.5 er en nært beslektet sanntids lyd-/lydførst-variant optimalisert for lavere latens og sanntidsøkter; se sammenligningen nedenfor.

Hva er gpt-audio-1.5?

gpt-audio-1.5 er en GPT-modell med lydstøtte som støtter både taleinn og taleut via Chat Completions og relaterte lydkapable API-er. Den er posisjonert som den primære allment tilgjengelige lydmodellen for å bygge stemmeagenter og lydførst-opplevelser, med balanse mellom kvalitet og hastighet.

Hovedfunksjoner

Støtte for tale inn / tale ut: Håndterer talebasert input og returnerer talte eller tekstlige svar for naturlige stemmeflyter.
Stor kontekst for lydarbeidsflyter: Støtter svært stor kontekst (dokumentert 128k tokens) som muliggjør fleromgangssamtaler, lang samtalehistorikk eller store multimodale økter.
Streaming- og Chat Completions-kompatibilitet: Fungerer i Chat Completions med strømmende lydsvar og strukturerte utdata via funksjonskall.
Balansert ytelse/latens: Finjustert for å levere lydsvar av høy kvalitet med middels gjennomstrømning—egnet for chatboter og stemmeassistenter der kvalitet er viktig.
Økosystem og integrasjoner: Støttet i plattformens sandkasser og tilgjengelig på tvers av offisielle sanntids-/stemmeendepunkter og partnerintegrasjoner (Azure/Microsoft Foundry-notater refererer til lignende lydmodeller).

gpt-audio-1.5 vs. relaterte lydmodeller

Egenskap	gpt-audio-1.5	gpt-realtime-1.5
Primært fokus	Lyd av høy kvalitet inn/ut for Chat Completions og konversasjonsflyter.	Sanntid S2S (speech-to-speech) med lavere latens for live stemmeagenter og strømmescenarier.
Kontekstvindu	128k tokens.	32k tokens (sanntidsvarianten er dokumentert).
Maks utdata-tokens	16,384 (dokumentert).	Vanligvis konfigurert for kortere sanntidssvar (dokumentasjonen oppgir lavere maks tokens).
Beste bruk	Chatboter, stemmeaktiverte assistenter der full chattesemantikk + lyd er påkrevd.	Live stemmeagenter, kiosker og konversasjonsgrensesnitt med lav latens.

Representative bruksområder

Konversasjonsbaserte stemmeagenter for kundestøtte og interne hjelpesentre.
Stemmeaktiverte assistenter innebygd i apper, enheter og kiosker.
Håndfrie arbeidsflyter (diktering, stemmesøk, tilgjengelighet).
Multimodale opplevelser som kombinerer lyd med tekst/bilder via Chat Completions.

Begrensninger og driftsmessige hensyn

Ikke en direkte erstatning for menneskelig QA: Valider alltid taleutdata og nedstrøms handlinger med menneskelig gjennomgang i produksjonsløp.
Ressursplanlegging: Stor kontekst og lyd-I/O kan øke beregning og latens—design strømme-/segmenteringsstrategier for lange økter.
Sikkerhet og retningslinjer: Taleutdata kan ha overbevisningskraft; følg plattformens sikkerhetsretningslinjer og sikkerhetsrekkverk ved utrulling i skala.
Slik får du tilgang til GPT Audio 1.5 API

Trinn 1: Registrer deg for en API-nøkkel

Logg inn på cometapi.com. Hvis du ikke er bruker ennå, registrer deg først. Logg inn på din CometAPI-konsoll. Hent API-nøkkelen (tilgangslegitimasjon) for grensesnittet. Klikk «Add Token» ved API token i det personlige senteret, hent token-nøkkelen: sk-xxxxx og send inn.

cometapi-key

Trinn 2: Send forespørsler til GPT Audio 1.5 API

Velg endepunktet «gpt-audio-1.5» for å sende API-forespørselen og angi forespørselsbody. Forespørselsmetode og forespørselsbody hentes fra API-dokumentasjonen på nettstedet vårt. Nettstedet vårt tilbyr også Apifox-test for enkelhets skyld. Bytt ut <YOUR_API_KEY> med din faktiske CometAPI-nøkkel fra kontoen din. Basis-URL er Chat Completions

Sett inn spørsmålet eller forespørselen din i feltet content—det er dette modellen vil svare på. Behandle API-responsen for å få det genererte svaret.

Trinn 3: Hent og verifiser resultater

Behandle API-responsen for å få det genererte svaret. Etter behandling svarer API-et med oppgavestatus og utdata.

FAQ

Priser for gpt-audio-1.5

Utforsk konkurransedyktige priser for gpt-audio-1.5, designet for å passe ulike budsjetter og bruksbehov. Våre fleksible planer sikrer at du bare betaler for det du bruker, noe som gjør det enkelt å skalere etter hvert som kravene dine vokser. Oppdag hvordan gpt-audio-1.5 kan forbedre prosjektene dine samtidig som kostnadene holdes håndterbare.

Komet-pris (USD / M Tokens)	Offisiell pris (USD / M Tokens)	Rabatt
Inndata:$2/M Utdata:$8/M	Inndata:$2.5/M Utdata:$10/M	-20%

Eksempelkode og API for gpt-audio-1.5

Få tilgang til omfattende eksempelkode og API-ressurser for gpt-audio-1.5 for å effektivisere integreringsprosessen din. Vår detaljerte dokumentasjon gir trinn-for-trinn-veiledning som hjelper deg med å utnytte det fulle potensialet til gpt-audio-1.5 i prosjektene dine.

POST

/v1/chat/completions

from openai import OpenAI
import os
import base64

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="gpt-audio-1.5",
    modalities=["text", "audio"],
    audio={"voice": "alloy", "format": "wav"},
    messages=[
        {
            "role": "user",
            "content": "Is a golden retriever a good family dog?"
        }
    ],
)

# Print the text response
print(completion.choices[0].message.audio.transcript)

# Save the audio response to a file
wav_bytes = base64.b64decode(completion.choices[0].message.audio.data)
output_path = "gpt-audio-1.5-output.wav"
with open(output_path, "wb") as f:
    f.write(wav_bytes)
print(f"Audio saved to {output_path}")

Python Code Example

from openai import OpenAI
import os
import base64

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="gpt-audio-1.5",
    modalities=["text", "audio"],
    audio={"voice": "alloy", "format": "wav"},
    messages=[
        {
            "role": "user",
            "content": "Is a golden retriever a good family dog?"
        }
    ],
)

# Print the text response
print(completion.choices[0].message.audio.transcript)

# Save the audio response to a file
wav_bytes = base64.b64decode(completion.choices[0].message.audio.data)
output_path = "gpt-audio-1.5-output.wav"
with open(output_path, "wb") as f:
    f.write(wav_bytes)
print(f"Audio saved to {output_path}")

JavaScript Code Example

import OpenAI from "openai";
import fs from "fs";

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY || "<YOUR_COMETAPI_KEY>";
const base_url = "https://api.cometapi.com/v1";

const openai = new OpenAI({ apiKey: api_key, baseURL: base_url });

const completion = await openai.chat.completions.create({
  model: "gpt-audio-1.5",
  modalities: ["text", "audio"],
  audio: { voice: "alloy", format: "wav" },
  messages: [
    {
      role: "user",
      content: "Is a golden retriever a good family dog?",
    },
  ],
});

// Print the text transcript
console.log(completion.choices[0].message.audio.transcript);

// Save the audio response to a file
const wavBytes = Buffer.from(completion.choices[0].message.audio.data, "base64");
const outputPath = "gpt-audio-1.5-output.wav";
fs.writeFileSync(outputPath, wavBytes);
console.log(`Audio saved to ${outputPath}`);

Curl Code Example

# Get your CometAPI key from https://api.cometapi.com/console/token
# Export it as: export COMETAPI_KEY="your-key-here"

RESPONSE=$(curl https://api.cometapi.com/v1/chat/completions \
  -s \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $COMETAPI_KEY" \
  -d '{
    "model": "gpt-audio-1.5",
    "modalities": ["text", "audio"],
    "audio": {
      "voice": "alloy",
      "format": "wav"
    },
    "messages": [
      {
        "role": "user",
        "content": "Is a golden retriever a good family dog?"
      }
    ]
  }')

# Print the text transcript
echo "$RESPONSE" | python3 -c "import sys, json; r=json.load(sys.stdin); print(r['choices'][0]['message']['audio']['transcript'])"

# Save the audio to a WAV file
echo "$RESPONSE" | python3 -c "
import sys, json, base64
r = json.load(sys.stdin)
audio_data = r['choices'][0]['message']['audio']['data']
with open('gpt-audio-1.5-output.wav', 'wb') as f:
    f.write(base64.b64decode(audio_data))
print('Audio saved to gpt-audio-1.5-output.wav')
"