What are the official context and output token limits for gpt-audio-1.5 API?

gpt-audio-1.5 ondersteunt een contextvenster van 128,000 tokens en in de documentatie wordt een maximale configuratie voor uitvoertokens van circa 16,384 vermeld; verifieer de exacte limieten per endpoint in de ontwikkelaarsdocumentatie. :contentReference[oaicite:44]{index=44}

Can gpt-audio-1.5 handle both speech-to-text and text-to-speech in the API?

Ja — het accepteert audio-invoer en kan audio-uitvoer of tekstuele antwoorden teruggeven via de Chat Completions/audio-eindpunten. :contentReference[oaicite:45]{index=45}

When should I use gpt-audio-1.5 vs gpt-realtime-1.5 for a voice agent?

Kies gpt-audio-1.5 voor audio van hogere kwaliteit in Chat Completions-flows waar een grotere context nodig is; kies gpt-realtime-1.5 voor live, streaming spraakinteracties met lage latentie. :contentReference[oaicite:46]{index=46}

Does gpt-audio-1.5 support streaming and function calling for tool integrations?

Ja — het model ondersteunt streaming audio-antwoorden en gestructureerde uitvoer/function calling om externe tools en workflows te integreren. :contentReference[oaicite:47]{index=47}

Is gpt-audio-1.5 suitable for production customer support voice agents?

Ja — het is ontworpen voor spraakassistenten en gespreksagenten, maar u moet vóór productie-uitrol menselijke review/QA, logging en veiligheidscontroles toevoegen. :contentReference[oaicite:48]{index=48}

What are the main limitations to consider when deploying gpt-audio-1.5?

Belangrijke aandachtspunten zijn afwegingen tussen rekenkracht en latentie voor audiosessies met grote context, veiligheidskaders voor spraakinhoud en de noodzaak om ASR/TTS-uitvoer in uw domein te valideren. :contentReference[oaicite:49]{index=49}

O

gpt-audio-1.5

Invoer:$2/M

Uitvoer:$8/M

Uitgebracht:Feb 24, 2026

Nieuw

Commercieel gebruik

Technische specificaties van gpt-audio-1.5

Eigenschap	gpt-audio-1.5 (openbare specificaties)
Modelfamilie	GPT Audio-familie (audio-first-variant)
Invoertypen	Tekst, audio (spraak-invoer)
Uitvoertypen	Tekst, audio (spraak-uitvoer), gestructureerde outputs (functieaanroepen ondersteund)
Contextvenster	128,000 tokens.
Maximale uitvoertokens	16,384 (gedocumenteerd in gerelateerde gpt-audio-vermelding).
Prestatieniveau	Hogere intelligentie; Gemiddelde snelheid (gebalanceerd).
Latentieprofiel	Geoptimaliseerd voor spraakinteracties (middel-/lage latentie afhankelijk van het endpoint).
Beschikbaarheid	Chat Completions API (audio in/out) en platform-playgrounds; geïntegreerd over realtime-/spraakinterfaces.
Opmerkingen over veiligheid/gebruik	Beveiligingsmaatregelen voor spraakcontent; behandel modeluitvoer met de gebruikelijke veiligheids- en verificatiecontroles voor spraakagenten in productie.

Opmerking: gpt-realtime-1.5 is een nauw verwante realtime audio-/voice-first-variant die is geoptimaliseerd voor lagere latentie en realtime sessies; vergelijk hieronder.

Wat is gpt-audio-1.5?

gpt-audio-1.5 is een audiocapabel GPT-model dat zowel spraakinvoer als spraakuitvoer ondersteunt via de Chat Completions en aanverwante audiocapabele API's. Het is gepositioneerd als het belangrijkste, algemeen beschikbare audiomodel voor het bouwen van spraakagenten en spraakgestuurde ervaringen, met een balans tussen kwaliteit en snelheid.

Belangrijkste functies

Ondersteuning voor spraak-in/spraak-uit: Verwerkt gesproken invoer en geeft gesproken of tekstuele antwoorden voor natuurlijke spraakinteracties.
Grote context voor audiowerkstromen: Ondersteunt zeer grote context (gedocumenteerd 128k tokens) waardoor meerledige, lange gesprekshistorie of grote multimodale sessies mogelijk zijn.
Streaming- en Chat Completions-compatibiliteit: Werkt binnen Chat Completions met streaming audio-antwoorden en gestructureerde outputs via functieaanroepen.
Gebalanceerde prestaties/latentie: Afgestemd om audioreacties van hoge kwaliteit te leveren bij gemiddelde doorvoer—geschikt voor chatbots en spraakassistenten waarbij kwaliteit telt.
Ecosysteem en integraties: Ondersteund in de playgrounds van het platform en beschikbaar op officiële realtime-/spraakendpoints en partnerintegraties (Azure/Microsoft Foundry-notities verwijzen naar vergelijkbare audiomodellen).

gpt-audio-1.5 vs gerelateerde audiomodellen

Eigenschap	gpt-audio-1.5	gpt-realtime-1.5
Primaire focus	Audio van hoge kwaliteit in/uit voor Chat Completions en conversatiestromen.	Realtime S2S (spraak-naar-spraak) met lagere latentie voor live spraakagenten en streaming-scenario’s.
Contextvenster	128k tokens.	32k tokens (realtime-variant gedocumenteerd).
Maximale uitvoertokens	16,384 (gedocumenteerd).	Doorgaans geconfigureerd voor kortere realtime-antwoorden (documentatie vermeldt kleiner maximumaantal tokens).
Beste toepassing	Chatbots, spraakgestuurde assistenten waarbij volledige chatsemantiek + audio vereist is.	Live spraakagenten, kiosken en conversatie-interfaces met lage latentie.

Representatieve gebruiksscenario’s

Gespreksgerichte spraakagenten voor klantenondersteuning en interne helpdesks.
Spraakgestuurde assistenten ingebed in apps, apparaten en kiosken.
Handenvrije workflows (dicteren, spraakzoekopdrachten, toegankelijkheid).
Multimodale ervaringen die audio met tekst/afbeeldingen combineren via Chat Completions.

Beperkingen en operationele aandachtspunten

Geen directe vervanging voor menselijke QA: Valideer spraakuitvoer en downstream-acties altijd met menselijke beoordeling in productieflows.
Resourceplanning: Grote context en audio-I/O kunnen rekenlast en latentie verhogen—ontwerp streaming-/segmentatiestrategieën voor lange sessies.
Veiligheids- en beleidsbeperkingen: Spraakuitvoer kan overtuigingskracht hebben; volg platformspecifieke veiligheidsrichtlijnen en waarborgen bij grootschalige uitrol.
Hoe toegang te krijgen tot de GPT Audio 1.5-API

Stap 1: Registreer je voor een API-sleutel

Log in op cometapi.com. Als je nog geen gebruiker bent, registreer je dan eerst. Log in op je CometAPI-console. Verkrijg de API-sleutel van de interface. Klik bij het API-token in het persoonlijk centrum op “Token toevoegen”, verkrijg de tokensleutel: sk-xxxxx en dien in.

CometAPI-sleutel

Stap 2: Verzoeken verzenden naar de GPT Audio 1.5-API

Selecteer het “gpt-audio-1.5”-endpoint om het API-verzoek te verzenden en stel de request body in. De requestmethode en request body zijn te vinden in de API-documentatie op onze website. Onze website biedt ook Apifox-test voor je gemak. Vervang <YOUR_API_KEY> door je daadwerkelijke CometAPI-sleutel uit je account. basis-URL is Chat Completions

Plaats je vraag of verzoek in het content-veld—daarop zal het model reageren. Verwerk de API-respons om het gegenereerde antwoord te verkrijgen.

Stap 3: Resultaten ophalen en verifiëren

Verwerk de API-respons om het gegenereerde antwoord te verkrijgen. Na verwerking geeft de API de taakstatus en uitvoergegevens terug.

FAQ

Prijzen voor gpt-audio-1.5

Ontdek concurrerende prijzen voor gpt-audio-1.5, ontworpen om te passen bij verschillende budgetten en gebruiksbehoeften. Onze flexibele abonnementen zorgen ervoor dat u alleen betaalt voor wat u gebruikt, waardoor het gemakkelijk is om op te schalen naarmate uw vereisten groeien. Ontdek hoe gpt-audio-1.5 uw projecten kan verbeteren terwijl de kosten beheersbaar blijven.

Comet Prijs (USD / M Tokens)	Officiële Prijs (USD / M Tokens)	Korting
Invoer:$2/M Uitvoer:$8/M	Invoer:$2.5/M Uitvoer:$10/M	-20%

Voorbeeldcode en API voor gpt-audio-1.5

Krijg toegang tot uitgebreide voorbeeldcode en API-bronnen voor gpt-audio-1.5 om uw integratieproces te stroomlijnen. Onze gedetailleerde documentatie biedt stapsgewijze begeleiding en helpt u het volledige potentieel van gpt-audio-1.5 in uw projecten te benutten.

POST

/v1/chat/completions

from openai import OpenAI
import os
import base64

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="gpt-audio-1.5",
    modalities=["text", "audio"],
    audio={"voice": "alloy", "format": "wav"},
    messages=[
        {
            "role": "user",
            "content": "Is a golden retriever a good family dog?"
        }
    ],
)

# Print the text response
print(completion.choices[0].message.audio.transcript)

# Save the audio response to a file
wav_bytes = base64.b64decode(completion.choices[0].message.audio.data)
output_path = "gpt-audio-1.5-output.wav"
with open(output_path, "wb") as f:
    f.write(wav_bytes)
print(f"Audio saved to {output_path}")

Python Code Example

from openai import OpenAI
import os
import base64

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="gpt-audio-1.5",
    modalities=["text", "audio"],
    audio={"voice": "alloy", "format": "wav"},
    messages=[
        {
            "role": "user",
            "content": "Is a golden retriever a good family dog?"
        }
    ],
)

# Print the text response
print(completion.choices[0].message.audio.transcript)

# Save the audio response to a file
wav_bytes = base64.b64decode(completion.choices[0].message.audio.data)
output_path = "gpt-audio-1.5-output.wav"
with open(output_path, "wb") as f:
    f.write(wav_bytes)
print(f"Audio saved to {output_path}")

JavaScript Code Example

import OpenAI from "openai";
import fs from "fs";

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY || "<YOUR_COMETAPI_KEY>";
const base_url = "https://api.cometapi.com/v1";

const openai = new OpenAI({ apiKey: api_key, baseURL: base_url });

const completion = await openai.chat.completions.create({
  model: "gpt-audio-1.5",
  modalities: ["text", "audio"],
  audio: { voice: "alloy", format: "wav" },
  messages: [
    {
      role: "user",
      content: "Is a golden retriever a good family dog?",
    },
  ],
});

// Print the text transcript
console.log(completion.choices[0].message.audio.transcript);

// Save the audio response to a file
const wavBytes = Buffer.from(completion.choices[0].message.audio.data, "base64");
const outputPath = "gpt-audio-1.5-output.wav";
fs.writeFileSync(outputPath, wavBytes);
console.log(`Audio saved to ${outputPath}`);

Curl Code Example

# Get your CometAPI key from https://api.cometapi.com/console/token
# Export it as: export COMETAPI_KEY="your-key-here"

RESPONSE=$(curl https://api.cometapi.com/v1/chat/completions \
  -s \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $COMETAPI_KEY" \
  -d '{
    "model": "gpt-audio-1.5",
    "modalities": ["text", "audio"],
    "audio": {
      "voice": "alloy",
      "format": "wav"
    },
    "messages": [
      {
        "role": "user",
        "content": "Is a golden retriever a good family dog?"
      }
    ]
  }')

# Print the text transcript
echo "$RESPONSE" | python3 -c "import sys, json; r=json.load(sys.stdin); print(r['choices'][0]['message']['audio']['transcript'])"

# Save the audio to a WAV file
echo "$RESPONSE" | python3 -c "
import sys, json, base64
r = json.load(sys.stdin)
audio_data = r['choices'][0]['message']['audio']['data']
with open('gpt-audio-1.5-output.wav', 'wb') as f:
    f.write(base64.b64decode(audio_data))
print('Audio saved to gpt-audio-1.5-output.wav')
"