ModellenOndersteuningOndernemingBlog
500+ AI Model API, Alles In Één API. Gewoon In CometAPI
Modellen API
Ontwikkelaar
Snelle StartDocumentatieAPI Dashboard
Bronnen
AI-modellenBlogOndernemingWijzigingslogboekOver ons
2025 CometAPI. Alle rechten voorbehouden.PrivacybeleidServicevoorwaarden
Home/Models/OpenAI/gpt-audio-1.5
O

gpt-audio-1.5

Invoer:$2/M
Uitvoer:$8/M
Het beste stemmodel voor audio-invoer, audio-uitvoer met Chat Completions.
Nieuw
Commercieel gebruik
Overzicht
Functies
Prijzen
API

Technische specificaties van gpt-audio-1.5

Itemgpt-audio-1.5 (publieke specificaties)
ModelfamilieGPT Audio-familie (audio-first variant)
InvoertypenTekst, audio (spraakinvoer)
UitvoertypenTekst, audio (spraakuitvoer), gestructureerde outputs (function calls ondersteund)
Contextvenster128.000 tokens.
Max. outputtokens16.384 (gedocumenteerd in de gerelateerde gpt-audio-vermelding).
PrestatieniveauHogere intelligentie; gemiddelde snelheid (gebalanceerd).
LatentieprofielGeoptimaliseerd voor spraakinteracties (middelmatige/lage latentie afhankelijk van endpoint).
BeschikbaarheidChat Completions API (audio in/uit) en platform-playgrounds; geïntegreerd over realtime-/spraakinterfaces heen.
Veiligheids-/gebruiksnotitiesGuardrails voor spraakcontent; behandel modeloutputs met de gebruikelijke veiligheids- en verificatiestappen voor productie-spraakagenten.

Opmerking: gpt-realtime-1.5 is een nauw verwante realtime audio-/spraak-first variant die is geoptimaliseerd voor lagere latentie en realtime sessies; vergelijk hieronder.


Wat is gpt-audio-1.5?

gpt-audio-1.5 is een audio-capabel GPT-model dat zowel spraakinvoer als spraakuitvoer ondersteunt via de Chat Completions en gerelateerde audio-capabele API’s. Het is gepositioneerd als het belangrijkste algemeen beschikbare audiomodel voor het bouwen van spraakagenten en spraakgerichte ervaringen, met een balans tussen kwaliteit en snelheid.


Belangrijkste functies

  1. Ondersteuning voor spraak in / spraak uit: Verwerk gesproken invoer en geef gesproken of tekstuele antwoorden terug voor natuurlijke spraakstromen.
  2. Grote context voor audio-workflows: Ondersteunt een zeer grote context (gedocumenteerd 128k tokens), wat multi-turn, lange gespreksgeschiedenis of grote multimodale sessies mogelijk maakt.
  3. Compatibiliteit met streaming & Chat Completions: Werkt binnen Chat Completions met streaming audioresponses en function-call gestructureerde outputs.
  4. Gebalanceerde prestaties/latentie: Afgestemd om audioresponses van hoge kwaliteit te leveren bij gemiddelde doorvoer—geschikt voor chatbots en spraakassistenten waar kwaliteit belangrijk is.
  5. Ecosysteem & integraties: Ondersteund in de playgrounds van het platform en beschikbaar via officiële realtime-/spraak-endpoints en partnerintegraties (Azure/Microsoft Foundry-notities verwijzen naar vergelijkbare audiomodellen).

gpt-audio-1.5 versus gerelateerde audiomodellen

Propertygpt-audio-1.5gpt-realtime-1.5
Primaire focusAudio-in/uit van hoge kwaliteit voor Chat Completions en conversationele flows.Realtime S2S (speech-to-speech) met lagere latentie voor live spraakagenten en streamingscenario’s.
Contextvenster128k tokens.32k tokens (gedocumenteerd voor realtime variant).
Max. outputtokens16.384 (gedocumenteerd).Meestal geconfigureerd voor kortere realtime responses (documentatie vermeldt kleinere max. tokens).
Beste gebruikChatbots, spraakondersteunde assistenten waar volledige chatsemantiek + audio vereist zijn.Live spraakagenten, kiosken en conversationele interfaces met lage latentie.

Representatieve use-cases

  • Conversationele spraakagenten voor klantenondersteuning en interne helpdesks.
  • Spraakondersteunde assistenten ingebed in apps, apparaten en kiosken.
  • Handsfree workflows (dicteren, voice search, toegankelijkheid).
  • Multimodale ervaringen die audio mengen met tekst / afbeeldingen via Chat Completions.

Beperkingen & operationele overwegingen

  • Geen kant-en-klare vervanging voor menselijke QA: Valideer spraakoutputs en downstream-acties altijd met menselijke controle in productieworkflows.
  • Resourceplanning: Grote context en audio-I/O kunnen compute en latentie verhogen—ontwerp streaming-/segmentatiestrategieën voor lange sessies.
  • Veiligheids- en beleidsbeperkingen: Spraakoutputs kunnen overtuigingskracht hebben; volg de veiligheidsrichtlijnen en guardrails van het platform bij uitrol op schaal.
  • Hoe toegang te krijgen tot de GPT Audio 1.5 API

Stap 1: Meld u aan voor een API-sleutel

Log in op cometapi.com. Als u nog geen gebruiker bent, registreer u dan eerst. Meld u aan bij uw CometAPI-console. Verkrijg de toegangsgegevens API-sleutel van de interface. Klik op “Add Token” bij het API-token in het persoonlijke centrum, verkrijg de tokensleutel: sk-xxxxx en dien deze in.

cometapi-key

Stap 2: Verzend verzoeken naar de GPT Audio 1.5 API

Selecteer het endpoint “gpt-audio-1.5” om het API-verzoek te verzenden en stel de request body in. De requestmethode en request body worden verkregen uit onze API-documentatie op de website. Onze website biedt ook Apifox-tests voor uw gemak. Vervang <YOUR_API_KEY> door uw daadwerkelijke CometAPI-sleutel uit uw account. De base URL is Chat Completions

Voeg uw vraag of verzoek in het content-veld in—hierop zal het model reageren. Verwerk de API-response om het gegenereerde antwoord te verkrijgen.

Stap 3: Resultaten ophalen en verifiëren

Verwerk de API-response om het gegenereerde antwoord te verkrijgen. Na verwerking geeft de API de taakstatus en outputdata terug.

Veelgestelde vragen

What are the official context and output token limits for gpt-audio-1.5 API?

gpt-audio-1.5 ondersteunt een contextvenster van 128,000 tokens en de documentatie vermeldt een maximale output-tokenconfiguratie van rond de 16,384; verifieer de exacte limieten per endpoint in de ontwikkelaarsdocumentatie. :contentReference[oaicite:44]{index=44}

Can gpt-audio-1.5 handle both speech-to-text and text-to-speech in the API?

Ja — het accepteert audio-invoer en kan audio-uitvoer of tekstuele antwoorden teruggeven via de Chat Completions/audio endpoints. :contentReference[oaicite:45]{index=45}

When should I use gpt-audio-1.5 vs gpt-realtime-1.5 for a voice agent?

Kies gpt-audio-1.5 voor audio van hogere kwaliteit in Chat Completions-flows waar een grotere context vereist is; kies gpt-realtime-1.5 voor live gestreamde spraakinteracties met lage latentie. :contentReference[oaicite:46]{index=46}

Does gpt-audio-1.5 support streaming and function calling for tool integrations?

Ja — het model ondersteunt het streamen van audio-antwoorden en gestructureerde outputs/function calling om externe tools en werkstromen te integreren. :contentReference[oaicite:47]{index=47}

Is gpt-audio-1.5 suitable for production customer support voice agents?

Ja — het is ontworpen voor spraakassistenten en conversatieagenten, maar je moet vóór productie-uitrol menselijke beoordeling/QA, logging en veiligheidscontroles toevoegen. :contentReference[oaicite:48]{index=48}

What are the main limitations to consider when deploying gpt-audio-1.5?

Belangrijke aandachtspunten zijn de afwegingen tussen rekenkracht en latentie voor audiosessies met grote context, veiligheidsmaatregelen voor spraakinhoud en de noodzaak om ASR/TTS-uitvoer in je domein te valideren. :contentReference[oaicite:49]{index=49}

Functies voor gpt-audio-1.5

<think> 用户要求我将英文文本翻译成荷兰语(Nederlands)。我需要注意: 1. 保持格式和特殊字符(如{} 变量占位符) 2. 技术术语保持准确性 3. 保持语气和风格 4. UI文本要简洁明了 5. 只返回翻译文本,不要添加解释 6. 不要添加任何前缀或说明 原文是: "Explore the key features of gpt-audio-1.5, designed to enhance performance and usability. Discover how these capabilities can benefit your projects and improve user experience." 这看起来是产品或技术介绍的文本,需要翻译成荷兰语。我需要保持gpt-audio-1.5这个占位符不变。 让我翻译: - Explore = Ontdek/Verken - key features = belangrijkste functies/eigenschappen - designed to enhance = ontworpen om te verbeteren - performance = prestaties - usability = bruikbaarheid - Discover = Ontdek - capabilities = mogelijkheden - benefit = ten goede komen/voordeel opleveren - projects = projecten - improve = verbeteren - user experience = gebruikerservaring 翻译: Ontdek de belangrijkste functies van gpt-audio-1.5, ontworpen om prestaties en bruikbaarheid te verbeteren. Ontdek hoe deze mogelijkheden uw projecten ten goede kunnen komen en de gebruikerservaring kunnen verbeteren. 不过"Ontdek"出现了两次,可能需要调整一下: Verken de belangrijkste functies van gpt-audio-1.5, ontworpen om prestaties en bruikbaarheid te verbeteren. Ontdek hoe deze mogelijkheden uw projecten ten goede kunnen komen en de gebruikerservaring kunnen verbeteren. I'll explore how these capabilities can positively impact your projects and optimize the user experience. </think> Verken de belangrijkste functies van gpt-audio-1.5, ontworpen om prestaties en bruikbaarheid te verbeteren. Ontdek hoe deze mogelijkheden uw projecten ten goede kunnen komen en de gebruikerservaring verbeteren.

Prijzen voor gpt-audio-1.5

Ontdek concurrerende prijzen voor gpt-audio-1.5, ontworpen om te passen bij verschillende budgetten en gebruiksbehoeften. Onze flexibele abonnementen zorgen ervoor dat u alleen betaalt voor wat u gebruikt, waardoor het gemakkelijk is om op te schalen naarmate uw vereisten groeien. Ontdek hoe gpt-audio-1.5 uw projecten kan verbeteren terwijl de kosten beheersbaar blijven.
Comet Prijs (USD / M Tokens)Officiële Prijs (USD / M Tokens)Korting
Invoer:$2/M
Uitvoer:$8/M
Invoer:$2.5/M
Uitvoer:$10/M
-20%

Voorbeeldcode en API voor gpt-audio-1.5

Krijg toegang tot uitgebreide voorbeeldcode en API-bronnen voor gpt-audio-1.5 om uw integratieproces te stroomlijnen. Onze gedetailleerde documentatie biedt stapsgewijze begeleiding en helpt u het volledige potentieel van gpt-audio-1.5 in uw projecten te benutten.
POST
/v1/chat/completions
Python
JavaScript
Curl
from openai import OpenAI
import os
import base64

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="gpt-audio-1.5",
    modalities=["text", "audio"],
    audio={"voice": "alloy", "format": "wav"},
    messages=[
        {
            "role": "user",
            "content": "Is a golden retriever a good family dog?"
        }
    ],
)

# Print the text response
print(completion.choices[0].message.audio.transcript)

# Save the audio response to a file
wav_bytes = base64.b64decode(completion.choices[0].message.audio.data)
output_path = "gpt-audio-1.5-output.wav"
with open(output_path, "wb") as f:
    f.write(wav_bytes)
print(f"Audio saved to {output_path}")

Python Code Example

from openai import OpenAI
import os
import base64

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="gpt-audio-1.5",
    modalities=["text", "audio"],
    audio={"voice": "alloy", "format": "wav"},
    messages=[
        {
            "role": "user",
            "content": "Is a golden retriever a good family dog?"
        }
    ],
)

# Print the text response
print(completion.choices[0].message.audio.transcript)

# Save the audio response to a file
wav_bytes = base64.b64decode(completion.choices[0].message.audio.data)
output_path = "gpt-audio-1.5-output.wav"
with open(output_path, "wb") as f:
    f.write(wav_bytes)
print(f"Audio saved to {output_path}")

JavaScript Code Example

import OpenAI from "openai";
import fs from "fs";

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY || "<YOUR_COMETAPI_KEY>";
const base_url = "https://api.cometapi.com/v1";

const openai = new OpenAI({ apiKey: api_key, baseURL: base_url });

const completion = await openai.chat.completions.create({
  model: "gpt-audio-1.5",
  modalities: ["text", "audio"],
  audio: { voice: "alloy", format: "wav" },
  messages: [
    {
      role: "user",
      content: "Is a golden retriever a good family dog?",
    },
  ],
});

// Print the text transcript
console.log(completion.choices[0].message.audio.transcript);

// Save the audio response to a file
const wavBytes = Buffer.from(completion.choices[0].message.audio.data, "base64");
const outputPath = "gpt-audio-1.5-output.wav";
fs.writeFileSync(outputPath, wavBytes);
console.log(`Audio saved to ${outputPath}`);

Curl Code Example

# Get your CometAPI key from https://api.cometapi.com/console/token
# Export it as: export COMETAPI_KEY="your-key-here"

RESPONSE=$(curl https://api.cometapi.com/v1/chat/completions \
  -s \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $COMETAPI_KEY" \
  -d '{
    "model": "gpt-audio-1.5",
    "modalities": ["text", "audio"],
    "audio": {
      "voice": "alloy",
      "format": "wav"
    },
    "messages": [
      {
        "role": "user",
        "content": "Is a golden retriever a good family dog?"
      }
    ]
  }')

# Print the text transcript
echo "$RESPONSE" | python3 -c "import sys, json; r=json.load(sys.stdin); print(r['choices'][0]['message']['audio']['transcript'])"

# Save the audio to a WAV file
echo "$RESPONSE" | python3 -c "
import sys, json, base64
r = json.load(sys.stdin)
audio_data = r['choices'][0]['message']['audio']['data']
with open('gpt-audio-1.5-output.wav', 'wb') as f:
    f.write(base64.b64decode(audio_data))
print('Audio saved to gpt-audio-1.5-output.wav')
"

Meer modellen

O

gpt-realtime-1.5

Invoer:$3.2/M
Uitvoer:$12.8/M
Het beste spraakmodel voor audio-in, audio-uit.
O

Whisper-1

Invoer:$24/M
Uitvoer:$24/M
Spraak naar tekst, vertalingen maken
O

TTS

Invoer:$12/M
Uitvoer:$12/M
OpenAI Tekst-naar-spraak
K

Kling TTS

Per Verzoek:$0.006608
[Spraaksynthese] Zojuist gelanceerd: tekst-naar-audio van uitzendkwaliteit online, met voorvertoning ● Kan tegelijkertijd een audio_id genereren, te gebruiken met elke Keling API.
K

Kling video-to-audio

K

Kling video-to-audio

Per Verzoek:$0.03304
Kling video-naar-audio
K

Kling text-to-audio

K

Kling text-to-audio

Per Verzoek:$0.03304
Kling tekst-naar-audio