ModellerSupportVirksomhedBlog
500+ AI Model API, Alt I Én API. Kun I CometAPI
Modeller API
Udvikler
Hurtig StartDokumentationAPI Dashboard
Ressourcer
AI-modellerBlogVirksomhedÆndringslogOm os
2025 CometAPI. Alle rettigheder forbeholdes.PrivatlivspolitikServicevilkår
Home/Models/OpenAI/gpt-audio-1.5
O

gpt-audio-1.5

Indtast:$2/M
Output:$8/M
Den bedste stemmemodel til lyd ind, lyd ud med Chat Completions.
Ny
Kommersiel brug
Oversigt
Funktioner
Priser
API

Tekniske specifikationer for gpt-audio-1.5

Punktgpt-audio-1.5 (offentlige specifikationer)
ModelfamilieGPT Audio-familien (lyd-først-variant)
InputtyperTekst, lyd (tale ind)
OutputtyperTekst, lyd (tale ud), strukturerede output (funktionskald understøttes)
Kontekstvindue128,000 tokens.
Maksimalt antal output-tokens16,384 (dokumenteret i den relaterede gpt-audio-liste).
YdelsesniveauHøjere intelligens; middel hastighed (afbalanceret).
LatensprofilOptimeret til stemmeinteraktioner (mellem/lav latens afhængigt af endpoint).
TilgængelighedChat Completions API (lyd ind/ud) og platformens playgrounds; integreret på tværs af realtime-/stemmeflader.
Sikkerhed / brugsbemærkningerVærn for stemmeindhold; behandl modeluddata med de sædvanlige sikkerheds- og verifikationsprocedurer for produktionsklare stemmeagenter.

Bemærk: gpt-realtime-1.5 er en nært beslægtet realtime lyd-/stemme-først-variant, optimeret til lavere latens og realtime-sessioner; se nedenfor.


Hvad er gpt-audio-1.5?

gpt-audio-1.5 er en GPT-model med lydunderstøttelse, der håndterer både taleinput og taleoutput via Chat Completions og relaterede lydkapable API’er. Den er positioneret som den primære, generelt tilgængelige lydmodel til opbygning af stemmeagenter og stemme-først-oplevelser, som balancerer kvalitet og hastighed.


Hovedfunktioner

  1. Understøttelse af tale-ind / tale-ud: Håndterer talt input og returnerer talte eller tekstuelle svar for naturlige stemmeforløb.
  2. Stor kontekst til lydarbejdsgange: Understøtter meget stor kontekst (dokumenteret 128k tokens), som muliggør fleromgangs-forløb, lang samtalehistorik eller store multimodale sessioner.
  3. Streaming- og Chat Completions-kompatibilitet: Fungerer i Chat Completions med streaming-lydsvar og strukturerede output via funktionskald.
  4. Afbalanceret ydelse/latens: Trimmet til at levere lydsvar i høj kvalitet ved medium throughput—velegnet til chatbots og stemmeassistenter, hvor kvalitet er vigtig.
  5. Økosystem og integrationer: Understøttet i platformens playgrounds og tilgængelig på tværs af officielle realtime-/stemme-endpoints og partnerintegrationer (Azure/Microsoft Foundry-noter henviser til lignende lydmodeller).

gpt-audio-1.5 vs. relaterede lydmodeller

Egenskabgpt-audio-1.5gpt-realtime-1.5
Primært fokusLyd i/ud i høj kvalitet til Chat Completions og konversationsforløb.Realtime S2S (tale-til-tale) med lavere latens til live stemmeagenter og streaming-scenarier.
Kontekstvindue128k tokens.32k tokens (realtime-varianten er dokumenteret).
Maks output-tokens16,384 (dokumenteret).Typisk konfigureret til kortere realtime-svar (dokumentationen angiver færre maks. tokens).
Bedste anvendelseChatbots, stemmeaktiverede assistenter hvor fuld chat-semantik + lyd er påkrævet.Live stemmeagenter, kiosker og lav-latens konversationsgrænseflader.

Repræsentative anvendelsestilfælde

  • Konversationelle stemmeagenter til kundesupport og interne helpdesks.
  • Stemmeaktiverede assistenter indlejret i apps, enheder og kiosker.
  • Hands-free-arbejdsgange (diktering, stemmesøgning, tilgængelighed).
  • Multimodale oplevelser, der blander lyd med tekst/billeder via Chat Completions.

Begrænsninger og driftsmæssige hensyn

  • Ikke en direkte erstatning for menneskelig QA: Validér altid taleoutput og nedstrøms handlinger med menneskelig gennemgang i produktionsflows.
  • Ressourceplanlægning: Stor kontekst og lyd I/O kan øge compute og latens—design streaming-/segmenteringsstrategier til lange sessioner.
  • Sikkerhed og retningslinjebegrænsninger: Stemmeoutput kan have overtalende effekt; følg platformens sikkerhedsretningslinjer og værn ved udrulning i stor skala.
  • Sådan får du adgang til GPT Audio 1.5 API

Trin 1: Tilmeld dig for at få en API-nøgle

Log ind på cometapi.com. Hvis du ikke er bruger endnu, skal du først registrere dig. Log ind i din CometAPI-konsol. Hent API-nøglen som adgangslegitimation til interfacet. Klik på “Add Token” ved API token i personligt center, få token-nøglen: sk-xxxxx, og indsend.

CometAPI-nøgle

Trin 2: Send forespørgsler til GPT Audio 1.5 API

Vælg “gpt-audio-1.5”-endpointet for at sende API-forespørgslen og angiv request body. Forespørgselsmetode og request body findes i API-dokumentationen på vores website. Vores website tilbyder også Apifox-test for din bekvemmelighed. Erstat <YOUR_API_KEY> med din faktiske CometAPI-nøgle fra din konto. basis-URL er Chat Completions

Indsæt dit spørgsmål eller din anmodning i content-feltet—det er dette, modellen vil svare på. Behandl API-svaret for at få det genererede svar.

Trin 3: Hent og verificer resultater

Behandl API-svaret for at få det genererede svar. Efter behandlingen svarer API’et med opgavestatus og outputdata.

FAQ

What are the official context and output token limits for gpt-audio-1.5 API?

Hvad er de officielle kontekst- og output-token-grænser for gpt-audio-1.5 API?

Can gpt-audio-1.5 handle both speech-to-text and text-to-speech in the API?

Kan gpt-audio-1.5 håndtere både tale-til-tekst og tekst-til-tale i API'et?

When should I use gpt-audio-1.5 vs gpt-realtime-1.5 for a voice agent?

Hvornår bør jeg bruge gpt-audio-1.5 kontra gpt-realtime-1.5 til en stemmeagent?

Does gpt-audio-1.5 support streaming and function calling for tool integrations?

Understøtter gpt-audio-1.5 streaming og funktionskald til værktøjsintegrationer?

Is gpt-audio-1.5 suitable for production customer support voice agents?

Er gpt-audio-1.5 egnet til voice agents til kundesupport i produktion?

What are the main limitations to consider when deploying gpt-audio-1.5?

Hvad er de vigtigste begrænsninger, man skal overveje ved implementering af gpt-audio-1.5?

Funktioner til gpt-audio-1.5

Udforsk de vigtigste funktioner i gpt-audio-1.5, designet til at forbedre ydeevne og brugervenlighed. Opdag hvordan disse muligheder kan gavne dine projekter og forbedre brugeroplevelsen.

Priser for gpt-audio-1.5

Udforsk konkurrencedygtige priser for gpt-audio-1.5, designet til at passe til forskellige budgetter og brugsbehov. Vores fleksible planer sikrer, at du kun betaler for det, du bruger, hvilket gør det nemt at skalere, efterhånden som dine krav vokser. Opdag hvordan gpt-audio-1.5 kan forbedre dine projekter, mens omkostningerne holdes håndterbare.
Comet-pris (USD / M Tokens)Officiel Pris (USD / M Tokens)Rabat
Indtast:$2/M
Output:$8/M
Indtast:$2.5/M
Output:$10/M
-20%

Eksempelkode og API til gpt-audio-1.5

Få adgang til omfattende eksempelkode og API-ressourcer for gpt-audio-1.5 for at strømline din integrationsproces. Vores detaljerede dokumentation giver trin-for-trin vejledning, der hjælper dig med at udnytte det fulde potentiale af gpt-audio-1.5 i dine projekter.
POST
/v1/chat/completions
Python
JavaScript
Curl
from openai import OpenAI
import os
import base64

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="gpt-audio-1.5",
    modalities=["text", "audio"],
    audio={"voice": "alloy", "format": "wav"},
    messages=[
        {
            "role": "user",
            "content": "Is a golden retriever a good family dog?"
        }
    ],
)

# Print the text response
print(completion.choices[0].message.audio.transcript)

# Save the audio response to a file
wav_bytes = base64.b64decode(completion.choices[0].message.audio.data)
output_path = "gpt-audio-1.5-output.wav"
with open(output_path, "wb") as f:
    f.write(wav_bytes)
print(f"Audio saved to {output_path}")

Python Code Example

from openai import OpenAI
import os
import base64

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="gpt-audio-1.5",
    modalities=["text", "audio"],
    audio={"voice": "alloy", "format": "wav"},
    messages=[
        {
            "role": "user",
            "content": "Is a golden retriever a good family dog?"
        }
    ],
)

# Print the text response
print(completion.choices[0].message.audio.transcript)

# Save the audio response to a file
wav_bytes = base64.b64decode(completion.choices[0].message.audio.data)
output_path = "gpt-audio-1.5-output.wav"
with open(output_path, "wb") as f:
    f.write(wav_bytes)
print(f"Audio saved to {output_path}")

JavaScript Code Example

import OpenAI from "openai";
import fs from "fs";

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY || "<YOUR_COMETAPI_KEY>";
const base_url = "https://api.cometapi.com/v1";

const openai = new OpenAI({ apiKey: api_key, baseURL: base_url });

const completion = await openai.chat.completions.create({
  model: "gpt-audio-1.5",
  modalities: ["text", "audio"],
  audio: { voice: "alloy", format: "wav" },
  messages: [
    {
      role: "user",
      content: "Is a golden retriever a good family dog?",
    },
  ],
});

// Print the text transcript
console.log(completion.choices[0].message.audio.transcript);

// Save the audio response to a file
const wavBytes = Buffer.from(completion.choices[0].message.audio.data, "base64");
const outputPath = "gpt-audio-1.5-output.wav";
fs.writeFileSync(outputPath, wavBytes);
console.log(`Audio saved to ${outputPath}`);

Curl Code Example

# Get your CometAPI key from https://api.cometapi.com/console/token
# Export it as: export COMETAPI_KEY="your-key-here"

RESPONSE=$(curl https://api.cometapi.com/v1/chat/completions \
  -s \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $COMETAPI_KEY" \
  -d '{
    "model": "gpt-audio-1.5",
    "modalities": ["text", "audio"],
    "audio": {
      "voice": "alloy",
      "format": "wav"
    },
    "messages": [
      {
        "role": "user",
        "content": "Is a golden retriever a good family dog?"
      }
    ]
  }')

# Print the text transcript
echo "$RESPONSE" | python3 -c "import sys, json; r=json.load(sys.stdin); print(r['choices'][0]['message']['audio']['transcript'])"

# Save the audio to a WAV file
echo "$RESPONSE" | python3 -c "
import sys, json, base64
r = json.load(sys.stdin)
audio_data = r['choices'][0]['message']['audio']['data']
with open('gpt-audio-1.5-output.wav', 'wb') as f:
    f.write(base64.b64decode(audio_data))
print('Audio saved to gpt-audio-1.5-output.wav')
"

Flere modeller

O

gpt-realtime-1.5

Indtast:$3.2/M
Output:$12.8/M
Den bedste stemmemodel til lyd ind, lyd ud.
O

Whisper-1

Indtast:$24/M
Output:$24/M
Tale til tekst, oprettelse af oversættelser
O

TTS

Indtast:$12/M
Output:$12/M
OpenAI tekst-til-tale
K

Kling TTS

Per anmodning:$0.006608
[Talesyntese] Netop lanceret: online tekst-til-broadcast-lyd med forhåndsvisning ● Kan samtidig generere audio_id til brug med enhver Keling-API.
K

Kling video-to-audio

K

Kling video-to-audio

Per anmodning:$0.03304
Kling video-til-lyd
K

Kling text-to-audio

K

Kling text-to-audio

Per anmodning:$0.03304
Kling tekst til lyd