ModellerStøtteBedriftBlogg
500+ AI-modell API, Alt I Én API. Bare I CometAPI
Modeller API
Utvikler
HurtigstartDokumentasjonAPI Dashbord
Ressurser
AI-modellerBloggBedriftEndringsloggOm oss
2025 CometAPI. Alle rettigheter reservert.PersonvernerklæringTjenestevilkår
Home/Models/OpenAI/gpt-audio-1.5
O

gpt-audio-1.5

Inndata:$2/M
Utdata:$8/M
Den beste stemmemodellen for lyd inn, lyd ut med Chat Completions.
Ny
Kommersiell bruk
Oversikt
Funksjoner
Priser
API

Tekniske spesifikasjoner for gpt-audio-1.5

Egenskapgpt-audio-1.5 (offentlige spesifikasjoner)
ModellfamilieGPT Audio-familien (lydførst-variant)
InndatatyperTekst, lyd (tale inn)
UtdatatyperTekst, lyd (tale ut), strukturerte utdata (funksjonskall støttes)
Kontekstvindu128,000 tokens.
Maks antall utdata-tokens16,384 (dokumentert i tilknyttet gpt-audio-oppføring).
YtelsesnivåHøyere intelligens; middels hastighet (balansert).
LatensprofilOptimalisert for stemmeinteraksjoner (middels/lav latens avhengig av endepunkt).
TilgjengelighetChat Completions API (lyd inn/ut) og plattformens playgrounds; integrert på tvers av sanntids-/stemmeflater.
Sikkerhet / bruksmerknaderVerneregler for stemmeinnhold; behandle modellutdata med vanlig sikkerhet og verifisering for produksjonsklare stemmeagenter.

Merk: gpt-realtime-1.5 er en nært beslektet sanntidsvariant for lyd/stemme, optimalisert for lavere latens og sanntidssesjoner; sammenlign nedenfor.


Hva er gpt-audio-1.5?

gpt-audio-1.5 er en lydkapabel GPT-modell som støtter både taleinn og taleut via Chat Completions og relaterte lydkapable API-er. Den er posisjonert som den viktigste generelt tilgjengelige lydmodellen for å bygge stemmeagenter og stemme-først-opplevelser, med balanse mellom kvalitet og hastighet.


Hovedfunksjoner

  1. Støtte for tale inn / tale ut: Håndterer talt input og returnerer talte eller tekstlige svar for naturlige stemmeflyter.
  2. Stor kontekst for lydarbeidsflyter: Støtter svært stor kontekst (dokumentert 128k tokens) som muliggjør fleromgangssamtaler, lang samtalehistorikk eller store multimodale økter.
  3. Strømming og Chat Completions-kompatibilitet: Fungerer i Chat Completions med strømmende lydsvar og strukturerte utdata via funksjonskall.
  4. Balansert ytelse/latens: Tunet for å levere lydsvar av høy kvalitet ved middels gjennomstrømning—egnet for chatboter og stemmeassistenter der kvalitet er viktig.
  5. Økosystem og integrasjoner: Støttet i plattformens playgrounds og tilgjengelig på tvers av offisielle sanntids-/stemmeendepunkter og partnerintegrasjoner (Azure/Microsoft Foundry-notater refererer til lignende lydmodeller).

gpt-audio-1.5 vs. relaterte lydmodeller

Egenskapgpt-audio-1.5gpt-realtime-1.5
Primært fokusLyd av høy kvalitet inn/ut for Chat Completions og samtaleflyter.Sanntids S2S (tale-til-tale) med lavere latens for live stemmeagenter og strømmende scenarier.
Kontekstvindu128k tokens.32k tokens (sanntidsvarianten dokumentert).
Maks antall utdata-tokens16,384 (dokumentert).Typisk konfigurert for kortere sanntidssvar (dokumentasjon oppgir lavere maks tokens).
Beste bruksområderChatboter, stemmeaktiverte assistenter der full chat-semantikk + lyd er nødvendig.Live stemmeagenter, kiosker og lav-latens samtalegrensesnitt.

Representative bruksområder

  • Samtalebaserte stemmeagenter for kundestøtte og interne helpdesker.
  • Stemmeaktiverte assistenter innebygd i apper, enheter og kiosker.
  • Håndfrie arbeidsflyter (diktering, talesøk, tilgjengelighet).
  • Multimodale opplevelser som kombinerer lyd med tekst / bilder via Chat Completions.

Begrensninger og operasjonelle hensyn

  • Ikke en direkte erstatning for menneskelig QA: Valider alltid talte utdata og nedstrøms handlinger med menneskelig gjennomgang i produksjonsløp.
  • Ressursplanlegging: Stor kontekst og lyd I/O kan øke beregning og latens—design strømmings-/segmenteringsstrategier for lange økter.
  • Sikkerhet og retningslinjebegrensninger: Talt innhold kan ha overbevisningskraft; følg plattformens sikkerhetsretningslinjer og vernetiltak ved utrulling i skala.
  • Slik får du tilgang til GPT Audio 1.5 API

Trinn 1: Registrer deg for API-nøkkel

Logg inn på cometapi.com. Hvis du ikke er bruker ennå, registrer deg først. Logg inn på din CometAPI-konsoll. Hent tilgangslegitimasjonen API-nøkkel for grensesnittet. Klikk «Add Token» ved API-token i det personlige senteret, hent token-nøkkelen: sk-xxxxx og send inn.

CometAPI-nøkkel

Trinn 2: Send forespørsler til GPT Audio 1.5 API

Velg endepunktet «gpt-audio-1.5» for å sende API-forespørselen og sett forespørselens body. Forespørselsmetode og body hentes fra API-dokumentasjonen på nettstedet vårt. Nettstedet vårt tilbyr også Apifox-test for din bekvemmelighet. Erstatt <YOUR_API_KEY> med din faktiske CometAPI-nøkkel fra kontoen din. Basis-URL er Chat Completions

Sett inn spørsmålet eller forespørselen din i innholdsfeltet—det er dette modellen vil svare på. Prosesser API-responsen for å få det genererte svaret.

Trinn 3: Hent og verifiser resultater

Prosesser API-responsen for å få det genererte svaret. Etter prosessering svarer API-et med oppgavestatus og utdata.

FAQ

What are the official context and output token limits for gpt-audio-1.5 API?

gpt-audio-1.5 støtter et kontekstvindu på 128,000 token, og dokumentene oppgir en maks utdata-tokenkonfigurasjon på rundt 16,384; verifiser nøyaktige grenser per endepunkt i utviklerdokumentasjonen. :contentReference[oaicite:44]{index=44}

Can gpt-audio-1.5 handle both speech-to-text and text-to-speech in the API?

Ja — den aksepterer lydinnganger og kan returnere lydutdata eller tekstlige svar via Chat Completions/audio-endepunktene. :contentReference[oaicite:45]{index=45}

When should I use gpt-audio-1.5 vs gpt-realtime-1.5 for a voice agent?

Velg gpt-audio-1.5 for lyd av høyere kvalitet i Chat Completions-flyter der større kontekst er nødvendig; velg gpt-realtime-1.5 for lav latens og direktestrømmede stemmeinteraksjoner. :contentReference[oaicite:46]{index=46}

Does gpt-audio-1.5 support streaming and function calling for tool integrations?

Ja — modellen støtter strømming av lydsvar og strukturerte utdata/funksjonskall for å integrere eksterne verktøy og arbeidsflyter. :contentReference[oaicite:47]{index=47}

Is gpt-audio-1.5 suitable for production customer support voice agents?

Ja — den er utviklet for stemmeassistenter og samtaleagenter, men du bør legge til menneskelig gjennomgang/QA, logging og sikkerhetskontroller før produksjonsutrulling. :contentReference[oaicite:48]{index=48}

What are the main limitations to consider when deploying gpt-audio-1.5?

Viktige hensyn er avveiinger mellom beregning og latens for lydøkter med stor kontekst, sikkerhetsbarrierer for stemmeinnhold og behovet for å validere ASR/TTS-utdata i ditt domene. :contentReference[oaicite:49]{index=49}

Funksjoner for gpt-audio-1.5

Utforsk nøkkelfunksjonene til gpt-audio-1.5, designet for å forbedre ytelse og brukervennlighet. Oppdag hvordan disse mulighetene kan være til nytte for prosjektene dine og forbedre brukeropplevelsen.

Priser for gpt-audio-1.5

Utforsk konkurransedyktige priser for gpt-audio-1.5, designet for å passe ulike budsjetter og bruksbehov. Våre fleksible planer sikrer at du bare betaler for det du bruker, noe som gjør det enkelt å skalere etter hvert som kravene dine vokser. Oppdag hvordan gpt-audio-1.5 kan forbedre prosjektene dine samtidig som kostnadene holdes håndterbare.
Komet-pris (USD / M Tokens)Offisiell pris (USD / M Tokens)Rabatt
Inndata:$2/M
Utdata:$8/M
Inndata:$2.5/M
Utdata:$10/M
-20%

Eksempelkode og API for gpt-audio-1.5

Få tilgang til omfattende eksempelkode og API-ressurser for gpt-audio-1.5 for å effektivisere integreringsprosessen din. Vår detaljerte dokumentasjon gir trinn-for-trinn-veiledning som hjelper deg med å utnytte det fulle potensialet til gpt-audio-1.5 i prosjektene dine.
POST
/v1/chat/completions
Python
JavaScript
Curl
from openai import OpenAI
import os
import base64

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="gpt-audio-1.5",
    modalities=["text", "audio"],
    audio={"voice": "alloy", "format": "wav"},
    messages=[
        {
            "role": "user",
            "content": "Is a golden retriever a good family dog?"
        }
    ],
)

# Print the text response
print(completion.choices[0].message.audio.transcript)

# Save the audio response to a file
wav_bytes = base64.b64decode(completion.choices[0].message.audio.data)
output_path = "gpt-audio-1.5-output.wav"
with open(output_path, "wb") as f:
    f.write(wav_bytes)
print(f"Audio saved to {output_path}")

Python Code Example

from openai import OpenAI
import os
import base64

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="gpt-audio-1.5",
    modalities=["text", "audio"],
    audio={"voice": "alloy", "format": "wav"},
    messages=[
        {
            "role": "user",
            "content": "Is a golden retriever a good family dog?"
        }
    ],
)

# Print the text response
print(completion.choices[0].message.audio.transcript)

# Save the audio response to a file
wav_bytes = base64.b64decode(completion.choices[0].message.audio.data)
output_path = "gpt-audio-1.5-output.wav"
with open(output_path, "wb") as f:
    f.write(wav_bytes)
print(f"Audio saved to {output_path}")

JavaScript Code Example

import OpenAI from "openai";
import fs from "fs";

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY || "<YOUR_COMETAPI_KEY>";
const base_url = "https://api.cometapi.com/v1";

const openai = new OpenAI({ apiKey: api_key, baseURL: base_url });

const completion = await openai.chat.completions.create({
  model: "gpt-audio-1.5",
  modalities: ["text", "audio"],
  audio: { voice: "alloy", format: "wav" },
  messages: [
    {
      role: "user",
      content: "Is a golden retriever a good family dog?",
    },
  ],
});

// Print the text transcript
console.log(completion.choices[0].message.audio.transcript);

// Save the audio response to a file
const wavBytes = Buffer.from(completion.choices[0].message.audio.data, "base64");
const outputPath = "gpt-audio-1.5-output.wav";
fs.writeFileSync(outputPath, wavBytes);
console.log(`Audio saved to ${outputPath}`);

Curl Code Example

# Get your CometAPI key from https://api.cometapi.com/console/token
# Export it as: export COMETAPI_KEY="your-key-here"

RESPONSE=$(curl https://api.cometapi.com/v1/chat/completions \
  -s \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $COMETAPI_KEY" \
  -d '{
    "model": "gpt-audio-1.5",
    "modalities": ["text", "audio"],
    "audio": {
      "voice": "alloy",
      "format": "wav"
    },
    "messages": [
      {
        "role": "user",
        "content": "Is a golden retriever a good family dog?"
      }
    ]
  }')

# Print the text transcript
echo "$RESPONSE" | python3 -c "import sys, json; r=json.load(sys.stdin); print(r['choices'][0]['message']['audio']['transcript'])"

# Save the audio to a WAV file
echo "$RESPONSE" | python3 -c "
import sys, json, base64
r = json.load(sys.stdin)
audio_data = r['choices'][0]['message']['audio']['data']
with open('gpt-audio-1.5-output.wav', 'wb') as f:
    f.write(base64.b64decode(audio_data))
print('Audio saved to gpt-audio-1.5-output.wav')
"

Flere modeller

O

gpt-realtime-1.5

Inndata:$3.2/M
Utdata:$12.8/M
Den beste talemodellen for lyd inn, lyd ut.
O

Whisper-1

Inndata:$24/M
Utdata:$24/M
Tale til tekst, lage oversettelser
O

TTS

Inndata:$12/M
Utdata:$12/M
OpenAI Tekst-til-tale
K

Kling TTS

Per forespørsel:$0.006608
[Talesyntese] Nylig lansert: tekst til kringkastingsklar lyd på nett, med forhåndsvisning ● Kan samtidig generere audio_id, kompatibel med alle Keling-API-er.
K

Kling video-to-audio

K

Kling video-to-audio

Per forespørsel:$0.03304
Kling video til lyd
K

Kling text-to-audio

K

Kling text-to-audio

Per forespørsel:$0.03304
Kling tekst-til-lyd