What are the official context and output token limits for gpt-audio-1.5 API?

gpt-audio-1.5 obsługuje okno kontekstu liczące 128,000 tokenów, a dokumentacja podaje maksymalną konfigurację limitu tokenów wyjściowych około 16,384; zweryfikuj dokładne limity dla poszczególnych endpointów w dokumentacji deweloperskiej. :contentReference[oaicite:44]{index=44}

Can gpt-audio-1.5 handle both speech-to-text and text-to-speech in the API?

Tak — akceptuje dane wejściowe audio i może zwracać dane wyjściowe audio lub odpowiedzi tekstowe za pośrednictwem endpointów Chat Completions/audio. :contentReference[oaicite:45]{index=45}

When should I use gpt-audio-1.5 vs gpt-realtime-1.5 for a voice agent?

Wybierz gpt-audio-1.5 dla wyższej jakości dźwięku w przepływach Chat Completions, gdy wymagany jest większy kontekst; wybierz gpt-realtime-1.5 do interakcji głosowych o niskiej latencji, strumieniowanych na żywo. :contentReference[oaicite:46]{index=46}

Does gpt-audio-1.5 support streaming and function calling for tool integrations?

Tak — model obsługuje strumieniowanie odpowiedzi audio oraz strukturyzowane wyjścia/wywoływanie funkcji w celu integracji zewnętrznych narzędzi i procesów. :contentReference[oaicite:47]{index=47}

Is gpt-audio-1.5 suitable for production customer support voice agents?

Tak — został zaprojektowany dla asystentów głosowych i agentów konwersacyjnych, ale przed wdrożeniem produkcyjnym należy dodać weryfikację ręczną/QA, logowanie oraz mechanizmy bezpieczeństwa. :contentReference[oaicite:48]{index=48}

What are the main limitations to consider when deploying gpt-audio-1.5?

Kluczowe kwestie to kompromisy między zasobami obliczeniowymi a latencją w przypadku sesji audio z dużym kontekstem, zabezpieczenia dla treści głosowych oraz konieczność walidacji wyników ASR/TTS w docelowej domenie. :contentReference[oaicite:49]{index=49}

Przystępne cenowo API gpt-audio-1.5 | text-to-speech

Specyfikacja techniczna gpt-audio-1.5

Element	gpt-audio-1.5 (specyfikacja publiczna)
Rodzina modeli	Rodzina GPT Audio (wariant ukierunkowany na audio)
Typy wejścia	Tekst, audio (wejście mowy)
Typy wyjścia	Tekst, audio (wyjście mowy), wyjścia strukturyzowane (obsługa wywołań funkcji)
Okno kontekstu	128,000 tokenów.
Maks output tokens	16,384 (udokumentowane w powiązanym wpisie o gpt-audio).
Poziom wydajności	Wyższa inteligencja; Średnia szybkość (zbalansowana).
Profil opóźnień	Zoptymalizowany pod interakcje głosowe (średnie/niskie opóźnienia w zależności od punktu końcowego).
Dostępność	Chat Completions API (wejście/wyjście audio) oraz playgroundy platformy; zintegrowany w ramach interfejsów czasu rzeczywistego/głosowych.
Uwagi dot. bezpieczeństwa/użycia	Zabezpieczenia dla treści głosowych; traktuj wyniki modelu z typowymi procedurami bezpieczeństwa i weryfikacji dla produkcyjnych agentów głosowych.

Uwaga: gpt-realtime-1.5 to blisko spokrewniony wariant czasu rzeczywistego ukierunkowany na głos, zoptymalizowany pod niższe opóźnienia i sesje w czasie rzeczywistym; porównaj poniżej.

Czym jest gpt-audio-1.5?

gpt-audio-1.5 to model GPT obsługujący audio, który wspiera zarówno wejście mowy, jak i wyjście mowy poprzez Chat Completions i powiązane interfejsy API obsługujące audio. Jest pozycjonowany jako główny, powszechnie dostępny model audio do budowania agentów głosowych i doświadczeń nastawionych na głos, zachowując równowagę między jakością a szybkością.

Główne funkcje

Obsługa wejścia/wyjścia mowy: Obsługuje mówione wejście i zwraca mówione lub tekstowe odpowiedzi dla naturalnych przepływów głosowych.
Duży kontekst dla przepływów audio: Obsługuje bardzo duże okno kontekstu (udokumentowane 128k tokenów), umożliwiając wieloturowe, długie historie rozmów lub duże sesje multimodalne.
Streaming i zgodność z Chat Completions: Działa w ramach Chat Completions ze strumieniowymi odpowiedziami audio oraz strukturyzowanymi wyjściami opartymi na wywołaniach funkcji.
Zrównoważona wydajność/opóźnienia: Dostosowany, aby zapewniać wysokiej jakości odpowiedzi audio przy średniej przepustowości — odpowiedni dla chatbotów i asystentów głosowych, gdzie liczy się jakość.
Ekosystem i integracje: Obsługiwany w playgroundach platformy i dostępny w oficjalnych endpointach czasu rzeczywistego/głosowych oraz integracjach partnerskich (notatki Azure/Microsoft Foundry odnoszą się do podobnych modeli audio).

gpt-audio-1.5 vs powiązane modele audio

Właściwość	gpt-audio-1.5	gpt-realtime-1.5
Główny cel	Wysokiej jakości audio wejścia/wyjścia dla Chat Completions i przepływów konwersacyjnych.	S2S w czasie rzeczywistym (speech‑to‑speech) z niższymi opóźnieniami dla agentów głosowych na żywo i scenariuszy strumieniowych.
Okno kontekstu	128k tokenów.	32k tokenów (udokumentowany wariant czasu rzeczywistego).
Max output tokens	16,384 (udokumentowane).	Zwykle skonfigurowany do krótszych odpowiedzi w czasie rzeczywistym (dokumentacja podaje mniejszą maksymalną liczbę tokenów).
Najlepsze zastosowanie	Chatboty, asystenci z obsługą głosu, gdzie wymagane są pełne mechanizmy czatu + audio.	Agenci głosowi na żywo, kioski i interfejsy konwersacyjne o niskich opóźnieniach.

Reprezentatywne przypadki użycia

Konwersacyjni agenci głosowi do obsługi klienta i wewnętrznych help desków.
Asystenci z obsługą głosu wbudowani w aplikacje, urządzenia i kioski.
Przepływy bezdotykowe (dyktowanie, wyszukiwanie głosowe, dostępność).
Doświadczenia multimodalne łączące audio z tekstem / obrazami poprzez Chat Completions.

Ograniczenia i uwagi operacyjne

Nie jest bezpośrednim zamiennikiem ludzkiego QA: Zawsze weryfikuj wyjścia mowy i dalsze działania poprzez kontrolę człowieka w procesach produkcyjnych.
Planowanie zasobów: Duże okno kontekstu i wejście/wyjście audio mogą zwiększać zapotrzebowanie obliczeniowe i opóźnienia — zaprojektuj strategie strumieniowania/segmentacji dla długich sesji.
Ograniczenia bezpieczeństwa i polityk: Wyjścia głosowe mogą mieć siłę perswazji; stosuj wytyczne bezpieczeństwa platformy i zabezpieczenia podczas wdrożeń na skalę.
Jak uzyskać dostęp do GPT Audio 1.5 API

Krok 1: Zarejestruj się po klucz API

Zaloguj się na cometapi.com. Jeśli nie jesteś jeszcze naszym użytkownikiem, zarejestruj się najpierw. Zaloguj się do swojej konsoli CometAPI. Uzyskaj klucz API uprawniający dostęp do interfejsu. Kliknij „Add Token” w sekcji tokenów API w centrum osobistym, uzyskaj klucz tokenu: sk-xxxxx i zatwierdź.

klucz CometAPI

Krok 2: Wyślij żądania do API GPT Audio 1.5

Wybierz endpoint „gpt-audio-1.5”, aby wysłać żądanie API i ustaw treść żądania. Metoda żądania i treść żądania są dostępne w dokumentacji API na naszej stronie. Dla wygody udostępniamy też test Apifox. Zastąp <YOUR_API_KEY> swoim rzeczywistym kluczem CometAPI z konta. bazowy adres URL to Chat Completions

Wpisz swoje pytanie lub prośbę w polu content — to na nią model odpowie. Przetwórz odpowiedź API, aby uzyskać wygenerowaną odpowiedź.

Krok 3: Pobierz i zweryfikuj wyniki

Przetwórz odpowiedź API, aby uzyskać wygenerowaną odpowiedź. Po przetworzeniu API odpowiada statusem zadania i danymi wynikowymi.

Cennik dla gpt-audio-1.5

Poznaj konkurencyjne ceny dla gpt-audio-1.5, zaprojektowane tak, aby pasowały do różnych budżetów i potrzeb użytkowania. Nasze elastyczne plany zapewniają, że płacisz tylko za to, czego używasz, co ułatwia skalowanie w miarę wzrostu Twoich wymagań. Odkryj, jak gpt-audio-1.5 może ulepszyć Twoje projekty przy jednoczesnym utrzymaniu kosztów na rozsądnym poziomie.

Cena Comet (USD / M Tokens)	Oficjalna cena (USD / M Tokens)	Zniżka
Wejście:$2/M Wyjście:$8/M	Wejście:$2.5/M Wyjście:$10/M	-20%

Przykładowy kod i API dla gpt-audio-1.5

Uzyskaj dostęp do kompleksowego przykładowego kodu i zasobów API dla gpt-audio-1.5, aby usprawnić proces integracji. Nasza szczegółowa dokumentacja zapewnia wskazówki krok po kroku, pomagając wykorzystać pełny potencjał gpt-audio-1.5 w Twoich projektach.

Python
JavaScript
Curl

from openai import OpenAI
import os
import base64

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="gpt-audio-1.5",
    modalities=["text", "audio"],
    audio={"voice": "alloy", "format": "wav"},
    messages=[
        {
            "role": "user",
            "content": "Is a golden retriever a good family dog?"
        }
    ],
)

# Print the text response
print(completion.choices[0].message.audio.transcript)

# Save the audio response to a file
wav_bytes = base64.b64decode(completion.choices[0].message.audio.data)
output_path = "gpt-audio-1.5-output.wav"
with open(output_path, "wb") as f:
    f.write(wav_bytes)
print(f"Audio saved to {output_path}")

Python Code Example

from openai import OpenAI
import os
import base64

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="gpt-audio-1.5",
    modalities=["text", "audio"],
    audio={"voice": "alloy", "format": "wav"},
    messages=[
        {
            "role": "user",
            "content": "Is a golden retriever a good family dog?"
        }
    ],
)

# Print the text response
print(completion.choices[0].message.audio.transcript)

# Save the audio response to a file
wav_bytes = base64.b64decode(completion.choices[0].message.audio.data)
output_path = "gpt-audio-1.5-output.wav"
with open(output_path, "wb") as f:
    f.write(wav_bytes)
print(f"Audio saved to {output_path}")

JavaScript Code Example

import OpenAI from "openai";
import fs from "fs";

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY || "<YOUR_COMETAPI_KEY>";
const base_url = "https://api.cometapi.com/v1";

const openai = new OpenAI({ apiKey: api_key, baseURL: base_url });

const completion = await openai.chat.completions.create({
  model: "gpt-audio-1.5",
  modalities: ["text", "audio"],
  audio: { voice: "alloy", format: "wav" },
  messages: [
    {
      role: "user",
      content: "Is a golden retriever a good family dog?",
    },
  ],
});

// Print the text transcript
console.log(completion.choices[0].message.audio.transcript);

// Save the audio response to a file
const wavBytes = Buffer.from(completion.choices[0].message.audio.data, "base64");
const outputPath = "gpt-audio-1.5-output.wav";
fs.writeFileSync(outputPath, wavBytes);
console.log(`Audio saved to ${outputPath}`);

Curl Code Example

# Get your CometAPI key from https://api.cometapi.com/console/token
# Export it as: export COMETAPI_KEY="your-key-here"

RESPONSE=$(curl https://api.cometapi.com/v1/chat/completions \
  -s \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $COMETAPI_KEY" \
  -d '{
    "model": "gpt-audio-1.5",
    "modalities": ["text", "audio"],
    "audio": {
      "voice": "alloy",
      "format": "wav"
    },
    "messages": [
      {
        "role": "user",
        "content": "Is a golden retriever a good family dog?"
      }
    ]
  }')

# Print the text transcript
echo "$RESPONSE" | python3 -c "import sys, json; r=json.load(sys.stdin); print(r['choices'][0]['message']['audio']['transcript'])"

# Save the audio to a WAV file
echo "$RESPONSE" | python3 -c "
import sys, json, base64
r = json.load(sys.stdin)
audio_data = r['choices'][0]['message']['audio']['data']
with open('gpt-audio-1.5-output.wav', 'wb') as f:
    f.write(base64.b64decode(audio_data))
print('Audio saved to gpt-audio-1.5-output.wav')
"

gpt-audio-1.5