ModeleWsparciePrzedsiębiorstwoBlog
Ponad 500 API modeli AI, wszystko w jednym API. Tylko w CometAPI
API modeli
Deweloper
Szybki startDokumentacjaPanel API
Zasoby
Modele Sztucznej InteligencjiBlogPrzedsiębiorstwoDziennik zmianO nas
2025 CometAPI. Wszelkie prawa zastrzeżone.Polityka PrywatnościWarunki korzystania z usługi
Home/Models/OpenAI/gpt-audio-1.5
O

gpt-audio-1.5

Wejście:$2/M
Wyjście:$8/M
Najlepszy model głosowy do wejścia i wyjścia audio w ramach Chat Completions.
Nowy
Użycie komercyjne
Przegląd
Funkcje
Cennik
API

Specyfikacja techniczna gpt-audio-1.5

Elementgpt-audio-1.5 (specyfikacja publiczna)
Rodzina modeliRodzina GPT Audio (wariant ukierunkowany na audio)
Typy wejściaTekst, audio (wejście mowy)
Typy wyjściaTekst, audio (wyjście mowy), wyjścia strukturyzowane (obsługa wywołań funkcji)
Okno kontekstu128,000 tokenów.
Maks output tokens16,384 (udokumentowane w powiązanym wpisie o gpt-audio).
Poziom wydajnościWyższa inteligencja; Średnia szybkość (zbalansowana).
Profil opóźnieńZoptymalizowany pod interakcje głosowe (średnie/niskie opóźnienia w zależności od punktu końcowego).
DostępnośćChat Completions API (wejście/wyjście audio) oraz playgroundy platformy; zintegrowany w ramach interfejsów czasu rzeczywistego/głosowych.
Uwagi dot. bezpieczeństwa/użyciaZabezpieczenia dla treści głosowych; traktuj wyniki modelu z typowymi procedurami bezpieczeństwa i weryfikacji dla produkcyjnych agentów głosowych.

Uwaga: gpt-realtime-1.5 to blisko spokrewniony wariant czasu rzeczywistego ukierunkowany na głos, zoptymalizowany pod niższe opóźnienia i sesje w czasie rzeczywistym; porównaj poniżej.


Czym jest gpt-audio-1.5?

gpt-audio-1.5 to model GPT obsługujący audio, który wspiera zarówno wejście mowy, jak i wyjście mowy poprzez Chat Completions i powiązane interfejsy API obsługujące audio. Jest pozycjonowany jako główny, powszechnie dostępny model audio do budowania agentów głosowych i doświadczeń nastawionych na głos, zachowując równowagę między jakością a szybkością.


Główne funkcje

  1. Obsługa wejścia/wyjścia mowy: Obsługuje mówione wejście i zwraca mówione lub tekstowe odpowiedzi dla naturalnych przepływów głosowych.
  2. Duży kontekst dla przepływów audio: Obsługuje bardzo duże okno kontekstu (udokumentowane 128k tokenów), umożliwiając wieloturowe, długie historie rozmów lub duże sesje multimodalne.
  3. Streaming i zgodność z Chat Completions: Działa w ramach Chat Completions ze strumieniowymi odpowiedziami audio oraz strukturyzowanymi wyjściami opartymi na wywołaniach funkcji.
  4. Zrównoważona wydajność/opóźnienia: Dostosowany, aby zapewniać wysokiej jakości odpowiedzi audio przy średniej przepustowości — odpowiedni dla chatbotów i asystentów głosowych, gdzie liczy się jakość.
  5. Ekosystem i integracje: Obsługiwany w playgroundach platformy i dostępny w oficjalnych endpointach czasu rzeczywistego/głosowych oraz integracjach partnerskich (notatki Azure/Microsoft Foundry odnoszą się do podobnych modeli audio).

gpt-audio-1.5 vs powiązane modele audio

Właściwośćgpt-audio-1.5gpt-realtime-1.5
Główny celWysokiej jakości audio wejścia/wyjścia dla Chat Completions i przepływów konwersacyjnych.S2S w czasie rzeczywistym (speech‑to‑speech) z niższymi opóźnieniami dla agentów głosowych na żywo i scenariuszy strumieniowych.
Okno kontekstu128k tokenów.32k tokenów (udokumentowany wariant czasu rzeczywistego).
Max output tokens16,384 (udokumentowane).Zwykle skonfigurowany do krótszych odpowiedzi w czasie rzeczywistym (dokumentacja podaje mniejszą maksymalną liczbę tokenów).
Najlepsze zastosowanieChatboty, asystenci z obsługą głosu, gdzie wymagane są pełne mechanizmy czatu + audio.Agenci głosowi na żywo, kioski i interfejsy konwersacyjne o niskich opóźnieniach.

Reprezentatywne przypadki użycia

  • Konwersacyjni agenci głosowi do obsługi klienta i wewnętrznych help desków.
  • Asystenci z obsługą głosu wbudowani w aplikacje, urządzenia i kioski.
  • Przepływy bezdotykowe (dyktowanie, wyszukiwanie głosowe, dostępność).
  • Doświadczenia multimodalne łączące audio z tekstem / obrazami poprzez Chat Completions.

Ograniczenia i uwagi operacyjne

  • Nie jest bezpośrednim zamiennikiem ludzkiego QA: Zawsze weryfikuj wyjścia mowy i dalsze działania poprzez kontrolę człowieka w procesach produkcyjnych.
  • Planowanie zasobów: Duże okno kontekstu i wejście/wyjście audio mogą zwiększać zapotrzebowanie obliczeniowe i opóźnienia — zaprojektuj strategie strumieniowania/segmentacji dla długich sesji.
  • Ograniczenia bezpieczeństwa i polityk: Wyjścia głosowe mogą mieć siłę perswazji; stosuj wytyczne bezpieczeństwa platformy i zabezpieczenia podczas wdrożeń na skalę.
  • Jak uzyskać dostęp do GPT Audio 1.5 API

Krok 1: Zarejestruj się po klucz API

Zaloguj się na cometapi.com. Jeśli nie jesteś jeszcze naszym użytkownikiem, zarejestruj się najpierw. Zaloguj się do swojej konsoli CometAPI. Uzyskaj klucz API uprawniający dostęp do interfejsu. Kliknij „Add Token” w sekcji tokenów API w centrum osobistym, uzyskaj klucz tokenu: sk-xxxxx i zatwierdź.

klucz CometAPI

Krok 2: Wyślij żądania do API GPT Audio 1.5

Wybierz endpoint „gpt-audio-1.5”, aby wysłać żądanie API i ustaw treść żądania. Metoda żądania i treść żądania są dostępne w dokumentacji API na naszej stronie. Dla wygody udostępniamy też test Apifox. Zastąp <YOUR_API_KEY> swoim rzeczywistym kluczem CometAPI z konta. bazowy adres URL to Chat Completions

Wpisz swoje pytanie lub prośbę w polu content — to na nią model odpowie. Przetwórz odpowiedź API, aby uzyskać wygenerowaną odpowiedź.

Krok 3: Pobierz i zweryfikuj wyniki

Przetwórz odpowiedź API, aby uzyskać wygenerowaną odpowiedź. Po przetworzeniu API odpowiada statusem zadania i danymi wynikowymi.

Najczęściej zadawane pytania

What are the official context and output token limits for gpt-audio-1.5 API?

gpt-audio-1.5 obsługuje okno kontekstu liczące 128,000 tokenów, a dokumentacja podaje maksymalną konfigurację limitu tokenów wyjściowych około 16,384; zweryfikuj dokładne limity dla poszczególnych endpointów w dokumentacji deweloperskiej. :contentReference[oaicite:44]{index=44}

Can gpt-audio-1.5 handle both speech-to-text and text-to-speech in the API?

Tak — akceptuje dane wejściowe audio i może zwracać dane wyjściowe audio lub odpowiedzi tekstowe za pośrednictwem endpointów Chat Completions/audio. :contentReference[oaicite:45]{index=45}

When should I use gpt-audio-1.5 vs gpt-realtime-1.5 for a voice agent?

Wybierz gpt-audio-1.5 dla wyższej jakości dźwięku w przepływach Chat Completions, gdy wymagany jest większy kontekst; wybierz gpt-realtime-1.5 do interakcji głosowych o niskiej latencji, strumieniowanych na żywo. :contentReference[oaicite:46]{index=46}

Does gpt-audio-1.5 support streaming and function calling for tool integrations?

Tak — model obsługuje strumieniowanie odpowiedzi audio oraz strukturyzowane wyjścia/wywoływanie funkcji w celu integracji zewnętrznych narzędzi i procesów. :contentReference[oaicite:47]{index=47}

Is gpt-audio-1.5 suitable for production customer support voice agents?

Tak — został zaprojektowany dla asystentów głosowych i agentów konwersacyjnych, ale przed wdrożeniem produkcyjnym należy dodać weryfikację ręczną/QA, logowanie oraz mechanizmy bezpieczeństwa. :contentReference[oaicite:48]{index=48}

What are the main limitations to consider when deploying gpt-audio-1.5?

Kluczowe kwestie to kompromisy między zasobami obliczeniowymi a latencją w przypadku sesji audio z dużym kontekstem, zabezpieczenia dla treści głosowych oraz konieczność walidacji wyników ASR/TTS w docelowej domenie. :contentReference[oaicite:49]{index=49}

Funkcje dla gpt-audio-1.5

Poznaj kluczowe funkcje gpt-audio-1.5, zaprojektowane w celu zwiększenia wydajności i użyteczności. Odkryj, jak te możliwości mogą przynieść korzyści Twoim projektom i poprawić doświadczenie użytkownika.

Cennik dla gpt-audio-1.5

Poznaj konkurencyjne ceny dla gpt-audio-1.5, zaprojektowane tak, aby pasowały do różnych budżetów i potrzeb użytkowania. Nasze elastyczne plany zapewniają, że płacisz tylko za to, czego używasz, co ułatwia skalowanie w miarę wzrostu Twoich wymagań. Odkryj, jak gpt-audio-1.5 może ulepszyć Twoje projekty przy jednoczesnym utrzymaniu kosztów na rozsądnym poziomie.
Cena Comet (USD / M Tokens)Oficjalna cena (USD / M Tokens)Zniżka
Wejście:$2/M
Wyjście:$8/M
Wejście:$2.5/M
Wyjście:$10/M
-20%

Przykładowy kod i API dla gpt-audio-1.5

Uzyskaj dostęp do kompleksowego przykładowego kodu i zasobów API dla gpt-audio-1.5, aby usprawnić proces integracji. Nasza szczegółowa dokumentacja zapewnia wskazówki krok po kroku, pomagając wykorzystać pełny potencjał gpt-audio-1.5 w Twoich projektach.
POST
/v1/chat/completions
Python
JavaScript
Curl
from openai import OpenAI
import os
import base64

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="gpt-audio-1.5",
    modalities=["text", "audio"],
    audio={"voice": "alloy", "format": "wav"},
    messages=[
        {
            "role": "user",
            "content": "Is a golden retriever a good family dog?"
        }
    ],
)

# Print the text response
print(completion.choices[0].message.audio.transcript)

# Save the audio response to a file
wav_bytes = base64.b64decode(completion.choices[0].message.audio.data)
output_path = "gpt-audio-1.5-output.wav"
with open(output_path, "wb") as f:
    f.write(wav_bytes)
print(f"Audio saved to {output_path}")

Python Code Example

from openai import OpenAI
import os
import base64

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="gpt-audio-1.5",
    modalities=["text", "audio"],
    audio={"voice": "alloy", "format": "wav"},
    messages=[
        {
            "role": "user",
            "content": "Is a golden retriever a good family dog?"
        }
    ],
)

# Print the text response
print(completion.choices[0].message.audio.transcript)

# Save the audio response to a file
wav_bytes = base64.b64decode(completion.choices[0].message.audio.data)
output_path = "gpt-audio-1.5-output.wav"
with open(output_path, "wb") as f:
    f.write(wav_bytes)
print(f"Audio saved to {output_path}")

JavaScript Code Example

import OpenAI from "openai";
import fs from "fs";

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY || "<YOUR_COMETAPI_KEY>";
const base_url = "https://api.cometapi.com/v1";

const openai = new OpenAI({ apiKey: api_key, baseURL: base_url });

const completion = await openai.chat.completions.create({
  model: "gpt-audio-1.5",
  modalities: ["text", "audio"],
  audio: { voice: "alloy", format: "wav" },
  messages: [
    {
      role: "user",
      content: "Is a golden retriever a good family dog?",
    },
  ],
});

// Print the text transcript
console.log(completion.choices[0].message.audio.transcript);

// Save the audio response to a file
const wavBytes = Buffer.from(completion.choices[0].message.audio.data, "base64");
const outputPath = "gpt-audio-1.5-output.wav";
fs.writeFileSync(outputPath, wavBytes);
console.log(`Audio saved to ${outputPath}`);

Curl Code Example

# Get your CometAPI key from https://api.cometapi.com/console/token
# Export it as: export COMETAPI_KEY="your-key-here"

RESPONSE=$(curl https://api.cometapi.com/v1/chat/completions \
  -s \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $COMETAPI_KEY" \
  -d '{
    "model": "gpt-audio-1.5",
    "modalities": ["text", "audio"],
    "audio": {
      "voice": "alloy",
      "format": "wav"
    },
    "messages": [
      {
        "role": "user",
        "content": "Is a golden retriever a good family dog?"
      }
    ]
  }')

# Print the text transcript
echo "$RESPONSE" | python3 -c "import sys, json; r=json.load(sys.stdin); print(r['choices'][0]['message']['audio']['transcript'])"

# Save the audio to a WAV file
echo "$RESPONSE" | python3 -c "
import sys, json, base64
r = json.load(sys.stdin)
audio_data = r['choices'][0]['message']['audio']['data']
with open('gpt-audio-1.5-output.wav', 'wb') as f:
    f.write(base64.b64decode(audio_data))
print('Audio saved to gpt-audio-1.5-output.wav')
"

Więcej modeli

O

gpt-realtime-1.5

Wejście:$3.2/M
Wyjście:$12.8/M
Najlepszy model głosowy do wejścia i wyjścia audio.
O

Whisper-1

Wejście:$24/M
Wyjście:$24/M
Zamiana mowy na tekst, tworzenie tłumaczeń
O

TTS

Wejście:$12/M
Wyjście:$12/M
Synteza mowy OpenAI
K

Kling TTS

Na żądanie:$0.006608
[Synteza mowy] Nowo uruchomione: konwersja tekstu na audio o jakości emisyjnej online, z funkcją podglądu ● Może równocześnie generować audio_id, do użycia z dowolnym API Keling.
K

Kling video-to-audio

K

Kling video-to-audio

Na żądanie:$0.03304
Kling wideo-na-audio
K

Kling text-to-audio

K

Kling text-to-audio

Na żądanie:$0.03304
Kling konwersja tekstu na audio