Interfejs API audio GPT-4o

CometAPI
AnnaJun 3, 2025
Interfejs API audio GPT-4o

API audio GPT-4o: Zjednoczony /chat/completions rozszerzenie punktu końcowego, które akceptuje zakodowane w Opus dane audio (i tekstowe) i zwraca syntezowaną mowę lub transkrypty z konfigurowalnymi parametrami (model=gpt-4o-audio-preview-<date>, speed, temperature) do interakcji głosowych wsadowych i strumieniowych.

Podstawowe informacje o GPT-4o Audio

Podgląd dźwięku GPT-4o (gpt-4o-audio-preview-2025-06-03) jest najnowszą wersją OpenAI model dużego języka zorientowany na mowę udostępniane poprzez standard Interfejs API uzupełniania czatów zamiast kanału Realtime o ultraniskim opóźnieniu. Zbudowany na tym samym fundamencie „omni” co GPT-4o, ten wariant specjalizuje się w wejście i wyjście mowy o wysokiej wierności do rozmów turowych, tworzenia treści, narzędzi ułatwień dostępu i przepływów pracy agentów, które nie wymagają milisekundowego czasu. Dziedziczy wszystkie mocne strony modeli GPT-4-class w zakresie rozumowania tekstowego, dodając jednocześnie kompleksowa transmisja mowy (S2S) rurociągi, deterministyczne wywoływanie funkcjii nowe speed parametr do sterowania prędkością głosu.


Zestaw podstawowych funkcji audio GPT-4o

Zunifikowane przetwarzanie mowy na mowę – Dźwięk jest bezpośrednio przekształcany w semantycznie bogate tokeny, na podstawie których przeprowadzane są obliczenia i resyntezowane bez korzystania z zewnętrznych usług STT/TTS, co daje spójna barwa głosu, prozodia i zachowanie kontekstu.
Ulepszone przestrzeganie instrukcji – Strojenie z czerwca 2025 r. przynosi +19 pp zaliczenie na 1 miejscu w zakresie zadań wymagających poleceń głosowych w porównaniu z wersją bazową GPT-2024o z maja 4 r., co zmniejszyło halucynacje w takich obszarach, jak obsługa klienta i tworzenie treści.
Wywołanie stabilnego narzędzia – Model generuje ustrukturyzowany JSON który jest zgodny ze schematem wywoływania funkcji OpenAI, umożliwiając wyzwalanie interfejsów API zaplecza (wyszukiwanie, rezerwacje, płatności) >95% trafności argumentów.
speed Parametr (0.25–4×) – Programiści mogą modulować odtwarzanie mowy w celu nauki w wolnym tempie, normalnej narracji lub szybkich trybów „słyszalnego przeglądania”, bez resynteza tekstu zewnętrznie.
Zmiana kierunku z uwzględnieniem przerw – Choć wersja zapoznawcza nie jest tak oparta na opóźnieniach jak wariant Realtime, obsługuje częściowe przesyłanie strumieniowe:tokeny są emitowane natychmiast po ich obliczeniu, co pozwala użytkownikom na wcześniejsze przerwanie obliczeń, jeśli zajdzie taka potrzeba.


Architektura techniczna GPT-4o

• Transformator jednopoziomowy – Podobnie jak wszystkie pochodne GPT-4o, podgląd audio wykorzystuje zunifikowany koder-dekoder gdzie tekst i tokeny akustyczne przechodzą przez identyczne bloki uwagi, promując uziemienie międzymodalne.
• Hierarchiczna tokenizacja audio – Surowe 16 kHz PCM → łatki log-mel → grube kody akustycznetokeny semantyczne. Ta wielostopniowa kompresja osiąga 40–50-krotna redukcja przepustowości zachowując niuanse, umożliwiając tworzenie wielominutowych klipów w każdym oknie kontekstowym.
• Kwantowane wagi NF4 – Wnioskowanie jest podawane w 4-bitowy normalny float precyzja, zmniejszenie pamięci GPU o połowę w porównaniu do fp16 i utrzymanie 70+ strumieniowych plików RTF (w czasie rzeczywistym) na węzłach A100-80 GB.
• Uwaga strumieniowa i buforowanie KV – Osadzone obrotowe okna przesuwne utrzymują kontekst przez ~30 s mowy, jednocześnie zachowując O(L) wykorzystanie pamięci, idealne dla redaktorów podcastów lub narzędzi wspomagających czytanie.


Wersjonowanie i nazewnictwo — Podgląd utworu z kompilacjami oznaczonymi datą

identyfikatorKanałCelData wydaniaStabilność
gpt-4o-audio-podgląd-2025-06-03Interfejs API uzupełniania czatówInterakcje dźwiękowe w turach, zadania agentówCzerwiec 03 2025Podgląd (zachęcamy do wyrażania opinii)

Kluczowe elementy nazwy:

  1. gpt-4o – Rodzina omni-multimodalna.
  2. audio – Zoptymalizowany pod kątem zastosowań mowy.
  3. zapowiedź – Kontrakt API może ewoluować, ale nie jest jeszcze powszechnie dostępny.
  4. 2025-06-03 – Podsumowanie szkolenia i wdrożenia w celu zapewnienia odtwarzalności.

Jak wywołać GPT-4o Audio API API z CometAPI

GPT-4o Audio API Cennik API w CometAPI:

  • Żetony wejściowe: 2 USD / mln żetonów
  • Tokeny wyjściowe: 8 USD / mln tokenów

Wymagane kroki

  • Zaloguj się do pl.com. Jeśli jeszcze nie jesteś naszym użytkownikiem, zarejestruj się najpierw
  • Pobierz klucz API uwierzytelniania dostępu do interfejsu. Kliknij „Dodaj token” przy tokenie API w centrum osobistym, pobierz klucz tokena: sk-xxxxx i prześlij.
  • Uzyskaj adres URL tej witryny: https://api.cometapi.com/

Metody użytkowania

  1. Wybierz "gpt-4o-audio-preview-2025-06-03” punkt końcowy do wysłania żądania i ustawienia treści żądania. Metoda żądania i treść żądania są pobierane z naszej dokumentacji API witryny. Nasza witryna udostępnia również test Apifox dla Twojej wygody.
  2. Zastępować za pomocą aktualnego klucza CometAPI ze swojego konta.
  3. Wpisz swoje pytanie lub prośbę w polu treści — model odpowie właśnie na tę wiadomość.
  4. . Przetwórz odpowiedź API, aby uzyskać wygenerowaną odpowiedź.

Informacje na temat dostępu do modelu w interfejsie API Comet można znaleźć tutaj Dokumentacja API.

Informacje o cenie modelu w interfejsie API Comet można znaleźć tutaj https://api.cometapi.com/pricing.

Przepływ pracy API — Uzupełnienia czatu z częściami audio i haczykami funkcyjnymi

  1. Format wejściowy - audio/* MIME lub base64 Fragmenty WAV osadzone w messages[].content.
  2. Opcje wyjściowe -
    • mode: "text" → czysty tekst do napisów.
    • mode: "audio" → zwraca Streaming Ładunek Opus lub µ-law ze znacznikami czasu.
  3. Wywołanie funkcji - Dodaj functions:  schemat; model emituje role: "function" z argumentami JSON; programista wykonuje wywołanie narzędzia i opcjonalnie przesyła wynik z powrotem.
  4. Rate Control – Zestaw voice.speed=1.25 aby przyspieszyć odtwarzanie; bezpieczny zakres 0.25–4.0.
  5. Limity tokenów/audio – 128 k kontekstu (~4 min mowy) przy uruchomieniu; 4096 tokenów audio / 8192 tokenów tekstowych w zależności od tego, co nastąpi pierwsze.

Przykładowy kod i integracja API

pythonimport openai

openai.api_key = "YOUR_API_KEY"

# Single-step audio completion (batch)

with open("prompt.wav", "rb") as audio:
    response = openai.ChatCompletion.create(
        model="gpt-4o-audio-preview-2025-06-03",
        messages=[
            {"role": "system", "content": "You are a helpful voice assistant."},
            {"role": "user", "content": "audio", "audio": audio}
        ],
        temperature=0.3,
        speed=1.2  # 20% faster playback

    )

print(response.choices.message)
  • Najważniejsze:
  • model: "gpt-4o-audio-preview-2025-06-03"
  • audio wprowadź klucz użytkownik wiadomość o wysłaniu strumienia binarnego
  • prędkość: : Sterowanie stawka za głos między wolnym (0.5) a szybkim (2.0)
  • temperatura:Saldo kreatywność vs konsystencja

Wskaźniki techniczne — Opóźnienie, jakość, dokładność

metrycznyPodgląd dźwiękuGPT-4o (tylko tekst)Delta
Opóźnienie pierwszego tokena (jednorazowe)1.2 s Średnia0.35 s+0.85 sek.
MOS (naturalność mowy, 5 pkt.)4.43--
Zgodność z instrukcją (głos)92%73%+19 s
Dokładność wywołania funkcji Arg95.8%87%+8.8 s
Współczynnik błędów słów (niejawny STT)5.2%n / a-
Pamięć GPU / strumień (A100-80GB)7.1 GB14 GB (fp16)−49%

Testy porównawcze przeprowadzone za pomocą strumieniowego przesyłania ukończeń czatów, wielkość partii = 1.

Zobacz także Interfejs API w czasie rzeczywistym GPT-4o

Dźwięk GPT-4o

Czytaj więcej

500+ modeli w jednym API

Do 20% zniżki