Interfejs API w czasie rzeczywistym GPT-4o

CometAPI
AnnaJun 11, 2025
Interfejs API w czasie rzeczywistym GPT-4o

Interfejs API w czasie rzeczywistym GPT-4o: Punkt końcowy przesyłania strumieniowego multimodalnego o niskim opóźnieniu, umożliwiający programistom wysyłanie i odbieranie zsynchronizowanych danych tekstowych, audio i wizualnych za pośrednictwem protokołu WebRTC lub WebSocket (model=gpt-4o-realtime-preview-<date>, stream=true) do interaktywnych aplikacji czasu rzeczywistego.


Podstawowe informacje i funkcje

OpenAI's GPT-4o w czasie rzeczywistym (identyfikator modelu: gpt-4o-podgląd-w-czasie-realtime-2025-06-03) jest pierwszym publicznie dostępnym modelem fundamentu zaprojektowanym dla kompleksowa transmisja mowy (S2S) interakcja z opóźnienie poniżej sekundy. Pochodząca z rodziny „omni” GPT-4o odmiana Realtime łączy w sobie rozpoznawanie mowy, rozumowanie w języku naturalnym i neuronowe przetwarzanie tekstu na mowę w jedną sieć, co pozwala deweloperom na tworzenie agentów głosowych, którzy rozmawiają tak płynnie jak ludzie. Model ten jest udostępniany poprzez specjalnie zbudowane API czasu rzeczywistego i jest ściśle zintegrowany z nowym Agent w czasie rzeczywistym abstrakcja wewnątrz Agenty SDK (TypeScript i Python).


Zestaw podstawowych funkcji — S2S typu end-to-end • Obsługa przerwań • Wywoływanie narzędzi

• Natywny system mowy na mowę: Dane wejściowe audio są pobierane jako ciągłe strumienie, wewnętrznie tokenizowane, racjonalizowane i zwracane jako syntezowana mowa. Nie są potrzebne żadne zewnętrzne bufory STT/TTS, co eliminuje wielosekundowe opóźnienie potoku.
• Opóźnienie w skali milisekund: Przycinanie architektury, destylacja modeli i zoptymalizowany pod kątem GPU stos obsługi umożliwiają Opóźnienia pierwszego tokena ~300–500 ms w typowych wdrożeniach w chmurze, zbliżając się do norm ludzkiej konwersacji.
• Solidne przestrzeganie instrukcji: Dopracowany w oparciu o skrypty konwersacji i ślady wywołań funkcji, GPT-4o Realtime demonstruje >25% redukcja błędów w wykonywaniu zadań w porównaniu z danymi bazowymi GPT-2024o z maja 4 r.
• Deterministyczne wywoływanie narzędzi: Model generuje ustrukturyzowany JSON zgodny ze standardem OpenAI schemat wywoływania funkcji, umożliwiając deterministyczne wywoływanie interfejsów API back-end (systemy rezerwacji, bazy danych, IoT). Wbudowane są ponowne próby uwzględniające błędy i walidacja argumentów.
• Łagodne przerwy: Detektor aktywności głosowej w czasie rzeczywistym połączony z dekodowaniem przyrostowym umożliwia agentowi wstrzymać mowę w środku zdania, absorbować przerwy w działaniu użytkownika i bezproblemowo wznawiać lub ponownie planować odpowiedź.
• Konfigurowalna szybkość mowy: nowa prędkość parametr (0.25–4× w czasie rzeczywistym) umożliwia programistom dostosowanie tempa wyświetlania wyników do potrzeb aplikacji ułatwiających dostęp lub wymagających szybkiego działania.


Architektura techniczna — Zunifikowany transformator multimodalny

Zunifikowany enkoder-dekoder: GPT-4o Realtime dzieli architekturę omni transformator jednostopniowy w którym tokeny audio, tekstowe i (przyszłej) wizji współistnieją w jednej przestrzeni ukrytej. Warstwowo-adaptacyjne obliczenia skracają klatki audio bezpośrednio do późniejszych bloków uwagi, skracając czas przejścia o 20–40 ms.

Hierarchiczna tokenizacja audio: Surowy sygnał PCM 16 kHz jest dzielony na fragmenty log-mel → kwantyzowany do grubych tokenów akustycznych → kompresowany do tokenów semantycznych, co optymalizuje token-na-sekundę budżetu bez poświęcania prozodii.

Jądra wnioskowania niskobitowego: Rozłożone ciężary działają z prędkością Kwantyzacja NF4 4-bitowa poprzez jądra Triton / TensorRT-LLM, podwajając przepustowość w porównaniu do fp16, przy zachowaniu utraty jakości MOS <1 dB.

Uwaga na transmisję strumieniową: Osadzenia obrotowe z przesuwanym oknem i buforowanie wartości kluczowych umożliwiają modelowi przechwycenie ostatnich 15 sekund dźwięku przy użyciu pamięci O(L), co ma kluczowe znaczenie dla dialogów o długości rozmowy telefonicznej.


Dane Techniczne

  • Wersja interfejsu API: 2025-06-03-preview
  • Protokóły transportowe:
  • WebRTC:Bardzo niskie opóźnienie (< 80 ms) dla strumieni audio/wideo po stronie klienta
  • WebSocket:Streaming serwer-serwer z opóźnieniem poniżej 100 ms
  • Kodowanie danych:
  • Opus kodek w RTP pakiety audio
  • H.264 / H.265 ramki do filmów
  • Streaming: Obsługuje stream: true dostarczyć przyrostowe częściowe odpowiedzi w miarę generowania tokenów
  • Nowa paleta głosów:Wprowadza osiem nowych głosów —stop, jesion, ballada, koral, przegapić, szałwia, migotać, werset—więcej ekspresyjny, inteligencję zbliżoną interakcje ..

Ewolucja GPT-4o w czasie rzeczywistym

  • 2024 maja,: GPT-4o Omni debiutuje z multimodalnym wsparciem dla tekstu, dźwięku i obrazu.
  • Październik 2024: API czasu rzeczywistego wchodzi w prywatną wersję beta (2024-10-01-preview), zoptymalizowany pod kątem dźwięku o niskim opóźnieniu.
  • Grudzień 2024:Rozszerzona globalna dostępność gpt-4o-realtime-preview-2024-12-17, Dodając szybkie buforowanie i więcej głosów.
  • 3 czerwca 2025 r.: Najnowsza aktualizacja (2025-06-03-preview) wprowadza udoskonalone paleta głosowa i optymalizacja wydajności.

Wydajność wzorcowa

  • MMLU: 88.7, wyprzedzając GPT-4 o 86.5 Ogromne, wielozadaniowe zrozumienie języka .
  • Rozpoznawanie mowy:Osiąga wiodący w branży współczynniki błędów słownych w hałaśliwym otoczeniu, przewyższające Szept linie bazowe.
  • Testy opóźnień:
  • Koniec końców (mowa w → tekst na zewnątrz): 50–80 milisekund poprzez WebRTC
  • Audio w obie strony (mówienie → mówienie): <100 ms .

Wskaźniki techniczne

  • Wydajność:Podtrzymuje 15 tokenów/sek. dla strumieni tekstowych; Kbps 24 Dzieło dla audio.
  • Ceny:
  • Tekst:5 USD za 1 mln tokenów wejściowych; 20 USD za 1 mln tokenów wyjściowych
  • Audio:100 USD za 1 mln tokenów wejściowych; 200 USD za 1 mln tokenów wyjściowych.
  • Dostępność: :Wdrożono globalnie we wszystkich regionach obsługujących interfejs API w czasie rzeczywistym.

Jak wywołać GPT-4o Realtime API z CometAPI

GPT-4o Realtime Cennik API w CometAPI:

  • Żetony wejściowe: 2 USD / mln żetonów
  • Tokeny wyjściowe: 8 USD / mln tokenów

Wymagane kroki

  • Zaloguj się do pl.com. Jeśli jeszcze nie jesteś naszym użytkownikiem, zarejestruj się najpierw
  • Pobierz klucz API uwierzytelniania dostępu do interfejsu. Kliknij „Dodaj token” przy tokenie API w centrum osobistym, pobierz klucz tokena: sk-xxxxx i prześlij.
  • Uzyskaj adres URL tej witryny: https://api.cometapi.com/

Metody użytkowania

  1. Wybierz "gpt-4o-realtime-preview-2025-06-03” punkt końcowy do wysłania żądania i ustawienia treści żądania. Metoda żądania i treść żądania są pobierane z naszej dokumentacji API witryny. Nasza witryna udostępnia również test Apifox dla Twojej wygody.
  2. Zastępować za pomocą aktualnego klucza CometAPI ze swojego konta.
  3. Wpisz swoje pytanie lub prośbę w polu treści — model odpowie właśnie na tę wiadomość.
  4. . Przetwórz odpowiedź API, aby uzyskać wygenerowaną odpowiedź.

Informacje na temat dostępu do modelu w interfejsie API Comet można znaleźć tutaj Dokumentacja API.

Informacje o cenie modelu w interfejsie API Comet można znaleźć tutaj https://api.cometapi.com/pricing.


Przykładowy kod i integracja API

import openai

openai.api_key = "YOUR_API_KEY"

# Establish a Realtime WebRTC connection

connection = openai.Realtime.connect(
    model="gpt-4o-realtime-preview-2025-06-03",
    version="2025-06-03-preview",
    transport="webrtc"
)

# Stream audio frames and receive incremental text

with open("user_audio.raw", "rb") as audio_stream:
    for chunk in iter(lambda: audio_stream.read(2048), b""):
        result = connection.send_audio(chunk)
        print("Assistant:", result)
  • Kluczowe parametry:
  • model: „gpt-4o-podgląd-w-czasie-realtime-2025-06-03”
  • version: „2025-06-03-podgląd”
  • transport: „Webrtc” dla minimalne opóźnienie
  • stream: true dla przyrostowe aktualizacje

Poprzez połączenie state-of-the-art rozumowanie multimodalne, krzepki nowa paleta głosów i bardzo niski przesyłanie strumieniowe z opóźnieniem, GPT-4o w czasie rzeczywistym (2025-06-03) umożliwia programistom tworzenie prawdziwie interaktywne, konwersacyjny Zastosowania sztucznej inteligencji.

Zobacz także Interfejs API o3-Pro

Bezpieczeństwo i zgodność

OpenAI dostarcza GPT-4o Realtime z:
Zabezpieczenia na poziomie systemu: Polityka dostosowana do odrzucania niedozwolonych próśb (ekstremizm, zachowania niezgodne z prawem).
Filtrowanie treści w czasie rzeczywistym: Klasyfikatory o czasie reakcji krótszym niż 100 ms przeszukują zarówno dane wejściowe użytkownika, jak i dane wyjściowe modelu przed emisją.
Ścieżki akceptacji przez człowieka: Uruchamiane w przypadku wywołań narzędzi o wysokim ryzyku (płatności, porady prawne) przy wykorzystaniu nowych podstawowych funkcji zatwierdzania pakietu Agents SDK.

GPT-4o w czasie rzeczywistym

SHARE THIS BLOG

500+ modeli w jednym API

Do 20% zniżki