Model głosu GPT-Realtime jest już dostępny i obsługuje wprowadzanie obrazu

Firma OpenAI ogłosiła dziś, że Model głosu GPT-Realtime jest już dostępny i obsługuje wprowadzanie obrazu, co oznacza przejście API Realtime z wersji beta do powszechnej dostępności dla agentów głosowych w środowisku produkcyjnym. Wydanie pozycjonuje GPT-Realtime jako model mowy o niskim opóźnieniu, który umożliwia prowadzenie dwukierunkowych rozmów głosowych, a jednocześnie opiera odpowiedzi na obrazach dostarczanych podczas sesji.

OpenAI opisuje gpt-realtime jako swój najbardziej zaawansowany jak dotąd model przetwarzania mowy na mowę: przetwarza on dźwięk od początku do końca (zamiast łączyć oddzielne kroki przetwarzania mowy na tekst i tekstu na mowę), generuje bardziej naturalną i ekspresyjną mowę oraz wykazuje wymierne korzyści w zakresie rozumienia, wykonywania instrukcji i wywoływania funkcji. Firma podkreśla ulepszenia w wewnętrznych testach porównawczych i twierdzi, że model wychwytuje subtelności, takie jak śmiech, przełączanie języka w trakcie zdania oraz wyższą dokładność w zakresie treści alfanumerycznych.

Co nowego

Wprowadzanie obrazu w sesjach głosowych na żywo. Programiści mogą dołączać zdjęcia, zrzuty ekranu i inne obrazy wraz z dźwiękiem lub tekstem; model może odpowiadać na pytania wizualne, odczytywać tekst ze zrzutów ekranu (w stylu OCR) i włączać rozumienie sceny do odpowiedzi głosowej. Umożliwia to realizację takich procesów, jak wizualne pytania i odpowiedzi podczas rozmowy telefonicznej lub multimodalne wsparcie obsługi klienta.
Mowa na mowę, mniejsze opóźnienie, bardziej ekspresyjne głosy. GPT-Realtime zapewnia natywny sygnał audio z mniejszym opóźnieniem w obie strony w porównaniu ze starszymi systemami STT→LLM→TTS i jest dostarczany z ekspresyjnymi opcjami głosowymi (określanymi jako „Cedar” i „Marine” w zakresie zasięgu). Model jest dostrojony do śledzenia instrukcji i niuansów konwersacyjnych.
Funkcje integracji przedsiębiorstwa. Aktualizacja interfejsu API czasu rzeczywistego dodaje funkcje zorientowane na przedsiębiorstwa, takie jak obsługa serwera MCP i połączenia telefoniczne SIP, dzięki czemu agenci głosowi mogą łączyć się bezpośrednio z sieciami telefonicznymi i systemami PBX. Dodatki te są przeznaczone dla wdrożeń w centrach obsługi klienta i contact center.

benchmarki

BigBench Audio (rozumowanie): 82.8% — w górę od 65.6% w modelu czasu rzeczywistego OpenAI z grudnia 2024 r. Jest to najważniejszy test porównawczy rozumowania dla zadań rozumowania z możliwością odtwarzania dźwięku.

MultiChallenge (instrukcje, dźwięk): ~30.5% vs ~% 20.6 wcześniej — wykazuje lepsze przestrzeganie wieloetapowych lub złożonych instrukcji mówionych.

ComplexFuncBench (sukces wywołania funkcji): ~66.5% vs ~% 49.7 poprzednio — lepsza niezawodność, gdy model musi wywołać narzędzia/funkcje w trakcie sesji audio.

Koszt i opóźnienie: Firma OpenAI twierdzi, że nowy model obniża koszt dźwięku przypadający na jeden token (≈20% niższy niż w poprzedniej wersji zapoznawczej w czasie rzeczywistym) i działa jako pojedynczy model kompleksowy (bez oddzielnego łańcucha STT → LM → TTS), co zmniejsza opóźnienia kompleksowe w interaktywnych przepływach w czasie rzeczywistym.

OpenAI twierdzi, że gpt-realtime Model ten wykazuje istotną poprawę w szeregu obiektywnych testów porównawczych i rzeczywistych zachowań – wyższe wyniki w BigBench Audio oraz w ocenach przestrzegania instrukcji/wywoływania funkcji – oraz lepszą obsługę znaków alfanumerycznych, słów kodowych i przełączania języków w dźwięku na żywo. Firma wprowadziła również dwa nowe głosy (Cedar i Marin) i informuje o 20% obniżce ceny w porównaniu z wcześniejszym modelem z podglądem w czasie rzeczywistym.

Interfejs API w czasie rzeczywistym i gpt-realtime modele są już dostępne dla deweloperów (GA), firma OpenAI obniżyła również cenę swojego interfejsu API w czasie rzeczywistym dzięki tej aktualizacji, zmniejszając koszt wejścia audio do 32 USD za milion tokenów i koszt wyjścia audio do 64 USD za milion tokenów, co stanowi redukcję o 20% w stosunku do poprzedniej ceny, zapewniając deweloperom bardziej ekonomiczne rozwiązanie.

Jak zacząć

CometAPI to ujednolicona platforma API, która agreguje ponad 500 modeli AI od wiodących dostawców — takich jak seria GPT firmy OpenAI, Gemini firmy Google, Claude firmy Anthropic, Midjourney, Suno i innych — w jednym, przyjaznym dla programistów interfejsie. Oferując spójne uwierzytelnianie, formatowanie żądań i obsługę odpowiedzi, CometAPI radykalnie upraszcza integrację możliwości AI z aplikacjami. Niezależnie od tego, czy tworzysz chatboty, generatory obrazów, kompozytorów muzycznych czy oparte na danych potoki analityczne, CometAPI pozwala Ci szybciej iterować, kontrolować koszty i pozostać niezależnym od dostawcy — wszystko to przy jednoczesnym korzystaniu z najnowszych przełomów w ekosystemie AI.

Deweloperzy mogą uzyskać dostęp GPT-5 Za pośrednictwem CometAPI najnowsze wersje modeli są aktualne na dzień publikacji artykułu. Na początek zapoznaj się z możliwościami modelu w Plac zabaw i zapoznaj się z Przewodnik po API aby uzyskać szczegółowe instrukcje. Przed uzyskaniem dostępu upewnij się, że zalogowałeś się do CometAPI i uzyskałeś klucz API. Interfejs API Comet zaoferuj cenę znacznie niższą niż oficjalna, aby ułatwić Ci integrację.

Najnowsza integracja gpt-realtime Już wkrótce pojawi się w CometAPI, więc bądźcie czujni!

Co nowego

benchmarki

Jak zacząć

Czytaj więcej

500+ modeli w jednym API