4 czerwca 2025 r. — OpenAI wydało potężny zestaw aktualizacji mających na celu zrewolucjonizowanie sposobu, w jaki programiści budują agentów AI, szczególnie tych z możliwościami interakcji opartymi na głosie. Aktualizacje obejmują wiele frontów: pełne wsparcie TypeScript w Agents SDK, mechanizm interwencji człowieka w pętli, debiut RealtimeAgent dla aplikacji głosowych w czasie rzeczywistym oraz znaczące ulepszenia modelu mowy na mowę OpenAI.
Łącznie te aktualizacje sprawiają, że tworzenie bezpiecznych, kontrolowanych i angażujących agentów AI jest bardziej dostępne niż kiedykolwiek wcześniej.
TypeScript trafia do Agents SDK
Wspieranie programistów w ekosystemie internetowym
Popularny pakiet Agents SDK firmy OpenAI obsługuje teraz TypeScript — zapewniając solidne narzędzia deweloperom tworzącym aplikacje AI w środowiskach JavaScript i Node.js. Wersja TypeScript zapewnia parzystość funkcji ze swoim odpowiednikiem w Pythonie, obsługując wszystkie podstawowe prymitywy tworzenia agentów:
- Przekazania – Bezproblemowe przesyłanie zadań pomiędzy wieloma agentami
- Bariery ochronne – Ograniczenia behawioralne i mechanizmy bezpieczeństwa
- Rysunek kalkowy – Szczegółowe rejestrowanie i diagnostyka
- MCP (Wzór wieloskładnikowy) – Wsparcie dla modułowych, rozproszonych agentów
Dlaczego jest to ważne:
Twórcy stron internetowych mogą teraz bezproblemowo osadzać agentów AI w przeglądarkach, aplikacjach internetowych i środowiskach Node.js, umożliwiając korzystanie z takich rozwiązań, jak asystenci głosowi, chatboty w czasie rzeczywistym i współpiloci w przeglądarce.
Mechanizm przeglądu z udziałem człowieka w pętli (HITL)
Wprowadzenie nadzoru ludzkiego dla bezpieczniejszego zachowania agentów
Aby wzmocnić bezpieczeństwo i rozliczalność, OpenAI wprowadza funkcję zatwierdzania przez człowieka w ramach przepływów pracy agentów. Zanim agent będzie mógł wykonać określone wywołania narzędzi zewnętrznych lub działania API, człowiek może interweniować, aby zatwierdzić, odrzucić lub dostosować zachowanie.
Podstawowy przepływ pracy:
- Wstrzymaj wykonywanie narzędzia
- Serializuj i zapisz bieżący stan agenta
- Poproś o ludzką ocenę i zatwierdzenie
- Wznów przepływ pracy po potwierdzeniu
Idealne dla:
Przypadki użycia o wysokiej stawce, takie jak transakcje finansowe, analiza danych medycznych lub wrażliwe zadania obsługi klienta. Ten mechanizm zwiększa przejrzystość, zgodność i zabezpieczenia etyczne w podejmowaniu decyzji przez AI.
RealtimeAgent: Tworzenie agentów głosowych nigdy nie było łatwiejsze
Nowość OpenAI Agent w czasie rzeczywistym Funkcja ta wykorzystuje interfejs API w czasie rzeczywistym, umożliwiając programistom tworzenie solidnych agentów głosowych działających zarówno po stronie klienta, jak i serwera.
Kluczowe cechy:
- Wprowadzanie i wyprowadzanie mowy w czasie rzeczywistym
- Zintegrowane wywoływanie funkcji/narzędzi
- Obsługa przerw i dynamicznego odtwarzania dźwięku
- Zgodność z przejściami i barierkami ochronnymi
Dlaczego jest to transformacyjne:
Teraz agenci głosowi mogą być rozwijani tak jak agenci tekstowi — z pełnym dostępem do narzędzi AI i logiki. Otwiera to drzwi dla zaawansowanych aplikacji, takich jak:
- Systemy wsparcia głosowego oparte na sztucznej inteligencji
- Narzędzia do tłumaczenia lub dyktowania w czasie rzeczywistym
- Interaktywne gry fabularne z obsługą mowy
Panel Traces Dashboard otrzymuje aktualizację skoncentrowaną na głosie
Wizualizacja każdego kroku interakcji głosowej
Ślady narzędzie do debugowania i monitorowania zostało zaktualizowane, aby obsługiwać bogatą wizualizację sesji agenta głosowego w czasie rzeczywistym.
Nowe możliwości pulpitu nawigacyjnego:
- Wyświetlanie przebiegów audio dla odpowiedzi użytkownika i agenta
- Rejestrowanie historii wywołań narzędzia i ich parametrów
- Podświetlanie punktów przerwania (np. gdy użytkownik wtrąca się w środku zdania)
Korzyści dla programistów: Bardziej przejrzyste debugowanie, szybsza iteracja i lepsza optymalizacja wrażeń użytkownika opartych na głosie.
Model mowy na mowę GPT-4o: bardziej inteligentny, bardziej naturalny
Inteligentniejszy głos, lepsze wykonanie
Model mowy GPT-4o przeszedł znaczące udoskonalenia w celu zwiększenia jego skuteczności w zadaniach głosowych w czasie rzeczywistym:
- Lepsze instrukcje dotyczące dalszego postępowania – Wykonuje polecenia z większą dokładnością
- Bardziej spójne wykorzystanie narzędzi – Zmniejsza zmienność wywołań narzędzi
- Ulepszona obsługa przerw – Inteligentniejsze dostosowania w trakcie dialogu
- Regulowana prędkość mowy - Nowy
speedparametr elastycznego tempa wyjścia głosu
Dostępne modele:
gpt-4o-realtime-preview-2025-06-03– Zoptymalizowany pod kątem interfejsu API w czasie rzeczywistymgpt-4o-audio-preview-2025-06-03– Zaprojektowany do ukończenia czatu z dźwiękiem
Dzięki tym udoskonaleniom głosy sztucznej inteligencji stają się bardziej naturalne, bardziej responsywne i łatwiejsze w reżyserowaniu — zarówno w przypadku szybkich komunikatów informacyjnych, jak i powolnych dialogów instruktażowych.
Ostatnie przemyślenia: Nowa era dla agentów głosowych AI
Dzięki tym czterem aktualizacjom OpenAI poszerza granice rozwoju agentów AI, ułatwiając, zwiększając bezpieczeństwo i elastyczność programistów w tworzeniu cyfrowych asystentów przypominających ludzi.
Integracja obsługi języka TypeScript, zatwierdzeń z udziałem człowieka, ram agentów głosowych i ulepszonych modeli mowy zapewnia kompletny zestaw narzędzi do projektowania inteligentnych, interaktywnych i kontekstowych agentów dla różnych platform i branż.
Niezależnie od tego, czy tworzysz asystenta klienta sterowanego głosem, postać w grze czy wirtualnego nauczyciela, najnowsze narzędzia OpenAI dają Ci możliwość zrobienia tego szybciej — i mądrzej — niż kiedykolwiek wcześniej.
Jak zacząć
CometAPI zapewnia ujednolicony interfejs REST, który agreguje setki modeli AI — w tym rodzinę ChatGPT — w ramach spójnego punktu końcowego, z wbudowanym zarządzaniem kluczami API, limitami wykorzystania i panelami rozliczeniowymi. Zamiast żonglować wieloma adresami URL dostawców i poświadczeniami.
Na początek zapoznaj się z możliwościami modelu w Plac zabaw i zapoznaj się z Przewodnik po API aby uzyskać szczegółowe instrukcje. Przed uzyskaniem dostępu upewnij się, że zalogowałeś się do CometAPI i uzyskałeś klucz API.
Model mowy na mowę GPT-4o w CometAPI został wydany gpt-4o-realtime-preview-2025-06-03 oraz gpt-4o-audio-preview-2025-06-03Zapraszamy do kontaktu!
Zobacz także API GPT-4.1
