Agenci transformujący rozwój AI: najnowsze aktualizacje OpenAI

4 czerwca 2025 r. — OpenAI wydało potężny zestaw aktualizacji mających na celu zrewolucjonizowanie sposobu, w jaki programiści budują agentów AI, szczególnie tych z możliwościami interakcji opartymi na głosie. Aktualizacje obejmują wiele frontów: pełne wsparcie TypeScript w Agents SDK, mechanizm interwencji człowieka w pętli, debiut RealtimeAgent dla aplikacji głosowych w czasie rzeczywistym oraz znaczące ulepszenia modelu mowy na mowę OpenAI.

Łącznie te aktualizacje sprawiają, że tworzenie bezpiecznych, kontrolowanych i angażujących agentów AI jest bardziej dostępne niż kiedykolwiek wcześniej.

TypeScript trafia do Agents SDK

Wspieranie programistów w ekosystemie internetowym

Popularny pakiet Agents SDK firmy OpenAI obsługuje teraz TypeScript — zapewniając solidne narzędzia deweloperom tworzącym aplikacje AI w środowiskach JavaScript i Node.js. Wersja TypeScript zapewnia parzystość funkcji ze swoim odpowiednikiem w Pythonie, obsługując wszystkie podstawowe prymitywy tworzenia agentów:

Przekazania – Bezproblemowe przesyłanie zadań pomiędzy wieloma agentami
Bariery ochronne – Ograniczenia behawioralne i mechanizmy bezpieczeństwa
Rysunek kalkowy – Szczegółowe rejestrowanie i diagnostyka
MCP (Wzór wieloskładnikowy) – Wsparcie dla modułowych, rozproszonych agentów

Dlaczego jest to ważne:

Twórcy stron internetowych mogą teraz bezproblemowo osadzać agentów AI w przeglądarkach, aplikacjach internetowych i środowiskach Node.js, umożliwiając korzystanie z takich rozwiązań, jak asystenci głosowi, chatboty w czasie rzeczywistym i współpiloci w przeglądarce.

Mechanizm przeglądu z udziałem człowieka w pętli (HITL)

Wprowadzenie nadzoru ludzkiego dla bezpieczniejszego zachowania agentów

Aby wzmocnić bezpieczeństwo i rozliczalność, OpenAI wprowadza funkcję zatwierdzania przez człowieka w ramach przepływów pracy agentów. Zanim agent będzie mógł wykonać określone wywołania narzędzi zewnętrznych lub działania API, człowiek może interweniować, aby zatwierdzić, odrzucić lub dostosować zachowanie.

Podstawowy przepływ pracy:

Wstrzymaj wykonywanie narzędzia
Serializuj i zapisz bieżący stan agenta
Poproś o ludzką ocenę i zatwierdzenie
Wznów przepływ pracy po potwierdzeniu

Idealne dla:

Przypadki użycia o wysokiej stawce, takie jak transakcje finansowe, analiza danych medycznych lub wrażliwe zadania obsługi klienta. Ten mechanizm zwiększa przejrzystość, zgodność i zabezpieczenia etyczne w podejmowaniu decyzji przez AI.

RealtimeAgent: Tworzenie agentów głosowych nigdy nie było łatwiejsze

Nowość OpenAI Agent w czasie rzeczywistym Funkcja ta wykorzystuje interfejs API w czasie rzeczywistym, umożliwiając programistom tworzenie solidnych agentów głosowych działających zarówno po stronie klienta, jak i serwera.

Kluczowe cechy:

Wprowadzanie i wyprowadzanie mowy w czasie rzeczywistym
Zintegrowane wywoływanie funkcji/narzędzi
Obsługa przerw i dynamicznego odtwarzania dźwięku
Zgodność z przejściami i barierkami ochronnymi

Dlaczego jest to transformacyjne:
Teraz agenci głosowi mogą być rozwijani tak jak agenci tekstowi — z pełnym dostępem do narzędzi AI i logiki. Otwiera to drzwi dla zaawansowanych aplikacji, takich jak:

Systemy wsparcia głosowego oparte na sztucznej inteligencji
Narzędzia do tłumaczenia lub dyktowania w czasie rzeczywistym
Interaktywne gry fabularne z obsługą mowy

Panel Traces Dashboard otrzymuje aktualizację skoncentrowaną na głosie

Wizualizacja każdego kroku interakcji głosowej

Ślady narzędzie do debugowania i monitorowania zostało zaktualizowane, aby obsługiwać bogatą wizualizację sesji agenta głosowego w czasie rzeczywistym.

Nowe możliwości pulpitu nawigacyjnego:

Wyświetlanie przebiegów audio dla odpowiedzi użytkownika i agenta
Rejestrowanie historii wywołań narzędzia i ich parametrów
Podświetlanie punktów przerwania (np. gdy użytkownik wtrąca się w środku zdania)

Korzyści dla programistów: Bardziej przejrzyste debugowanie, szybsza iteracja i lepsza optymalizacja wrażeń użytkownika opartych na głosie.

Model mowy na mowę GPT-4o: bardziej inteligentny, bardziej naturalny

Inteligentniejszy głos, lepsze wykonanie

Model mowy GPT-4o przeszedł znaczące udoskonalenia w celu zwiększenia jego skuteczności w zadaniach głosowych w czasie rzeczywistym:

Lepsze instrukcje dotyczące dalszego postępowania – Wykonuje polecenia z większą dokładnością
Bardziej spójne wykorzystanie narzędzi – Zmniejsza zmienność wywołań narzędzi
Ulepszona obsługa przerw – Inteligentniejsze dostosowania w trakcie dialogu
Regulowana prędkość mowy - Nowy speed parametr elastycznego tempa wyjścia głosu

Dostępne modele:

gpt-4o-realtime-preview-2025-06-03 – Zoptymalizowany pod kątem interfejsu API w czasie rzeczywistym
gpt-4o-audio-preview-2025-06-03 – Zaprojektowany do ukończenia czatu z dźwiękiem

Dzięki tym udoskonaleniom głosy sztucznej inteligencji stają się bardziej naturalne, bardziej responsywne i łatwiejsze w reżyserowaniu — zarówno w przypadku szybkich komunikatów informacyjnych, jak i powolnych dialogów instruktażowych.

Ostatnie przemyślenia: Nowa era dla agentów głosowych AI

Dzięki tym czterem aktualizacjom OpenAI poszerza granice rozwoju agentów AI, ułatwiając, zwiększając bezpieczeństwo i elastyczność programistów w tworzeniu cyfrowych asystentów przypominających ludzi.

Integracja obsługi języka TypeScript, zatwierdzeń z udziałem człowieka, ram agentów głosowych i ulepszonych modeli mowy zapewnia kompletny zestaw narzędzi do projektowania inteligentnych, interaktywnych i kontekstowych agentów dla różnych platform i branż.

Niezależnie od tego, czy tworzysz asystenta klienta sterowanego głosem, postać w grze czy wirtualnego nauczyciela, najnowsze narzędzia OpenAI dają Ci możliwość zrobienia tego szybciej — i mądrzej — niż kiedykolwiek wcześniej.

Jak zacząć

CometAPI zapewnia ujednolicony interfejs REST, który agreguje setki modeli AI — w tym rodzinę ChatGPT — w ramach spójnego punktu końcowego, z wbudowanym zarządzaniem kluczami API, limitami wykorzystania i panelami rozliczeniowymi. Zamiast żonglować wieloma adresami URL dostawców i poświadczeniami.

Na początek zapoznaj się z możliwościami modelu w Plac zabaw i zapoznaj się z Przewodnik po API aby uzyskać szczegółowe instrukcje. Przed uzyskaniem dostępu upewnij się, że zalogowałeś się do CometAPI i uzyskałeś klucz API.

Model mowy na mowę GPT-4o w CometAPI został wydany gpt-4o-realtime-preview-2025-06-03 oraz gpt-4o-audio-preview-2025-06-03Zapraszamy do kontaktu!

Zobacz także API GPT-4.1