Agenci transformujący rozwój AI: najnowsze aktualizacje OpenAI

CometAPI
AnnaJun 3, 2025
Agenci transformujący rozwój AI: najnowsze aktualizacje OpenAI

4 czerwca 2025 r. — OpenAI wydało potężny zestaw aktualizacji mających na celu zrewolucjonizowanie sposobu, w jaki programiści budują agentów AI, szczególnie tych z możliwościami interakcji opartymi na głosie. Aktualizacje obejmują wiele frontów: pełne wsparcie TypeScript w Agents SDK, mechanizm interwencji człowieka w pętli, debiut RealtimeAgent dla aplikacji głosowych w czasie rzeczywistym oraz znaczące ulepszenia modelu mowy na mowę OpenAI.

Łącznie te aktualizacje sprawiają, że tworzenie bezpiecznych, kontrolowanych i angażujących agentów AI jest bardziej dostępne niż kiedykolwiek wcześniej.


TypeScript trafia do Agents SDK

Wspieranie programistów w ekosystemie internetowym

Popularny pakiet Agents SDK firmy OpenAI obsługuje teraz TypeScript — zapewniając solidne narzędzia deweloperom tworzącym aplikacje AI w środowiskach JavaScript i Node.js. Wersja TypeScript zapewnia parzystość funkcji ze swoim odpowiednikiem w Pythonie, obsługując wszystkie podstawowe prymitywy tworzenia agentów:

  • Przekazania – Bezproblemowe przesyłanie zadań pomiędzy wieloma agentami
  • Bariery ochronne – Ograniczenia behawioralne i mechanizmy bezpieczeństwa
  • Rysunek kalkowy – Szczegółowe rejestrowanie i diagnostyka
  • MCP (Wzór wieloskładnikowy) – Wsparcie dla modułowych, rozproszonych agentów

Dlaczego jest to ważne:

Twórcy stron internetowych mogą teraz bezproblemowo osadzać agentów AI w przeglądarkach, aplikacjach internetowych i środowiskach Node.js, umożliwiając korzystanie z takich rozwiązań, jak asystenci głosowi, chatboty w czasie rzeczywistym i współpiloci w przeglądarce.


Mechanizm przeglądu z udziałem człowieka w pętli (HITL)

Wprowadzenie nadzoru ludzkiego dla bezpieczniejszego zachowania agentów

Aby wzmocnić bezpieczeństwo i rozliczalność, OpenAI wprowadza funkcję zatwierdzania przez człowieka w ramach przepływów pracy agentów. Zanim agent będzie mógł wykonać określone wywołania narzędzi zewnętrznych lub działania API, człowiek może interweniować, aby zatwierdzić, odrzucić lub dostosować zachowanie.

Podstawowy przepływ pracy:

  1. Wstrzymaj wykonywanie narzędzia
  2. Serializuj i zapisz bieżący stan agenta
  3. Poproś o ludzką ocenę i zatwierdzenie
  4. Wznów przepływ pracy po potwierdzeniu

Idealne dla:

Przypadki użycia o wysokiej stawce, takie jak transakcje finansowe, analiza danych medycznych lub wrażliwe zadania obsługi klienta. Ten mechanizm zwiększa przejrzystość, zgodność i zabezpieczenia etyczne w podejmowaniu decyzji przez AI.


RealtimeAgent: Tworzenie agentów głosowych nigdy nie było łatwiejsze

Nowość OpenAI Agent w czasie rzeczywistym Funkcja ta wykorzystuje interfejs API w czasie rzeczywistym, umożliwiając programistom tworzenie solidnych agentów głosowych działających zarówno po stronie klienta, jak i serwera.

Kluczowe cechy:

  • Wprowadzanie i wyprowadzanie mowy w czasie rzeczywistym
  • Zintegrowane wywoływanie funkcji/narzędzi
  • Obsługa przerw i dynamicznego odtwarzania dźwięku
  • Zgodność z przejściami i barierkami ochronnymi

Dlaczego jest to transformacyjne:
Teraz agenci głosowi mogą być rozwijani tak jak agenci tekstowi — z pełnym dostępem do narzędzi AI i logiki. Otwiera to drzwi dla zaawansowanych aplikacji, takich jak:

  • Systemy wsparcia głosowego oparte na sztucznej inteligencji
  • Narzędzia do tłumaczenia lub dyktowania w czasie rzeczywistym
  • Interaktywne gry fabularne z obsługą mowy

Panel Traces Dashboard otrzymuje aktualizację skoncentrowaną na głosie

Wizualizacja każdego kroku interakcji głosowej

Ślady narzędzie do debugowania i monitorowania zostało zaktualizowane, aby obsługiwać bogatą wizualizację sesji agenta głosowego w czasie rzeczywistym.

Nowe możliwości pulpitu nawigacyjnego:

  • Wyświetlanie przebiegów audio dla odpowiedzi użytkownika i agenta
  • Rejestrowanie historii wywołań narzędzia i ich parametrów
  • Podświetlanie punktów przerwania (np. gdy użytkownik wtrąca się w środku zdania)

Korzyści dla programistów: Bardziej przejrzyste debugowanie, szybsza iteracja i lepsza optymalizacja wrażeń użytkownika opartych na głosie.


Model mowy na mowę GPT-4o: bardziej inteligentny, bardziej naturalny

Inteligentniejszy głos, lepsze wykonanie

Model mowy GPT-4o przeszedł znaczące udoskonalenia w celu zwiększenia jego skuteczności w zadaniach głosowych w czasie rzeczywistym:

  • Lepsze instrukcje dotyczące dalszego postępowania – Wykonuje polecenia z większą dokładnością
  • Bardziej spójne wykorzystanie narzędzi – Zmniejsza zmienność wywołań narzędzi
  • Ulepszona obsługa przerw – Inteligentniejsze dostosowania w trakcie dialogu
  • Regulowana prędkość mowy - Nowy speed parametr elastycznego tempa wyjścia głosu

Dostępne modele:

  • gpt-4o-realtime-preview-2025-06-03 – Zoptymalizowany pod kątem interfejsu API w czasie rzeczywistym
  • gpt-4o-audio-preview-2025-06-03 – Zaprojektowany do ukończenia czatu z dźwiękiem

Dzięki tym udoskonaleniom głosy sztucznej inteligencji stają się bardziej naturalne, bardziej responsywne i łatwiejsze w reżyserowaniu — zarówno w przypadku szybkich komunikatów informacyjnych, jak i powolnych dialogów instruktażowych.

Ostatnie przemyślenia: Nowa era dla agentów głosowych AI

Dzięki tym czterem aktualizacjom OpenAI poszerza granice rozwoju agentów AI, ułatwiając, zwiększając bezpieczeństwo i elastyczność programistów w tworzeniu cyfrowych asystentów przypominających ludzi.

Integracja obsługi języka TypeScript, zatwierdzeń z udziałem człowieka, ram agentów głosowych i ulepszonych modeli mowy zapewnia kompletny zestaw narzędzi do projektowania inteligentnych, interaktywnych i kontekstowych agentów dla różnych platform i branż.

Niezależnie od tego, czy tworzysz asystenta klienta sterowanego głosem, postać w grze czy wirtualnego nauczyciela, najnowsze narzędzia OpenAI dają Ci możliwość zrobienia tego szybciej — i mądrzej — niż kiedykolwiek wcześniej.

Jak zacząć

CometAPI zapewnia ujednolicony interfejs REST, który agreguje setki modeli AI — w tym rodzinę ChatGPT — w ramach spójnego punktu końcowego, z wbudowanym zarządzaniem kluczami API, limitami wykorzystania i panelami rozliczeniowymi. Zamiast żonglować wieloma adresami URL dostawców i poświadczeniami.

Na początek zapoznaj się z możliwościami modelu w Plac zabaw i zapoznaj się z Przewodnik po API aby uzyskać szczegółowe instrukcje. Przed uzyskaniem dostępu upewnij się, że zalogowałeś się do CometAPI i uzyskałeś klucz API.

Model mowy na mowę GPT-4o w CometAPI został wydany gpt-4o-realtime-preview-2025-06-03 oraz gpt-4o-audio-preview-2025-06-03Zapraszamy do kontaktu!

Zobacz także API GPT-4.1

Czytaj więcej

500+ modeli w jednym API

Do 20% zniżki