Các tác nhân chuyển đổi sự phát triển AI: Cập nhật mới nhất của OpenAI

4 Tháng Sáu, 2025 — OpenAI đã phát hành một bộ cập nhật mạnh mẽ nhằm mục đích cách mạng hóa cách các nhà phát triển xây dựng các tác nhân AI, đặc biệt là những tác nhân có khả năng tương tác bằng giọng nói. Các bản cập nhật trải dài trên nhiều mặt trận: hỗ trợ TypeScript đầy đủ trong Agents SDK, cơ chế can thiệp của con người trong vòng lặp, ra mắt RealtimeAgent cho các ứng dụng giọng nói thời gian thực và cải tiến đáng kể cho mô hình giọng nói thành giọng nói của OpenAI.

Kết hợp lại, những bản cập nhật này giúp việc xây dựng các tác nhân AI an toàn, có thể kiểm soát và hấp dẫn trở nên dễ tiếp cận hơn bao giờ hết.

TypeScript đến với SDK của Agents

Trao quyền cho các nhà phát triển trong hệ sinh thái web

Agents SDK phổ biến của OpenAI hiện hỗ trợ TypeScript—mang đến công cụ mạnh mẽ cho các nhà phát triển xây dựng ứng dụng AI trong môi trường JavaScript và Node.js. Phiên bản TypeScript cung cấp tính năng tương đương với phiên bản Python, hỗ trợ tất cả các nguyên hàm xây dựng tác nhân cần thiết:

Bàn giao – Chuyển giao nhiệm vụ liền mạch giữa nhiều tác nhân
Bảo vệ – Các ràng buộc về hành vi và cơ chế an toàn
Truy tìm – Ghi nhật ký và chẩn đoán chi tiết
MCP (Mẫu đa thành phần) – Hỗ trợ cho các tác nhân phân tán, mô-đun

Tại sao nó quan trọng:

Các nhà phát triển web hiện có thể nhúng tác nhân AI một cách liền mạch vào trình duyệt, ứng dụng web và môi trường Node.js, cho phép các trải nghiệm như trợ lý giọng nói, chatbot thời gian thực và trợ lý ảo trong trình duyệt.

Cơ chế đánh giá của Human-in-the-Loop (HITL)

Giới thiệu Giám sát của con người để Hành vi của tác nhân an toàn hơn

Để tăng cường tính an toàn và trách nhiệm giải trình, OpenAI giới thiệu tính năng phê duyệt của con người trong quy trình làm việc của tác nhân. Trước khi một tác nhân có thể thực hiện một số lệnh gọi công cụ bên ngoài hoặc hành động API, con người có thể can thiệp để phê duyệt, từ chối hoặc điều chỉnh hành vi.

Quy trình làm việc cốt lõi:

Tạm dừng thực hiện công cụ
Tuần tự hóa và lưu trạng thái tác nhân hiện tại
Yêu cầu xem xét và phê duyệt của con người
Tiếp tục quy trình làm việc sau khi xác nhận

Lý tưởng cho:

Các trường hợp sử dụng liên quan đến rủi ro cao, chẳng hạn như giao dịch tài chính, phân tích dữ liệu y tế hoặc các nhiệm vụ dịch vụ khách hàng nhạy cảm. Cơ chế này tăng cường tính minh bạch, tuân thủ và bảo vệ đạo đức trong quá trình ra quyết định của AI.

RealtimeAgent: Xây dựng Voice Agent chưa bao giờ dễ dàng đến thế

Tính năng mới của OpenAI Đại lý thời gian thực Khả năng tận dụng API thời gian thực để cho phép các nhà phát triển xây dựng các tác nhân giọng nói mạnh mẽ hoạt động ở cả phía máy khách hoặc máy chủ.

Tính năng chính:

Nhập và xuất giọng nói theo thời gian thực
Gọi chức năng/công cụ tích hợp
Hỗ trợ ngắt quãng và phát lại âm thanh động
Khả năng tương thích với việc chuyển giao và bảo vệ

Tại sao nó mang tính chuyển đổi:
Bây giờ, các tác nhân giọng nói có thể được phát triển giống như các tác nhân văn bản—với quyền truy cập đầy đủ vào các công cụ AI và logic. Điều này mở ra cánh cửa cho các ứng dụng tiên tiến như:

Hệ thống hỗ trợ giọng nói sử dụng AI
Công cụ dịch thuật hoặc đọc chính tả theo thời gian thực
Trò chơi nhập vai tương tác, có lời nói

Bảng điều khiển Traces được nâng cấp tập trung vào giọng nói

Hình dung từng bước tương tác bằng giọng nói

Dấu vết Công cụ gỡ lỗi và giám sát đã được cập nhật để hỗ trợ hình ảnh trực quan phong phú về các phiên làm việc của tác nhân giọng nói theo thời gian thực.

Khả năng mới của bảng điều khiển:

Hiển thị dạng sóng âm thanh cho cả phản hồi của người dùng và tác nhân
Lịch sử cuộc gọi công cụ ghi nhật ký và các tham số của chúng
Làm nổi bật các điểm ngắt quãng (ví dụ, khi người dùng xen vào giữa câu)

Lợi ích cho nhà phát triển: Gỡ lỗi rõ ràng hơn, lặp lại nhanh hơn và tối ưu hóa tốt hơn trải nghiệm người dùng bằng giọng nói.

Mô hình chuyển giọng nói thành giọng nói GPT-4o: Thông minh hơn, tự nhiên hơn

Giọng nói thông minh hơn, thực hiện nâng cao

Mô hình giọng nói GPT-4o đã trải qua những cải tiến đáng kể để tăng hiệu quả trong các tác vụ giọng nói thời gian thực:

Hướng dẫn tốt hơn sau đây – Thực hiện lệnh với độ chính xác cao hơn
Sử dụng công cụ nhất quán hơn – Giảm sự thay đổi trong việc gọi công cụ
Cải thiện xử lý gián đoạn – Điều chỉnh giữa đoạn hội thoại thông minh hơn
Tốc độ nói có thể điều chỉnh - Mới speed tham số cho tốc độ đầu ra giọng nói linh hoạt

Mô hình có sẵn:

gpt-4o-realtime-preview-2025-06-03 – Tối ưu hóa cho API thời gian thực
gpt-4o-audio-preview-2025-06-03 – Được thiết kế để Hoàn thành trò chuyện bằng âm thanh

Những bản cập nhật này giúp giọng nói của AI tự nhiên hơn, phản hồi nhanh hơn và dễ điều hướng hơn, dù là trong bản tin tóm tắt nhanh hay cuộc đối thoại hướng dẫn chậm rãi.

Suy nghĩ cuối cùng: Một kỷ nguyên mới cho các tác nhân AI giọng nói

Với bốn bản cập nhật này, OpenAI tiếp tục mở rộng ranh giới phát triển tác nhân AI, giúp các nhà phát triển tạo ra trợ lý kỹ thuật số giống con người dễ dàng hơn, an toàn hơn và linh hoạt hơn.

Việc tích hợp hỗ trợ TypeScript, phê duyệt trực tiếp từ con người, khung tác nhân giọng nói và mô hình giọng nói nâng cấp cung cấp bộ công cụ hoàn chỉnh để thiết kế các tác nhân thông minh, tương tác và nhận biết ngữ cảnh trên nhiều nền tảng và ngành công nghiệp.

Cho dù bạn đang xây dựng trợ lý khách hàng hỗ trợ giọng nói, nhân vật trò chơi hay gia sư ảo, các công cụ mới nhất của OpenAI đều giúp bạn thực hiện nhanh hơn và thông minh hơn bao giờ hết.

Bắt đầu

CometAPI cung cấp giao diện REST thống nhất tổng hợp hàng trăm mô hình AI—bao gồm cả họ ChatGPT—dưới một điểm cuối nhất quán, với quản lý khóa API tích hợp, hạn ngạch sử dụng và bảng điều khiển thanh toán. Thay vì phải xử lý nhiều URL và thông tin xác thực của nhà cung cấp.

Để bắt đầu, hãy khám phá khả năng của mô hình trong Sân chơi và tham khảo ý kiến Hướng dẫn API để biết hướng dẫn chi tiết. Trước khi truy cập, vui lòng đảm bảo bạn đã đăng nhập vào CometAPI và lấy được khóa API.

Mô hình chuyển giọng nói thành giọng nói GPT-4o trong CometAPI đã được phát hành gpt-4o-realtime-preview-2025-06-03 và gpt-4o-audio-preview-2025-06-03Chào mừng bạn đến gọi!

Xem thêm API GPT-4.1