OpenAI hôm nay đã thông báo rằng Mô hình giọng nói thời gian thực GPT hiện đã có sẵn, hỗ trợ nhập hình ảnh, đánh dấu bước chuyển của API Thời gian thực từ phiên bản beta sang phiên bản chính thức cho các tác nhân giọng nói sản xuất. Bản phát hành này định vị GPT-Realtime là một mô hình chuyển đổi giọng nói sang giọng nói có độ trễ thấp, có thể chạy các cuộc trò chuyện thoại hai chiều, đồng thời dựa trên hình ảnh được cung cấp trong phiên làm việc.
OpenAI mô tả gpt-thời gian thực là mô hình chuyển giọng nói thành giọng nói tiên tiến nhất của hãng cho đến nay: nó xử lý âm thanh từ đầu đến cuối (thay vì xâu chuỗi các bước chuyển giọng nói thành văn bản và văn bản thành giọng nói riêng biệt), tạo ra giọng nói tự nhiên và biểu cảm hơn, đồng thời cho thấy những cải thiện đáng kể về khả năng hiểu, làm theo hướng dẫn và gọi hàm. Công ty nhấn mạnh những cải tiến về điểm chuẩn nội bộ và cho biết mô hình này nắm bắt được những chi tiết tinh tế như tiếng cười, chuyển đổi ngôn ngữ giữa câu và độ chính xác cao hơn đối với nội dung chữ số.
Có gì mới
- Đầu vào hình ảnh trong các phiên thoại trực tiếp. Các nhà phát triển có thể đính kèm ảnh, ảnh chụp màn hình hoặc các hình ảnh khác cùng với âm thanh hoặc văn bản; mô hình có thể trả lời các câu hỏi trực quan, đọc văn bản trong ảnh chụp màn hình (kiểu OCR) và kết hợp hiểu biết về bối cảnh vào câu trả lời bằng giọng nói. Điều này cho phép thực hiện các quy trình công việc như hỏi đáp trực quan trong khi gọi điện hoặc hỗ trợ đa phương thức cho bộ phận chăm sóc khách hàng.
- Chuyển giọng nói thành giọng nói, độ trễ thấp hơn, giọng nói biểu cảm hơn. GPT-Realtime cung cấp đầu ra âm thanh gốc với độ trễ khứ hồi giảm so với các chuỗi STT→LLM→TTS cũ hơn và được trang bị các tùy chọn giọng nói biểu cảm (được báo cáo là "Cedar" và "Marine" trong phạm vi phủ sóng). Mô hình này được tinh chỉnh để tuân theo hướng dẫn và có sắc thái hội thoại.
- Tính năng tích hợp doanh nghiệp. Bản cập nhật API thời gian thực bổ sung các tính năng hướng đến doanh nghiệp như hỗ trợ máy chủ MCP và gọi điện thoại SIP để các tổng đài viên thoại có thể kết nối trực tiếp với mạng điện thoại và hệ thống PBX. Những bổ sung này hướng đến việc triển khai hỗ trợ khách hàng và trung tâm liên lạc.
điểm chuẩn
BigBench Audio (lý luận): 82.8% - lên từ 65.6% trên mô hình thời gian thực tháng 2024 năm XNUMX của OpenAI. Đây là tiêu chuẩn lý luận tiêu biểu được báo cáo cho các tác vụ lý luận có khả năng sử dụng âm thanh.
MultiChallenge (làm theo hướng dẫn, âm thanh): ~30.5% vs ~ 20.6% trước đó — cho thấy khả năng tuân thủ tốt hơn đối với các hướng dẫn bằng lời nói phức tạp hoặc nhiều bước.
ComplexFuncBench (thành công khi gọi hàm): ~66.5% vs ~ 49.7% trước đây — độ tin cậy tốt hơn khi mô hình phải gọi các công cụ/chức năng trong phiên âm thanh.
Chi phí và độ trễ: OpenAI tuyên bố mô hình mới giảm chi phí âm thanh cho mỗi mã thông báo (thấp hơn khoảng 20% so với bản xem trước thời gian thực trước đó) và hoạt động như một mô hình đầu cuối duy nhất (không có chuỗi STT → LM → TTS riêng biệt), giúp giảm độ trễ đầu cuối trong các luồng tương tác thời gian thực.
OpenAI cho biết gpt-realtime Mô hình này cho thấy những cải tiến đáng kể trong một loạt các tiêu chuẩn khách quan và hành vi thực tế — điểm số cao hơn trong bài kiểm tra BigBench Audio và các bài đánh giá theo lệnh/gọi hàm — và khả năng xử lý chữ số, từ mã và chuyển đổi ngôn ngữ trong âm thanh trực tiếp tốt hơn. Công ty cũng giới thiệu hai giọng nói mới (Cedar và Marin) và báo cáo mức giảm giá 20% so với mô hình xem trước thời gian thực trước đó.
API thời gian thực và gpt-realtime Mô hình hiện đã có sẵn cho các nhà phát triển (GA), OpenAI cũng đã giảm giá API thời gian thực của mình với bản cập nhật này, giảm đầu vào âm thanh xuống còn 32 đô la cho mỗi triệu mã thông báo và đầu ra âm thanh xuống còn 64 đô la cho mỗi triệu mã thông báo, giảm 20% so với giá trước đó, cung cấp cho các nhà phát triển giải pháp tiết kiệm hơn.
Bắt đầu
CometAPI là một nền tảng API hợp nhất tổng hợp hơn 500 mô hình AI từ các nhà cung cấp hàng đầu—chẳng hạn như dòng GPT của OpenAI, Gemini của Google, Claude của Anthropic, Midjourney, Suno, v.v.—thành một giao diện duy nhất thân thiện với nhà phát triển. Bằng cách cung cấp xác thực nhất quán, định dạng yêu cầu và xử lý phản hồi, CometAPI đơn giản hóa đáng kể việc tích hợp các khả năng AI vào ứng dụng của bạn. Cho dù bạn đang xây dựng chatbot, trình tạo hình ảnh, nhà soạn nhạc hay đường ống phân tích dựa trên dữ liệu, CometAPI cho phép bạn lặp lại nhanh hơn, kiểm soát chi phí và không phụ thuộc vào nhà cung cấp—tất cả trong khi khai thác những đột phá mới nhất trên toàn bộ hệ sinh thái AI.
Các nhà phát triển có thể truy cập GPT-5 Thông qua CometAPI, các phiên bản mô hình mới nhất được liệt kê là tính đến ngày xuất bản bài viết. Để bắt đầu, hãy khám phá các khả năng của mô hình trong Sân chơi và tham khảo ý kiến Hướng dẫn API để biết hướng dẫn chi tiết. Trước khi truy cập, vui lòng đảm bảo bạn đã đăng nhập vào CometAPI và lấy được khóa API. Sao chổiAPI cung cấp mức giá thấp hơn nhiều so với giá chính thức để giúp bạn tích hợp.
Tích hợp mới nhất gpt-realtime sẽ sớm xuất hiện trên CometAPI, hãy theo dõi nhé!
