Thông số kỹ thuật của gpt-audio-1.5
| Mục | gpt-audio-1.5 (thông số công khai) |
|---|---|
| Họ mô hình | Họ GPT Audio (biến thể ưu tiên âm thanh) |
| Loại đầu vào | Văn bản, âm thanh (giọng nói đầu vào) |
| Loại đầu ra | Văn bản, âm thanh (giọng nói đầu ra), đầu ra có cấu trúc (hỗ trợ function call) |
| Cửa sổ ngữ cảnh | 128.000 token. |
| Số token đầu ra tối đa | 16.384 (được ghi nhận trong danh sách gpt-audio liên quan). |
| Cấp hiệu năng | Trí tuệ cao hơn; tốc độ trung bình (cân bằng). |
| Hồ sơ độ trễ | Tối ưu cho tương tác giọng nói (độ trễ trung bình/thấp tùy theo endpoint). |
| Khả dụng | API Chat Completions (âm thanh vào/ra) và các playground của nền tảng; được tích hợp trên các bề mặt realtime/voice. |
| Ghi chú an toàn / sử dụng | Có guardrail cho nội dung giọng nói; xử lý đầu ra mô hình với các biện pháp an toàn và xác minh thông thường dành cho voice agent trong môi trường production. |
Lưu ý:
gpt-realtime-1.5là một biến thể âm thanh/giọng nói realtime có liên quan chặt chẽ, được tối ưu cho độ trễ thấp hơn và các phiên realtime; xem so sánh bên dưới.
gpt-audio-1.5 là gì?
gpt-audio-1.5 là một mô hình GPT có khả năng xử lý âm thanh, hỗ trợ cả đầu vào giọng nói và đầu ra giọng nói thông qua Chat Completions và các API liên quan có hỗ trợ âm thanh. Mô hình này được định vị là mô hình âm thanh khả dụng rộng rãi chính để xây dựng voice agent và các trải nghiệm ưu tiên giọng nói, đồng thời cân bằng giữa chất lượng và tốc độ.
Tính năng chính
- Hỗ trợ giọng nói vào / giọng nói ra: Xử lý đầu vào lời nói và trả về phản hồi bằng giọng nói hoặc văn bản cho các luồng thoại tự nhiên.
- Ngữ cảnh lớn cho quy trình âm thanh: Hỗ trợ ngữ cảnh rất lớn (được ghi nhận là 128k token), cho phép lịch sử hội thoại nhiều lượt, dài hoặc các phiên đa phương thức lớn.
- Tương thích với streaming & Chat Completions: Hoạt động trong Chat Completions với phản hồi âm thanh streaming và đầu ra có cấu trúc dạng function call.
- Hiệu năng/độ trễ cân bằng: Được tinh chỉnh để cung cấp phản hồi âm thanh chất lượng cao ở mức thông lượng trung bình—phù hợp với chatbot và trợ lý giọng nói nơi chất lượng là yếu tố quan trọng.
- Hệ sinh thái & tích hợp: Được hỗ trợ trong các playground của nền tảng và khả dụng trên các endpoint realtime/voice chính thức cùng các tích hợp đối tác (ghi chú Azure/Microsoft Foundry có tham chiếu đến các mô hình âm thanh tương tự).
gpt-audio-1.5 so với các mô hình âm thanh liên quan
| Thuộc tính | gpt-audio-1.5 | gpt-realtime-1.5 |
|---|---|---|
| Trọng tâm chính | Âm thanh vào/ra chất lượng cao cho Chat Completions và các luồng hội thoại. | S2S realtime (speech-to-speech) với độ trễ thấp hơn cho voice agent trực tiếp và các kịch bản streaming. |
| Cửa sổ ngữ cảnh | 128k token. | 32k token (được ghi nhận cho biến thể realtime). |
| Số token đầu ra tối đa | 16.384 (được ghi nhận). | Thường được cấu hình cho phản hồi realtime ngắn hơn (tài liệu ghi số token tối đa nhỏ hơn). |
| Phù hợp nhất cho | Chatbot, trợ lý có hỗ trợ giọng nói nơi cần đầy đủ ngữ nghĩa chat + âm thanh. | Voice agent trực tiếp, kiosk và giao diện hội thoại độ trễ thấp. |
Các trường hợp sử dụng tiêu biểu
- Voice agent hội thoại cho hỗ trợ khách hàng và bộ phận trợ giúp nội bộ.
- Trợ lý hỗ trợ giọng nói được nhúng trong ứng dụng, thiết bị và kiosk.
- Quy trình rảnh tay (ghi chính tả, tìm kiếm bằng giọng nói, trợ năng).
- Trải nghiệm đa phương thức kết hợp âm thanh với văn bản / hình ảnh qua Chat Completions.
Hạn chế & các lưu ý vận hành
- Không phải là giải pháp thay thế trực tiếp cho QA của con người: Luôn xác thực đầu ra giọng nói và các hành động phía sau bằng đánh giá của con người trong các luồng production.
- Lập kế hoạch tài nguyên: Ngữ cảnh lớn và I/O âm thanh có thể làm tăng mức tính toán và độ trễ—hãy thiết kế chiến lược streaming/phân đoạn cho các phiên dài.
- Ràng buộc về an toàn & chính sách: Đầu ra giọng nói có thể mang tính thuyết phục cao; hãy tuân thủ hướng dẫn an toàn và guardrail của nền tảng khi triển khai ở quy mô lớn.
- Cách truy cập API GPT Audio 1.5
Bước 1: Đăng ký API Key
Đăng nhập vào cometapi.com. Nếu bạn chưa là người dùng của chúng tôi, vui lòng đăng ký trước. Đăng nhập vào bảng điều khiển CometAPI của bạn. Lấy thông tin xác thực truy cập là API key của giao diện. Nhấp vào “Add Token” tại mục API token trong trung tâm cá nhân, lấy token key: sk-xxxxx và gửi đi.

Bước 2: Gửi yêu cầu đến API GPT Audio 1.5
Chọn endpoint “gpt-audio-1.5” để gửi yêu cầu API và thiết lập request body. Phương thức yêu cầu và request body được lấy từ tài liệu API trên website của chúng tôi. Website của chúng tôi cũng cung cấp bài kiểm tra Apifox để thuận tiện cho bạn. Thay thế <YOUR_API_KEY> bằng khóa CometAPI thực tế từ tài khoản của bạn. base url là Chat Completions
Chèn câu hỏi hoặc yêu cầu của bạn vào trường content—đây là nội dung mà mô hình sẽ phản hồi. Xử lý phản hồi API để lấy câu trả lời được tạo.
Bước 3: Truy xuất và xác minh kết quả
Xử lý phản hồi API để lấy câu trả lời được tạo. Sau khi xử lý, API phản hồi trạng thái tác vụ và dữ liệu đầu ra.