O

gpt-audio-1.5

Đầu vào:$2/M
Đầu ra:$8/M
Mô hình giọng nói tốt nhất cho đầu vào âm thanh, đầu ra âm thanh với Chat Completions.
Mới
Sử dụng thương mại

Thông số kỹ thuật của gpt-audio-1.5

Hạng mụcgpt-audio-1.5 (thông số công khai)
Họ mô hìnhHọ GPT Audio (biến thể ưu tiên âm thanh)
Loại đầu vàoVăn bản, âm thanh (giọng nói vào)
Loại đầu raVăn bản, âm thanh (giọng nói ra), đầu ra có cấu trúc (hỗ trợ gọi hàm)
Cửa sổ ngữ cảnh128,000 token.
Số token đầu ra tối đa16,384 (được ghi trong danh sách gpt-audio liên quan).
Mức hiệu năngMức thông minh cao hơn; Tốc độ trung bình (cân bằng).
Đặc tính độ trễTối ưu cho tương tác giọng nói (độ trễ trung bình/thấp tùy điểm cuối).
Khả dụngChat Completions API (âm thanh vào/ra) và playground của nền tảng; tích hợp trên các bề mặt thời gian thực/giọng nói.
Ghi chú về an toàn/sử dụngHàng rào bảo vệ cho nội dung giọng nói; xử lý đầu ra của mô hình với các biện pháp an toàn và xác minh thông thường cho tác tử giọng nói trong môi trường sản xuất.

Lưu ý: gpt-realtime-1.5 là một biến thể thời gian thực ưu tiên âm thanh/giọng nói có liên quan chặt chẽ, được tối ưu cho độ trễ thấp hơn và các phiên thời gian thực; xem so sánh bên dưới.


gpt-audio-1.5 là gì?

gpt-audio-1.5 là một mô hình GPT hỗ trợ âm thanh, cho phép cả đầu vào giọng nói và đầu ra giọng nói thông qua Chat Completions và các API hỗ trợ âm thanh liên quan. Mô hình này được định vị là mô hình âm thanh chính, sẵn có rộng rãi để xây dựng tác tử giọng nói và trải nghiệm ưu tiên giọng nói, đồng thời cân bằng giữa chất lượng và tốc độ.


Tính năng chính

  1. Hỗ trợ giọng nói vào/ra: Xử lý đầu vào giọng nói và trả về phản hồi bằng giọng nói hoặc văn bản cho luồng hội thoại tự nhiên.
  2. Cửa sổ ngữ cảnh lớn cho quy trình âm thanh: Hỗ trợ cửa sổ ngữ cảnh rất lớn (tài liệu ghi 128k token) cho phép lịch sử hội thoại nhiều lượt, dài hoặc phiên đa phương thức lớn.
  3. Tương thích Streaming & Chat Completions: Hoạt động trong Chat Completions với phản hồi âm thanh dạng streaming và đầu ra có cấu trúc kiểu gọi hàm.
  4. Hiệu năng/độ trễ cân bằng: Được tinh chỉnh để cung cấp phản hồi âm thanh chất lượng cao với thông lượng trung bình—phù hợp cho chatbot và trợ lý giọng nói nơi chất lượng quan trọng.
  5. Hệ sinh thái & tích hợp: Được hỗ trợ trong playground của nền tảng và khả dụng trên các endpoint thời gian thực/giọng nói chính thức và tích hợp đối tác (ghi chú Azure/Microsoft Foundry tham chiếu các mô hình âm thanh tương tự).

gpt-audio-1.5 so với các mô hình âm thanh liên quan

Thuộc tínhgpt-audio-1.5gpt-realtime-1.5
Trọng tâm chínhÂm thanh vào/ra chất lượng cao cho Chat Completions và luồng hội thoại.S2S thời gian thực (speech-to-speech) với độ trễ thấp hơn cho tác tử giọng nói trực tiếp và kịch bản streaming.
Cửa sổ ngữ cảnh128k token.32k token (biến thể thời gian thực được ghi nhận).
Số token đầu ra tối đa16,384 (được ghi nhận).Thường được cấu hình cho phản hồi thời gian thực ngắn hơn (tài liệu liệt kê số token tối đa nhỏ hơn).
Trường hợp sử dụng tốt nhấtChatbot, trợ lý kích hoạt giọng nói nơi cần đầy đủ ngữ nghĩa chat + âm thanh.Tác tử giọng nói trực tiếp, ki-ốt và giao diện hội thoại độ trễ thấp.

Trường hợp sử dụng tiêu biểu

  • Tác tử hội thoại bằng giọng nói cho hỗ trợ khách hàng và bàn trợ giúp nội bộ.
  • Trợ lý kích hoạt giọng nói nhúng trong ứng dụng, thiết bị và ki-ốt.
  • Quy trình rảnh tay (nhập liệu bằng giọng nói, tìm kiếm bằng giọng nói, khả năng tiếp cận).
  • Trải nghiệm đa phương thức kết hợp âm thanh với văn bản / hình ảnh qua Chat Completions.

Hạn chế & cân nhắc vận hành

  • Không thể thay thế trực tiếp cho QA con người: Luôn xác thực đầu ra giọng nói và các hành động phía sau bằng kiểm duyệt của con người trong quy trình sản xuất.
  • Lập kế hoạch tài nguyên: Cửa sổ ngữ cảnh lớn và I/O âm thanh có thể làm tăng tài nguyên tính toán và độ trễ—hãy thiết kế chiến lược streaming/phân đoạn cho các phiên dài.
  • Ràng buộc về an toàn & chính sách: Đầu ra giọng nói có thể mang sức thuyết phục; tuân thủ hướng dẫn an toàn và hàng rào bảo vệ của nền tảng khi triển khai ở quy mô lớn.
  • Cách truy cập API GPT Audio 1.5

Bước 1: Đăng ký khóa API

Đăng nhập vào cometapi.com. Nếu bạn chưa là người dùng của chúng tôi, vui lòng đăng ký trước. Đăng nhập vào CometAPI console của bạn. Lấy khóa API thông tin xác thực truy cập của giao diện. Nhấp “Add Token” tại mục API token trong trung tâm cá nhân, lấy khóa token: sk-xxxxx và gửi.

cometapi-key

Bước 2: Gửi yêu cầu tới API GPT Audio 1.5

Chọn endpoint “gpt-audio-1.5” để gửi yêu cầu API và thiết lập request body. Phương thức yêu cầu và nội dung yêu cầu được lấy từ tài liệu API trên trang web của chúng tôi. Trang web cũng cung cấp kiểm thử Apifox để bạn tiện sử dụng. Thay <YOUR_API_KEY> bằng khóa CometAPI thực tế trong tài khoản của bạn. base URL là Chat Completions

Chèn câu hỏi hoặc yêu cầu của bạn vào trường content—đó là phần mà mô hình sẽ phản hồi. Xử lý phản hồi API để lấy câu trả lời được tạo.

Bước 3: Truy xuất và xác minh kết quả

Xử lý phản hồi API để lấy câu trả lời được tạo. Sau khi xử lý, API sẽ trả về trạng thái tác vụ và dữ liệu đầu ra.

Câu hỏi thường gặp

Thêm mô hình