API âm thanh GPT-4o: Thống nhất /chat/completions phần mở rộng điểm cuối chấp nhận đầu vào âm thanh (và văn bản) được mã hóa Opus và trả về giọng nói hoặc bản ghi được tổng hợp với các tham số có thể định cấu hình (model=gpt-4o-audio-preview-<date>, speed, temperature) dành cho tương tác giọng nói theo đợt và phát trực tuyến.
Thông tin cơ bản về GPT-4o Audio
Xem trước âm thanh GPT-4o (gpt-4o-audio-preview-2025-06-03) là sản phẩm mới nhất của OpenAI mô hình ngôn ngữ lớn tập trung vào giọng nói được cung cấp thông qua tiêu chuẩn API hoàn thành cuộc trò chuyện thay vì kênh Realtime có độ trễ cực thấp. Được xây dựng trên cùng nền tảng “omni” như GPT-4o, biến thể này chuyên về đầu vào và đầu ra giọng nói có độ trung thực cao cho các cuộc trò chuyện theo lượt, tạo nội dung, công cụ trợ năng và quy trình làm việc của tác nhân không yêu cầu thời gian tính bằng mili giây. Nó kế thừa tất cả các điểm mạnh về lý luận văn bản của các mô hình lớp GPT-4 trong khi thêm chuyển giọng nói thành giọng nói từ đầu đến cuối (S2S) đường ống, xác định chức năng gọi, và mới speed tham số để kiểm soát tốc độ giọng nói.
Bộ tính năng cốt lõi của GPT-4o Audio
• Xử lý giọng nói thành giọng nói thống nhất – Âm thanh được chuyển đổi trực tiếp thành các mã thông báo giàu ngữ nghĩa, được lý giải và tổng hợp lại mà không cần các dịch vụ STT/TTS bên ngoài, mang lại âm sắc giọng nói, ngữ điệu và ngữ cảnh nhất quán.
• Cải thiện hướng dẫn sau – Điều chỉnh tháng 2025 năm XNUMX mang lại +19 pp vượt qua ở vị trí 1 về các tác vụ ra lệnh bằng giọng nói so với mức cơ sở GPT-2024o tháng 4 năm XNUMX, giúp giảm ảo giác trong các lĩnh vực như hỗ trợ khách hàng và soạn thảo nội dung.
• Gọi công cụ ổn định – Mô hình đầu ra JSON có cấu trúc tuân thủ theo lược đồ gọi hàm OpenAI, cho phép các API phụ trợ (tìm kiếm, đặt chỗ, thanh toán) được kích hoạt bằng Độ chính xác của lập luận >95%.
• speed Tham số (0.25–4×) – Các nhà phát triển có thể điều chỉnh phát lại giọng nói cho chế độ học chậm, chế độ tường thuật bình thường hoặc chế độ “lướt nhanh có thể nghe được”, không có tổng hợp lại văn bản bên ngoài.
• Thay phiên nhận biết ngắt quãng – Mặc dù không bị ảnh hưởng bởi độ trễ như biến thể Thời gian thực, bản xem trước hỗ trợ phát trực tuyến một phần: các mã thông báo được phát ra ngay sau khi được tính toán, cho phép người dùng ngắt sớm nếu cần thiết.
Kiến trúc kỹ thuật của GPT-4o
• Máy biến áp một ngăn xếp – Giống như tất cả các dẫn xuất GPT-4o, bản xem trước âm thanh sử dụng bộ mã hóa-giải mã thống nhất nơi văn bản và tín hiệu âm thanh đi qua các khối chú ý giống hệt nhau, thúc đẩy sự kết nối đa phương thức.
• Phân cấp mã thông báo âm thanh – Bản vá lỗi PCM 16 kHz thô → log-mel → mã âm thanh thô → mã thông báo ngữ nghĩa. Nén nhiều giai đoạn này đạt được Giảm băng thông 40–50 lần trong khi vẫn giữ được sắc thái, cho phép các clip dài nhiều phút trên mỗi cửa sổ ngữ cảnh.
• Trọng lượng lượng tử NF4 – Suy luận được phục vụ tại 4-bit Bình thường-Float độ chính xác, cắt giảm bộ nhớ GPU xuống một nửa so với fp16 và duy trì 70+ RTF phát trực tuyến (yếu tố thời gian thực) trên các nút A100-80 GB.
• Truyền phát sự chú ý & bộ nhớ đệm KV – Nhúng quay cửa sổ trượt duy trì ngữ cảnh trong khoảng 30 giây nói trong khi vẫn giữ nguyên O(L) sử dụng bộ nhớ, lý tưởng cho các trình biên tập podcast hoặc công cụ hỗ trợ đọc.
Phiên bản & Đặt tên — Xem trước bản nhạc với bản dựng có đóng dấu ngày
| Định danh | Kênh | Mục đích | Phát hành ngày | Tính ổn định |
|---|---|---|---|---|
| gpt-4o-audio-xem-trước-2025-06-03 | API hoàn thành cuộc trò chuyện | Tương tác âm thanh theo lượt, nhiệm vụ của tác nhân | 03 Tháng Sáu 2025 | Xem trước (khuyến khích phản hồi) |
Các yếu tố chính trong tên:
- gpt-4o – Gia đình đa phương thức Omni.
- âm thanh – Được tối ưu hóa cho các trường hợp sử dụng giọng nói.
- xem trước – Hợp đồng API có thể phát triển; chưa phải GA.
- 2025-06-03 – Ảnh chụp nhanh quá trình đào tạo và triển khai để có thể tái tạo.
Cách gọi API GPT-4o Audio API từ CometAPI
GPT-4o Audio API Giá API trong CometAPI:
- Mã thông báo đầu vào: 2 đô la/M mã thông báo
- Mã thông báo đầu ra: 8 đô la/M mã thông báo
Các bước cần thiết
- Đăng nhập vào " cometapi.com. Nếu bạn chưa phải là người dùng của chúng tôi, vui lòng đăng ký trước
- Nhận khóa API thông tin xác thực truy cập của giao diện. Nhấp vào “Thêm mã thông báo” tại mã thông báo API trong trung tâm cá nhân, nhận khóa mã thông báo: sk-xxxxx và gửi.
- Lấy url của trang web này: https://api.cometapi.com/
Phương pháp sử dụng
- Chọn hàng**
gpt-4o-audio-preview-2025-06-03**” điểm cuối để gửi yêu cầu và thiết lập nội dung yêu cầu. Phương thức yêu cầu và nội dung yêu cầu được lấy từ tài liệu API của trang web của chúng tôi. Trang web của chúng tôi cũng cung cấp thử nghiệm Apifox để thuận tiện cho bạn. - Thay thế bằng khóa CometAPI thực tế từ tài khoản của bạn.
- Chèn câu hỏi hoặc yêu cầu của bạn vào trường nội dung—đây là nội dung mà mô hình sẽ phản hồi.
- . Xử lý phản hồi API để nhận được câu trả lời đã tạo.
Để biết thông tin về Model Access trong Comet API, vui lòng xem Tài liệu API.
Để biết thông tin về Giá mẫu trong Comet API, vui lòng xem https://api.cometapi.com/pricing.
Quy trình làm việc API — Hoàn thành trò chuyện với các phần âm thanh và móc chức năng
- Định dạng đầu vào –
audio/*MIME hoặcbase64Các đoạn WAV được nhúng trongmessages[].content. - Tùy chọn đầu ra –
•mode: "text"→ văn bản thuần túy để chú thích.
•mode: "audio"→ trả về một trực tuyến Tải trọng Opus hoặc luật µ có dấu thời gian. - Gọi hàm - Thêm
functions:sơ đồ; mô hình phát rarole: "function"với các đối số JSON; nhà phát triển thực hiện lệnh gọi công cụ và tùy chọn chuyển kết quả trở lại. - Tỷ lệ kiểm soát - Bộ
voice.speed=1.25để tăng tốc độ phát lại; phạm vi an toàn 0.25–4.0. - Giới hạn Token/Âm thanh – 128 k ngữ cảnh (~4 phút nói) khi khởi chạy; 4096 token âm thanh / 8192 token văn bản tùy theo điều kiện nào đến trước.
Mã mẫu & Tích hợp API
pythonimport openai
openai.api_key = "YOUR_API_KEY"
# Single-step audio completion (batch)
with open("prompt.wav", "rb") as audio:
response = openai.ChatCompletion.create(
model="gpt-4o-audio-preview-2025-06-03",
messages=[
{"role": "system", "content": "You are a helpful voice assistant."},
{"role": "user", "content": "audio", "audio": audio}
],
temperature=0.3,
speed=1.2 # 20% faster playback
)
print(response.choices.message)
- Điểm nổi bật:
- kiểu mẫu:
"gpt-4o-audio-preview-2025-06-03" - âm thanh chìa khóa người sử dụng tin nhắn gửi luồng nhị phân
- tốc độ: Điều khiển tốc độ giọng nói giữa chậm (0.5) và nhanh (2.0)
- nhiệt độ: Số dư sáng tạo vs. nhất quán
Chỉ số kỹ thuật — Độ trễ, Chất lượng, Độ chính xác
| metric | Xem trước âm thanh | GPT-4o (Chỉ văn bản) | đồng bằng |
|---|---|---|---|
| Độ trễ của mã thông báo đầu tiên (1 lần) | 1.2 s trung bình | 0.35 s | +0.85 giây |
| MOS (Sự tự nhiên của lời nói, 5 điểm) | 4.43 | - | - |
| Tuân thủ hướng dẫn (Giọng nói) | 92% | 73% | +19 trang |
| Độ chính xác của hàm gọi đối số | 95.8% | 87% | +8.8 trang |
| Tỷ lệ lỗi từ (STT ngầm định) | 5.2% | n / a | - |
| Bộ nhớ GPU / Luồng (A100-80GB) | 7.1 GB | 14GB (fp16) | −49% |
Điểm chuẩn được thực hiện thông qua luồng Hoàn thành trò chuyện, kích thước lô = 1.
Xem thêm API thời gian thực GPT-4o

