API âm thanh GPT-4o

API âm thanh GPT-4o: Thống nhất /chat/completions phần mở rộng điểm cuối chấp nhận đầu vào âm thanh (và văn bản) được mã hóa Opus và trả về giọng nói hoặc bản ghi được tổng hợp với các tham số có thể định cấu hình (model=gpt-4o-audio-preview-<date>, speed, temperature) dành cho tương tác giọng nói theo đợt và phát trực tuyến.

Thông tin cơ bản về GPT-4o Audio

Xem trước âm thanh GPT-4o (gpt-4o-audio-preview-2025-06-03) là sản phẩm mới nhất của OpenAI mô hình ngôn ngữ lớn tập trung vào giọng nói được cung cấp thông qua tiêu chuẩn API hoàn thành cuộc trò chuyện thay vì kênh Realtime có độ trễ cực thấp. Được xây dựng trên cùng nền tảng “omni” như GPT-4o, biến thể này chuyên về đầu vào và đầu ra giọng nói có độ trung thực cao cho các cuộc trò chuyện theo lượt, tạo nội dung, công cụ trợ năng và quy trình làm việc của tác nhân không yêu cầu thời gian tính bằng mili giây. Nó kế thừa tất cả các điểm mạnh về lý luận văn bản của các mô hình lớp GPT-4 trong khi thêm chuyển giọng nói thành giọng nói từ đầu đến cuối (S2S) đường ống, xác định chức năng gọi, và mới speed tham số để kiểm soát tốc độ giọng nói.

Bộ tính năng cốt lõi của GPT-4o Audio

• Xử lý giọng nói thành giọng nói thống nhất – Âm thanh được chuyển đổi trực tiếp thành các mã thông báo giàu ngữ nghĩa, được lý giải và tổng hợp lại mà không cần các dịch vụ STT/TTS bên ngoài, mang lại âm sắc giọng nói, ngữ điệu và ngữ cảnh nhất quán.
• Cải thiện hướng dẫn sau – Điều chỉnh tháng 2025 năm XNUMX mang lại +19 pp vượt qua ở vị trí 1 về các tác vụ ra lệnh bằng giọng nói so với mức cơ sở GPT-2024o tháng 4 năm XNUMX, giúp giảm ảo giác trong các lĩnh vực như hỗ trợ khách hàng và soạn thảo nội dung.
• Gọi công cụ ổn định – Mô hình đầu ra JSON có cấu trúc tuân thủ theo lược đồ gọi hàm OpenAI, cho phép các API phụ trợ (tìm kiếm, đặt chỗ, thanh toán) được kích hoạt bằng Độ chính xác của lập luận >95%.
• speed Tham số (0.25–4×) – Các nhà phát triển có thể điều chỉnh phát lại giọng nói cho chế độ học chậm, chế độ tường thuật bình thường hoặc chế độ “lướt nhanh có thể nghe được”, không có tổng hợp lại văn bản bên ngoài.
• Thay phiên nhận biết ngắt quãng – Mặc dù không bị ảnh hưởng bởi độ trễ như biến thể Thời gian thực, bản xem trước hỗ trợ phát trực tuyến một phần: các mã thông báo được phát ra ngay sau khi được tính toán, cho phép người dùng ngắt sớm nếu cần thiết.

Kiến trúc kỹ thuật của GPT-4o

• Máy biến áp một ngăn xếp – Giống như tất cả các dẫn xuất GPT-4o, bản xem trước âm thanh sử dụng bộ mã hóa-giải mã thống nhất nơi văn bản và tín hiệu âm thanh đi qua các khối chú ý giống hệt nhau, thúc đẩy sự kết nối đa phương thức.
• Phân cấp mã thông báo âm thanh – Bản vá lỗi PCM 16 kHz thô → log-mel → mã âm thanh thô → mã thông báo ngữ nghĩa. Nén nhiều giai đoạn này đạt được Giảm băng thông 40–50 lần trong khi vẫn giữ được sắc thái, cho phép các clip dài nhiều phút trên mỗi cửa sổ ngữ cảnh.
• Trọng lượng lượng tử NF4 – Suy luận được phục vụ tại 4-bit Bình thường-Float độ chính xác, cắt giảm bộ nhớ GPU xuống một nửa so với fp16 và duy trì 70+ RTF phát trực tuyến (yếu tố thời gian thực) trên các nút A100-80 GB.
• Truyền phát sự chú ý & bộ nhớ đệm KV – Nhúng quay cửa sổ trượt duy trì ngữ cảnh trong khoảng 30 giây nói trong khi vẫn giữ nguyên O(L) sử dụng bộ nhớ, lý tưởng cho các trình biên tập podcast hoặc công cụ hỗ trợ đọc.

Phiên bản & Đặt tên — Xem trước bản nhạc với bản dựng có đóng dấu ngày

Định danh	Kênh	Mục đích	Phát hành ngày	Tính ổn định
gpt-4o-audio-xem-trước-2025-06-03	API hoàn thành cuộc trò chuyện	Tương tác âm thanh theo lượt, nhiệm vụ của tác nhân	03 Tháng Sáu 2025	Xem trước (khuyến khích phản hồi)

Các yếu tố chính trong tên:

gpt-4o – Gia đình đa phương thức Omni.
âm thanh – Được tối ưu hóa cho các trường hợp sử dụng giọng nói.
xem trước – Hợp đồng API có thể phát triển; chưa phải GA.
2025-06-03 – Ảnh chụp nhanh quá trình đào tạo và triển khai để có thể tái tạo.

Cách gọi API GPT-4o Audio API từ CometAPI

`GPT-4o Audio API` Giá API trong CometAPI:

Mã thông báo đầu vào: 2 đô la/M mã thông báo
Mã thông báo đầu ra: 8 đô la/M mã thông báo

Các bước cần thiết

Đăng nhập vào " cometapi.com. Nếu bạn chưa phải là người dùng của chúng tôi, vui lòng đăng ký trước
Nhận khóa API thông tin xác thực truy cập của giao diện. Nhấp vào “Thêm mã thông báo” tại mã thông báo API trong trung tâm cá nhân, nhận khóa mã thông báo: sk-xxxxx và gửi.
Lấy url của trang web này: https://api.cometapi.com/

Phương pháp sử dụng

Chọn hàng**gpt-4o-audio-preview-2025-06-03**” điểm cuối để gửi yêu cầu và thiết lập nội dung yêu cầu. Phương thức yêu cầu và nội dung yêu cầu được lấy từ tài liệu API của trang web của chúng tôi. Trang web của chúng tôi cũng cung cấp thử nghiệm Apifox để thuận tiện cho bạn.
Thay thế bằng khóa CometAPI thực tế từ tài khoản của bạn.
Chèn câu hỏi hoặc yêu cầu của bạn vào trường nội dung—đây là nội dung mà mô hình sẽ phản hồi.
. Xử lý phản hồi API để nhận được câu trả lời đã tạo.

Để biết thông tin về Model Access trong Comet API, vui lòng xem Tài liệu API.

Để biết thông tin về Giá mẫu trong Comet API, vui lòng xem https://api.cometapi.com/pricing.

Quy trình làm việc API — Hoàn thành trò chuyện với các phần âm thanh và móc chức năng

Định dạng đầu vào – audio/* MIME hoặc base64 Các đoạn WAV được nhúng trong messages[].content.
Tùy chọn đầu ra –
• mode: "text" → văn bản thuần túy để chú thích.
• mode: "audio" → trả về một trực tuyến Tải trọng Opus hoặc luật µ có dấu thời gian.
Gọi hàm - Thêm functions: sơ đồ; mô hình phát ra role: "function" với các đối số JSON; nhà phát triển thực hiện lệnh gọi công cụ và tùy chọn chuyển kết quả trở lại.
Tỷ lệ kiểm soát - Bộ voice.speed=1.25 để tăng tốc độ phát lại; phạm vi an toàn 0.25–4.0.
Giới hạn Token/Âm thanh – 128 k ngữ cảnh (~4 phút nói) khi khởi chạy; 4096 token âm thanh / 8192 token văn bản tùy theo điều kiện nào đến trước.

Mã mẫu & Tích hợp API

pythonimport openai

openai.api_key = "YOUR_API_KEY"

# Single-step audio completion (batch)

with open("prompt.wav", "rb") as audio:
    response = openai.ChatCompletion.create(
        model="gpt-4o-audio-preview-2025-06-03",
        messages=[
            {"role": "system", "content": "You are a helpful voice assistant."},
            {"role": "user", "content": "audio", "audio": audio}
        ],
        temperature=0.3,
        speed=1.2  # 20% faster playback

    )

print(response.choices.message)

Điểm nổi bật:
kiểu mẫu: "gpt-4o-audio-preview-2025-06-03"
âm thanh chìa khóa người sử dụng tin nhắn gửi luồng nhị phân
tốc độ: Điều khiển tốc độ giọng nói giữa chậm (0.5) và nhanh (2.0)
nhiệt độ: Số dư sáng tạo vs. nhất quán

Chỉ số kỹ thuật — Độ trễ, Chất lượng, Độ chính xác

metric	Xem trước âm thanh	GPT-4o (Chỉ văn bản)	đồng bằng
Độ trễ của mã thông báo đầu tiên (1 lần)	1.2 s trung bình	0.35 s	+0.85 giây
MOS (Sự tự nhiên của lời nói, 5 điểm)	4.43	-	-
Tuân thủ hướng dẫn (Giọng nói)	92%	73%	+19 trang
Độ chính xác của hàm gọi đối số	95.8%	87%	+8.8 trang
Tỷ lệ lỗi từ (STT ngầm định)	5.2%	n / a	-
Bộ nhớ GPU / Luồng (A100-80GB)	7.1 GB	14GB (fp16)	−49%

Điểm chuẩn được thực hiện thông qua luồng Hoàn thành trò chuyện, kích thước lô = 1.

Xem thêm API thời gian thực GPT-4o

Âm thanh GPT-4o

Thông tin cơ bản về GPT-4o Audio

Bộ tính năng cốt lõi của GPT-4o Audio

Kiến trúc kỹ thuật của GPT-4o

Phiên bản & Đặt tên — Xem trước bản nhạc với bản dựng có đóng dấu ngày

Cách gọi API GPT-4o Audio API từ CometAPI

`GPT-4o Audio API` Giá API trong CometAPI:

Các bước cần thiết

Phương pháp sử dụng

Quy trình làm việc API — Hoàn thành trò chuyện với các phần âm thanh và móc chức năng

Mã mẫu & Tích hợp API

Chỉ số kỹ thuật — Độ trễ, Chất lượng, Độ chính xác

Đọc thêm

500+ Mô hình trong Một API

API âm thanh GPT-4o

Thông tin cơ bản về GPT-4o Audio

Bộ tính năng cốt lõi của GPT-4o Audio

Kiến trúc kỹ thuật của GPT-4o

Phiên bản & Đặt tên — Xem trước bản nhạc với bản dựng có đóng dấu ngày

Cách gọi API GPT-4o Audio API từ CometAPI

GPT-4o Audio API Giá API trong CometAPI:

Các bước cần thiết

Phương pháp sử dụng

Quy trình làm việc API — Hoàn thành trò chuyện với các phần âm thanh và móc chức năng

Mã mẫu & Tích hợp API

Chỉ số kỹ thuật — Độ trễ, Chất lượng, Độ chính xác

Đọc thêm

500+ Mô hình trong Một API

`GPT-4o Audio API` Giá API trong CometAPI: