API thời gian thực GPT-4o: Điểm cuối phát trực tuyến đa phương thức có độ trễ thấp cho phép các nhà phát triển gửi và nhận dữ liệu văn bản, âm thanh và hình ảnh được đồng bộ hóa qua WebRTC hoặc WebSocket (model=gpt-4o-realtime-preview-<date>, stream=true) cho các ứng dụng tương tác thời gian thực.
Thông tin cơ bản & Tính năng
OpenAI's GPT-4o Thời gian thực (ID mô hình: gpt-4o-realtime-preview-2025-06-03) là mô hình nền tảng công khai đầu tiên được thiết kế cho chuyển giọng nói thành giọng nói từ đầu đến cuối (S2S) tương tác với độ trễ dưới một giây. Có nguồn gốc từ họ GPT-4o “omni”, biến thể Realtime hợp nhất nhận dạng giọng nói, lý luận ngôn ngữ tự nhiên và chuyển văn bản thành giọng nói bằng nơ-ron vào một mạng duy nhất, cho phép các nhà phát triển xây dựng các tác nhân giọng nói có thể trò chuyện trôi chảy như con người. Mô hình được trình bày thông qua mục đích xây dựng API thời gian thực và được tích hợp chặt chẽ với cái mới Đại lý thời gian thực trừu tượng bên trong SDK đại lý (TypeScript và Python).
Bộ tính năng cốt lõi — S2S đầu cuối • Xử lý gián đoạn • Gọi công cụ
• Chuyển giọng nói thành giọng nói bản địa: Đầu vào âm thanh được tiếp nhận dưới dạng luồng liên tục, được mã hóa nội bộ, lý giải và trả về dưới dạng giọng nói tổng hợp. Không cần bộ đệm STT/TTS bên ngoài, loại bỏ độ trễ đường truyền nhiều giây.
• Độ trễ tính bằng mili giây: Cắt tỉa kiến trúc, chưng cất mô hình và ngăn xếp phục vụ được tối ưu hóa cho GPU cho phép ~300–500 ms độ trễ mã thông báo đầu tiên trong các triển khai đám mây thông thường, tiếp cận các chuẩn mực giao tiếp theo lượt của con người.
• Hướng dẫn thực hiện chặt chẽ: Được tinh chỉnh trên các tập lệnh hội thoại và dấu vết gọi hàm, GPT-4o Realtime chứng minh một Giảm >25% lỗi thực hiện tác vụ so với mức cơ sở GPT-2024o tháng 4 năm XNUMX.
• Gọi công cụ xác định: Mô hình tạo ra JSON có cấu trúc tuân thủ theo OpenAI lược đồ gọi hàm, cho phép gọi các API phụ trợ (hệ thống đặt chỗ, cơ sở dữ liệu, IoT) một cách xác định. Có tích hợp sẵn chức năng thử lại có nhận biết lỗi và xác thực đối số.
• Sự ngắt lời một cách lịch sự: Một bộ phát hiện hoạt động giọng nói theo thời gian thực kết hợp với giải mã gia tăng cho phép tác nhân dừng nói giữa câu, tiếp nhận sự gián đoạn của người dùng và tiếp tục hoặc lập lại kế hoạch phản hồi một cách liền mạch.
• Tốc độ nói có thể cấu hình: A mới tốc độ tham số (0.25–4 lần thời gian thực) cho phép các nhà phát triển điều chỉnh tốc độ đầu ra cho các ứng dụng có khả năng truy cập hoặc ứng dụng nhanh.
Kiến trúc kỹ thuật — Máy biến áp đa phương thức thống nhất
Bộ mã hóa-giải mã hợp nhất: GPT-4o Realtime chia sẻ kiến trúc omni máy biến áp một ngăn xếp trong đó các mã thông báo âm thanh, văn bản và (tương lai) cùng tồn tại trong một không gian tiềm ẩn. Tính toán thích ứng theo từng lớp sẽ chuyển các khung âm thanh trực tiếp đến các khối chú ý sau đó, giảm 20–40 ms cho mỗi lần truyền.
Phân cấp mã thông báo âm thanh: PCM thô 16 kHz được chia thành các bản vá log-mel → lượng tử hóa thành các mã thông báo âm thanh có hạt thô → nén thành các mã thông báo ngữ nghĩa, tối ưu hóa token-mỗi-giây ngân sách mà không ảnh hưởng đến vần điệu.
Hạt nhân suy luận bit thấp: Trọng lượng triển khai chạy ở Lượng tử hóa NF4 4 bit thông qua hạt nhân Triton / TensorRT-LLM, tăng gấp đôi thông lượng so với fp16 trong khi vẫn duy trì mức giảm chất lượng MOS <1 dB.
Phát trực tuyến Chú ý: Các nhúng xoay cửa sổ trượt và bộ nhớ đệm khóa-giá trị cho phép mô hình chú ý đến 15 giây âm thanh cuối cùng với bộ nhớ O(L), rất quan trọng đối với các cuộc hội thoại có độ dài bằng cuộc gọi điện thoại.
Chi tiết kỹ thuật
- Phiên bản API:
2025-06-03-preview - Giao thức vận chuyển:
- WebRTC: Độ trễ cực thấp (< 80 ms) cho các luồng âm thanh/video phía máy khách
- WebSocket: Truyền phát từ máy chủ đến máy chủ với độ trễ dưới 100 ms
- Mã hóa dữ liệu:
- Opus bộ giải mã bên trong RTP gói tin cho âm thanh
- H.264 / H.265 khung hình cho video
- Streaming: Hỗ trợ
stream: truegiao hàng gia tăng phản hồi một phần khi các mã thông báo được tạo ra - Bảng màu giọng nói mới: Giới thiệu tám giọng nói mới—hợp kim, tro, ballad, San hô, bỏ lỡ, khôn, lung linhvà thơ—để biết thêm biểu cảm, giống con người tương tác ..
Sự tiến hóa của GPT-4o Realtime
- 2024 Tháng Năm: GPT-4o Đa năng ra mắt với sự hỗ trợ đa phương thức cho văn bản, âm thanh và hình ảnh.
- 2024 Tháng Mười: API thời gian thực vào phiên bản beta riêng tư (
2024-10-01-preview), được tối ưu hóa cho âm thanh có độ trễ thấp. - 2024 Tháng Mười Hai: Mở rộng khả năng cung cấp toàn cầu
gpt-4o-realtime-preview-2024-12-17, Thêm bộ nhớ đệm nhanh chóng và nhiều giọng nói hơn. - 3 Tháng Sáu, 2025: Cập nhật mới nhất (
2025-06-03-preview) tung ra tinh chế bảng màu giọng nói và tối ưu hóa hiệu suất.
Hiệu suất chuẩn
- MMLU: 88.7, vượt xa 4 của GPT-86.5 Hiểu ngôn ngữ đa nhiệm lớn .
- Speech Recognition: Đạt được đầu ngành tỷ lệ lỗi từ trong môi trường ồn ào, vượt qua Thì thầm đường cơ sở.
- Kiểm tra độ trễ:
- Kết thúc đến cuối (lời nói vào → văn bản ra): 50–80 mili giây qua WebRTC
- Âm thanh khứ hồi (lời nói vào → lời nói ra): <100 ms .
Các chỉ số kỹ thuật
- Thông lượng: Duy trì 15 token/giây cho luồng văn bản; Kbps 24 Tác phẩm dành cho âm thanh.
- Bảng giá:
- bản văn: 5 đô la cho 1 triệu token đầu vào; 20 đô la cho 1 triệu token đầu ra
- Bài nghe: 100 đô la cho 1 triệu token đầu vào; 200 đô la cho 1 triệu token đầu ra.
- Sự có sẵn: Được triển khai trên toàn cầu ở mọi khu vực hỗ trợ Realtime API.
Cách gọi GPT-4o Realtime API từ CometAPI
GPT-4o Realtime Giá API trong CometAPI:
- Mã thông báo đầu vào: 2 đô la/M mã thông báo
- Mã thông báo đầu ra: 8 đô la/M mã thông báo
Các bước cần thiết
- Đăng nhập vào " cometapi.com. Nếu bạn chưa phải là người dùng của chúng tôi, vui lòng đăng ký trước
- Nhận khóa API thông tin xác thực truy cập của giao diện. Nhấp vào “Thêm mã thông báo” tại mã thông báo API trong trung tâm cá nhân, nhận khóa mã thông báo: sk-xxxxx và gửi.
- Lấy url của trang web này: https://api.cometapi.com/
Phương pháp sử dụng
- Chọn hàng**
gpt-4o-realtime-preview-2025-06-03**” điểm cuối để gửi yêu cầu và thiết lập nội dung yêu cầu. Phương thức yêu cầu và nội dung yêu cầu được lấy từ tài liệu API của trang web của chúng tôi. Trang web của chúng tôi cũng cung cấp thử nghiệm Apifox để thuận tiện cho bạn. - Thay thế bằng khóa CometAPI thực tế từ tài khoản của bạn.
- Chèn câu hỏi hoặc yêu cầu của bạn vào trường nội dung—đây là nội dung mà mô hình sẽ phản hồi.
- . Xử lý phản hồi API để nhận được câu trả lời đã tạo.
Để biết thông tin về Model Access trong Comet API, vui lòng xem Tài liệu API.
Để biết thông tin về Giá mẫu trong Comet API, vui lòng xem https://api.cometapi.com/pricing.
Mã mẫu & Tích hợp API
import openai
openai.api_key = "YOUR_API_KEY"
# Establish a Realtime WebRTC connection
connection = openai.Realtime.connect(
model="gpt-4o-realtime-preview-2025-06-03",
version="2025-06-03-preview",
transport="webrtc"
)
# Stream audio frames and receive incremental text
with open("user_audio.raw", "rb") as audio_stream:
for chunk in iter(lambda: audio_stream.read(2048), b""):
result = connection.send_audio(chunk)
print("Assistant:", result)
- Các thông số quan trọng:
model: “gpt-4o-realtime-preview-2025-06-03”version: “2025-06-03-xem trước”transport: “webrtc” cho độ trễ tối thiểustream:truecho gia tăng cập nhật
Bằng cách phối hợp nhà nước-of-the-art lý luận đa phương thức, một mạnh mẽ bảng giọng nói mới và cực thấp độ trễ phát trực tuyến, GPT-4o Thời gian thực (2025-06-03) trao quyền cho các nhà phát triển xây dựng thực sự tương tác, đàm thoại Ứng dụng AI.
Xem thêm API o3-Pro
An toàn & Tuân thủ
OpenAI cung cấp GPT-4o Realtime với:
• Lan can cấp hệ thống: Chính sách được điều chỉnh để từ chối các yêu cầu không được chấp nhận (chủ nghĩa cực đoan, hành vi bất hợp pháp).
• Lọc nội dung theo thời gian thực: Bộ phân loại dưới 100 ms sàng lọc cả dữ liệu đầu vào của người dùng và dữ liệu đầu ra của mô hình trước khi phát xạ.
• Đường dẫn phê duyệt của con người: Được kích hoạt khi gọi công cụ có rủi ro cao (thanh toán, tư vấn pháp lý), tận dụng các nguyên mẫu phê duyệt mới của SDK Đại lý.

