Thông số kỹ thuật của gpt-realtime-1.5
| Hạng mục | gpt-realtime-1.5 (định vị công khai) |
|---|---|
| Họ mô hình | GPT Realtime 1.5 (biến thể tối ưu cho giọng nói) |
| Phương thức chính | Nói‑sang‑nói (S2S) |
| Kiểu đầu vào | Âm thanh (truyền phát), văn bản |
| Kiểu đầu ra | Âm thanh (truyền phát), văn bản, lời gọi công cụ có cấu trúc |
| API | Realtime API (WebRTC / phiên truyền phát liên tục) |
| Cấu hình độ trễ | Tối ưu cho độ trễ thấp, tương tác hội thoại trực tiếp |
| Mô hình phiên | Phiên truyền phát có trạng thái |
| Sử dụng công cụ | Hỗ trợ gọi hàm và tích hợp công cụ |
| Trường hợp sử dụng mục tiêu | Tác tử giọng nói trực tiếp, trợ lý, hệ thống tương tác |
Lưu ý: Giới hạn token và kích thước cửa sổ ngữ cảnh chính xác không được công bố nổi bật trong các bản tóm tắt công khai; mô hình được định vị ưu tiên khả năng phản hồi thời gian thực hơn là các phiên có ngữ cảnh cực dài.
gpt-realtime-1.5 là gì?
gpt-realtime-1.5 là một mô hình tối ưu cho nói‑sang‑nói với độ trễ thấp, được thiết kế cho các hệ thống hội thoại trực tiếp. Khác với các mô hình yêu cầu‑đáp truyền thống, nó hoạt động thông qua các phiên truyền phát liên tục, cho phép luân phiên lượt nói tự nhiên, xử lý ngắt lời và tương tác giọng nói linh hoạt.
Mô hình được xây dựng chuyên biệt cho các ứng dụng mà tốc độ dòng hội thoại quan trọng hơn độ dài ngữ cảnh tối đa.
Tính năng chính
- Tương tác nói‑sang‑nói thực sự — Nhận đầu vào âm thanh trực tiếp và truyền phát phản hồi giọng nói theo thời gian thực.
- Kiến trúc độ trễ thấp — Được thiết kế để phản hồi hội thoại dưới một giây trong tác tử giọng nói.
- Thiết kế ưu tiên truyền phát — Hoạt động qua các phiên liên tục (WebRTC hoặc các giao thức truyền phát).
- Luân phiên lượt nói tự nhiên — Hỗ trợ xử lý ngắt lời và dòng hội thoại linh hoạt.
- Hỗ trợ gọi công cụ — Có thể kích hoạt các lời gọi hàm có cấu trúc trong một phiên thời gian thực.
- Nền tảng tác tử giọng nói sẵn sàng cho sản xuất — Được xây dựng chuyên biệt cho trợ lý tương tác, ki‑ốt và thiết bị nhúng.
Định chuẩn & Định vị hiệu năng
OpenAI định vị gpt-realtime-1.5 là sự phát triển của các mô hình thời gian thực trước đó với khả năng tuân thủ hướng dẫn tốt hơn, ổn định hơn trong các phiên thoại kéo dài và ngữ điệu tự nhiên hơn so với các bản phát hành trước.
Khác với các mô hình tập trung vào lập trình (ví dụ, các biến thể Codex), hiệu năng được đánh giá chủ yếu qua độ trễ hội thoại, độ tự nhiên của giọng nói và độ ổn định của phiên hơn là các bảng xếp hạng chuẩn.
gpt-realtime-1.5 so với các mô hình liên quan
| Đặc điểm | gpt-realtime-1.5 | gpt-audio-1.5 |
|---|---|---|
| Mục tiêu chính | Tương tác giọng nói trực tiếp | Quy trình trò chuyện hỗ trợ âm thanh |
| Độ trễ | Tối ưu cho độ trễ tối thiểu | Cân bằng chất lượng/tốc độ |
| Loại phiên | Phiên truyền phát liên tục | Luồng Chat Completions tiêu chuẩn |
| Kích thước ngữ cảnh | Tối ưu cho khả năng phản hồi | Hỗ trợ ngữ cảnh lớn hơn |
| Trường hợp sử dụng tốt nhất | Tác tử giọng nói thời gian thực | Trợ lý hội thoại có hỗ trợ âm thanh |
Khi nào nên chọn từng mô hình
- Chọn gpt-realtime-1.5 cho tổng đài, ki‑ốt, lễ tân AI hoặc trợ lý nhúng trực tiếp.
- Chọn gpt-audio-1.5 cho ứng dụng chat hỗ trợ giọng nói cần bộ nhớ hội thoại dài hơn hoặc quy trình đa phương thức.
Trường hợp sử dụng tiêu biểu
- Tác tử tổng đài AI
- Trợ lý thiết bị thông minh
- Ki‑ốt tương tác
- Hệ thống gia sư trực tiếp
- Công cụ luyện tập ngôn ngữ thời gian thực
- Ứng dụng điều khiển bằng giọng nói
- Cách truy cập GPT realtime 1.5 API
Bước 1: Đăng ký lấy khóa API
Đăng nhập vào cometapi.com. Nếu bạn chưa là người dùng của chúng tôi, vui lòng đăng ký trước. Đăng nhập vào CometAPI console. Lấy khóa API truy cập của giao diện. Nhấp “Add Token” tại mục API token trong trung tâm cá nhân, lấy khóa token: sk-xxxxx và gửi.

Bước 2: Gửi yêu cầu đến GPT realtime 1.5 API
Chọn endpoint “gpt-realtime-1.5” để gửi yêu cầu API và thiết lập phần thân yêu cầu. Phương thức và phần thân yêu cầu được lấy từ tài liệu API trên website của chúng tôi. Website cũng cung cấp bài kiểm thử Apifox để bạn tiện sử dụng. Thay thế <YOUR_API_KEY> bằng khóa CometAPI thực tế từ tài khoản của bạn. base url là Chat Completions
Chèn câu hỏi hoặc yêu cầu của bạn vào trường nội dung — đây là phần mô hình sẽ phản hồi. Xử lý phản hồi API để lấy câu trả lời được tạo.
Bước 3: Truy xuất và xác minh kết quả
Xử lý phản hồi API để lấy câu trả lời được tạo. Sau khi xử lý, API phản hồi với trạng thái tác vụ và dữ liệu đầu ra.