Mô hìnhHỗ trợDoanh nghiệpBlog
500+ API Mô hình AI, Tất cả trong Một API. Chỉ cần CometAPI
API Mô hình
Nhà phát triển
Bắt đầu nhanhTài liệuBảng Điều Khiển API
Tài nguyên
Mô hình AIBlogDoanh nghiệpNhật ký thay đổiGiới thiệu
2025 CometAPI. Bảo lưu mọi quyền.Chính sách Bảo mậtĐiều khoản Dịch vụ
Home/Models/OpenAI/gpt-realtime-1.5
O

gpt-realtime-1.5

Đầu vào:$3.2/M
Đầu ra:$12.8/M
Bối cảnh:32,000
Đầu ra tối đa:4,096
Mô hình giọng nói tốt nhất cho đầu vào âm thanh, đầu ra âm thanh.
Mới
Sử dụng thương mại
Tổng quan
Tính năng
Giá cả
API

Thông số kỹ thuật của gpt-realtime-1.5

Hạng mụcgpt-realtime-1.5 (định vị công khai)
Họ mô hìnhGPT Realtime 1.5 (biến thể tối ưu cho giọng nói)
Phương thức chínhNói‑sang‑nói (S2S)
Kiểu đầu vàoÂm thanh (truyền phát), văn bản
Kiểu đầu raÂm thanh (truyền phát), văn bản, lời gọi công cụ có cấu trúc
APIRealtime API (WebRTC / phiên truyền phát liên tục)
Cấu hình độ trễTối ưu cho độ trễ thấp, tương tác hội thoại trực tiếp
Mô hình phiênPhiên truyền phát có trạng thái
Sử dụng công cụHỗ trợ gọi hàm và tích hợp công cụ
Trường hợp sử dụng mục tiêuTác tử giọng nói trực tiếp, trợ lý, hệ thống tương tác

Lưu ý: Giới hạn token và kích thước cửa sổ ngữ cảnh chính xác không được công bố nổi bật trong các bản tóm tắt công khai; mô hình được định vị ưu tiên khả năng phản hồi thời gian thực hơn là các phiên có ngữ cảnh cực dài.


gpt-realtime-1.5 là gì?

gpt-realtime-1.5 là một mô hình tối ưu cho nói‑sang‑nói với độ trễ thấp, được thiết kế cho các hệ thống hội thoại trực tiếp. Khác với các mô hình yêu cầu‑đáp truyền thống, nó hoạt động thông qua các phiên truyền phát liên tục, cho phép luân phiên lượt nói tự nhiên, xử lý ngắt lời và tương tác giọng nói linh hoạt.

Mô hình được xây dựng chuyên biệt cho các ứng dụng mà tốc độ dòng hội thoại quan trọng hơn độ dài ngữ cảnh tối đa.


Tính năng chính

  1. Tương tác nói‑sang‑nói thực sự — Nhận đầu vào âm thanh trực tiếp và truyền phát phản hồi giọng nói theo thời gian thực.
  2. Kiến trúc độ trễ thấp — Được thiết kế để phản hồi hội thoại dưới một giây trong tác tử giọng nói.
  3. Thiết kế ưu tiên truyền phát — Hoạt động qua các phiên liên tục (WebRTC hoặc các giao thức truyền phát).
  4. Luân phiên lượt nói tự nhiên — Hỗ trợ xử lý ngắt lời và dòng hội thoại linh hoạt.
  5. Hỗ trợ gọi công cụ — Có thể kích hoạt các lời gọi hàm có cấu trúc trong một phiên thời gian thực.
  6. Nền tảng tác tử giọng nói sẵn sàng cho sản xuất — Được xây dựng chuyên biệt cho trợ lý tương tác, ki‑ốt và thiết bị nhúng.

Định chuẩn & Định vị hiệu năng

OpenAI định vị gpt-realtime-1.5 là sự phát triển của các mô hình thời gian thực trước đó với khả năng tuân thủ hướng dẫn tốt hơn, ổn định hơn trong các phiên thoại kéo dài và ngữ điệu tự nhiên hơn so với các bản phát hành trước.

Khác với các mô hình tập trung vào lập trình (ví dụ, các biến thể Codex), hiệu năng được đánh giá chủ yếu qua độ trễ hội thoại, độ tự nhiên của giọng nói và độ ổn định của phiên hơn là các bảng xếp hạng chuẩn.


gpt-realtime-1.5 so với các mô hình liên quan

Đặc điểmgpt-realtime-1.5gpt-audio-1.5
Mục tiêu chínhTương tác giọng nói trực tiếpQuy trình trò chuyện hỗ trợ âm thanh
Độ trễTối ưu cho độ trễ tối thiểuCân bằng chất lượng/tốc độ
Loại phiênPhiên truyền phát liên tụcLuồng Chat Completions tiêu chuẩn
Kích thước ngữ cảnhTối ưu cho khả năng phản hồiHỗ trợ ngữ cảnh lớn hơn
Trường hợp sử dụng tốt nhấtTác tử giọng nói thời gian thựcTrợ lý hội thoại có hỗ trợ âm thanh

Khi nào nên chọn từng mô hình

  • Chọn gpt-realtime-1.5 cho tổng đài, ki‑ốt, lễ tân AI hoặc trợ lý nhúng trực tiếp.
  • Chọn gpt-audio-1.5 cho ứng dụng chat hỗ trợ giọng nói cần bộ nhớ hội thoại dài hơn hoặc quy trình đa phương thức.

Trường hợp sử dụng tiêu biểu

  • Tác tử tổng đài AI
  • Trợ lý thiết bị thông minh
  • Ki‑ốt tương tác
  • Hệ thống gia sư trực tiếp
  • Công cụ luyện tập ngôn ngữ thời gian thực
  • Ứng dụng điều khiển bằng giọng nói
  • Cách truy cập GPT realtime 1.5 API

Bước 1: Đăng ký lấy khóa API

Đăng nhập vào cometapi.com. Nếu bạn chưa là người dùng của chúng tôi, vui lòng đăng ký trước. Đăng nhập vào CometAPI console. Lấy khóa API truy cập của giao diện. Nhấp “Add Token” tại mục API token trong trung tâm cá nhân, lấy khóa token: sk-xxxxx và gửi.

cometapi-key

Bước 2: Gửi yêu cầu đến GPT realtime 1.5 API

Chọn endpoint “gpt-realtime-1.5” để gửi yêu cầu API và thiết lập phần thân yêu cầu. Phương thức và phần thân yêu cầu được lấy từ tài liệu API trên website của chúng tôi. Website cũng cung cấp bài kiểm thử Apifox để bạn tiện sử dụng. Thay thế <YOUR_API_KEY> bằng khóa CometAPI thực tế từ tài khoản của bạn. base url là Chat Completions

Chèn câu hỏi hoặc yêu cầu của bạn vào trường nội dung — đây là phần mô hình sẽ phản hồi. Xử lý phản hồi API để lấy câu trả lời được tạo.

Bước 3: Truy xuất và xác minh kết quả

Xử lý phản hồi API để lấy câu trả lời được tạo. Sau khi xử lý, API phản hồi với trạng thái tác vụ và dữ liệu đầu ra.

Câu hỏi thường gặp

What is gpt-realtime-1.5 used for in the Realtime API?

gpt-realtime-1.5 được thiết kế cho các tương tác giọng nói-đến-giọng nói có độ trễ thấp bằng các phiên phát trực tuyến liên tục, lý tưởng cho tác nhân giọng nói trực tiếp và trợ lý tương tác.

How is gpt-realtime-1.5 different from gpt-audio-1.5 API?

gpt-realtime-1.5 tập trung vào các cuộc hội thoại giọng nói thời gian thực với độ trễ tối thiểu, trong khi gpt-audio-1.5 được tối ưu cho các quy trình trò chuyện hỗ trợ âm thanh với ngữ cảnh lớn hơn.

Does gpt-realtime-1.5 API support function calling during live sessions?

Có, gpt-realtime-1.5 hỗ trợ các lệnh gọi công cụ có cấu trúc trong một phiên thời gian thực đang hoạt động, cho phép tích hợp với các hệ thống bên ngoài.

Is gpt-realtime-1.5 suitable for customer support voice bots?

Có, nó được tối ưu đặc biệt cho các hệ thống hội thoại tương tác, độ trễ thấp như tổng đài viên và lễ tân ảo.

Can gpt-realtime-1.5 handle interruptions during conversation?

Có, mô hình được thiết kế cho việc luân phiên lượt nói tự nhiên và có thể xử lý việc ngắt lời trong một phiên giọng nói phát trực tuyến.

Does gpt-realtime-1.5 prioritize latency or long context memory?

gpt-realtime-1.5 ưu tiên khả năng phản hồi hội thoại và độ trễ thấp hơn là các cửa sổ ngữ cảnh cực lớn.

What infrastructure is required to integrate gpt-realtime-1.5 API?

Các nhà phát triển thường sử dụng WebRTC hoặc các kết nối dựa trên phát trực tuyến để duy trì các phiên âm thanh liên tục khi tích hợp API gpt-realtime-1.5.

Tính năng cho gpt-realtime-1.5

Khám phá các tính năng chính của gpt-realtime-1.5, được thiết kế để nâng cao hiệu suất và khả năng sử dụng. Tìm hiểu cách các khả năng này có thể mang lại lợi ích cho dự án của bạn và cải thiện trải nghiệm người dùng.

Giá cả cho gpt-realtime-1.5

Khám phá mức giá cạnh tranh cho gpt-realtime-1.5, được thiết kế để phù hợp với nhiều ngân sách và nhu cầu sử dụng khác nhau. Các gói linh hoạt của chúng tôi đảm bảo bạn chỉ trả tiền cho những gì bạn sử dụng, giúp dễ dàng mở rộng quy mô khi yêu cầu của bạn tăng lên. Khám phá cách gpt-realtime-1.5 có thể nâng cao các dự án của bạn trong khi vẫn kiểm soát được chi phí.
Giá Comet (USD / M Tokens)Giá Chính Thức (USD / M Tokens)Giảm giá
Đầu vào:$3.2/M
Đầu ra:$12.8/M
Đầu vào:$4/M
Đầu ra:$16/M
-20%

Mã mẫu và API cho gpt-realtime-1.5

Truy cập mã mẫu toàn diện và tài nguyên API cho gpt-realtime-1.5 để tối ưu hóa quy trình tích hợp của bạn. Tài liệu chi tiết của chúng tôi cung cấp hướng dẫn từng bước, giúp bạn khai thác toàn bộ tiềm năng của gpt-realtime-1.5 trong các dự án của mình.

Thêm mô hình

O

gpt-audio-1.5

Đầu vào:$2/M
Đầu ra:$8/M
Mô hình giọng nói tốt nhất cho đầu vào âm thanh, đầu ra âm thanh với Chat Completions.
O

Whisper-1

Đầu vào:$24/M
Đầu ra:$24/M
Chuyển giọng nói thành văn bản, tạo bản dịch
O

TTS

Đầu vào:$12/M
Đầu ra:$12/M
OpenAI Text-to-Speech
K

Kling TTS

Theo Yêu cầu:$0.006608
[Tổng hợp giọng nói] Mới ra mắt: chuyển văn bản thành âm thanh phát sóng trực tuyến, có chức năng xem trước ● Có thể đồng thời tạo audio_id, dùng được với bất kỳ Keling API nào.
K

Kling video-to-audio

K

Kling video-to-audio

Theo Yêu cầu:$0.03304
Kling chuyển đổi video sang âm thanh
K

Kling text-to-audio

K

Kling text-to-audio

Theo Yêu cầu:$0.03304
Kling chuyển văn bản thành âm thanh