Mô hìnhHỗ trợDoanh nghiệpBlog
500+ API Mô hình AI, Tất cả trong Một API. Chỉ cần CometAPI
API Mô hình
Nhà phát triển
Bắt đầu nhanhTài liệuBảng Điều Khiển API
Tài nguyên
Mô hình AIBlogDoanh nghiệpNhật ký thay đổiGiới thiệu
2025 CometAPI. Bảo lưu mọi quyền.Chính sách Bảo mậtĐiều khoản Dịch vụ
Home/Models/OpenAI/GPT-4o Realtime
O

GPT-4o Realtime

Đầu vào:$60/M
Đầu ra:$240/M
Realtime API cho phép các nhà phát triển xây dựng các trải nghiệm đa phương thức có độ trễ thấp, bao gồm chức năng chuyển đổi giọng nói sang giọng nói. Văn bản và âm thanh được Realtime API xử lý được tính phí riêng biệt. Mô hình này hỗ trợ độ dài ngữ cảnh tối đa 128,000 token.
Sử dụng thương mại
Tổng quan
Tính năng
Giá cả
API
Phiên bản

Technical Specifications of gpt-4o-realtime

SpecificationDetails
Model IDgpt-4o-realtime
Model typeRealtime multimodal model
Primary use casesLow-latency multimodal interactions, speech-to-speech experiences, real-time text and audio applications
Context length128,000 tokens
Input modalitiesText, audio
Output modalitiesText, audio
Latency profileOptimized for low-latency realtime experiences
Pricing noteText and audio processed by the Realtime API are priced separately

What is gpt-4o-realtime?

gpt-4o-realtime is a realtime multimodal model available through CometAPI for developers building highly responsive AI applications. It is designed for scenarios where low latency matters, such as live voice assistants, interactive speech-to-speech systems, and applications that need to process text and audio in the same workflow.

This model supports multimodal communication, allowing applications to send text or audio inputs and receive text or audio outputs. With a maximum context length of 128,000 tokens, gpt-4o-realtime can also support longer interactions and more context-aware conversations than smaller-session realtime systems.

Main features of gpt-4o-realtime

  • Low-latency interaction: Built for realtime use cases where fast response times are essential for smooth user experiences.
  • Multimodal input and output: Supports both text and audio workflows, enabling flexible application design.
  • Speech-to-speech support: Well suited for conversational voice interfaces that take spoken input and return spoken output.
  • Large context window: Supports up to 128,000 tokens of context for more coherent extended sessions.
  • Flexible realtime application support: Useful for live assistants, interactive tools, customer support agents, and other responsive multimodal products.
  • Separate text and audio pricing: Developers should account for text and audio usage independently when estimating costs.

How to access and integrate gpt-4o-realtime

Step 1: Sign Up for API Key

To get started, sign up on CometAPI and generate your API key from the dashboard. After that, store the key securely and use it to authenticate every request to the API.

Step 2: Connect to gpt-4o-realtime API

The Realtime API uses WebSocket connections. Connect to CometAPI's WebSocket endpoint:

const ws = new WebSocket(
  "wss://api.cometapi.com/v1/realtime?model=gpt-4o-realtime",
  {
    headers: {
      "Authorization": "Bearer " + process.env.COMETAPI_API_KEY,
      "OpenAI-Beta": "realtime=v1"
    }
  }
);

ws.on("open", () => {
  ws.send(JSON.stringify({
    type: "session.update",
    session: {
      modalities: ["text", "audio"],
      instructions: "You are a helpful assistant."
    }
  }));
});

ws.on("message", (data) => {
  console.log(JSON.parse(data));
});

Step 3: Retrieve and Verify Results

The Realtime API streams responses through the WebSocket connection as server-sent events. Listen for response.audio.delta events for audio output and response.text.delta for text. Verify the session is established and responses are streaming correctly.

Tính năng cho GPT-4o Realtime

Khám phá các tính năng chính của GPT-4o Realtime, được thiết kế để nâng cao hiệu suất và khả năng sử dụng. Tìm hiểu cách các khả năng này có thể mang lại lợi ích cho dự án của bạn và cải thiện trải nghiệm người dùng.

Giá cả cho GPT-4o Realtime

Khám phá mức giá cạnh tranh cho GPT-4o Realtime, được thiết kế để phù hợp với nhiều ngân sách và nhu cầu sử dụng khác nhau. Các gói linh hoạt của chúng tôi đảm bảo bạn chỉ trả tiền cho những gì bạn sử dụng, giúp dễ dàng mở rộng quy mô khi yêu cầu của bạn tăng lên. Khám phá cách GPT-4o Realtime có thể nâng cao các dự án của bạn trong khi vẫn kiểm soát được chi phí.
Giá Comet (USD / M Tokens)Giá Chính Thức (USD / M Tokens)Giảm giá
Đầu vào:$60/M
Đầu ra:$240/M
Đầu vào:$75/M
Đầu ra:$300/M
-20%

Mã mẫu và API cho GPT-4o Realtime

Truy cập mã mẫu toàn diện và tài nguyên API cho GPT-4o Realtime để tối ưu hóa quy trình tích hợp của bạn. Tài liệu chi tiết của chúng tôi cung cấp hướng dẫn từng bước, giúp bạn khai thác toàn bộ tiềm năng của GPT-4o Realtime trong các dự án của mình.

Các phiên bản của GPT-4o Realtime

Lý do GPT-4o Realtime có nhiều snapshot có thể bao gồm các yếu tố tiềm năng như: sự thay đổi đầu ra sau các bản cập nhật cần các snapshot cũ để đảm bảo tính nhất quán, cung cấp cho nhà phát triển thời gian chuyển tiếp để thích ứng và di chuyển, cũng như các snapshot khác nhau tương ứng với các endpoint toàn cầu hoặc khu vực nhằm tối ưu hóa trải nghiệm người dùng. Để biết chi tiết về sự khác biệt giữa các phiên bản, vui lòng tham khảo tài liệu chính thức.
version
gpt-4o-realtime-preview
gpt-4o-realtime-preview-2024-12-17
gpt-4o-realtime-preview-2025-06-03
gpt-4o-realtime-preview-2024-10-01

Thêm mô hình

O

gpt-realtime-1.5

Đầu vào:$3.2/M
Đầu ra:$12.8/M
Mô hình giọng nói tốt nhất cho đầu vào âm thanh, đầu ra âm thanh.
O

gpt-audio-1.5

Đầu vào:$2/M
Đầu ra:$8/M
Mô hình giọng nói tốt nhất cho đầu vào âm thanh, đầu ra âm thanh với Chat Completions.
O

Whisper-1

Đầu vào:$24/M
Đầu ra:$24/M
Chuyển giọng nói thành văn bản, tạo bản dịch
O

TTS

Đầu vào:$12/M
Đầu ra:$12/M
OpenAI Text-to-Speech
K

Kling TTS

Theo Yêu cầu:$0.006608
[Tổng hợp giọng nói] Mới ra mắt: chuyển văn bản thành âm thanh phát sóng trực tuyến, có chức năng xem trước ● Có thể đồng thời tạo audio_id, dùng được với bất kỳ Keling API nào.
K

Kling video-to-audio

K

Kling video-to-audio

Theo Yêu cầu:$0.03304
Kling chuyển đổi video sang âm thanh