ModelSokonganPerusahaanBlog
500+ API Model AI, Semua Dalam Satu API. Hanya Di CometAPI
API Model
Pembangun
Mula PantasDokumentasiPapan Pemuka API
Sumber
Model AIBlogPerusahaanLog PerubahanTentang
2025 CometAPI. Hak cipta terpelihara.Dasar PrivasiTerma Perkhidmatan
Home/Models/OpenAI/GPT-4o Realtime
O

GPT-4o Realtime

Masukan:$60/M
Keluaran:$240/M
Realtime API membolehkan pembangun membina pengalaman multimodal berlatensi rendah, termasuk fungsi pertuturan-ke-pertuturan. Teks dan audio yang diproses oleh Realtime API dicaj secara berasingan. Model ini menyokong panjang konteks maksimum 128,000 token.
Penggunaan komersial
Gambaran Keseluruhan
Ciri-ciri
Harga
API
Versi

Technical Specifications of gpt-4o-realtime

SpecificationDetails
Model IDgpt-4o-realtime
Model typeRealtime multimodal model
Primary use casesLow-latency multimodal interactions, speech-to-speech experiences, real-time text and audio applications
Context length128,000 tokens
Input modalitiesText, audio
Output modalitiesText, audio
Latency profileOptimized for low-latency realtime experiences
Pricing noteText and audio processed by the Realtime API are priced separately

What is gpt-4o-realtime?

gpt-4o-realtime is a realtime multimodal model available through CometAPI for developers building highly responsive AI applications. It is designed for scenarios where low latency matters, such as live voice assistants, interactive speech-to-speech systems, and applications that need to process text and audio in the same workflow.

This model supports multimodal communication, allowing applications to send text or audio inputs and receive text or audio outputs. With a maximum context length of 128,000 tokens, gpt-4o-realtime can also support longer interactions and more context-aware conversations than smaller-session realtime systems.

Main features of gpt-4o-realtime

  • Low-latency interaction: Built for realtime use cases where fast response times are essential for smooth user experiences.
  • Multimodal input and output: Supports both text and audio workflows, enabling flexible application design.
  • Speech-to-speech support: Well suited for conversational voice interfaces that take spoken input and return spoken output.
  • Large context window: Supports up to 128,000 tokens of context for more coherent extended sessions.
  • Flexible realtime application support: Useful for live assistants, interactive tools, customer support agents, and other responsive multimodal products.
  • Separate text and audio pricing: Developers should account for text and audio usage independently when estimating costs.

How to access and integrate gpt-4o-realtime

Step 1: Sign Up for API Key

To get started, sign up on CometAPI and generate your API key from the dashboard. After that, store the key securely and use it to authenticate every request to the API.

Step 2: Connect to gpt-4o-realtime API

The Realtime API uses WebSocket connections. Connect to CometAPI's WebSocket endpoint:

const ws = new WebSocket(
  "wss://api.cometapi.com/v1/realtime?model=gpt-4o-realtime",
  {
    headers: {
      "Authorization": "Bearer " + process.env.COMETAPI_API_KEY,
      "OpenAI-Beta": "realtime=v1"
    }
  }
);

ws.on("open", () => {
  ws.send(JSON.stringify({
    type: "session.update",
    session: {
      modalities: ["text", "audio"],
      instructions: "You are a helpful assistant."
    }
  }));
});

ws.on("message", (data) => {
  console.log(JSON.parse(data));
});

Step 3: Retrieve and Verify Results

The Realtime API streams responses through the WebSocket connection as server-sent events. Listen for response.audio.delta events for audio output and response.text.delta for text. Verify the session is established and responses are streaming correctly.

Ciri-ciri untuk GPT-4o Realtime

Terokai ciri-ciri utama GPT-4o Realtime, yang direka untuk meningkatkan prestasi dan kebolehgunaan. Temui bagaimana keupayaan ini boleh memberi manfaat kepada projek anda dan meningkatkan pengalaman pengguna.

Harga untuk GPT-4o Realtime

Terokai harga yang kompetitif untuk GPT-4o Realtime, direka bentuk untuk memenuhi pelbagai bajet dan keperluan penggunaan. Pelan fleksibel kami memastikan anda hanya membayar untuk apa yang anda gunakan, menjadikannya mudah untuk meningkatkan skala apabila keperluan anda berkembang. Temui bagaimana GPT-4o Realtime boleh meningkatkan projek anda sambil mengekalkan kos yang terurus.
Harga Comet (USD / M Tokens)Harga Rasmi (USD / M Tokens)Diskaun
Masukan:$60/M
Keluaran:$240/M
Masukan:$75/M
Keluaran:$300/M
-20%

Kod contoh dan API untuk GPT-4o Realtime

Akses kod sampel yang komprehensif dan sumber API untuk GPT-4o Realtime bagi memperlancar proses integrasi anda. Dokumentasi terperinci kami menyediakan panduan langkah demi langkah, membantu anda memanfaatkan potensi penuh GPT-4o Realtime dalam projek anda.

Versi GPT-4o Realtime

Sebab GPT-4o Realtime mempunyai berbilang snapshot mungkin merangkumi faktor berpotensi seperti variasi output selepas kemas kini yang memerlukan snapshot lama untuk konsistensi, menyediakan tempoh peralihan untuk penyesuaian dan migrasi kepada pembangun, serta snapshot berbeza yang sepadan dengan endpoint global atau serantau untuk mengoptimumkan pengalaman pengguna. Untuk perbezaan terperinci antara versi, sila rujuk dokumentasi rasmi.
version
gpt-4o-realtime-preview
gpt-4o-realtime-preview-2024-12-17
gpt-4o-realtime-preview-2025-06-03
gpt-4o-realtime-preview-2024-10-01

Lebih Banyak Model

O

gpt-realtime-1.5

Masukan:$3.2/M
Keluaran:$12.8/M
Model suara terbaik untuk input audio dan output audio.
O

gpt-audio-1.5

Masukan:$2/M
Keluaran:$8/M
Model suara terbaik untuk audio masuk, audio keluar dengan Chat Completions
O

Whisper-1

Masukan:$24/M
Keluaran:$24/M
Pertuturan ke teks, menghasilkan terjemahan
O

TTS

Masukan:$12/M
Keluaran:$12/M
OpenAI Teks ke Pertuturan
K

Kling TTS

Setiap Permintaan:$0.006608
[Sintesis Pertuturan] Baru dilancarkan: teks-ke-audio untuk siaran dalam talian, dengan fungsi pratonton ● Boleh sekaligus menjana audio_id, yang boleh digunakan dengan mana-mana Keling API.
K

Kling video-to-audio

K

Kling video-to-audio

Setiap Permintaan:$0.03304
Kling video ke audio