ModellerDestekKurumsalBlog
500+ Yapay Zeka Modeli API'si, Hepsi Tek Bir API'de. Sadece CometAPI'de
Modeller API
Geliştirici
Hızlı BaşlangıçDokümantasyonAPI Kontrol Paneli
Kaynaklar
Yapay Zeka ModelleriBlogKurumsalDeğişiklik GünlüğüHakkında
2025 CometAPI. Tüm hakları saklıdır.Gizlilik PolitikasıHizmet Şartları
Home/Models/OpenAI/GPT-4o Realtime
O

GPT-4o Realtime

Giriş:$60/M
Çıktı:$240/M
Realtime API, geliştiricilerin düşük gecikmeli, çok modlu deneyimler oluşturmasına olanak tanır; buna sesten sese işlevi de dahildir. Realtime API tarafından işlenen metin ve ses ayrı ayrı fiyatlandırılır. Bu model en fazla 128,000 token bağlam uzunluğunu destekler.
Ticari kullanım
Genel Bakış
Özellikler
Fiyatlandırma
API
Sürümler

Technical Specifications of gpt-4o-realtime

SpecificationDetails
Model IDgpt-4o-realtime
Model typeRealtime multimodal model
Primary use casesLow-latency multimodal interactions, speech-to-speech experiences, real-time text and audio applications
Context length128,000 tokens
Input modalitiesText, audio
Output modalitiesText, audio
Latency profileOptimized for low-latency realtime experiences
Pricing noteText and audio processed by the Realtime API are priced separately

What is gpt-4o-realtime?

gpt-4o-realtime is a realtime multimodal model available through CometAPI for developers building highly responsive AI applications. It is designed for scenarios where low latency matters, such as live voice assistants, interactive speech-to-speech systems, and applications that need to process text and audio in the same workflow.

This model supports multimodal communication, allowing applications to send text or audio inputs and receive text or audio outputs. With a maximum context length of 128,000 tokens, gpt-4o-realtime can also support longer interactions and more context-aware conversations than smaller-session realtime systems.

Main features of gpt-4o-realtime

  • Low-latency interaction: Built for realtime use cases where fast response times are essential for smooth user experiences.
  • Multimodal input and output: Supports both text and audio workflows, enabling flexible application design.
  • Speech-to-speech support: Well suited for conversational voice interfaces that take spoken input and return spoken output.
  • Large context window: Supports up to 128,000 tokens of context for more coherent extended sessions.
  • Flexible realtime application support: Useful for live assistants, interactive tools, customer support agents, and other responsive multimodal products.
  • Separate text and audio pricing: Developers should account for text and audio usage independently when estimating costs.

How to access and integrate gpt-4o-realtime

Step 1: Sign Up for API Key

To get started, sign up on CometAPI and generate your API key from the dashboard. After that, store the key securely and use it to authenticate every request to the API.

Step 2: Connect to gpt-4o-realtime API

The Realtime API uses WebSocket connections. Connect to CometAPI's WebSocket endpoint:

const ws = new WebSocket(
  "wss://api.cometapi.com/v1/realtime?model=gpt-4o-realtime",
  {
    headers: {
      "Authorization": "Bearer " + process.env.COMETAPI_API_KEY,
      "OpenAI-Beta": "realtime=v1"
    }
  }
);

ws.on("open", () => {
  ws.send(JSON.stringify({
    type: "session.update",
    session: {
      modalities: ["text", "audio"],
      instructions: "You are a helpful assistant."
    }
  }));
});

ws.on("message", (data) => {
  console.log(JSON.parse(data));
});

Step 3: Retrieve and Verify Results

The Realtime API streams responses through the WebSocket connection as server-sent events. Listen for response.audio.delta events for audio output and response.text.delta for text. Verify the session is established and responses are streaming correctly.

GPT-4o Realtime için Özellikler

GPT-4o Realtime'in performansı ve kullanılabilirliği artırmak için tasarlanmış temel özelliklerini keşfedin. Bu yeteneklerin projelerinize nasıl fayda sağlayabileceğini ve kullanıcı deneyimini nasıl geliştirebileceğini öğrenin.

GPT-4o Realtime için Fiyatlandırma

GPT-4o Realtime için çeşitli bütçelere ve kullanım ihtiyaçlarına uygun rekabetçi fiyatlandırmayı keşfedin. Esnek planlarımız sadece kullandığınız kadar ödeme yapmanızı sağlar ve ihtiyaçlarınız büyüdükçe kolayca ölçeklendirme imkanı sunar. GPT-4o Realtime'in maliyetleri yönetilebilir tutarken projelerinizi nasıl geliştirebileceğini keşfedin.
Comet Fiyatı (USD / M Tokens)Resmi Fiyat (USD / M Tokens)İndirim
Giriş:$60/M
Çıktı:$240/M
Giriş:$75/M
Çıktı:$300/M
-20%

GPT-4o Realtime için örnek kod ve API

GPT-4o Realtime için kapsamlı örnek kodlara ve API kaynaklarına erişerek entegrasyon sürecinizi kolaylaştırın. Ayrıntılı dokümantasyonumuz adım adım rehberlik sağlayarak projelerinizde GPT-4o Realtime'in tüm potansiyelinden yararlanmanıza yardımcı olur.

GPT-4o Realtime Sürümleri

GPT-4o Realtime'nın birden fazla anlık görüntüye sahip olmasının nedeni; güncellemeler sonrası çıktı varyasyonları nedeniyle tutarlılık için eski anlık görüntülere ihtiyaç duyulması, geliştiricilere uyum ve geçiş için bir geçiş dönemi sağlanması ve kullanıcı deneyimini optimize etmek için küresel veya bölgesel uç noktalara karşılık gelen farklı anlık görüntüler içerebilir. Sürümler arasındaki detaylı farklar için lütfen resmi belgelere başvurun.
version
gpt-4o-realtime-preview
gpt-4o-realtime-preview-2024-12-17
gpt-4o-realtime-preview-2025-06-03
gpt-4o-realtime-preview-2024-10-01

Daha Fazla Model

O

gpt-realtime-1.5

Giriş:$3.2/M
Çıktı:$12.8/M
Ses girişi ve ses çıkışı için en iyi ses modeli.
O

gpt-audio-1.5

Giriş:$2/M
Çıktı:$8/M
Chat Completions ile ses girişi ve ses çıkışı için en iyi ses modeli.
O

Whisper-1

Giriş:$24/M
Çıktı:$24/M
请提供需要处理的音频或文本,并说明: - 源语言 - 目标语言(默认土耳其语) - 是否需要保留原格式(如 HTML/Markdown/JSON) - 术语或风格要求(如正式/口语) 我将先进行语音转写(如为音频),再在严格保留结构的前提下进行精准翻译。
O

TTS

Giriş:$12/M
Çıktı:$12/M
OpenAI Metinden Konuşmaya
K

Kling TTS

İstek Başına:$0.006608
[Konuşma Sentezi] Yeni kullanıma sunuldu: önizleme özelliğine sahip çevrimiçi metinden yayın kalitesinde ses ● Aynı anda audio_id oluşturabilir, herhangi bir Keling API'siyle kullanılabilir
K

Kling video-to-audio

K

Kling video-to-audio

İstek Başına:$0.03304
Kling videodan sese