ماڈلزسپورٹانٹرپرائزبلاگ
500+ AI ماڈل API، تمام ایک API میں۔ صرف CometAPI میں
ماڈلز API
ڈویلپر
فوری آغازدستاویزاتAPI ڈیش بورڈ
وسائل
AI ماڈلزبلاگانٹرپرائزتبدیلیوں کا ریکارڈہمارے بارے میں
2025 CometAPI۔ تمام حقوق محفوظ ہیں۔رازداری کی پالیسیخدمات کی شرائط
Home/Models/OpenAI/GPT-4o Realtime
O

GPT-4o Realtime

ان پٹ:$60/M
آؤٹ پٹ:$240/M
Realtime API ڈویلپرز کو کم تاخیر والے ملٹی موڈل تجربات بنانے کی سہولت دیتا ہے، بشمول speech-to-speech خصوصیت۔ Realtime API کے ذریعے پروسیس کیے گئے متن اور آڈیو کی قیمتیں الگ الگ مقرر کی جاتی ہیں۔ یہ ماڈل زیادہ سے زیادہ 128,000 ٹوکنز کی کانٹیکسٹ لمبائی کی حمایت کرتا ہے۔
تجارتی استعمال
خلاصہ
خصوصیات
قیمت
API
ورژن

Technical Specifications of gpt-4o-realtime

SpecificationDetails
Model IDgpt-4o-realtime
Model typeRealtime multimodal model
Primary use casesLow-latency multimodal interactions, speech-to-speech experiences, real-time text and audio applications
Context length128,000 tokens
Input modalitiesText, audio
Output modalitiesText, audio
Latency profileOptimized for low-latency realtime experiences
Pricing noteText and audio processed by the Realtime API are priced separately

What is gpt-4o-realtime?

gpt-4o-realtime is a realtime multimodal model available through CometAPI for developers building highly responsive AI applications. It is designed for scenarios where low latency matters, such as live voice assistants, interactive speech-to-speech systems, and applications that need to process text and audio in the same workflow.

This model supports multimodal communication, allowing applications to send text or audio inputs and receive text or audio outputs. With a maximum context length of 128,000 tokens, gpt-4o-realtime can also support longer interactions and more context-aware conversations than smaller-session realtime systems.

Main features of gpt-4o-realtime

  • Low-latency interaction: Built for realtime use cases where fast response times are essential for smooth user experiences.
  • Multimodal input and output: Supports both text and audio workflows, enabling flexible application design.
  • Speech-to-speech support: Well suited for conversational voice interfaces that take spoken input and return spoken output.
  • Large context window: Supports up to 128,000 tokens of context for more coherent extended sessions.
  • Flexible realtime application support: Useful for live assistants, interactive tools, customer support agents, and other responsive multimodal products.
  • Separate text and audio pricing: Developers should account for text and audio usage independently when estimating costs.

How to access and integrate gpt-4o-realtime

Step 1: Sign Up for API Key

To get started, sign up on CometAPI and generate your API key from the dashboard. After that, store the key securely and use it to authenticate every request to the API.

Step 2: Connect to gpt-4o-realtime API

The Realtime API uses WebSocket connections. Connect to CometAPI's WebSocket endpoint:

const ws = new WebSocket(
  "wss://api.cometapi.com/v1/realtime?model=gpt-4o-realtime",
  {
    headers: {
      "Authorization": "Bearer " + process.env.COMETAPI_API_KEY,
      "OpenAI-Beta": "realtime=v1"
    }
  }
);

ws.on("open", () => {
  ws.send(JSON.stringify({
    type: "session.update",
    session: {
      modalities: ["text", "audio"],
      instructions: "You are a helpful assistant."
    }
  }));
});

ws.on("message", (data) => {
  console.log(JSON.parse(data));
});

Step 3: Retrieve and Verify Results

The Realtime API streams responses through the WebSocket connection as server-sent events. Listen for response.audio.delta events for audio output and response.text.delta for text. Verify the session is established and responses are streaming correctly.

GPT-4o Realtime کے لیے خصوصیات

[ماڈل کا نام] کی اہم خصوصیات دریافت کریں، جو کارکردگی اور قابل استعمال کو بہتر بنانے کے لیے ڈیزائن کی گئی ہیں۔ جانیں کہ یہ صلاحیتیں آپ کے منصوبوں کو کیسے فائدہ پہنچا سکتی ہیں اور صارف کے تجربے کو بہتر بنا سکتی ہیں۔

GPT-4o Realtime کی قیمتیں

[ماڈل کا نام] کے لیے مسابقتی قیمتوں کو دریافت کریں، جو مختلف بجٹ اور استعمال کی ضروریات کے مطابق ڈیزائن کیا گیا ہے۔ ہمارے لچکدار منصوبے اس بات کو یقینی بناتے ہیں کہ آپ صرف اسی کے لیے ادائیگی کریں جو آپ استعمال کرتے ہیں، جس سے آپ کی ضروریات بڑھنے کے ساتھ ساتھ اسکیل کرنا آسان ہو جاتا ہے۔ دریافت کریں کہ [ماڈل کا نام] کیسے آپ کے پروجیکٹس کو بہتر بنا سکتا ہے جبکہ اخراجات کو قابو میں رکھتا ہے۔
Comet قیمت (USD / M Tokens)سرکاری قیمت (USD / M Tokens)رعایت
ان پٹ:$60/M
آؤٹ پٹ:$240/M
ان پٹ:$75/M
آؤٹ پٹ:$300/M
-20%

GPT-4o Realtime کے لیے نمونہ کوڈ اور API

GPT-4o Realtime کے لیے جامع نمونہ کوڈ اور API وسائل تک رسائی حاصل کریں تاکہ آپ کے انضمام کے عمل کو آسان بنایا جا سکے۔ ہماری تفصیلی دستاویزات قدم بہ قدم رہنمائی فراہم کرتی ہیں، جو آپ کو اپنے پروجیکٹس میں GPT-4o Realtime کی مکمل صلاحیت سے فائدہ اٹھانے میں مدد کرتی ہیں۔

GPT-4o Realtime کے ورژن

GPT-4o Realtime کے متعدد سنیپ شاٹس کی وجوہات میں ممکنہ عوامل شامل ہوسکتے ہیں جیسے اپ ڈیٹس کے بعد آؤٹ پٹ میں تبدیلیاں جس کی وجہ سے مستقل مزاجی کے لیے پرانے سنیپ شاٹس کی ضرورت ہوتی ہے، ڈویلپرز کو ایڈاپٹیشن اور مائیگریشن کے لیے منتقلی کا وقت فراہم کرنا، اور عالمی یا علاقائی اینڈ پوائنٹس کے مطابق مختلف سنیپ شاٹس کا ہونا تاکہ صارف کے تجربے کو بہتر بنایا جاسکے۔ ورژنز کے درمیان تفصیلی فرق کے لیے براہ کرم سرکاری دستاویزات کا حوالہ دیں۔
version
gpt-4o-realtime-preview
gpt-4o-realtime-preview-2024-12-17
gpt-4o-realtime-preview-2025-06-03
gpt-4o-realtime-preview-2024-10-01

مزید ماڈلز

O

gpt-realtime-1.5

ان پٹ:$3.2/M
آؤٹ پٹ:$12.8/M
آڈیو ان، آڈیو آؤٹ کے لیے بہترین وائس ماڈل۔
O

gpt-audio-1.5

ان پٹ:$2/M
آؤٹ پٹ:$8/M
Chat Completions کے ساتھ آڈیو اِن، آڈیو آؤٹ کے لیے بہترین وائس ماڈل۔
O

Whisper-1

ان پٹ:$24/M
آؤٹ پٹ:$24/M
تقریر کو متن میں تبدیل کرنا، ترجمے تیار کرنا
O

TTS

ان پٹ:$12/M
آؤٹ پٹ:$12/M
OpenAI متن سے گفتار
K

Kling TTS

فی درخواست:$0.006608
[اسپیچ سنتھیسِس] نیا آغاز: متن سے نشریاتی آڈیو آن لائن، پیش نظارہ کی خصوصیت کے ساتھ ● بیک وقت audio_id بھی تیار کر سکتا ہے، جسے کسی بھی Keling API کے ساتھ استعمال کیا جا سکتا ہے۔
K

Kling video-to-audio

K

Kling video-to-audio

فی درخواست:$0.03304
Kling ویڈیو کو آڈیو میں