النماذجالدعمالمؤسسةمدونة
أكثر من 500 واجهة برمجة تطبيقات لنماذج الذكاء الاصطناعي، الكل في واجهة واحدة. فقط في CometAPI
واجهة برمجة التطبيقات للنماذج
مطور
البدء السريعالتوثيقلوحة تحكم API
الموارد
نماذج الذكاء الاصطناعيمدونةالمؤسسةالسجل التاريخي للتغييراتحول
2025 CometAPI. جميع الحقوق محفوظة.سياسة الخصوصيةشروط الخدمة
Home/Models/OpenAI/GPT-4o Realtime
O

GPT-4o Realtime

مدخل:$60/M
الإخراج:$240/M
تتيح Realtime API للمطورين إنشاء تجارب متعددة الوسائط منخفضة الكمون، بما في ذلك ميزة تحويل الكلام إلى كلام. يتم تسعير النص والصوت اللذين تتم معالجتهما بواسطة Realtime API بشكل منفصل. يدعم هذا النموذج طول سياق أقصى يبلغ 128,000 رمز.
الاستخدام التجاري
نظرة عامة
الميزات
التسعير
API
الإصدارات

Technical Specifications of gpt-4o-realtime

SpecificationDetails
Model IDgpt-4o-realtime
Model typeRealtime multimodal model
Primary use casesLow-latency multimodal interactions, speech-to-speech experiences, real-time text and audio applications
Context length128,000 tokens
Input modalitiesText, audio
Output modalitiesText, audio
Latency profileOptimized for low-latency realtime experiences
Pricing noteText and audio processed by the Realtime API are priced separately

What is gpt-4o-realtime?

gpt-4o-realtime is a realtime multimodal model available through CometAPI for developers building highly responsive AI applications. It is designed for scenarios where low latency matters, such as live voice assistants, interactive speech-to-speech systems, and applications that need to process text and audio in the same workflow.

This model supports multimodal communication, allowing applications to send text or audio inputs and receive text or audio outputs. With a maximum context length of 128,000 tokens, gpt-4o-realtime can also support longer interactions and more context-aware conversations than smaller-session realtime systems.

Main features of gpt-4o-realtime

  • Low-latency interaction: Built for realtime use cases where fast response times are essential for smooth user experiences.
  • Multimodal input and output: Supports both text and audio workflows, enabling flexible application design.
  • Speech-to-speech support: Well suited for conversational voice interfaces that take spoken input and return spoken output.
  • Large context window: Supports up to 128,000 tokens of context for more coherent extended sessions.
  • Flexible realtime application support: Useful for live assistants, interactive tools, customer support agents, and other responsive multimodal products.
  • Separate text and audio pricing: Developers should account for text and audio usage independently when estimating costs.

How to access and integrate gpt-4o-realtime

Step 1: Sign Up for API Key

To get started, sign up on CometAPI and generate your API key from the dashboard. After that, store the key securely and use it to authenticate every request to the API.

Step 2: Connect to gpt-4o-realtime API

The Realtime API uses WebSocket connections. Connect to CometAPI's WebSocket endpoint:

const ws = new WebSocket(
  "wss://api.cometapi.com/v1/realtime?model=gpt-4o-realtime",
  {
    headers: {
      "Authorization": "Bearer " + process.env.COMETAPI_API_KEY,
      "OpenAI-Beta": "realtime=v1"
    }
  }
);

ws.on("open", () => {
  ws.send(JSON.stringify({
    type: "session.update",
    session: {
      modalities: ["text", "audio"],
      instructions: "You are a helpful assistant."
    }
  }));
});

ws.on("message", (data) => {
  console.log(JSON.parse(data));
});

Step 3: Retrieve and Verify Results

The Realtime API streams responses through the WebSocket connection as server-sent events. Listen for response.audio.delta events for audio output and response.text.delta for text. Verify the session is established and responses are streaming correctly.

الميزات لـ GPT-4o Realtime

استكشف الميزات الرئيسية لـ GPT-4o Realtime، المصممة لتعزيز الأداء وسهولة الاستخدام. اكتشف كيف يمكن لهذه القدرات أن تفيد مشاريعك وتحسن تجربة المستخدم.

التسعير لـ GPT-4o Realtime

استكشف الأسعار التنافسية لـ GPT-4o Realtime، المصمم ليناسب الميزانيات المختلفة واحتياجات الاستخدام المتنوعة. تضمن خططنا المرنة أن تدفع فقط مقابل ما تستخدمه، مما يجعل من السهل التوسع مع نمو متطلباتك. اكتشف كيف يمكن لـ GPT-4o Realtime تحسين مشاريعك مع الحفاظ على التكاليف قابلة للإدارة.
سعر كوميت (USD / M Tokens)السعر الرسمي (USD / M Tokens)خصم
مدخل:$60/M
الإخراج:$240/M
مدخل:$75/M
الإخراج:$300/M
-20%

نموذج الكود وواجهة برمجة التطبيقات لـ GPT-4o Realtime

احصل على أكواد نماذجية شاملة وموارد API لـ GPT-4o Realtime لتبسيط عملية التكامل الخاصة بك. توفر وثائقنا التفصيلية إرشادات خطوة بخطوة، مما يساعدك على الاستفادة من الإمكانات الكاملة لـ GPT-4o Realtime في مشاريعك.

إصدارات GPT-4o Realtime

قد تشمل الأسباب وراء احتواء GPT-4o Realtime على لقطات متعددة عوامل محتملة مثل اختلاف المخرجات بعد التحديثات التي تتطلب اللقطات القديمة لضمان الاتساق، وتوفير فترة انتقالية للمطورين للتكيف والهجرة، وارتباط اللقطات المختلفة بنقاط النهاية العالمية أو الإقليمية لتحسين تجربة المستخدم. للاطلاع على الاختلافات التفصيلية بين الإصدارات، يرجى الرجوع إلى الوثائق الرسمية.
version
gpt-4o-realtime-preview
gpt-4o-realtime-preview-2024-12-17
gpt-4o-realtime-preview-2025-06-03
gpt-4o-realtime-preview-2024-10-01

المزيد من النماذج

O

gpt-realtime-1.5

مدخل:$3.2/M
الإخراج:$12.8/M
أفضل نموذج صوتي لإدخال الصوت وإخراج الصوت.
O

gpt-audio-1.5

مدخل:$2/M
الإخراج:$8/M
أفضل نموذج صوتي لإدخال وإخراج الصوت مع Chat Completions.
O

Whisper-1

مدخل:$24/M
الإخراج:$24/M
تحويل الكلام إلى نص، وإنشاء ترجمات
O

TTS

مدخل:$12/M
الإخراج:$12/M
تحويل النص إلى كلام من OpenAI
K

Kling TTS

لكل طلب:$0.006608
[تركيب الكلام] أُطلقت حديثًا: تحويل النص إلى صوت بمستوى البث عبر الإنترنت، مع ميزة المعاينة ● يمكن في الوقت نفسه توليد audio_id، لاستخدامه مع أي Keling API.
K

Kling video-to-audio

K

Kling video-to-audio

لكل طلب:$0.03304
Kling تحويل الفيديو إلى صوت