النماذجالدعمالمؤسسةمدونة
أكثر من 500 واجهة برمجة تطبيقات لنماذج الذكاء الاصطناعي، الكل في واجهة واحدة. فقط في CometAPI
واجهة برمجة التطبيقات للنماذج
مطور
البدء السريعالتوثيقلوحة تحكم API
الموارد
نماذج الذكاء الاصطناعيمدونةالمؤسسةالسجل التاريخي للتغييراتحول
2025 CometAPI. جميع الحقوق محفوظة.سياسة الخصوصيةشروط الخدمة
Home/Models/OpenAI/gpt-realtime-1.5
O

gpt-realtime-1.5

مدخل:$3.2/M
الإخراج:$12.8/M
سياق:32,000
الحد الأقصى للإخراج:4,096
أفضل نموذج صوتي لإدخال الصوت وإخراج الصوت.
جديد
الاستخدام التجاري
نظرة عامة
الميزات
التسعير
API

المواصفات التقنية لـ gpt-realtime-1.5

البندgpt-realtime-1.5 (التموضع العام)
عائلة النموذجGPT Realtime 1.5 (نسخة مُحسّنة للصوت)
الوسيط الأساسيتحويل الكلام إلى كلام (S2S)
أنواع الإدخالالصوت (بث)، النص
أنواع الإخراجالصوت (بث)、 النص، استدعاءات أدوات مُهيكلة
واجهة برمجة التطبيقات (API)واجهة زمن حقيقي (WebRTC / جلسات بث مستمرة)
ملف تعريف زمن الاستجابةمُحسّن لزمن استجابة منخفض وتفاعل محادثي حي
نموذج الجلسةجلسات بث مُحتفظة بالحالة
استخدام الأدواتيدعم استدعاء الدوال ودمج الأدوات
حالة الاستخدام المستهدفةوكلاء صوتيون حيّون، مساعدين، أنظمة تفاعلية

ملاحظة: لم تُوثّق حدود الرموز الدقيقة وأحجام نوافذ السياق بشكل بارز في الملخصات العامة؛ يتم تموضع النموذج للاستجابة الفورية في الزمن الحقيقي أكثر من دعم جلسات بسياق طويل للغاية.


ما هو gpt-realtime-1.5؟

gpt-realtime-1.5 هو نموذج منخفض الكمون مُحسّن لتحويل الكلام إلى كلام، صُمّم لأنظمة المحادثة الحيّة. وعلى خلاف نماذج الطلب-الاستجابة التقليدية، يعمل عبر جلسات بث مستمرة، مما يتيح تبادل الأدوار بشكل طبيعي، والتعامل مع المقاطعات، وتفاعلًا صوتيًا ديناميكيًا.

وقد بُني خصيصًا للتطبيقات التي تهمّ فيها سرعة تدفق المحادثة أكثر من الحد الأقصى لطول السياق.


الميزات الرئيسية

  1. تفاعل حقيقي كلام-إلى-كلام — يقبل إدخالًا صوتيًا حيًا ويبث استجابات منطوقة في الزمن الحقيقي.
  2. هيكلية منخفضة الكمون — مُصمَّمة لاستجابة محادثية دون الثانية في الوكلاء الصوتيين.
  3. تصميم قائم على البث أولًا — يعمل عبر جلسات مستمرة (WebRTC أو بروتوكولات البث).
  4. تبادل أدوار طبيعي — يدعم معالجة المقاطعات وتدفق محادثة ديناميكي.
  5. دعم استدعاء الأدوات — يمكنه تشغيل استدعاءات دوال مُهيكلة أثناء جلسة فورية.
  6. أساس لوكيل صوتي جاهز للإنتاج — مُصمم خصيصًا للمساعدين التفاعليين، والأكشاك، والأجهزة المضمّنة.

المعايير وموضع الأداء

تُموضع OpenAI النموذج gpt-realtime-1.5 كتطورٍ لنماذج الزمن الحقيقي السابقة مع تحسينات في اتباع الإرشادات، والاستقرار أثناء الجلسات الصوتية الممتدة، ونبرة أكثر طبيعية مقارنةً بالإصدارات السابقة.

وبخلاف النماذج الموجهة للبرمجة (مثل متغيرات Codex)، يُقاس الأداء أكثر بكمون المحادثة وطبيعية الصوت واستقرار الجلسة، لا بمقاييس لوائح التصنيف التقليدية.


gpt-realtime-1.5 مقارنةً بالنماذج ذات الصلة

الميزةgpt-realtime-1.5gpt-audio-1.5
الهدف الأساسيتفاعل صوتي حيتدفقات محادثة مدعومة بالصوت
الكمونمُحسّن لأدنى تأخيرتوازن بين الجودة/السرعة
نوع الجلسةجلسة بث مستمرةتدفق Chat Completions القياسي
حجم السياقمُحسّن للاستجابةدعم سياق أكبر
أفضل حالة استخداموكلاء صوتيون فوريونمساعدات محادثية مع دعم الصوت

متى تختار كل واحد

  • اختر gpt-realtime-1.5 لمراكز الاتصال، والأكشاك، واستقبالات مدعومة بالذكاء الاصطناعي، أو المساعدين المضمّنين الحيّين.
  • اختر gpt-audio-1.5 لتطبيقات الدردشة المُمكّنة صوتيًا التي تتطلب ذاكرة محادثة أطول أو تدفقات عمل متعددة الوسائط.

حالات استخدام تمثيلية

  • وكلاء مراكز الاتصال بالذكاء الاصطناعي
  • مساعدو الأجهزة الذكية
  • أكشاك تفاعلية
  • أنظمة تدريس حيّة
  • أدوات ممارسة اللغة في الزمن الحقيقي
  • تطبيقات مُتحكّم بها بالصوت
  • كيفية الوصول إلى واجهة برمجة تطبيقات GPT Realtime 1.5

الخطوة 1: التسجيل للحصول على مفتاح API

سجّل الدخول إلى cometapi.com. إذا لم تكن مستخدمًا لدينا بعد، يُرجى التسجيل أولًا. سجّل الدخول إلى CometAPI console. احصل على بيانات اعتماد الوصول لمفتاح واجهة API. انقر "Add Token" ضمن رمز API في المركز الشخصي، واحصل على مفتاح الرمز: sk-xxxxx ثم أرسِل.

cometapi-key

الخطوة 2: إرسال الطلبات إلى واجهة GPT Realtime 1.5 API

اختر نقطة النهاية "gpt-realtime-1.5" لإرسال طلب واجهة API واضبط جسم الطلب. تُستمد طريقة الطلب وجسم الطلب من توثيق واجهة API على موقعنا. يوفّر موقعنا أيضًا اختبار Apifox لراحتك. استبدل <YOUR_API_KEY> بمفتاح CometAPI الفعلي من حسابك. عنوان URL الأساسي هو Chat Completions

أدرج سؤالك أو طلبك في حقل content—هذا ما سيستجيب له النموذج. عالج استجابة واجهة API للحصول على الإجابة المُولّدة.

الخطوة 3: استرجاع النتائج والتحقق منها

قم بمعالجة استجابة API للحصول على الإجابة المُولّدة. بعد المعالجة، ستُعيد واجهة API حالة المهمة والبيانات الناتجة.

الأسئلة الشائعة

ما استخدام gpt-realtime-1.5 في Realtime API؟

تم تصميم gpt-realtime-1.5 لتفاعلات الكلام إلى الكلام منخفضة الكمون باستخدام جلسات بث مستمرة، مما يجعله مثاليًا لوكلاء الصوت المباشرين والمساعدين التفاعليين.

كيف يختلف gpt-realtime-1.5 عن واجهة gpt-audio-1.5 API؟

يركز gpt-realtime-1.5 على محادثات صوتية فورية عبر البث مع أقل تأخير ممكن، بينما تم تحسين gpt-audio-1.5 لسير عمل الدردشة الممكّنة بالصوت ذات السياق الأكبر.

هل تدعم واجهة gpt-realtime-1.5 API استدعاء الوظائف أثناء الجلسات المباشرة؟

نعم، يدعم gpt-realtime-1.5 استدعاءات الأدوات المنظمة ضمن جلسة فورية نشطة، مما يتيح التكامل مع الأنظمة الخارجية.

هل gpt-realtime-1.5 مناسب لروبوتات الصوت الخاصة بدعم العملاء؟

نعم، فهو مُحسَّن خصيصًا للأنظمة الحوارية التفاعلية منخفضة الكمون مثل وكلاء مراكز الاتصال وموظفي الاستقبال الافتراضيين.

هل يمكن لـ gpt-realtime-1.5 التعامل مع المقاطعات أثناء المحادثة؟

نعم، تم تصميم النموذج لتبادل الأدوار بشكل طبيعي ويمكنه إدارة المقاطعات ضمن جلسة صوتية متدفقة.

هل يعطي gpt-realtime-1.5 الأولوية للكمون أم لذاكرة السياق الطويلة؟

يعطي gpt-realtime-1.5 الأولوية لاستجابة المحادثة والكمون المنخفض بدلًا من نوافذ سياق كبيرة للغاية.

ما البنية التحتية المطلوبة لدمج واجهة gpt-realtime-1.5 API؟

يستخدم المطورون عادةً WebRTC أو اتصالات قائمة على البث للحفاظ على جلسات صوتية مستمرة عند دمج واجهة gpt-realtime-1.5 API.

الميزات لـ gpt-realtime-1.5

استكشف الميزات الرئيسية لـ gpt-realtime-1.5، المصممة لتعزيز الأداء وسهولة الاستخدام. اكتشف كيف يمكن لهذه القدرات أن تفيد مشاريعك وتحسن تجربة المستخدم.

التسعير لـ gpt-realtime-1.5

استكشف الأسعار التنافسية لـ gpt-realtime-1.5، المصمم ليناسب الميزانيات المختلفة واحتياجات الاستخدام المتنوعة. تضمن خططنا المرنة أن تدفع فقط مقابل ما تستخدمه، مما يجعل من السهل التوسع مع نمو متطلباتك. اكتشف كيف يمكن لـ gpt-realtime-1.5 تحسين مشاريعك مع الحفاظ على التكاليف قابلة للإدارة.
سعر كوميت (USD / M Tokens)السعر الرسمي (USD / M Tokens)خصم
مدخل:$3.2/M
الإخراج:$12.8/M
مدخل:$4/M
الإخراج:$16/M
-20%

نموذج الكود وواجهة برمجة التطبيقات لـ gpt-realtime-1.5

احصل على أكواد نماذجية شاملة وموارد API لـ gpt-realtime-1.5 لتبسيط عملية التكامل الخاصة بك. توفر وثائقنا التفصيلية إرشادات خطوة بخطوة، مما يساعدك على الاستفادة من الإمكانات الكاملة لـ gpt-realtime-1.5 في مشاريعك.

المزيد من النماذج

O

gpt-audio-1.5

مدخل:$2/M
الإخراج:$8/M
أفضل نموذج صوتي لإدخال وإخراج الصوت مع Chat Completions.
O

Whisper-1

مدخل:$24/M
الإخراج:$24/M
تحويل الكلام إلى نص، وإنشاء ترجمات
O

TTS

مدخل:$12/M
الإخراج:$12/M
تحويل النص إلى كلام من OpenAI
K

Kling TTS

لكل طلب:$0.006608
[تركيب الكلام] أُطلقت حديثًا: تحويل النص إلى صوت بمستوى البث عبر الإنترنت، مع ميزة المعاينة ● يمكن في الوقت نفسه توليد audio_id، لاستخدامه مع أي Keling API.
K

Kling video-to-audio

K

Kling video-to-audio

لكل طلب:$0.03304
Kling تحويل الفيديو إلى صوت
K

Kling text-to-audio

K

Kling text-to-audio

لكل طلب:$0.03304
Kling تحويل النص إلى صوت