O

gpt-realtime-1.5

مدخل:$3.2/M
الإخراج:$12.8/M
سياق:32,000
الحد الأقصى للإخراج:4,096
أفضل نموذج صوتي لإدخال الصوت وإخراج الصوت.
جديد
الاستخدام التجاري

المواصفات التقنية لـ gpt-realtime-1.5

البندgpt-realtime-1.5 (التموضع العام)
عائلة النموذجGPT Realtime 1.5 (إصدار مُحسَّن للصوت)
النمط الأساسيتحويل الكلام إلى كلام (S2S)
أنواع الإدخالصوت (متدفق)، نص
أنواع الإخراجصوت (متدفق)، نص، استدعاءات أدوات مُهيكلة
APIRealtime API (WebRTC / جلسات بث مستمرة)
ملف تعريف الكمونمُحسَّن لزمن استجابة منخفض وتفاعل محادثي حي
نموذج الجلسةجلسات بث حافظة للحالة
استخدام الأدواتيدعم استدعاء الدوال ودمج الأدوات
حالة الاستخدام المستهدفةوكلاء صوتيون مباشرون، مساعدون، أنظمة تفاعلية

ملاحظة: حدود الرموز الدقيقة وأحجام نوافذ السياق ليست موثّقة بوضوح في الملخصات العامة؛ النموذج مُوجَّه للاستجابة في الزمن الحقيقي أكثر من دعمه لجلسات بسياق طويل جدًا.


ما هو gpt-realtime-1.5؟

gpt-realtime-1.5 نموذج مُحسَّن لزمن استجابة منخفض وموجّه لتطبيقات المحادثة الحية، مُحسَّن لتحويل الكلام إلى كلام. بخلاف نماذج الطلب-الاستجابة التقليدية، يعمل عبر جلسات بث مستمرة، ما يتيح تداول أدوار طبيعيًا، والتعامل مع المقاطعات، وتفاعلًا صوتيًا ديناميكيًا.

تم تصميمه خصيصًا للتطبيقات التي تكون فيها سرعة تدفق المحادثة أهم من أقصى طول للسياق.


الميزات الرئيسية

  1. تفاعل كلام-إلى-كلام حقيقي — يقبل إدخالًا صوتيًا مباشرًا ويبث استجابات منطوقة في الزمن الحقيقي.
  2. معمارية منخفضة الكمون — مصمّمة لاستجابة محادثية دون الثانية لدى الوكلاء الصوتيين.
  3. تصميم قائم على البث أولًا — يعمل عبر جلسات مستمرة (WebRTC أو بروتوكولات البث).
  4. تداول أدوار طبيعي — يدعم التعامل مع المقاطعات وتدفق محادثة ديناميكي.
  5. دعم استدعاء الأدوات — يمكنه تشغيل استدعاءات دوال مُهيكلة أثناء جلسة في الزمن الحقيقي.
  6. أساس وكيل صوتي جاهز للإنتاج — مبني خصيصًا للمساعدين التفاعليين والأكشاك والأجهزة المدمجة.

المقارنة المعيارية وتموضع الأداء

تضع OpenAI نموذج gpt-realtime-1.5 كتطور للنماذج الآنية السابقة مع تحسين اتباع التعليمات، وزيادة الاستقرار خلال الجلسات الصوتية الممتدة، وإلقاء أكثر طبيعية مقارنة بالإصدارات السابقة.

وبخلاف النماذج المتمحورة حول البرمجة (مثل إصدارات Codex)، يُقاس الأداء هنا أكثر عبر الكمون المحادثي، وطبيعية الصوت، واستقرار الجلسة بدلًا من معايير على نمط لوحات الصدارة.


gpt-realtime-1.5 مقابل النماذج ذات الصلة

الميزةgpt-realtime-1.5gpt-audio-1.5
الهدف الأساسيتفاعل صوتي حيسير عمل دردشة مدعوم بالصوت
الكمونمُحسَّن لأدنى تأخيرتوازن بين الجودة/السرعة
نوع الجلسةجلسة بث مستمرةتدفق Chat Completions القياسي
حجم السياقمُحسَّن للاستجابةدعم سياق أكبر
أفضل حالة استخداموكلاء صوتيون في الزمن الحقيقيمساعدين محادثيين مع صوت

متى تختار كل منهما

  • اختر gpt-realtime-1.5 لمراكز الاتصال، والأكشاك، واستقبال الذكاء الاصطناعي، أو المساعدين المدمجين المباشرين.
  • اختر gpt-audio-1.5 لتطبيقات الدردشة المُمكّنة صوتيًا التي تتطلب ذاكرة محادثة أطول أو سير عمل متعددة الوسائط.

حالات استخدام تمثيلية

  • وكلاء مراكز اتصال بالذكاء الاصطناعي
  • مساعدين لأجهزة ذكية
  • أكشاك تفاعلية
  • أنظمة تعليم مباشر
  • أدوات ممارسة اللغة في الزمن الحقيقي
  • تطبيقات مُتحكَّم بها صوتيًا
  • كيفية الوصول إلى GPT Realtime 1.5 API

الخطوة 1: الاشتراك للحصول على مفتاح API

سجّل الدخول إلى cometapi.com. إن لم تكن مستخدمًا لدينا بعد، يُرجى التسجيل أولًا. سجّل الدخول إلى CometAPI console. احصل على بيانات اعتماد الوصول لمفتاح API للواجهة. انقر "Add Token" عند رمز API في المركز الشخصي، واحصل على مفتاح الرمز: sk-xxxxx ثم أرسِل.

cometapi-key

الخطوة 2: إرسال الطلبات إلى GPT Realtime 1.5 API

اختر نقطة النهاية "gpt-realtime-1.5" لإرسال طلب API وعيّن جسم الطلب. تُؤخذ طريقة الطلب وجسم الطلب من وثائق واجهة برمجة التطبيقات على موقعنا. يوفّر موقعنا أيضًا اختبار Apifox لراحتك. استبدل <YOUR_API_KEY> بمفتاح CometAPI الفعلي من حسابك. عنوان URL الأساسي هو Chat Completions

أدرج سؤالك أو طلبك في حقل content — فهذا ما سيستجيب له النموذج. عالج استجابة API للحصول على الإجابة المُولَّدة.

الخطوة 3: الاسترجاع والتحقق من النتائج

عالج استجابة API للحصول على الإجابة المُولَّدة. بعد المعالجة، ستعيد الواجهة حالة المهمة وبيانات المخرجات.

الأسئلة الشائعة

المزيد من النماذج