O

gpt-realtime-1.5

مدخل:$3.2/M
الإخراج:$12.8/M
سياق:32,000
الحد الأقصى للإخراج:4,096
أفضل نموذج صوتي لإدخال الصوت وإخراج الصوت.
جديد
الاستخدام التجاري

المواصفات التقنية لـ gpt-realtime-1.5

البندgpt-realtime-1.5 (التموضع العام)
عائلة النموذجGPT Realtime 1.5 (نسخة مُحسّنة للصوت)
الوسيط الأساسيتحويل الكلام إلى كلام (S2S)
أنواع الإدخالالصوت (بث)، النص
أنواع الإخراجالصوت (بث)、 النص، استدعاءات أدوات مُهيكلة
واجهة برمجة التطبيقات (API)واجهة زمن حقيقي (WebRTC / جلسات بث مستمرة)
ملف تعريف زمن الاستجابةمُحسّن لزمن استجابة منخفض وتفاعل محادثي حي
نموذج الجلسةجلسات بث مُحتفظة بالحالة
استخدام الأدواتيدعم استدعاء الدوال ودمج الأدوات
حالة الاستخدام المستهدفةوكلاء صوتيون حيّون، مساعدين، أنظمة تفاعلية

ملاحظة: لم تُوثّق حدود الرموز الدقيقة وأحجام نوافذ السياق بشكل بارز في الملخصات العامة؛ يتم تموضع النموذج للاستجابة الفورية في الزمن الحقيقي أكثر من دعم جلسات بسياق طويل للغاية.


ما هو gpt-realtime-1.5؟

gpt-realtime-1.5 هو نموذج منخفض الكمون مُحسّن لتحويل الكلام إلى كلام، صُمّم لأنظمة المحادثة الحيّة. وعلى خلاف نماذج الطلب-الاستجابة التقليدية، يعمل عبر جلسات بث مستمرة، مما يتيح تبادل الأدوار بشكل طبيعي، والتعامل مع المقاطعات، وتفاعلًا صوتيًا ديناميكيًا.

وقد بُني خصيصًا للتطبيقات التي تهمّ فيها سرعة تدفق المحادثة أكثر من الحد الأقصى لطول السياق.


الميزات الرئيسية

  1. تفاعل حقيقي كلام-إلى-كلام — يقبل إدخالًا صوتيًا حيًا ويبث استجابات منطوقة في الزمن الحقيقي.
  2. هيكلية منخفضة الكمون — مُصمَّمة لاستجابة محادثية دون الثانية في الوكلاء الصوتيين.
  3. تصميم قائم على البث أولًا — يعمل عبر جلسات مستمرة (WebRTC أو بروتوكولات البث).
  4. تبادل أدوار طبيعي — يدعم معالجة المقاطعات وتدفق محادثة ديناميكي.
  5. دعم استدعاء الأدوات — يمكنه تشغيل استدعاءات دوال مُهيكلة أثناء جلسة فورية.
  6. أساس لوكيل صوتي جاهز للإنتاج — مُصمم خصيصًا للمساعدين التفاعليين، والأكشاك، والأجهزة المضمّنة.

المعايير وموضع الأداء

تُموضع OpenAI النموذج gpt-realtime-1.5 كتطورٍ لنماذج الزمن الحقيقي السابقة مع تحسينات في اتباع الإرشادات، والاستقرار أثناء الجلسات الصوتية الممتدة، ونبرة أكثر طبيعية مقارنةً بالإصدارات السابقة.

وبخلاف النماذج الموجهة للبرمجة (مثل متغيرات Codex)، يُقاس الأداء أكثر بكمون المحادثة وطبيعية الصوت واستقرار الجلسة، لا بمقاييس لوائح التصنيف التقليدية.


gpt-realtime-1.5 مقارنةً بالنماذج ذات الصلة

الميزةgpt-realtime-1.5gpt-audio-1.5
الهدف الأساسيتفاعل صوتي حيتدفقات محادثة مدعومة بالصوت
الكمونمُحسّن لأدنى تأخيرتوازن بين الجودة/السرعة
نوع الجلسةجلسة بث مستمرةتدفق Chat Completions القياسي
حجم السياقمُحسّن للاستجابةدعم سياق أكبر
أفضل حالة استخداموكلاء صوتيون فوريونمساعدات محادثية مع دعم الصوت

متى تختار كل واحد

  • اختر gpt-realtime-1.5 لمراكز الاتصال، والأكشاك، واستقبالات مدعومة بالذكاء الاصطناعي، أو المساعدين المضمّنين الحيّين.
  • اختر gpt-audio-1.5 لتطبيقات الدردشة المُمكّنة صوتيًا التي تتطلب ذاكرة محادثة أطول أو تدفقات عمل متعددة الوسائط.

حالات استخدام تمثيلية

  • وكلاء مراكز الاتصال بالذكاء الاصطناعي
  • مساعدو الأجهزة الذكية
  • أكشاك تفاعلية
  • أنظمة تدريس حيّة
  • أدوات ممارسة اللغة في الزمن الحقيقي
  • تطبيقات مُتحكّم بها بالصوت
  • كيفية الوصول إلى واجهة برمجة تطبيقات GPT Realtime 1.5

الخطوة 1: التسجيل للحصول على مفتاح API

سجّل الدخول إلى cometapi.com. إذا لم تكن مستخدمًا لدينا بعد، يُرجى التسجيل أولًا. سجّل الدخول إلى CometAPI console. احصل على بيانات اعتماد الوصول لمفتاح واجهة API. انقر "Add Token" ضمن رمز API في المركز الشخصي، واحصل على مفتاح الرمز: sk-xxxxx ثم أرسِل.

cometapi-key

الخطوة 2: إرسال الطلبات إلى واجهة GPT Realtime 1.5 API

اختر نقطة النهاية "gpt-realtime-1.5" لإرسال طلب واجهة API واضبط جسم الطلب. تُستمد طريقة الطلب وجسم الطلب من توثيق واجهة API على موقعنا. يوفّر موقعنا أيضًا اختبار Apifox لراحتك. استبدل <YOUR_API_KEY> بمفتاح CometAPI الفعلي من حسابك. عنوان URL الأساسي هو Chat Completions

أدرج سؤالك أو طلبك في حقل content—هذا ما سيستجيب له النموذج. عالج استجابة واجهة API للحصول على الإجابة المُولّدة.

الخطوة 3: استرجاع النتائج والتحقق منها

قم بمعالجة استجابة API للحصول على الإجابة المُولّدة. بعد المعالجة، ستُعيد واجهة API حالة المهمة والبيانات الناتجة.

الأسئلة الشائعة