المواصفات التقنية لـ gpt-realtime-1.5
| البند | gpt-realtime-1.5 (التموضع العام) |
|---|---|
| عائلة النموذج | GPT Realtime 1.5 (إصدار مُحسَّن للصوت) |
| النمط الأساسي | تحويل الكلام إلى كلام (S2S) |
| أنواع الإدخال | صوت (متدفق)، نص |
| أنواع الإخراج | صوت (متدفق)، نص، استدعاءات أدوات مُهيكلة |
| API | Realtime API (WebRTC / جلسات بث مستمرة) |
| ملف تعريف الكمون | مُحسَّن لزمن استجابة منخفض وتفاعل محادثي حي |
| نموذج الجلسة | جلسات بث حافظة للحالة |
| استخدام الأدوات | يدعم استدعاء الدوال ودمج الأدوات |
| حالة الاستخدام المستهدفة | وكلاء صوتيون مباشرون، مساعدون، أنظمة تفاعلية |
ملاحظة: حدود الرموز الدقيقة وأحجام نوافذ السياق ليست موثّقة بوضوح في الملخصات العامة؛ النموذج مُوجَّه للاستجابة في الزمن الحقيقي أكثر من دعمه لجلسات بسياق طويل جدًا.
ما هو gpt-realtime-1.5؟
gpt-realtime-1.5 نموذج مُحسَّن لزمن استجابة منخفض وموجّه لتطبيقات المحادثة الحية، مُحسَّن لتحويل الكلام إلى كلام. بخلاف نماذج الطلب-الاستجابة التقليدية، يعمل عبر جلسات بث مستمرة، ما يتيح تداول أدوار طبيعيًا، والتعامل مع المقاطعات، وتفاعلًا صوتيًا ديناميكيًا.
تم تصميمه خصيصًا للتطبيقات التي تكون فيها سرعة تدفق المحادثة أهم من أقصى طول للسياق.
الميزات الرئيسية
- تفاعل كلام-إلى-كلام حقيقي — يقبل إدخالًا صوتيًا مباشرًا ويبث استجابات منطوقة في الزمن الحقيقي.
- معمارية منخفضة الكمون — مصمّمة لاستجابة محادثية دون الثانية لدى الوكلاء الصوتيين.
- تصميم قائم على البث أولًا — يعمل عبر جلسات مستمرة (WebRTC أو بروتوكولات البث).
- تداول أدوار طبيعي — يدعم التعامل مع المقاطعات وتدفق محادثة ديناميكي.
- دعم استدعاء الأدوات — يمكنه تشغيل استدعاءات دوال مُهيكلة أثناء جلسة في الزمن الحقيقي.
- أساس وكيل صوتي جاهز للإنتاج — مبني خصيصًا للمساعدين التفاعليين والأكشاك والأجهزة المدمجة.
المقارنة المعيارية وتموضع الأداء
تضع OpenAI نموذج gpt-realtime-1.5 كتطور للنماذج الآنية السابقة مع تحسين اتباع التعليمات، وزيادة الاستقرار خلال الجلسات الصوتية الممتدة، وإلقاء أكثر طبيعية مقارنة بالإصدارات السابقة.
وبخلاف النماذج المتمحورة حول البرمجة (مثل إصدارات Codex)، يُقاس الأداء هنا أكثر عبر الكمون المحادثي، وطبيعية الصوت، واستقرار الجلسة بدلًا من معايير على نمط لوحات الصدارة.
gpt-realtime-1.5 مقابل النماذج ذات الصلة
| الميزة | gpt-realtime-1.5 | gpt-audio-1.5 |
|---|---|---|
| الهدف الأساسي | تفاعل صوتي حي | سير عمل دردشة مدعوم بالصوت |
| الكمون | مُحسَّن لأدنى تأخير | توازن بين الجودة/السرعة |
| نوع الجلسة | جلسة بث مستمرة | تدفق Chat Completions القياسي |
| حجم السياق | مُحسَّن للاستجابة | دعم سياق أكبر |
| أفضل حالة استخدام | وكلاء صوتيون في الزمن الحقيقي | مساعدين محادثيين مع صوت |
متى تختار كل منهما
- اختر gpt-realtime-1.5 لمراكز الاتصال، والأكشاك، واستقبال الذكاء الاصطناعي، أو المساعدين المدمجين المباشرين.
- اختر gpt-audio-1.5 لتطبيقات الدردشة المُمكّنة صوتيًا التي تتطلب ذاكرة محادثة أطول أو سير عمل متعددة الوسائط.
حالات استخدام تمثيلية
- وكلاء مراكز اتصال بالذكاء الاصطناعي
- مساعدين لأجهزة ذكية
- أكشاك تفاعلية
- أنظمة تعليم مباشر
- أدوات ممارسة اللغة في الزمن الحقيقي
- تطبيقات مُتحكَّم بها صوتيًا
- كيفية الوصول إلى GPT Realtime 1.5 API
الخطوة 1: الاشتراك للحصول على مفتاح API
سجّل الدخول إلى cometapi.com. إن لم تكن مستخدمًا لدينا بعد، يُرجى التسجيل أولًا. سجّل الدخول إلى CometAPI console. احصل على بيانات اعتماد الوصول لمفتاح API للواجهة. انقر "Add Token" عند رمز API في المركز الشخصي، واحصل على مفتاح الرمز: sk-xxxxx ثم أرسِل.

الخطوة 2: إرسال الطلبات إلى GPT Realtime 1.5 API
اختر نقطة النهاية "gpt-realtime-1.5" لإرسال طلب API وعيّن جسم الطلب. تُؤخذ طريقة الطلب وجسم الطلب من وثائق واجهة برمجة التطبيقات على موقعنا. يوفّر موقعنا أيضًا اختبار Apifox لراحتك. استبدل <YOUR_API_KEY> بمفتاح CometAPI الفعلي من حسابك. عنوان URL الأساسي هو Chat Completions
أدرج سؤالك أو طلبك في حقل content — فهذا ما سيستجيب له النموذج. عالج استجابة API للحصول على الإجابة المُولَّدة.
الخطوة 3: الاسترجاع والتحقق من النتائج
عالج استجابة API للحصول على الإجابة المُولَّدة. بعد المعالجة، ستعيد الواجهة حالة المهمة وبيانات المخرجات.