المواصفات التقنية لـ gpt-realtime-1.5
| البند | gpt-realtime-1.5 (التموضع العام) |
|---|---|
| عائلة النموذج | GPT Realtime 1.5 (نسخة مُحسّنة للصوت) |
| الوسيط الأساسي | تحويل الكلام إلى كلام (S2S) |
| أنواع الإدخال | الصوت (بث)، النص |
| أنواع الإخراج | الصوت (بث)、 النص، استدعاءات أدوات مُهيكلة |
| واجهة برمجة التطبيقات (API) | واجهة زمن حقيقي (WebRTC / جلسات بث مستمرة) |
| ملف تعريف زمن الاستجابة | مُحسّن لزمن استجابة منخفض وتفاعل محادثي حي |
| نموذج الجلسة | جلسات بث مُحتفظة بالحالة |
| استخدام الأدوات | يدعم استدعاء الدوال ودمج الأدوات |
| حالة الاستخدام المستهدفة | وكلاء صوتيون حيّون، مساعدين، أنظمة تفاعلية |
ملاحظة: لم تُوثّق حدود الرموز الدقيقة وأحجام نوافذ السياق بشكل بارز في الملخصات العامة؛ يتم تموضع النموذج للاستجابة الفورية في الزمن الحقيقي أكثر من دعم جلسات بسياق طويل للغاية.
ما هو gpt-realtime-1.5؟
gpt-realtime-1.5 هو نموذج منخفض الكمون مُحسّن لتحويل الكلام إلى كلام، صُمّم لأنظمة المحادثة الحيّة. وعلى خلاف نماذج الطلب-الاستجابة التقليدية، يعمل عبر جلسات بث مستمرة، مما يتيح تبادل الأدوار بشكل طبيعي، والتعامل مع المقاطعات، وتفاعلًا صوتيًا ديناميكيًا.
وقد بُني خصيصًا للتطبيقات التي تهمّ فيها سرعة تدفق المحادثة أكثر من الحد الأقصى لطول السياق.
الميزات الرئيسية
- تفاعل حقيقي كلام-إلى-كلام — يقبل إدخالًا صوتيًا حيًا ويبث استجابات منطوقة في الزمن الحقيقي.
- هيكلية منخفضة الكمون — مُصمَّمة لاستجابة محادثية دون الثانية في الوكلاء الصوتيين.
- تصميم قائم على البث أولًا — يعمل عبر جلسات مستمرة (WebRTC أو بروتوكولات البث).
- تبادل أدوار طبيعي — يدعم معالجة المقاطعات وتدفق محادثة ديناميكي.
- دعم استدعاء الأدوات — يمكنه تشغيل استدعاءات دوال مُهيكلة أثناء جلسة فورية.
- أساس لوكيل صوتي جاهز للإنتاج — مُصمم خصيصًا للمساعدين التفاعليين، والأكشاك، والأجهزة المضمّنة.
المعايير وموضع الأداء
تُموضع OpenAI النموذج gpt-realtime-1.5 كتطورٍ لنماذج الزمن الحقيقي السابقة مع تحسينات في اتباع الإرشادات، والاستقرار أثناء الجلسات الصوتية الممتدة، ونبرة أكثر طبيعية مقارنةً بالإصدارات السابقة.
وبخلاف النماذج الموجهة للبرمجة (مثل متغيرات Codex)، يُقاس الأداء أكثر بكمون المحادثة وطبيعية الصوت واستقرار الجلسة، لا بمقاييس لوائح التصنيف التقليدية.
gpt-realtime-1.5 مقارنةً بالنماذج ذات الصلة
| الميزة | gpt-realtime-1.5 | gpt-audio-1.5 |
|---|---|---|
| الهدف الأساسي | تفاعل صوتي حي | تدفقات محادثة مدعومة بالصوت |
| الكمون | مُحسّن لأدنى تأخير | توازن بين الجودة/السرعة |
| نوع الجلسة | جلسة بث مستمرة | تدفق Chat Completions القياسي |
| حجم السياق | مُحسّن للاستجابة | دعم سياق أكبر |
| أفضل حالة استخدام | وكلاء صوتيون فوريون | مساعدات محادثية مع دعم الصوت |
متى تختار كل واحد
- اختر gpt-realtime-1.5 لمراكز الاتصال، والأكشاك، واستقبالات مدعومة بالذكاء الاصطناعي، أو المساعدين المضمّنين الحيّين.
- اختر gpt-audio-1.5 لتطبيقات الدردشة المُمكّنة صوتيًا التي تتطلب ذاكرة محادثة أطول أو تدفقات عمل متعددة الوسائط.
حالات استخدام تمثيلية
- وكلاء مراكز الاتصال بالذكاء الاصطناعي
- مساعدو الأجهزة الذكية
- أكشاك تفاعلية
- أنظمة تدريس حيّة
- أدوات ممارسة اللغة في الزمن الحقيقي
- تطبيقات مُتحكّم بها بالصوت
- كيفية الوصول إلى واجهة برمجة تطبيقات GPT Realtime 1.5
الخطوة 1: التسجيل للحصول على مفتاح API
سجّل الدخول إلى cometapi.com. إذا لم تكن مستخدمًا لدينا بعد، يُرجى التسجيل أولًا. سجّل الدخول إلى CometAPI console. احصل على بيانات اعتماد الوصول لمفتاح واجهة API. انقر "Add Token" ضمن رمز API في المركز الشخصي، واحصل على مفتاح الرمز: sk-xxxxx ثم أرسِل.

الخطوة 2: إرسال الطلبات إلى واجهة GPT Realtime 1.5 API
اختر نقطة النهاية "gpt-realtime-1.5" لإرسال طلب واجهة API واضبط جسم الطلب. تُستمد طريقة الطلب وجسم الطلب من توثيق واجهة API على موقعنا. يوفّر موقعنا أيضًا اختبار Apifox لراحتك. استبدل <YOUR_API_KEY> بمفتاح CometAPI الفعلي من حسابك. عنوان URL الأساسي هو Chat Completions
أدرج سؤالك أو طلبك في حقل content—هذا ما سيستجيب له النموذج. عالج استجابة واجهة API للحصول على الإجابة المُولّدة.
الخطوة 3: استرجاع النتائج والتحقق منها
قم بمعالجة استجابة API للحصول على الإجابة المُولّدة. بعد المعالجة، ستُعيد واجهة API حالة المهمة والبيانات الناتجة.